et la statistique
Jean Brard
2
Avertissement
Ces notes sont en cours dlaboration. Il se peut donc quy subsistent un certain
nombre derreurs, dincohrences, et/ou de passages inachevs.
Table des matires
Introduction 7
1 Le modle probabiliste 13
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Le point de vue formel . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Mais que reprsente exactement ce formalisme ? . . . . . . . . . . . . 16
1.3.1 Espace des possibles et choix du niveau de description . . . . 16
1.3.2 Sens concret sens formel . . . . . . . . . . . . . . . . . . . . 19
1.3.3 Signification concrte de la probabilit . . . . . . . . . . . . . 23
1.4 Probabilit et vnements . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4.1 Probabilit dun vnement . . . . . . . . . . . . . . . . . . . 30
1.4.2 Probabilit et oprations sur les vnements . . . . . . . . . . 32
1.4.3 Quelques exemples de modles probabilistes . . . . . . . . . . 35
1.5 Probabilits conditionnelles . . . . . . . . . . . . . . . . . . . . . . . 40
1.5.1 Notions de dpendance et dindpendance entre vnements . 46
1.5.2 Effet de loupe et biais de slection . . . . . . . . . . . . . . . 54
1.5.3 Reprsentation en arbre des modles probabilistes . . . . . . . 60
1.6 Construire un modle appropri . . . . . . . . . . . . . . . . . . . . . 70
1.6.1 Quelques pistes . . . . . . . . . . . . . . . . . . . . . . . . . . 70
1.6.2 Compatibilit de deux modles . . . . . . . . . . . . . . . . . 72
1.6.3 De limportance de dcrire explicitement le modle . . . . . . 73
1.7 Un exemple fondamental : la succession dpreuves indpendantes . . 74
1.7.1 Une histoire de singe . . . . . . . . . . . . . . . . . . . . . . . 83
1.7.2 Tout rsultat est exceptionnel ! . . . . . . . . . . . . . . . . . 86
1.7.3 Succession indpendante ? . . . . . . . . . . . . . . . . . . . . 87
1.8 Concidences troublantes . . . . . . . . . . . . . . . . . . . . . . . . . 89
1.8.1 Cest vraiment incroyable ! . . . . . . . . . . . . . . . . . . . . 89
1.8.2 Ce que lon observe est presque toujours improbable . . . . . 90
1.8.3 Des cocidences surprenantes doivent se produire . . . . . . . 90
1.8.4 Attention linterprtation . . . . . . . . . . . . . . . . . . . 91
4
5 Bibliographie 439
5.1 Ouvrages recommands pour travailler ce cours. . . . . . . . . . . . . 439
5.2 Ouvrages et articles de rfrence. . . . . . . . . . . . . . . . . . . . . 440
Introduction
Un point de vocabulaire
Bien que les frontires dlimitant les deux domaines ne puissent pas toujours tre
trs prcisment traces, on distingue en gnral la thorie des probabilits et la
statistique, en disant que la premire a pour objet principal de dfinir des modles
mathmatiques du hasard et de lincertitude, et dtudier leurs proprits, tandis
que la seconde a notamment pour but de confronter ces modles mathmatiques
la ralit, en particulier lexprience et aux donnes observes, afin de choisir,
dajuster et de valider les modles, et de les exploiter pour effectuer des prvisions,
tester des hypothses, prendre des dcisions.
Objectifs du cours
Tous les exemples cits ci-dessus sont dun niveau assez (voire trs) lev, et se
rattachent des domaines scientifiques spcialiss quil est bien entendu impossible
daborder ou mme de rsumer dans un cours de base comme celui-ci. Lobjectif
principal de ce cours, qui requiert idalement une premire familiarisation, un
niveau intuitif avec les notions probabilistes, est de vous fournir des bases solides
et correctement formalises en probabilits. Il sagira essentiellement dassimiler les
principaux outils conceptuels permettant daborder la modlisation mathmatique
de lincertitude, du hasard et de la variabilit, ainsi quun certain nombre de tech-
niques qui sy rapportent. Aprs ce cours, vous devriez tre en mesure de comprendre
comment sarticulent les diffrents aspects (formalisation, intgration des donnes,
rsolution mathmatique et/ou simulation, validation, exploitation, apprciation des
limites de validit) de la modlisation de situations simples. Quelques objectifs plus
spcifiques :
dpasser le stade des raisonnements approximatifs et parfois douteux auxquels
les tudiants sont bien souvent habitus quand il sagit de probabilits ;
aller au-del des conclusions parfois insuffisantes ou mme incohrentes que le
simple bon sens permet de tirer ;
tre laise vis--vis de lutilisation des probabilits dans des domaines plus
spcialiss, lorsque vous les rencontrerez.
Fournir des bases, notamment destines permettre un approfondissement et
une spcialisation ultrieurs nexclut pas, bien entendu, de prsenter des exemples
simples illustrant les applications potentielles dans quelques-uns des domaines plus
avancs voqus prcdemment. Dautre part, possder une connaissance correcte
Introduction 9
des notions abordes dans ce cours prsente galement un intrt du point de vue
de la la formation des citoyens, lheure o les arguments fonds sur des modles
et des statistiques de toute nature (conomique, sociale, mdicale, environnemen-
tale,...) sont au cur des dbats, bien que trop peu dindividus possdent un bagage
conceptuel suffisant pour soumettre ces arguments une analyse critique informe
et raisonne.
Le niveau mathmatique assez modeste dont nous nous contenterons ne doit pas
masquer la vritable difficult celle sur laquelle leffort doit porter principalement
que reprsente la comprhension en profondeur des notions abordes. Ce cours est
entre autres un cours de mathmatiques, o simposent donc des normes leves de
prcision et de rigueur, mais les objets mathmatiques qui y sont manipuls sont
destins modliser certains aspects de la ralit. Ainsi, toutes les notions abordes
prsentent un double aspect, formel et concret, ce qui rend leur matrise difficile
acqurir.
De nombreux exemples serviront illustrer le propos, mais il est indispensable
de dpasser le stade de la simple comprhension des exemples pour pouvoir utiliser
efficacement les notions abordes dans des situations nouvelles.
Les cours de probabilits auxquels vous avez pu tre confronts font souvent la part
belle aux exemples issus des jeux de hasard, tirages de carte, roulette, loteries et
autres jeux de pile ou face. Quoique ltude des jeux de hasard ait t lune des
motivations initiales du dveloppement de la thorie des probabilits (principale-
ment partir du dix-septime sicle), il ne sagit plus gure aujourdhui que dun
domaine dapplication anecdotique. Les exemples qui sont prsents dans ce cadre ne
prsentent que peu dintrt en tant quapplications relles, mais ils permettent faci-
lement dillustrer des notions ayant une porte beaucoup plus vaste, et peuvent donc
servir de reprsentations conceptuelles simples des situations relles complexes.
Cest dans cet tat desprit quil est souhaitable daborder ltude de ces exemples,
ainsi que des exercices dans lesquelles des hypothses trs simplificatrices sont poses.
Ces notes sont en principe destines tre lues au moins une fois dans leur plus
grande partie ; elles servent de rfrence vis--vis du cours magistral, et apportent de
nombreux dtails et approfondissements par rapport ce qui est prsent lors des
sances de cours. la fin de chaque chapitre, avant les exercices, se trouvent des
questions dauto-valuation auxquelles vous devez imprativement savoir rpondre,
car elles portent sur les notions fondamentales du cours. Si la rponse lune de ces
questions vous chappe, il est indispensable de relire et de retravailler le chapitre
correspondant.
Quant aux nombreux exercices, dont la difficult est trs variable, il est indispen-
sable, pour en tirer profit, den chercher dabord la solution de manire autonome.
Une partie importante dentre eux est destine tre traite lors des sances de tra-
vaux dirigs. Des commentaires sur les exercices sont galement proposs. Rappelons
toutes fins utiles que la solution dun exercice doit tre relue en grand dtail de
faon vous assurer que vous en maitrisez toutes les tapes, et que vous en avez as-
simil les ides globales. Seul ce travail de fond pourra vous assurer tant lacquisition
durable de connaissances et de mthodes que le succs lexamen !
Il est important de ne pas vous laisser abuser par le cadre, parfois artificiel ou
trivial en apparence, dans lequel certains exercices sont proposs ; il sagit le plus
souvent dillustrer une question rellement importante, tout en essayant de ne pas
vous noyer sous la complexit quappelle invitablement la modlisation de situations
plus ralistes.
Par ailleurs, un certain nombre de questions poses ont un caractre ouvert :
on ne vous demande pas simplement de prouver tel ou tel rsultat, mais de donner
un sens prcis une question formule de manire un peu vague, et de tenter dy
rpondre laide dun modle que vous aurez vous-mme labor et justifi. Le but
de ces questions nest pas de vous dcontenancer (encore que...) : tout en restant
dans un cadre assez simple, elles font bien davantage appel aux capacits dinitia-
tive, dautonomie et desprit critique dont vous aurez faire preuve dans votre vie
professionnelle, et que votre formation est cense vous permettre de dvelopper, que
ne le font les questions de type plus traditionnel, et auxquelles vous pouvez tre da-
vantage habitus. Elles sont loccasion de mettre lpreuve votre capacit utiliser
vos connaissances, et vous guident galement vers une comprhension approfondie
des notions et des mthodes abordes.
La manire dexposer les diffrentes notions et rsultats retenue dans ce cours
repose, invitablement, sur un certain nombre de partis pris pdagogiques. Des va-
riations, lgres ou plus significatives, par rapport dautres cours ou des ouvrages
cits dans la bibliographie, peuvent donc apparatre, tout--fait normalement (le
souci de simplicit nous ayant en particulier conduit ne pas traiter dans toute leur
gnralit un certain nombre de notions, et insister sur certains modes de prsenta-
tion au dtriment dautres, plus classiques). La cohrence avec la plupart des autres
Introduction 11
Le modle probabiliste
1.1 Introduction
La vie quotidienne, comme la pratique des sciences et des techniques, abondent
en situations prsentant plusieurs alternatives entre lesquelles il nest pas possible de
trancher a priori avec certitude, que cette incertitude soit attribue au hasard ou la
chance, au manque dinformations ou de moyens de prvision, ou encore une varia-
bilit inhrente la situation considre. Se borner constater une telle incapacit
connatre ou prvoir avec certitude ne mne pas trs loin, et, fort heureusement,
un vaste ensemble de situations peuvent tre efficacement dcrites laide dobjets
mathmatiques appels modles probabilistes, qui permettent de raisonner de
manire cohrente, rigoureuse, et quantitative sur le hasard, la variabilit
et lincertitude. Le but principal de ce cours est de vous apprendre construire,
manipuler et exploiter ces objets dans des situations simples. Nous aurons ainsi
accomplir plusieurs tches distinctes :
1. prsenter le formalisme mathmatique des modles probabilistes (ou, comme
on disait autrefois, du calcul des probabilits), avec les dfinitions, rgles et
proprits importantes qui sy rattachent ;
2. expliquer le lien entre ce formalisme abstrait et la ralit modlise ;
3. expliquer comment construire des modles probabilistes satisfaisants dune si-
tuation donne ;
4. expliquer comment exploiter les modles probabilistes une fois ceux-ci construits.
Concernant le point 1, nous procderons par tapes, afin de ne pas vous noyer
sous les dfinitions. Nous dfinirons dans ce chapitre le cadre mathmatique gnral
des modles probabilistes (espace des possibles, vnements, probabilits), puis les
notions fondamentales de probabilit conditionnelle et de dpendance probabiliste.
La notion de variable alatoire, sera aborde dans le chapitre 2, les chapitres 3 et 4
14
traitant de deux proprits fondamentales des preuves alatoires rptes que sont
la loi des grands nombres et le thorme de la limite centrale. Soulignons que le point
1 se situe entirement dans le champ des mathmatiques : on sy occupe uniquement
de dfinir un formalisme mathmatique gnral pour la modlisation probabiliste,
et de dmontrer rigoureusement certaines proprits possdes par les entits qui y
interviennent.
Le point 2 se situe, quant lui, hors du champ exclusif des mathmatiques,
puisquil touche la ralit concrte : il sagit de prciser la contrepartie concrte
des notions abstraites introduites dans le point 1. La question sera aborde au fur et
mesure que les notions mathmatiques abstraites ncessitant des explications seront
introduites. Nous verrons que la traduction concrte de la notion de probabilit est
bien plus dlicate dfinir que ce que pourrait laisser supposer le caractre courant
de lutilisation du mot probabilit. Nous aurons galement loccasion de justifier
(par opposition au fait de dmontrer) par des arguments concrets la pertinence des
rgles abstraites du calcul des probabilits.
Le point 3 est probablement le plus difficile. Il pose le problme central de la mod-
lisation : comment, partir des connaissances et des donnes disponibles, construire
un modle appropri la description dune situation relle ? Comment juger de la
validit dun modle ? Il sagit en gnral de questions difficiles et complexes, au
cur de la pratique scientifique, et qui nadmettent ni solution systmatique ni re-
cette miracle. Nous verrons cependant quune bonne comprhension des points 1 et 2,
ainsi quun minimum de pratique, permettent daborder le problme avec un certain
succs dans des cas simples.
Le point 4 est pertinent lorsque la complexit des modles utiliss fait que leur
exploitation ne se rsume pas un calcul lmentaire, ce qui ne sera que rarement
le cas dans notre contexte. Nous le mentionnons surtout pour souligner la distinc-
tion existant entre le fait de construire un modle dune situation donne, et le fait
dexploiter ce modle. Bien entendu, la construction dun modle est souvent, pour
partie, oriente par lexploitation que lon compte faire de celui-ci.
La sparation entre les points 1 4 peut paratre quelque peu artificielle, compte-
tenu des nombreux liens qui les unissent. Nous pensons toutefois quil nest pas
inutile, afin de bien structurer vos connaissances, de garder systmatiquement en
tte cette distinction.
Avertissement terminologique
commode qui qualifient simplement le fait que, dune manire gnrale, le fait que
les situations que lon tudie peuvent se raliser de plusieurs manires. Dautres fois
en revanche, nous les utiliserons en prenant en compte les nuances existant entre eux.
De manire trs schmatique (voir galement la discussion sur la traduction concrte
de la notion de probabilit dans ce chapitre), on qualifie gnralement dalatoire
ou de produite par le hasard une situation combinant imprvisibilit des situations
individuelles, et rgularits statistiques lorsque lon considre des situations rptes
un grand nombre de fois (archtype : le lancer dune pice de monnaie) ; le terme
de variabilit insiste plutt sur la pluralit des modalits ou des valeurs que peuvent
prendre, dune situation lautre, les caractristiques auxquelles on sintresse (ar-
chtype : la taille au sein de la population), tandis que lincertitude dsigne, plus
gnralement, notre incapacit connatre exactement (archtype : le rsultat dune
rencontre sportive avant que celle-ci ait eu lieu). Notons que tous ces termes (et par-
ticulirement celui de hasard) trouvent galement dautres emplois et significations,
que nous ne chercherons pas aborder au risque de nous perdre dans des discussions
philosophiques qui ne sont certainement pas lobjet de ce cours !
1. Il est possible de donner une dfinition plus gnrale pouvant faire intervenir des ensembles
infinis non-dnombrables. Quoique prsentant un grand intrt, cette gnralisation fait appel des
notions mathmatiques dont la difficult dpasse le cadre de ce cours. Nous nous restreignons ici
ce que lon appelle les modles probabilistes discrets.
16
tudie doit donc pouvoir tre rattache une et une seule issue figurant
dans la liste. Ainsi, lespace des possibles doit, dune part, contenir suffisament
dlments pour que chaque ralisation possible de la situation puisse se voir rattache
lun dentre eux, et, dautre part, au plus un lment de lespace des possibles doit
tre susceptible de correspondre une ralisation donne.
Cette brve description ne suffit malheureusement pas dterminer de manire
unique lespace des possibles pouvant tre utilis pour dcrire une situation donne.
En effet, selon le degr de prcision que lon adopte dans la description de la situation,
la notion dissue peut varier du tout au tout, et, pour une mme situation, il ny
a donc pas un seul, mais une multitude densembles susceptibles de la dcrire, si
bien quil serait plus correct de dire que lensemble reprsente la liste des issues
possibles au niveau de description adopt. Par exemple, pour dcrire la descente
dune piste de ski par un skieur, on peut se contenter dun ensemble ne comportant
que deux issues :
1 = {chute, pas de chute},
selon que le skieur est tomb ou non. Cet ensemble dcrit bien toutes les issues
possibles, au sens o, lors dune descente, le skieur peut soit tomber, soit ne pas
tomber, sans autre alternative possible : la ralisation de lexprience correspond au
choix dun et un seul lment de .
Mais on peut galement adopter une description plus prcise, en prenant pour
espace des possibles lensemble :
qui fait correspondre chaque nombre de chutes une issue diffrente. Cet ensemble
dcrit galement toutes les issues possibles (un skieur peut soit faire zro, soit une,
soit deux, etc... chutes, sans autre alternative possible), mais avec un niveau de
prcision plus grand : un lment de 2 comprend plus dinformation sur le droule-
ment de la descente quun lment de 1 . On notera que lensemble 2 contient des
lments qui ne correspondent pas des issues effectivement ralisables, telles que,
par exemple : 2150 chutes . Cela nest pas gnant, mais signifie simplement que
certaines issues thoriquement prsentes dans la liste que constitue nappara-
tront jamais. On peut ainsi sans dommage (et cela simplifie souvent la description de
celui-ci) inclure dans lespace des possibles davantage de possibilits quil nen existe
rellement. Celles-ci se verront simplement affectes dune probabilit nulle ou tota-
lement ngligeable en pratique. En revanche, les lments de doivent absolument
rendre compte (au niveau de description adopt) de toutes les possibilits relles,
sans en omettre aucune.
Pour dcrire encore plus prcisment la descente, on peut par exemple ajouter
18
3 = N N = {(i, j) : i N, j N}.
des possibles nest pas dtermin uniquement par le phnomne que lon
tudie, mais de manire essentielle par le choix que nous faisons du degr
de finesse avec lequel le phnomne doit tre dcrit.
= {pile , face},
que
= {P , F}, = {bouc , chvre}, = {campanule, myosotis},
du moment que la signification de chacun des lments de est prcise (mais cette
prcision est indispensable, sans quoi il est en gnral impossible de comprendre ce
que reprsentent les lments de ).
Cest dans ce contexte que la notion dvnement formel, dfini comme partie
de , trouve sa signification. En franais, un vnement dsigne quelque chose
qui peut ou non se produire, en rapport avec la situation considre. De manire
gnrale, tout vnement concret, dfini en franais, par sa relation au
phnomne considr, nous associerons le sous-ensemble de (vnement
formel) constitu par les ventualits lmentaires dcrivant les issues
pour lesquelles cet vnement est effectivement ralis. Ainsi, le choix par
le hasard dune ventualit lmentaire ralisant un vnement (au sens formel)
signifie que lvnement (au sens concret) correspondant est ralis.
Pour reprendre lexemple du skieur, A =le skieur tombe au moins deux fois, et
B = le skieur ne saute aucune bosse, constituent des vnements (au sens concret
du terme). Lorsque lespace des possibles est lensemble 3 = N N, lvnement
concret A est associ lvnement formel (sous-ensemble de 3 , quavec un abus de
20
Notons que les oprations logiques usuelles sur les vnements concrets
(conjonction, disjonction, ngation), correspondent des oprations ensem-
blistes (intersection, union, complmentaire) sur les vnements formels (sous-
ensembles de ) qui leur sont associs.
Partant de deux vnements A et B (on notera de la mme faon les vnements
dcrits en franais et les sous-ensembles de qui leur correspondent, ce petit abus
de notation ne soulevant pas dambiguit lorsque est fix), on peut en particulier
considrer :
lvnement dfini (en franais) par A ou B, qui correspond dans la
runion de A et B, note A B, et qui dsigne lensemble des ventualits
lmentaires qui ralisent A ou B (ventuellement les deux la fois),
lvnement dfini (en franais) par A et B, qui correspond dans l
intersection de A et B, note A B, qui dsigne lensemble des ventualits
lmentaires qui ralisent A et B.
lvnement dfini (en franais) par A na pas lieu, qui correspond dans au
complmentaire de A, not Ac ou A, et qui dsigne lensemble des ventualits
lmentaires qui ne ralisent pas A.
Mise en garde 1 par convention, le ou que nous utilisons est toujours inclusif,
cest--dire quil nexclut pas la ralisation simultane des deux vnements. Cest le
ou de la petite annonce : secrtaire parlant allemand ou anglais (ventuellement
les deux la fois). Lorsque nous considrerons le ou exclusif (celui du menu :
fromage ou dessert), qui correspond la ralisation de lune ou lautre des deux
ventualits, mais pas des deux la fois, nous le spcifierons en utilisant lexpression
ou bien.
Exemples :
Commenons par un exemple trs simple, qui peut, par exemple, servir pour
modliser le rsultat de deux lancers successifs dun d six faces.
A = {(1, 2); (2, 3); (5, 4)} , B = {(2, 3); (2, 6)}
A B = {(1, 2); (2, 3); (2, 6); (5, 4)} et A B = {(2, 3)}.
B = {(i, j) N N : i 4},
A B = {(i, j) N N : i 4, j 3},
ou encore :
A B = {4, 5, . . .} {3, 4, . . .}.
On note que A et C sont incompatibles , car, au sens concret , le skieur ne, peut
bien entendu pas sauter la fois moins de trois bosses et cinq ou six bosses, et, au
sens formel, on observe bien que A C est lensemble vide.
Rappelons rapidement quelques proprits lmentaires satisfaites par les opra-
tions sur les ensembles. tant donns trois sous-ensembles A, B et C dun ensemble
, (ou encore trois vnements dun espace des possibles) les proprits suivantes
sont vrifies :
A B = B A (commutativit de la runion)
A B = B A (commutativit de lintersection)
A (B C) = (A B) C (associativit de la runion)
A (B C) = (A B) C (associativit de lintersection)
Le modle probabiliste 23
5. La probabilit pour quil ait plu il y a exactement 3000 ans sur le site aujour-
dhui occup par Lyon est de 1/3.
6. La probabilit pour quune mtorite de plus de 500m de diamtre de cir-
confrence percute la terre au cours du prochain millnaire est de moins de
2%.
7. La probabilit pour que la fuse explose au dcollage est de moins de 2%.
8. La probabilit, pour un individu n en France en 1920, de vivre plus de 80
ans est de 75%.
9. La probabilit pour un individu n en France en 1954, de vivre plus de 80 ans
est de 85%.
10. La probabilit pour un individu n en France en 1954 de possder un chien
est de 60%.
11. La probabilit pour que D*** (qui est n en France en 1954) possde un chien
est de 70%.
12. La probabilit pour quun atome de carbone 14 subisse une dsintgration au
cours des 5730 prochaines annes est de 50%.
13. La probabilit pour quun photon incident mis par la source S soit absorb
par le dtecteur D est de 1/3.
14. La probabilit pour que lpidmie se propage est de 5%.
15. La probabilit pour quun paquet de donnes mette plus de 0,1 seconde pour
tre transmis dans le rseau est de 10%.
16. La probabilit pour que lenfant natre soit une petite fille est de 1/2.
17. La probabilit pour que la croissance du PIB soit cette anne suprieure
2%, est de 70%.
2. On peut galement imaginer que lon sattend observer ce rsultat simplement parce quil
est une consquence de la description que fait la mcanique quantique de lexprience mene, la
thorie quantique tant lheure actuelle accepte comme une description correcte et amplement
vrifie exprimentalement de ce type de phnomnes.
26
tuer le lancer de manire faire retomber la pice du ct que lon souhaite. Ainsi, le
caractre stable de la frquence au cours dun grand nombre dexpriences rptes
nest en aucun cas automatique, et dpend crucialement de la manire dont les exp-
riences sont effectues. Dans le cas de lancers honntes 3 dune pice symtrique,
cest lextrme sensibilit du rsultat dun lancer de trs faibles variations invi-
tables et imprvisibles des conditions dans lesquelles celui-ci est effectu, qui est
lorigine de cette proprit (et cest linterprtation que lon peut donner au raison-
nement a priori sur la symtrie de la pice pour valuer les probabilits). (Pour une
tude approfondie des lancers rpts de pices de monnaie, vous pouvez consulter les
deux articles sur le sujet cits dans la bibliographie.) Formaliser prcisment ce type
dide, afin dexpliquer comment des systmes entirement dterministes peuvent
produire des comportements en apparence alatoires, mais prsentant des rgularits
statistiques, est lun des buts de la branche de la thorie des systmes dynamiques
appele thorie ergodique. En pratique, il est difficile de sassurer que les conditions
dans lesquelles on effectue une exprience garantissent la stabilit des frquences
long terme lorsque celle-ci est rpte dans des conditions comparables (il faudrait
prciser exactement quelles conditions exprimentales sont fixes dune rptition
lautre, et sassurer que la variation dune exprience lautre des conditions expri-
mentales qui ne sont pas fixes a bien toujours pour effet de stabiliser les frquences
autour dune mme valeur), et lon doit se contenter darguments et dindications
partiels allant dans ce sens, dont des vrifications exprimentales de la stabilit des
frquences sont lun des lments.
Lexemple 8 semble poser bien moins de problmes : au sens courant, la pro-
babilit reprsente simplement la proportion des individus ns en France en 1920
ayant survcu au moins jusqu la fin de lanne 2000, et lexamen des registres de
ltat-civil doit permettre de dterminer cette proportion avec une prcision satisfai-
sante : la probabilit est dfinie de manire objective, et peut tre value de manire
non moins objective, sans hypothses supplmentaires compliques sur la nature des
phnomnes mis en jeu. Lexemple 10 est totalement similaire.
Lexemple 9 est dj moins vident : la proportion dindividus ns en France
en 1954 et qui vivront au-del de lge de 80 ans est, certes, une quantit dfinie
objectivement, qui permet donc de donner un sens objectif la probabilit dans ce
contexte ; cependant, il nest pas possible lheure actuelle (en 2005) de dterminer
quelle sera en dfinitive la valeur de cette proportion. Par consquent, comme dans
le cas de lexemple 12, nous ne pouvons en proposer que des estimations, en nous
basant sur un raisonnement plus ou moins labor, incluant donnes (par exemple
sur ce qui est connu lheure actuelle de ltat de sant de la population des individus
3. Les tirages au sort effectus par jet de pice de monnaie lors de rencontres sportives sont
parfois rglements : on y impose par exemple une hauteur minimale laquelle la pice doit slever
avant de retomber.
Le modle probabiliste 27
ns en 1954), et hypothses diverses. Encore une fois, dfinir et valuer sont deux
choses bien distinctes.
Dans la mesure o la probabilit y est dfinie comme une proportion au sein
dune population, ces trois derniers exemples prsentent une analogie formelle avec
les trois tudis plus haut, o la probabilit apparat comme une frquence au cours
de sries dexpriences. Il y a plus : on interprtera souvent la probabilit, disons de
lexemple 8, comme la probabilit quune personne prise au hasard dans la liste des
individus ns en France en 1920 ait vcu au moins jusqu la fin de lanne 2000.
Dans ce cas, on fait rfrence, non plus seulement une population dindividus au
sein de laquelle on calcule une proportion, mais une exprience de tirage. Au cours
dune longue srie de tirages, on sattend ce que la proportion observe dindividus
ayant vcu au moins jusqu la fin de lanne 2000 soit voisine de la proportion que
reprsentent ces individus dans la population. En termes des exemples prcdents,
on suppose premirement que le processus de tirage donne lieu des frquences
stables lors de tirages rpts, et que de plus ces frquences sont donnes par les
proportions correspondantes dans la population. Cest le principe mme du sondage.
Comme prcdemment, on notera quil est difficile de garantir absolument que ces
deux proprits ont bien lieu.
duire une valuation de la probabilit ? Il faut noter en tout cas que, dans ce type de
situations, la probabilit napparat que comme le reflet du raisonnement et
des hypothses, informations et opinions, sur lesquelles celui-ci est bas.
Mme une fois leve lincertitude concernant lissue de la situation (par exemple,
aprs que llection a eu lieu), on ne dispose pas dun moyen dfinitif de confirmer ou
dinfirmer telle ou telle valeur initialement propose de la probabilit (si le candidat
A est lu, quelle tait a priori la bonne estimation de probabilit initiale : 65%, 70%,
80% ?). Et, bien entendu, des raisonnements diffrents donnent lieu en gnral des
estimations diffrentes de la probabilit dun mme vnement... La probabilit perd
donc, dans ce contexte, le caractre objectif quelle possdait, en tant que frquence,
dans les exemples du paragraphe prcdent ; dans ce genre de situations, on peut
simplement tenter dvaluer la pertinence des arguments employs pour estimer la
probabilit, la lueur des connaissances et des donnes disponibles. Notons que la
simple exigence de cohrence dans le raisonnement impose, comme nous le verrons
plus loin, un certain nombre de rgles, qui font que lon ne peut pas manipuler les
plausibilits de manire totalement arbitraire. On peut ainsi sattendre ce que,
dans une certaine mesure, des individus rationnels aboutissent des estimations de
probabilit comparables sils sappuient sur des informations, hypothses et opinions
comparables.
Les relations entre la probabilit frquentielle du paragraphe prcdent et la
probabilit plausible tudie ici sont dune importance fondamentale. Dans les
situations tudies dans les exemples 2, 12 et 13, et en labsence dinformations sup-
plmentaires, il est naturel dinterprter la frquence de long terme avec laquelle
un vnement se produit comme une mesure de sa plausibilit : on attribuera par
exemple une plausibilit de 1/2 au fait que la pice retombe ct face lors du prochain
lancer. En revanche, en prsence dinformations par exemple, de donnes cinma-
tiques prcises sur la pice de monnaie quelques instants aprs le lancer portant
sur les conditions exprimentales non-spcifies dans la dfinition de la frquence,
la prise en compte de ces informations peut conduire une estimation diffrente
de la probabilit, mme entendue en un sens purement frquentiel, comme nous le
verrons plus loin. De manire gnrale, lorsque les informations dont nous disposons
sur une situation unique nous permettent seulement de replacer celle-ci au sein dune
certaine collection (population, ou ensemble dexpriences rptes), sans pouvoir la
situer plus prcisment, il parat raisonnable dvaluer la plausibilit des vnements
relatifs cette situation partir des frquences calcules au sein de cette collection,
lorsque celles-ci sont accessibles.
Par exemple, on pourrait valuer la plausibilit du fait que D*** possde un
chien en dterminant la proportion de possesseurs de chiens parmi les individus ns
en France en 1954. Si lon ignorait lanne de naissance de D***, on pourrait valuer
cette plausibilit en comptant la proportion de possesseurs de chiens dans la popula-
Le modle probabiliste 29
tion totale. A linverse, si lon savait quen plus dtre n en 1954, D*** vit en zone
rurale, on choisirait de considrer la proportion de propritaires de chiens parmi les
individus ns en France en 1954 vivant en zone rurale. Notre degr dinformation
sur D*** dtermine ainsi une collection dindividus, dautant plus restreinte que ce
degr dinformation est lev, et grce laquelle on peut tenter dvaluer la plausi-
bilit dun vnement relatif D*** et nos informations son sujet, en mesurant
la frquence dapparition de lvnement dans la collection.
La mise en uvre de cette ide se heurte cependant toutes sortes de difficults.
Trs souvent, lensemble des informations dont on dispose sur une situation dter-
minent compltement celle-ci (par exemple, lorsque lon connat exactement lidentit
de D***, sans pour autant savoir sil ou elle possde un chien), et lon ne peut donc
inscrire de manire naturelle cette situation dans une collection plus vaste, sans n-
gliger un certain nombre dinformations pourtant disponibles en ne conservant que
celles qui semblent pertinentes. Un dlicat problme de choix apparat donc : com-
ment replacer de manire pertinente une situation unique dans une collection plus
vaste de situations partir des informations disponibles ? Qui plus est, mme en
ne conservant que les informations qui semblent pertinentes vis--vis de la situation
tudie, on peut tre conduit des collections de situations pour lesquelles on ne
dispose pas de donnes suffisantes relatives aux frquences. Bien souvent, on devra
faire appel simultanment plusieurs collections, correspondant chacune une partie
des informations disponibles (par exemple, relative chacune tel ou tel lment par-
ticulier de la situation considre), pour tenter dvaluer les plausibilits intervenant
dans le raisonnement. Dans ce contexte, le recours des hypothses ou des estima-
tions subjectives peut savrer incontournable afin dintgrer les diffrentes donnes
disponibles et de parvenir un rsultat. Bien entendu, plus les informations et les
donnes dont on dispose sont prcises et nombreuses, plus on peut sattendre obte-
nir une estimation de plausibilit satisfaisante. Inversement, notre ignorance quant
une situation peut tre telle quil savre impossible de proposer une estimation
pertinente de la plausibilit dun vnement. Il faut alors reconnatre les limites de
notre capacit modliser la situation. Eventuellement, des approches alternatives
ou complmentaires la modlisation probabiliste classique (telles que logique floue,
fonctions de croyance, etc...) peuvent tre envisages.
La plupart du temps, le raisonnement probabiliste mle entre eux les diffrents
aspects (frquence et plausibilit) de la notion de probabilit. Nous vous laissons,
titre dexercice (Exercice 3), le soin de rflchir la signification de la probabilit
dans les exemples dont nous navons pas trait.
Les rgles abstraites du calcul des probabilits sappliquent, quant elles, ind-
pendamment de la signification concrte des quantits manipules, et nous tenterons
dans la suite de justifier leur utilisation partir des diffrents points de vue. Nous
retiendrons notamment de la discussion prcdente que la signification concrte de
30
:= {foulard bleu, foulard vert, foulard rouge, lapin, colombe, bouquet, alligator}.
Si la probabilit P que lon choisit de dfinir sur reprsente, par exemple, la fr-
quence relative avec laquelle chacun des objets est sorti au cours des N premiers
tours de magie effectus avec le chapeau, on a, en utilisant la notation
Il est bien vident que le nombre de fois au cours des N tours o un foulard sort est la
somme des nombres de fois o un foulard bleu, un foulard vert, ou un foulard rouge
sort (nous ne considrons que des foulards unis). Si la probabilit de lvnement
formel {foulard bleu, foulard vert, foulard rouge} doit reprsenter la frquence avec
laquelle un foulard est sorti, on a donc videmment galit entre
et
P(foulard bleu) + P(foulard vert) + P(foulard rouge),
Cette discussion est gnrale, la seule proprit que nous ayons utilise tant qu
un lment compt (un objet issu du chapeau) correspond un et un seul lment de
, ce quimpose naturellement la dfinition de comme liste des issues possibles, au
niveau de description adopt, toute issue tant associe un et un seul lment de .
Dans le cas o la probabilit est plutt considre comme une mesure de plausibilit,
construite partir de jugements et dinformations partielles, il est encore possible
de justifier cette dfinition additive de la probabilit, en montrant quelle est en un
certain sens la seule cohrente du point de vue du raisonnement en univers incertain
(ceci fait partie de ce que lon appelle le thorme de Cox, voir par exemple lou-
vrage de Howson et Urbach, ou larticle de Van Horn cits dans la bibliographie). A
notre modeste niveau, disons simplement quil ne semble pas draisonnable dajouter
entre elles les plausibilits des diffrentes ventualits incompatibles produisant un
vnement pour estimer la plausibilit de cet vnement.
Au passage, remarquons que la condition de normalisation
X
P() = 1,
et leur preuve est laisse en exercice (essentiellement, il suffit de faire une figure). En
fait, nous vous invitons systmatiquement reprsenter par une figure lespace et
les vnements que vous tudiez, ce qui rend videntes la plupart des formules ci-
dessous, inutile leur mmorisation, et bien plus claire lutilisation quil convient den
faire dans votre contexte. Bien entendu, les ides que ces formules vhiculent sont
importantes et il est ncessaire de les retenir ; nous aurons loccasion de les utiliser
abondamment dans la suite.
Tout dabord, si A et B sont deux vnements,
Cette proprit est trs importante, et lon sen servira, par exemple, pour montrer
que la probabilit dun vnement A est petite en la comparant celle dun vnement
B dont la probabilit est elle-mme petite, et plus facile calculer que celle de A.
Dautre part, on a lgalit
Nous utiliserons rarement cette proprit telle quelle. Notez bien quen gnral,
P(Ac ) = 1 P(A).
Rappelons, toutes fins utiles, que le fait que les vnements A1 , . . . , An soient
deux--deux incompatibles ne se rsume pas la condition : A1 . . . An = .
On utilisera souvent lgalit 1.1 ci-dessus pour valuer la probabilit dun v-
nement en termes de son dcoupage par une famille dautres vnements : si
A1 . . . , An est une famille dvnements deux--deux incompatibles recouvrant B,
cest--dire, si B A1 . . . An , alors
on a
m
X
P(A1 . . . An ) (1)k1 Ck
k=1
lorsque m est impair,
m
X
P(A1 . . . An ) (1)k1 Ck
k=1
Un exemple brassicole :
Ces deux exemples un peu farfelus dont destins illustrer le fait quun modle
probabiliste abstrait (un modle probabiliste vu simplement comme un objet math-
matique) peut prendre absolument nimporte quelle forme, et que la seule contrainte
est que la somme des probabilits de toutes les ventualits lmentaires soit gale
1. Bien entendu, sans dictionnaire permettant de relier ces modles abstraits avec une
quelconque ralit, ils restent totalement... abstraits. On peut nanmoins sintresser
ltude de leurs proprits mathmatiques.
Un exemple paramtrique :
(S)
(B)
36
o p [0, 1] est un paramtre. (Il faudra vrifier que la formule ci-dessus dfinit bien
une probabilit, cest--dire quelle donne toujours lieu des nombres compris entre 0
et 1 et dont la somme sur tous les lments de est gale 1 : Exercice 5 !) Autrement
dit, la probabilit dune configuration de fonctionnement/panne des connexions est
obtenue en effectuant le produit de 16 facteurs, un par connexion, gal p lorsque
la connexion correspondante fonctionne, et (1 p) lorsque celle-ci est coupe. La
forme de P est donc fixe (un produit de 16 facteurs), et seule manque la valeur du
paramtre p, quil faudrait pouvoir valuer, pour dterminer les valeurs numriques
de P. En fonction de p, on peut notamment calculer la valeur de la quantit qui nous
intresse, cest--dire la probabilit de lvnement A =linformation circule entre
(S) et (B). Par dfinition, X
P(A) = P(),
A
et, par dfinition, A si et seulement sil existe une suite de connexions en fonc-
tionnement reliant (S) (B). Il suffit donc, pour calculer P(A), de dresser la liste de
toutes les configurations fonctionnement/panne telles que (S) et (B) communiquent,
puis de calculer la somme ci-dessus, portant sur toutes les configurations de cette
liste, en prenant garde au fait que la valeur de P() nest pas la mme suivant les
configurations. Nous retrouverons souvent cette situation o P possde une forme
fixe et sexprime en fonction dun petit nombre de paramtres. Notez bien quil ne
sagit ici que dun exemple, et que cette probabilit na aucune raison a priori de
convenir la description du rseau tudi.
Si lespace des possibles est un ensemble fini, on peut dfinir une probabilit qui
attribue chaque ventualit lmentaire la mme probabilit, appele probabilit
Le modle probabiliste 37
qui diffre sensiblement de la valeur 2/7 que donnerait la formule nombre de cas
favorables/ nombre de cas total.
Pour vous convaincre encore davantage, voici un exemple historique destin
vous mettre en garde contre lutilisation incontrle de cette formule, et justifier
lutilisation dun formalisme prcis.
{1; 4; 6}, {1; 5; 5}, {2; 3; 6}, {2; 4; 5}, {3; 3; 5}, {3; 4; 4}
tandis que les combinaisons donnant lieu un total de 12 sont les suivantes :
{1; 5; 6}, {2; 4; 6}, {2; 5; 5}, {3; 3; 6}, {3; 4; 5}, {4; 4; 4}
soit six combinaisons dans les deux cas. La solution de ce paradoxe apparent rside
dans une description prcise du modle probabiliste de lexprience consistant lan-
cer trois ds. On peut notamment envisager deux espaces des possibles pour dcrire
lexprience. Le premier, 1 , dans lequel on attribue chacun des trois ds un nu-
mro, et qui exprime le rsultat du lancer sous la forme dun triplet ordonn (a, b, c)
donnant, dans lordre, le rsultat du d numrot 1, le rsultat du d numrot 2, et
le rsultat du d numrot 3. Comme la seule quantit laquelle nous nous intres-
sons est la valeur de la somme des trois chiffres obtenus, il nest pas indispensable
dordonner les rsultats des ds, et il suffit de dcrire lexprience en donnant les
trois chiffres obtenus sans prciser leur ordre dapparition, sous la forme dun tri-
plet non-ordonn {a, b, c}, dont lensemble forme lespace des possibles 2 . Dans le
premier cas, des considrations classiques de modlisation des lancers (sur lesquelles
nous reviendrons : indpendance des lancers successifs, et description du rsultat de
chaque lancer par la probabilit uniforme) suggrent que tous les triplets ordonns
(a, b, c) devraient tre supposs quiprobables, et que lexprience doit donc tre d-
crite, au moins en premire approximation, par la probabilit uniforme P1 sur 1 ,
chacun des 216 triplets ordonns ayant donc une probabilit de 1/216. Au contraire,
sur 2 , les mmes considrations de modlisation entranent que tous les triplets
non-ordonns ne devraient pas tre quiprobables, et donc que ce nest pas la pro-
babilit uniforme P2 sur 2 qui dcrit convenablement lexprience. Par exemple,
le triplet non-ordonn {2; 5; 5}, correspond, dans la description obtenue laide de
1 , la runion des trois triplets (2; 5; 5), (5; 2; 5) , (5; 5; 2), et on doit donc, pour
tre cohrent avec la description prcdente, lui attribuer la probabilit 3 1/216.
Au contraire, le triplet non-ordonn {2; 4; 6} correspond la runion des six triplets
(2; 4; 6), (2; 6; 4) , (4; 2; 6), (4; 6; 2), (6; 2; 4) , (6; 4; 2), et on doit donc lui attribuer la
probabilit 6 1/216. La probabilit sur 2 ntant pas uniforme, le raisonnement
qui consiste compter le nombre de cas favorables pour calculer la probabilit dun
vnement nest pas valable, puisque les diffrents cas favorables nont pas tous
la mme probabilit, ce qui lve le paradoxe. On vrifie que la probabilit dobtenir
11 est de 27/216 tandis que la probabilit dobtenir 12 est de 25/216, ce qui rend
compte de la diffrence observe dans les frquences dapparition. Il ny a donc pas
Le modle probabiliste 39
Le prestige de luniforme
Nous sommes demeurs quelque peu vagues sur les considrations de modlisation
justifiant lutilisation de la loi uniforme dans ce problme. De fait, suivant linterpr-
tation concrte que lon donne la notion de probabilit dans le contexte envisag, la
nature des arguments susceptibles de justifier raisonnablement la description dune
situation au moyen dun espace des possibles muni de la probabilit uniforme tout
au moins en premire approximation , varie considrablement.
Le principe de raison insuffisante , ainsi quil est parfois appel, stipule que la
probabilit uniforme doit tre employe ds lors que lensemble des informations dont
on dispose sur la situation tudie sont symtriques vis--vis des diffrentes ventua-
lits lmentaires, cest--dire ntablissent pas de diffrence entre elles. Lutilisation
de ce principe appelle au moins trois prcautions importantes. Dune part, il nest
quasiment jamais vrai que la totalit des informations disponibles soient totalement
symtriques vis--vis des diffrentes ventualits lmentaires. En gnral, on li-
mine un certain nombre dinformations dont limportance est juge ngligeable, et
lon saccomode dune symtrie approximative.
Dautre part, ce principe est ncessairement cantonn lutilisation de la pro-
babilit comme mesure de plausibilit au vu des informations disponibles, et ne
saurait certainement pas sappliquer la probabilit entendue comme frquence, ou
comme proportion, sans quoi, nous serions en train de dduire de notre propre igno-
rance au sujet dune situation des affirmations objectives quant celle-ci, ce qui est
fortement draisonnable ! Il faut garder ceci en tte lorsque lon utilise cet argument
pour attribuer a priori des probabilits.
Enfin, lutilisation de ce principe suppose que lon souhaite effectivement attri-
buer des probabilits aux diffrentes ventualits lmentaires. Si lon dispose dun
ensemble dinformations trop limit, on peut dcider de ne pas affecter de proba-
bilits, soit quon les laisse inattribues (sous la forme de paramtres) dans le rai-
sonnement, soit mme que lon renonce dcrire la situation dans le cadre de la
modlisation probabiliste si lon juge que lon dispose vraiment de trop peu dinfor-
mation et quune telle description ne peut tre mene bien. Quoiquil en soit, la
40
Commenons par donner une dfinition formelle. Etant donn un espace de pro-
babilit (, P) et un vnement A de probabilit non-nulle (P(A) > 0), on appelle
probabilit P conditionnelle A (ou encore probabilit P conditionne par la
ralisation de A, probabilit P sachant A) la probabilit dfinie sur par :
P()
P(|A) = P(A) si A,
P(|A) = 0 si
/ A.
Lorsque nest pas dans A, P(|A) est nul, et la somme la plus droite dans lgalit
ci-dessus est donc gale zro. On obtient donc que :
X X X P() 1 X 1
P(|A) = P(|A) = = P() = P(A) = 1,
P(A) P(A) P(A)
A A A
Contexte
du modle (, P), il est indispensable, pour tenir compte du fait que A est ralis,
de remplacer le modle (, P) par le modle (, P(|A)) dans la description de la
situation tudie. Dans le cadre de linterprtation frquentielle de la probabilit
(qui, rappelons-le, est trs souvent utilis de pair avec linterprtation en termes de
plausibilit), la probabilit conditionnelle apparat lorsque lon cherche dcrire, non
pas la population (resp. la srie dexpriences) dorigine, dcrite par le modle (, P),
mais la sous-population (resp. la sous-srie dexpriences) obtenue en slectionnant
les lments de la population (resp. les expriences) conduisant la ralisation de
lvnement A. Le principe de lutilisation des probabilits conditionnelles est alors le
suivant : si la population (resp. la srie dexpriences) dorigine est dcrite
par (, P), la sous-population (resp. la sous-srie dexpriences) forme en
slectionnant les lments de la population (resp. la srie dexpriences)
pour lesquels A est ralis est dcrite par le modle (, P(|A)).
Insistons bien sur le point suivant : quel que soit le contexte retenu pour linterpr-
tation de la probabilit, il est indispensable, dans les situations dcrites ci-dessus,
de remplacer le modle dorigine (, P) par le modle modifi (, P( |A)). Sinon, on
est conduit raisonner de manire incohrente (dans linterprtation plausible) ou
valuer des frquences de manire erronne (dans linterprtation frquentielle).
Commenons par prciser ceci sur deux exemples.
Dans ce premier exemple, nous discuterons de linterprtation de la probabilit
en termes de plausibilit (mais linterprtation frquentielle aurait galement toute
sa place ici). Intressons-nous donc la composition en filles et garons des familles
de deux enfants, en choisissant pour espace des possibles :
La probabilit quune famille soit forme de deux filles est donc, dans cette des-
cription, gale 1/4. Supposons maintenant que lon sache quune famille donne
comporte au moins une fille, sans connatre pour autant le dtail de sa composition.
Comment la probabilit que la famille soit constitue de deux filles est-elle modifie
par cette information supplmentaire ? Intuitivement, il semble clair que le fait de
savoir que la famille comporte dj une fille doit accrotre la probabilit pour quelle
en comporte deux, puisque lon sait dj quune partie de lvnement avoir deux
filles est effectivement ralise. Examinons lespace des possibles. Linformation dont
44
nous disposons nous permet daffirmer que lventualit lmentaire GG (deux gar-
ons) nest pas ralise, et est mme quivalente cette affirmation. Rien ne nous
permet en effet de trancher plus particulirement en faveur de lune ou lautre des
trois ventalits lmentaires restantes FG,GF et FF, qui avaient a priori ( cause
du choix initial de la probabilit uniforme pour dcrire lexprience) des probabi-
lits gales de se raliser. Le seul choix de probabilit cohrent avec linformation
supplmentaire dont nous disposons est donc :
o F dsigne le fait dtre un gros fumeur, N celui de ne pas ltre, C le fait dtre
atteint un jour par un cancer et S le fait de ne pas ltre (S pour sain), et la probabilit
comme la proportion de chacune des quatre ventualits (FS, FC, NS, NC) au sein
de la population (bien entendu, il conviendrait de prciser exactement ce que lon
entend par gros fumeur, quel instant on considre la population, etc..., mais nous
nous affranchirons de ces dtails pour conserver notre exemple sa simplicit). Notez
bien quil faut attendre la fin de la vie dun individu pour savoir sil va ou non
dvelopper un cancer, tandis que le fait dtre un gros fumeur ou non est observable
bien avant, et que lon est typiquement dans le cas o une observation partielle de
est possible. En dsignant par N la taille de la population, et par N () le nombre
Le modle probabiliste 45
N (FC)
,
N (fumeur)
on constate que cette dfinition concide avec la dfinition gnrale des probabilits
conditionnelles que nous avons donne.
Les raisonnements construits dans le cadre des deux exemples prcdents stendent
facilement pour justifier la dfinition gnrale des probabilits conditionnelles, dans
linterprtation frquentielle comme dans linterprtation en termes de plausibilit.
Du point de vue des plausibilits, la question est de dterminer comment la
plausibilit attribue chaque ventualit lmentaire doit tre modifie en tenant
compte de linformation nouvelle que A sest ralis, dune manire cohrente avec
lattribution initiale des plausibilits aux diffrents lments de . Si nest pas un
lment de A, autrement dit, si la ralisation de nest pas compatible avec celle de
A, nous sommes naturellement conduits attribuer une plausibilit nulle, puisque
nous somme certains que nest pas ralis, la ralisation de A excluant celle de .
Par ailleurs, le fait de savoir que A est ralis ne nous apporte pas dinformation
particulire sur la faon dont A sest ralis, cest--dire sur celle des ventualits
lmentaires ralisant A qui est effectivement choisie par le hasard. Autrement dit,
si nous estimions, avant de savoir que A tait ralis, quune ventualit lmentaire
1 ralisant A tait deux fois plus plausible quune autre ventualit lmentaire 2
ralisant galement A (autrement dit P(1 ) = 2 P(2 )), le simple fait de savoir que
A sest ralis ne fournit aucune raison de modifier cette estimation, et la probabilit
conditionnelle doit donc vrifier : P(1 |A) = 2 P(2 |A). Cependant, nous ne pou-
vons pas directement poser, comme il serait tentant de le faire, P(|A) = P() pour
dans A, car, tant donn le fait que nous devons ncessairement poser P(|A) = 0
pour tout qui ne ralise pas A, cette dfinition ne conduirait pas une probabilit,
46
la condition de normalisation ntant pas satisfaite. Il est facile de voir que la condi-
tion selon laquelle les rapports entre les plausibilits des lments de A doivent tre
conservs nous oblige poser P(|A) = c P() pour tout dans A (et toujours
P(|A) = 0 pour tout qui ne ralise pas A), o c est une constante. Il existe alors
un unique choix de c qui garantit le fait que P( |A) dfinisse bien une probabilit
sur , savoir c = 1/P(A), comme le montre le calcul effectu plus haut. De ce point
de vue, la dfinition que nous avons donne dune probabilit conditionnelle est donc
la seule cohrente (pour une justification base sur des considrations qualitatives
beaucoup plus gnrales, voir louvrage de Howson et Urbach, ou larticle de Van
Horn cits dans la bibliographie).
Du point de vue des frquences, il suffit de raisonner exactement comme dans
le cas du deuxime exemple : quil sagisse de proportion au sein dune population
ou de frquence observe au cours dune longue srie dexpriences rptes, cette
manire de dfinir la probabilit conduit automatiquement la dfinition que nous
avons donne dune probabilit conditionnelle.
dfavorise, resp. ninflue pas sur) la survenue de B est quivalent au fait que B favorise
(resp. dfavorise, resp. ninflue pas sur) la survenue de A, qui est encore quivalent
au fait que P(A B) soit suprieur (resp. infrieur, resp. gal) P(A) P(B). On
peut donc donner une forme symtrique la dfinition prcdente (qui a galement
lavantage de sappliquer des vnements de probabilit nulle), et lon prfrera
utiliser une terminologie galement symtrique vis--vis de A et de B. Ainsi, plutt
que de dire que A favorise B ou que B favorise A, on dira simplement que A et B
sont positivement associs. De la mme faon, on dfinira lassociation ngative de
A et de B, et lindpendance de A et de B.
Prcisment, la dfinition que nous utiliserons est la suivante :
A et B sont positivement associs si P(A B) > P(A) P(B) ;
A et B sont ngativement associs si P(A B) < P(A) P(B) ;
A et B sont indpendants si P(A B) = P(A) P(B).
Dans les exemples prcdents, lvnement avoir au moins une fille favorise
lvnement avoir deux filles, car la probabilit (inconditionnelle) davoir deux filles
est de 1/4, tandis que la probabilit davoir deux filles sachant que lon en a au moins
une est gale 1/3. En revanche, toujours dans notre modle, le fait que le second
enfant soit une fille est indpendant du fait que le premier le soit : la probabilit que
le second enfant soit une fille est de 1/2, et la probabilit que le second enfant soit
une fille sachant que le premier enfant est une fille est galement de 1/2. Dans le cas
de la relation tabac/cancer, les valuations statistiques des probabilits du modle
montrent que la consommation de tabac favorise la survenue dun cancer au sens
prcdent (on notera que le problme de lvaluation des probabilits telles que nous
les avons dfinies nest pas si vident, puisquil nest pas possible de dterminer pour
les individus vivant actuellement sils vont ou non dvelopper plus tard un cancer :
une extrapolation partir des donnes disponibles actuellement est incontournable).
Mme si la notion de dpendance de deux vnements entre eux est symtrique, on
prsente souvent les choses sous forme dissymtrique en comparant P(B|A) P(B),
ou P(A|B) P(A), ce qui ne pose aucun problme dans labsolu, mais donne souvent
lieu des confusions : on a vite fait de comparer P(A|B) P(B) ou P(B|A) P(A),
ce qui perd toute signification. Par exemple, pour tudier lincidence du tabagisme
sur la sant, il est loisible de comparer la probabilit pour un fumeur dtre atteint
dun cancer la probabilit dtre atteint dun cancer tout court, ou, inversement,
de comparer la probabilit pour un individu atteint dun cancer dtre fumeur la
probabilit dtre fumeur. Dans un registre plus polmique, on pourra stonner que la
probabilit pour un enfant douvrier dentrer lEcole Polytechnique soit de moins de
un sur mille alors que les enfants douvriers reprsentent plus de 10% de la population.
Pourtant, on compare ici ce qui nest pas comparable : il faudrait, pour se faire une
ide du rle jou par lorigine sociale dans la poursuite dtudes prestigieuses, soit
comparer la probabilit pour un enfant douvrier dentrer lEcole Polytechnique la
48
= {1; 2; 3; 4; 5; 6} {1; 2; 3; 4; 5; 6}
et donc lun des deux vnements au moins devrait avoir une probabilit nulle. Dans
tous les autres cas, deux vnements ne peuvent pas tre la fois incompatibles et
indpendants, ce qui est galement vident intuitivement : si A et B sont incom-
patibles, le fait de savoir que A est ralis entrane automatiquement que B nest
Le modle probabiliste 49
pas ralis, autrement dit, apporte une information importante sur B. En particu-
lier, le fait que A et B soient indpendants nentrane en aucune manire le fait que
P(A B) = P(A) + P(B).
Dpendance et causalit
6. Ceci est bien connu des dbatteurs qui, face un adversaire qui conteste leur argumentation,
lancent le classique et intimidant Contestez-vous ces chiffres ?. Penaud, ladversaire est en gnral
oblig dadmettre quil est daccord avec les chiffres avancs, si bien que ce qui aurait d tre le
point central de la discussion, savoir que ce ne sont pas les chiffres qui sont contests, mais la
Le modle probabiliste 53
pas conscient de cette diffrence entre la population que lon cherche tudier et
celle que lon tudie rellement, on sera amen attribuer P des proprits qui sont
en fait celles de P(|A), ce qui nest pas vraiment souhaitable, en particulier si ces
probabilits sont fortement distinctes ! Un exemple trs simple de ce phnomne est
constitu par les enqutes statistiques dont les rponses sont obtenues sur la base
du volontariat. Par exemple, un magazine adresse ses lecteurs un questionnaire,
mais seuls rpondent ceux qui le souhaitent. Dans ce cas, la population rellement
touche par ltude est constitue par les individus ayant souhait et trouv le temps
dy rpondre, et, dans certains cas, il est parfaitement possible quil existe une d-
pendance entre les rponses aux questions poses et le fait de souhaiter et davoir
le temps de rpondre au questionnaire (par exemple, seuls les lecteurs se sentant
particulirement concerns par les questions poses rpondront, et la rpartition de
leurs rponses peut donc diffrer de celle des rponses que fourniraient lensemble des
lecteurs du magazine). De la mme manire, la population des lecteurs du magazine
forme une sous-population bien particulire de la population totale sont distinctes, et
extrapoler les rponses de celle-ci celle-l revient ignorer la prsence de la slec-
tion. Un exemple historique de biais de slection est le sondage du magazine Literary
Digest qui, loccasion de llection prsidentielle amricaine de 1936, avait prvu la
victoire du candidat rpublicain (Landon) contre le candidat dmocrate (Roosevelt),
sur la base dune enqute postale portant sur plus de deux millions de personnes.
Cest en fait Roosevelt qui fut lu. Pour ce qui nous intresse de cette histoire, il faut
noter que la liste des personnes sondes par le magazine avait t tablie partir
dune liste de ses lecteurs, de dtenteurs dautomobiles, et dusagers du tlphone,
ce qui, lpoque, reprsentait une forte slection en faveur des couches aises de la
population, do videmment un biais de slection. Avec la confusion entre dpen-
dance et causalit, la non-prise en compte dun possible biais de slection dans un
argument statistique constitue lune des pires erreurs qui se puissent commettre. La
prsence dun biais de ce type nest cependant pas toujours facile dceler, celui-ci
pouvant se manifester en amont (par exemple au moment de la collecte des donnes),
ou en aval (aprs que celles-ci ont t collectes). Voir ce sujet lexercice 30.
Dans ce qui suit, nous donnons plusieurs exemples simples deffet de loupe pro-
babiliste.
o A signifie que lalarme sest dclenche au moins une fois pendant vos vacances
estivales, N quelle ne sest pas dclenche, C que des cambrioleurs ont effectivement
tent de sintroduire dans votre domicile, et T que personne na rien tent de sem-
blable (T pour tranquillit). Choisissons les probabilits de la faon suivante : la
probabilit dtre victime dun cambriolage pendant vos vacances est de 1% (nous
ngligerons la possibilit que deux cambriolages puissent se produire), la probabilit
pour que lalarme se dclenche sachant que des cambrioleurs sont prsents (sensibi-
lit) est de 99%, et la probabilit pour que lalarme ne se dclenche pas en labsence de
cambrioleurs sans raison (spcificit) est de 95%. Ces informations nous permettent
de spcifier compltement les probabilits affectes chaque ventualit lmentaire,
grce la formule de Bayes. Ainsi, la probabilit P(CA) nest autre que la proba-
bilit de lintersection des deux vnements A : lalarme se dclenche et C : les
cambrioleurs sont l, qui, daprs la formule de Bayes, est gale :
De mme,
Do :
0, 0495
P(C|A) = = 0, 8333...
0, 0594
Ainsi, avec une probabilit suprieure 80%, un dclenchement de lalarme ne cor-
respond pas une intrusion de cambrioleurs. La fiabilit du systme dalarme nest
pourtant pas en cause : malgr les apparences, qui pourraient nous faire conclure
sa pitre qualit, il fonctionne avec une probabilit de 99% en prsence de cambrio-
leurs, et les dclenchements errons ne surviennent quavec une probabilit de 5%
en labsence de cambrioleurs. Cest en fait la probabilit relativement faible, 1%, de
subir un cambriolage, qui est responsable de la surreprsentation des fausses alarmes
parmi les situations o lalarme se dclenche.
Le modle probabiliste 57
Construisons encore un modle probabiliste trs simple, dont lespace des pos-
sibles est
= { S , L } { V , N } { S2 , L2 },
o S signifie que la file dans laquelle vous vous trouvez avance vitesse satisfaisante,
L quelle avance anormalement lentement (parce quun article a t mal tiquet,
parce que limprimante tickets de caisse tombe en panne...), V signifie que vous
vrifiez la vitesse de la file voisine pour confirmer votre infortune, N que vous ne vous
intressez pas la file voisine, S2 que ladite file voisine avance une vitesse que vous
jugez satisfaisante, et R2 que celle-ci avance anormalement lentement. Choisissons les
probabilits de la faon suivante : la probabilit pour que votre file avance lentement
est gale 20% ; si votre file avance rapidement, la probabilit pour que vous vous
intressiez la vitesse de la file voisine est de 4% (vous navez aucune raison de vous y
intresser, et, en plus, vous nen avez pas le temps car votre file avance rapidement...),
mais elle est de 95% si votre file avance lentement (vous avez le temps de regarder
autour de vous, et, en plus, vous cherchez une preuve du fait que, dcidment, le
sort sacharne sur vous...). Par ailleurs, supposons que, sachant que votre file avance
rapidement, ou pas, et que vous vous intressiez la file voisine, ou pas, la probabilit
que la file voisine avance lentement est, indiffremment, gale 20%, comme pour la
vtre. La question que nous posons est la suivante : sachant que vous observez la file
voisine, quelle est la probabilit que celle-ci avance rapidement et la vtre lentement ?
Ici encore, nous pourrions facilement calculer les probabilits associes chacune
des ventualits lmentaires. Nous nen avons cependant pas besoin pour rpondre
la question que nous nous posons. Appelons V lvnement vous observez la
file voisine, L lvnement votre file avance lentement et S2 lvnement la file
voisine avance rapidement. Daprs la formule de Bayes,
P(L S2 V )
P(L S2|V ) = .
P(V )
Daprs la formule de Bayes toujours,
P(L S2 V ) = P(S2|L V ) P(L V ) = P(S2|L V ) P(V |L) P(L).
Do, avec nos choix de probabilit :
P(L S2 V ) = 0, 8 0, 95 0, 2 = 0, 152.
58
Dautre part, en constatant que lvnement V scrit comme la runion disjointe des
deux vnements V L et V L, nous obtenons que :
P(V ) = 0, 95 0, 2 + 0, 04 0, 8 = 0, 222.
Pour dpister une maladie, on effectue un test sanguin. Si le patient est effecti-
vement atteint, le test donne un rsultat positif avec une probabilit de 99% (sen-
sibilit). Si le patient est sain, le test donne un rsultat ngatif (spcificit) avec
une probabilit de 98%, mais peut donc malheureusement donner un rsultat positif
avec une probabilit de 2%. Nous supposerons que la probabilit dtre frapp par la
maladie est de 0,1% pour un patient se prsentant au dpistage (on peut imaginer
quil sagit dun dpistage assez systmatique, touchant une large fraction de la po-
pulation). Sachant que le test donne un rsultat positif, quelle est la probabilit que
le patient soit effectivement malade ?
Comme prcdemment, on construit un modle probabiliste dont lespace des
possibles est
= {MP, MN, SP, SN},
o M dsigne le fait que le patient soit malade, S le fait quil ne le soit pas, N le
fait que le test soit ngatif et P le fait quil soit positif. Appelons M lvnement le
patient est malade et P lvnement le test est positif. Nous cherchons donc la
probabilit conditionnelle P(M |P ). Grce la formule de Bayes, on a :
P(M P ) P(P |M ) P(M ) 0, 02 0, 999
P(M |P ) = = = .
P(P ) P(P ) P(P )
Le modle probabiliste 59
P(P ) = P(P |M )P(M )+P(P |M )P(M ) = 0, 990, 001+0, 020, 999 = 0, 02097.
Raisonnement baysien
Les exemples prcdents illustrent dans des situations trs simples ce que lon
appelle communment le raisonnement baysien, dans lequel on cherche valuer
les probabilits dvnements pouvant apparatre comme des causes (la prsence de
cambrioleurs, le fait dtre malade) partir de lobservation dvnements pouvant
apparatre comme des effets (dclenchement de lalarme, test positif). Il sagit dune
dmarche courante dans la pratique scientifique : valuer partir dobservations les
probabilits de diffrentes hypothses pouvant expliquer celles-ci. On notera quil
est dans ce contexte ncessaire de disposer destimations a priori des probabilits
relatives aux causes (frquence des cambriolages, incidence de la maladie) et des
probabilits des effets conditionnellement aux causes, sans quoi, le modle ne peut
tre compltement spcifi, et lon ne peut mener bien ce type de raisonnement. On
retient la dmarche qui consiste considrer un modle gnral (quil est possible,
dans nos exemples, de formuler facilement) puis le conditionner par les vnements
60
observs, afin dvaluer les probabilits recherches, qui sont donc des probabilits
conditionnelles, plutt que de chercher valuer directement celles-ci. Pour en ap-
prendre beaucoup plus sur le raisonnement baysien, vous pouvez consulter louvrage
de Howson et Urbach cit dans la bibliographie.
Dans cette partie, nous dcrivons la struture commune tous les modles pro-
babilistes qui apparaissent dans le cadre de ce cours, et qui est, en fait, commune
la plupart des modles probabilistes discrets effectivement employs. Les probabili-
ts conditionnelles y jouent un rle fondamental, et il est indispensable de matriser
compltement cette notion, ainsi que ce qui suit.
Les trois exemples (alarme, caisse, dpistage) qui prcdent illustrent lutilisa-
tion des probabilits conditionnelles de deux manires au moins : dabord pour tirer
des conclusions dans le cadre dun modle probabiliste dj construit, en tenant
compte dune information sur le droulement de lexprience, mais galement, et de
faon fondamentale, pour construire les modles probabilistes employs. En effet,
la plupart des modles probabilistes (pour ne pas dire tous) que nous considre-
rons font intervenir, et de faon prpondrante, les probabilits conditionnelles dans
leur construction, et les exemples qui prcdent illustrent cette rgle : relisez-les, et
vous constaterez quils sont entirement formuls en termes de probabilits condi-
tionnelles. Les quantits pertinentes (probabilit pour que lalarme se dclenche en
prsence dun cambrioleur, probabilit pour que le test de dpistage choue sur un
individu malade,...) qui nous apparaissent naturellement comme les paramtres du
modle, susceptibles dtre valus exprimentalement, sont des probabilits condi-
tionnelles, et cest elles qui nous permettent de dfinir la probabilit sur ! En fait,
tous les modles probabilistes que nous considrerons sont construits partir dune
structure squentielle de choix (explicitement prsente dans la situation considre,
ou pose par le modlisateur), qui sous-tend la reprsentation de la situation par les
lments de . Sur cette structure squentielle se greffent les probabilits condition-
nelles qui permettent la spcification de la probabilit P. Nous sommes ainsi amens
naturellement reprsenter laide dun arbre, dont les feuilles correspondent aux
lments de , et aux artes duquel sont attaches des probabilits conditionnelles
permettant dobtenir la probabilit de nimporte quelle feuille en effectuant le pro-
duit des probabilits conditionnelles le long de la branche de larbre menant cette
feuille. Cest en particulier le cas des trois exemples donns prcdemment (relisez-
les !), comme lillustre pour le premier exemple le schma ci-dessous, et nous allons
dans ce qui suit donner une version gnrale de cette construction.
Le modle probabiliste 61
CA P(CA)=1%*99%
P(CA|C)=99%
P(C)=1%
P(CN|C)=1%
CN P(CN)=1%*1%
TA P(TA)=99%*5%
P(TA|T)=5%
P(T)=99%
P(TN|T)=95%
TN P(TN)=99%*95%
Notez que, dans notre traitement de cet exemple dans un prcdent paragraphe,
nous avons donn une description exhaustive de , en fournissant simplement la liste
de ses lments :
= {CA, CN, TA, TN},
ce que lon aurait pu crire de manire quivalente
Une autre possibilit aurait t de reprsenter sous forme dun tableau double
entre (en utilisant quil ny a en prsence que deux lments variables pris en compte
dans le modle : dclenchement ou non-dclenchement de sonnerie, prsence ou ab-
sence de cambrioleurs), comme suit, chaque case du tableau reprsentant une ven-
tualit lmentaire.
C T
A
N
Ces deux possibilits de reprsentation prsentent un certain intrt, mais nous leur
prfrerons souvent la reprsentation en arbre, qui simpose naturellement dans de
nombreuses situations.
De manire gnrale, lorsquune situation est dcrite en termes de choix successifs
qui dterminent progressivement lissue ralise (chaque choix comportant un nombre
62
111
11
1 112
12
21
22
2 231
23
232
Voile 11
Plusieurs 112
Mer 1
Bronzage 12
Ski alpin 21
Snow-board 22
Montagne 2
Solitaire 231
Ski rando. 23
Groupe 232
Au niveau de description que nous avons choisi (et qui nest bien entendu pas
le seul possible, il ne sagit ici que dun exemple assez rudimentaire, et pas n-
64
(Si lvnement a1 . . . ak1 est de probabilit nulle, on peut tout aussi bien lliminer
du modle, cest--dire supprimer le sommet qui lui correspond ainsi que tous ses
descendants. Aussi, nous supposerons que les vnements associs aux diffrents som-
met de larbre sont tous de probabilit non-nulle.) La connaissance de ces probabilits
conditionnelles permet de calculer la probabilit de nimporte quelle ventualit l-
mentaire (cest--dire de nimporte quelle feuille de larbre), en effectuant le produit
des probabilits conditionnelles associes aux artes du chemin menant de la racine
la feuille en question. Plus formellement, ceci sexprime laide de lgalit :
P(a1 . . . ak ) = P(a1 . . . ak |a1 . . . ak1 )P(a1 . . . ak1 |a1 . . . ak2 ) P(a1 a2 |a1 )P(a1 ).
contraire des probabilits finales associes directement aux lments de . Plutt que
de spcifier directement la valeur de P pour chacune des ventualits lmentaires,
on spcifiera donc plutt, pour chaque arte de larbre, la probabilit conditionnelle
qui lui est associe, la probabilit dune ventualit lmentaire se dduisant de ces
probabilits conditionnelles par produit le long des branches de larbre, de la racine
lextrmit reprsentant lventualit lmentaire en question. Les probabilits condi-
tionnelles de la forme P(a1 . . . a` |a1 . . . ak ), pour ` k, sexpriment galement trs
facilement sous forme de produit des probabilits conditionnelles le long de la por-
tion de chemin reliant dans larbre le sommet a1 . . . ak au sommet a1 . . . a` . Plus
exactement, la relation suivante est vrifie, pour k ` :
P(a1 . . . a` |a1 . . . ak ) =
P(a1 . . . ak+1 |a1 . . . ak ) P(a1 . . . ak+2 |a1 . . . ak+1 ) P(a1 . . . a` |a1 . . . a`1 ),
ce que lon vrifie aisment. De manire plus image, conditionner par un vne-
ment de la forme a1 . . . ak revient considrer le modle form par le sous-arbre issu
de a1 . . . ak et dont les probabilits conditionnelles associes aux artes sont celles du
modle initial.
111
1/3
11
2/5 2/3
1 112
1/2
3/5
12
21
1/2 1/4
2/4 22
2 231
1/3
1/4
23
2/3 232
Pour calculer la probabilit dune ventualit lmentaire, qui est donc reprsente
par un sommet terminal, il suffit de calculer le produit des probabilits condition-
nelles associes aux artes reliant la racine ce sommet. Par exemple, P(111) =
1/2 2/5 1/3, P(231) = 1/2 1/4 1/3, P(12) = 1/2 3/5. La probabilit
dun vnement peut ensuite tre obtenue, conformment la dfinition gnrale, en
effectuant la somme des probabilits des ventualits lmentaires qui le constituent.
Nous disposons ainsi dun moyen dassembler entre eux des modles probabilistes
simples (par exemple, un tirage uniforme parmi un nombre fini dlments) pour en
fabriquer de plus labors, et cest toujours ainsi que nous fabriquerons nos modles.
Ainsi, on peut voir lexemple de modle dcrit ci-dessus comme lassemblage des
Le modle probabiliste 67
modles suivants :
r = {1, 2}, Pr (1) = 1/2, Pr (2) = 1/2
1 = {1, 2}, P1 (1) = 2/5, P1 (2) = 3/5
2 = {1, 2, 3}, P2 (1) = 1/4, P2 (2) = 2/4, P2 (3) = 1/4
11 = {1, 2}, P11 (1) = 1/3, P11 (2) = 2/3
23 = {1, 2}, P23 (1) = 1/3, P11 (2) = 2/3
Bien entendu, rien ne nous oblige dfinir les a laide dentiers : nous ne les
avons prsents ainsi que pour tre disposer dune indexation des sommets de larbre
par des suites dentiers a1 . . . ak . On pourrait aussi bien avoir, par exemple (et de
manire plus explicite)
Pmontagne (ski alpin) = 1/4, Pmontagne (snowboard) = 2/4, Pmontagne (ski rando.) = 1/4,
mer voile = {solitaire, plusieurs}, Pmer voile (solitaire) = 1/3, Pmer voile (plusieurs) = 2/3,
Pmontagne ski rando. (solitaire) = 1/3, Pmontagne ski rando. (groupe) = 2/3,
Ainsi, un sommet de larbre situ la profondeur k pourra tre repr par une
suite de symboles de la forme b1 . . . bk , chaque lment bi tant un lment de lespace
des possibles b1 ...bi1 associ au sommet b1 . . . bi1 (avec toujours la convention selon
laquelle b1 . . . bi1 dsigne la racine r lorsque i = 1).
Nous aurons parfois considrer des systmes complets dvnements qui sont
naturellement associs la reprsentation en arbre des modles probabilistes : ceux
constitus par des vnements associs des nuds de larbre ou encore aux sous-
arbres issus de ces nuds. Pour un tel systme dvnements, chaque rayon issu de
la racine de larbre rencontre ncessairement un et un seul des sommets associs au
systme complet.
Donnons maintenant quelques exemples simples de modles en arbre.
Pn n
1 (a1 . . . ak |a1 . . . ak1 ) = P1 (ak ) = 1/n,
On peut galement modliser par un arbre des tirages successifs mais non-indpendants
cette fois. Un exemple simple est la situation o chaque tirage supprime lobjet qui
vient dtre tir des possibilits de tirages ultrieurs (do le nom), chaque objet
tant tir uniformment parmi les objets restants. Cette fois, larbre dfinissant
est un chouia plus difficile dcrire que dans le cas prcdent. Numrotons les objets
susceptibles dtres tirs par les entiers de 1 m. On fabrique le modle probabiliste
(nsr , Pnsr ) dcrivant m tirages uniformes sans remises successifs (n m) en asso-
ciant dabord la racine le modle r = {1, . . . , n} muni de la probabilit uniforme
Pr , chaque entier 1, . . . , n reprsentant le numro de lobjet choisi, puis, rcursi-
Le modle probabiliste 69
1 1 1
.
m m1 mn+1
Comme dans le modle prcdent, la probabilit sur nsr est donc la probabilit
uniforme, le nombre dlments de lespace des possibles tant cette fois gal m(m
1) (m n + 1). Ici encore, la spcification de la probabilit laide de la
structure darbre est trs naturelle : conditionnellement la liste dobjets dj tirs, la
probabilit de tirer lun quelconque des objets restants est uniforme parmi lensemble
des objets restants.
Une proprit intressante de ce modle est son changeabilit. Celle-ci signi-
fie que, si est une permutation quelconque des entiers de 1 n, larbre obtenu
en indiquant au ime niveau le tirage du (i)me objet (dans la prsentation
ci-dessus, nous avions (i) = i car le i-me niveau de larbre reprsentait le ime
tirage), est le mme que celui dcrit ci-dessus, avec les mmes ramifications et, sur-
tout, les mmes probabilits conditionnelles associes aux artes. Voir lexercice 74.
Une telle proprit est galement valable pour le modle de tirages uniformes rpts
indpendamment, dcrit prcdemment (voir plus bas la discussion sur la succession
dpreuves indpendantes).
16
Y
P [(x1 , . . . , x16 )] = pxi (1 p)1xi ,
i=1
1 = {linformation circule entre (S) et (B), linformation ne circule pas entre (S) et (B)},
Si cette hypothse est vrifie, (il sagira alors dune information !) et si nous pou-
vons valuer p (par exemple, laide de donnes concernant dautres connexions du
mme type), nous pourrons dduire de (2 , P2 ) la probabilit de fonctionnement du
systme, cest--dire la probabilit pour que linformation puisse circuler de (S) vers
(B). En revanche, 1 ne permet pas directement dutiliser ces informations pour cal-
culer la probabilit P1 , et le dtour par (2 , P2 ), mme implicite, est indispensable.
Notre recommandation est alors de choisir directement et sans hsiter (2 , P2 ).
ayant concrtement lieu lune aprs lautre, que dune succession aussi bien que dune
succession suppose, les preuves pouvant aussi bien avoir lieu simultanment que
dans un ordre chronologique compltement diffrent de celui suggr par la numro-
tation 1, . . . , n.
Comme nous lavons dj suggr sur des exemples dans les parties prcdentes,
on peut dcrire cette succession laide du modle en arbre suivant, dfini rcur-
sivement : la racine, on associe le modle (1 , P1 ), et, rcursivement, au sommet
(a1 . . . ak ), k n 1 , on associe le modle (k , Pk ). Autrement dit, les probabilits
conditionnelles sont dfinies par :
Dans lgalit ci-dessus, ak+1 reprsente une issue de lpreuve numro k + 1, cest--
dire un lment de k+1 , et la dnomination de succession indpendante est justi-
fie par le fait que, conditionnellement aux ralisations des k premires expriences
(reprsentes par (a1 . . . ak )), la probabilit dobtenir ak+1 lors de la k + 1me ex-
prience est gale Pk+1 (ak+1 ), cest--dire la probabilit dobtenir ak+1 dans le
modle (k+1 , Pk+1 ) qui dcrit individuellement lpreuve numro k + 1. Autrement
dit, la connaissance des ralisations des k premires preuves ne modifie pas la proba-
bilit Pk+1 dcrivant individuellement la ralisation de la k + 1me. Notez que cette
dfinition des probabilits conditionnelles est la seule possible si lon veut traduire
lindpendance des expriences les unes vis--vis des autres. Nous allons prsent
dcrire quelques proprits de ce modle, qui, quoiquassez videntes intuitivement,
mritent tout de mme dtre formules prcisment et prouves. Nous pourrons ainsi
prciser la notion dindpdance mutuelle sous-jacente au modle (et ce sera gale-
ment loccasion de nous entraner un peu la manipulation de ce type de modle en
arbre).
On note tout dabord que, pour utiliser la notation mathmatique courante, les-
pace des possibles dfini prcdemment par sa reprsentation en arbre sidentifie au
produit cartsien :
1 n .
De plus, la probabilit sur dfinie par la rprsentation en arbre ci-dessus, que
nous noterons P1 Pn , peut sexprimer explicitement sous la forme (qui justifie
la notation) :
n1 = 1 1
76
et
Pn1 = P1 P1 ,
a1 a3 a4 a8 a9 . . . an ,
correspondant au fait que lissue de lpreuve numro i1 est donne par ai1 , celle de
lpreuve numro i2 par ai2 ,..., celle de lpreuve numro ip par aip , les issues des
autres preuves ntant pas spcifies. Plus prcisment, en notant (pour conomiser
un peu de place) := 1 n et P := P1 Pn , on a :
est en fait la somme sur toutes les ventualits lmentaires de lespace jk des
valeurs de la probabilit Pjk , on constate que toutes ces sommes sont en fait gales
1, do finalement lgalit recherche :
revient lcrire :
[
A= ai1 ai2 aip ,
(ai1 ,...,aip )Ai1 ,...,ip
les vnements apparaissant dans la runion ci-dessus tant par ailleurs deux--deux
disjoints car, si (ai1 , . . . , aip ) 6= (a0i1 , . . . , a0ip ), il existe au moins un indice il tel que
ail 6= a0il , et les vnements
a i1 a i2 a ip
et
a0i1 a0i2 a0ip
sont donc incompatibles (ils imposent deux valeurs diffrentes pour la mme coor-
donne il ).
Nous pouvons maintenant noncer la proprit connue sous le nom de tho-
rme des coalitions : si la dfinition de A ne fait intervenir que les rsultats des
expriences numrotes i1 , . . . , ip et si la dfinition de B ne fait intervenir que les
rsultats des expriences numrotes j1 , . . . , jq , et si les deux ensembles dindices
I = {i1 , . . . , ip } et J = {j1 , . . . , jq } sont disjoints, alors A et B sont indpendants.
Avant tout commentaire, prouvons cette proprit. Tout dabord, notons que, si
les deux ensembles dindices I = {i1 , . . . , ip } et J = {j1 , . . . , jq } sont disjoints, un
vnement de la forme A = ai1 ai2 aip et un vnement de la
forme B = bj1 bj2 bjq sont toujours indpendants. En effet,
leur intersection scrit :
o
{k1 , . . . , kp+q } = {i1 , . . . , ip } {j1 , . . . , jq },
et B de la forme
on en dduit que
X
Pn ( ai1 ai2 aip )
P(A) =
(ai1 ,...,aip )Ai1 ,...,ip
et que X
Pn ( bj1 bj2 bjq ) .
P(B) =
(bj1 ,...,bjq )Bj1 ,...,jq
Les vnements
o (ai1 , . . . , aip ) dcrit Ai1 ,...,ip et o (bj1 , . . . , bjq ) dcrit Bj1 ,...,jq . (petit exercice ne
prsentant aucune difficult, chercher vous-mme.) Par consquent, P(A B) est
gale (les sont remplacs par des pour limiter la taille des formules) :
XX
P ( ai1 ai2 aip ) ( bj1 bj2 bjq )
XX
= P ( ai1 ai2 aip ) P ( bj1 bj2 bjq ) ,
PP
o la notation dsigne la sommation
X X
,
(ai1 ,...,aip )Ai1 ,...,ip (bj1 ,...,bjq )Bj1 ,...,jq
Exemple :
= {GG,GF,FG,FF},
o les fi peuvent prendre la valeur c , Afi i dsignant alors Aci , ou la valeur (blanc), Afi i
dsignant alors tout simplement Ai . Nous dirons alors que les vnements (A1 , . . . , An )
sont mutuellement, ou encore globalement indpendants, lorsque le modle (A , PA )
concide avec le modle form par la succession indpendante des modles (i , Pi )
dfinis par :
Les deux dfinitions sont quivalentes, mais la premire, quoiquun peu plus abs-
traite au premier abord, a lavantage de bien expliquer la seconde. De plus, nous
pouvons (en vertu de la premire dfinition) utiliser le thorme des coalitions dans
notre contexte : si A1 , . . . , An sont des vnements mutuellement indpendants, et
si I = {i1 , . . . , ip } et J = {j1 , . . . , jq } sont deux familles dindices disjoints de
{1, . . . , n}, un vnement dfini seulement partir des vnements Ai1 , . . . , Aip et un
vnement dfini seulement partir des vnements Aj1 , . . . , Ajq sont indpendants.
Nous voyons donc apparatre ce qui constitue le cur de la notion dindpendance
globale dune famille dvnements : non seulement les couples dvnements de cette
famille doivent tre indpendants, mais galement les couples de coalitions dv-
nements de cette famille se rapportant deux groupes dvnements spars. Par
exemple les vnements A1 se produit et A4 ne se produit pas et A2 , A3 ou A5
se produit.
Comment utiliser cette notion ? La plupart du temps, nous lutiliserons sous la
forme suivante : nous saurons a priori que les vnements A1 , . . . , An sont mutuelle-
ment indpendants, et nous utiliserons ce fait pour calculer les probabilits du type
h i
P Af11 Af22 Afnn ,
On constate que, daprs nos hypothses, les deux vnements Afnn , dune part, et
f
Af11 Af22 An1
n1
dautre part, se rfrent deux groupes dpreuves disjoints, donc le thorme des
coalitions entrane que ces deux vnements sont indpendants, et, par consquent,
que : h i h i
fn1
P Af11 Af22 Afnn = P Af11 Af22 An1 P(Afnn ).
En itrant largument, on vrifie bien que lon a finalement :
h i h i h i
P Af11 Af22 Afnn = P Af11 P Afnn .
A1 = a1 a2 . . . aL ,
| {z }
longueur totale N
Ai =
| {z
} a1 a2 . . . aL | {z
} ,
i1 jokers N L+1i jokers
qui correspond au fait que le texte du Discours de la mthode est saisi partir du
ime caractre frapp par le singe (comme on arrte lexprience aprs la N me
touche frappe, on doit ncessairement avoir i N L+1, sans quoi le texte naurait
pas la possibilit dtre saisi compltement.) Chaque vnement Ai a galement une
probabilit gale 2L dans notre modle. Lvnement
N L+1
[
BN = Ai ,
i=1
correspond, par dfinition, au fait que, au bout dun certain temps, le singe sai-
sit entirement le texte du Discours de la mthode, et nous allons montrer que,
lorsque N tend vers linfini (cest--dire, lorsque lon poursuit lexprience pendant
un nombre de touches frappes qui tend vers linfini), la probabilit PN (BN ) tend
vers 1, ou, autrement dit, que lvnement BN devient trs probable lorsque N tend
vers linfini.
On ne peut pas calculer la probabilit de BN en utilisant une relation du type :
L+1
NX
N
P (BN ) = PN (Ai ),
i=1
Le modle probabiliste 85
car les vnements Ai ne sont pas en gnral deux--deux disjoints (si N est assez
grand, on pourrait trs bien avoir plusieurs versions du Discours de la mthode
figurant la suite dans le texte saisi par le singe). (Les guillemets sont l pour
rappeler aux amateurs de lecture en diagonale que lgalit nest pas valable.)
Pour montrer que la probabilit de BN est proche de 1 lorsque N tend vers linfini,
nous allons plutt tenter de montrer que la probabilit de son complmentaire, BN c
tend vers zro lorsque N tend vers linfini. Le complmentaire dune runion tant
lintersection des complmentaires, on a :
N L+1
\
c
BN = Aci ,
i=1
Lorsque N tend vers linfini, bN/Lc tend galement vers linfini (L est fix, L
bN/Lc
780000). Comme (1 2L ) < 1, 1 2L tend vers zro lorsque N tend vers
linfini, et cest galement le cas de la probabilit PN (BNc ). Do en dfinitive le fait
Le plus souvent cependant, les concidences que nous relevons ne nous frappent
pas seulement en raison de leur faible probabilit (la plupart du temps bien relle,
comme nous venons de lexpliquer), mais parce quelles semblent suggrer une inter-
prtation qui dfie le sens commun un destin mystrieux conduit des amis stant
perdus de vue depuis longtemps se retrouver par hasard lors dun voyage ltran-
ger, un trange don de prmonition vous a fait deviner les trois premiers chiffres du
tirage du loto de ce soir, ou penser un cousin loign juste avant que celui-ci ne
vous appelle au tlphone, etc...
Lattitude rationnelle face ces concidences consiste bien entendu tester dabord
de manire systmatique les conclusions que leur interprtation suggre, avant de
gloser plus avant. Par exemple, le fait de penser une personne accrot-il rellement la
probabilit que celle-ci vous appelle peu aprs ? Pour en juger, il est ncessaire den-
registrer systmatiquement les occasions o il vous arrive dvoquer une personne de
connaissance en pense, et de mesurer la frquence avec laquelle ces penses sont sui-
vies dun appel de la personne en question dans un dlai raisonnablement bref. Ainsi,
on vite le biais de slection (ici, dorigine psychologique), consistant stonner,
et donc retenir, les cas o la personne laquelle vous venez de penser vous appelle,
tout en oubliant de remarquer, et donc en ngligeant, tous les cas o lon pense
une personne sans que celle-ci nappelle dans les minutes qui suivent, et le problme
plus vident, mais parfois ignor, de loubli de variabilit qui consisterait tirer des
conclusions partir de lobservation dune unique concidence.
Il parat vraisemblable quen procdant de cette manire, aucun accroissement
significatif de la probabilit dtre appel ne sera mis en vidence. Toutefois, cela peut
parfaitement tre le cas sans que cela soit pour autant le signe que vous possdez
un don particulier, tout simplement parce quil peut tre plus probable dvoquer
en pense des personnes auxquelles on a eu affaire dernirement, en particulier ses
proches, et qui sont par consquent plus susceptibles de vous appeler que dautres.
A priori et a posteriori
Dans ce qui prcde, nous avons constat que, la plupart du temps, on pouvait
rtrospectivement attribuer une trs faible probabilit la manire particulire
selon laquelle une situation stait ralise. Il est bien vident que, dans ce cas,
lvnement dont on examine la probabilit dpend de la manire dont la situation
sest ralise (cest compltement vident dans lexemple des lancers de pile ou face).
En revanche, lorsque lvnement de faible probabilit auquel on sintresse est fix
indpendamment par exemple lavance de la ralisation de lexprience, il y
a tout lieu dtre surpris si celui-ci se produit, et cela doit inciter, sinon rejeter
le modle, du moins rexaminer les arguments en faveur de celui-ci (de manire
systmatique, naturellement !).
Quant savoir partir de quel niveau de probabilit il convient de stonner,
tout dpend du contexte, et il nest pas forcment de bonne politique de fixer une
limite a priori en-de de laquelle les vnement sont considrs comme improbables,
et au-dessus de laquelle leur apparition doit tre considre comme non-surprenante.
Dautre part, en pratique, il nest bien entendu pas toujours vident de sassurer
quil y a bien indpendance entre lvnement considr et la ralisation de lexp-
rience (voir la section Hypothses suggres par les donnes).
Familles dvnements
On voit ainsi que, en toute gnralit, si lon dispose de n vnements dont toutes
les probabilits sont infrieures une valeur , tout ce que lon peut en dduire en
gnral est le fait que P(A1 . . . An ) n, et lon ne peut ainsi affirmer que la
runion de tous ces vnements est improbable du fait que chacun des vnements
lest, que lorsque n << 1. Bien entendu, rien ne prouve, et il nest pas vrai en
gnral, que n soit le bon ordre de grandeur pour cette probabilit. Dans le cas
particulier dvnements indpendants, on peut nanmoins crire que
n
Y
P(A1 . . . An ) = 1 (1 P(Ai )).
k=1
quipes observe un taux de gurison si lev chez les patients traits laide de la
vitamine X, que, sous lhypothse que la vitamine X est sans effet sur le cancer, on ne
puisse esprer observer un tel taux quavec une probabilit denviron 2%. Lquipe
en question, qui travaille seule, estimera avoir de bonnes raisons de penser que la
vitamine X possde un effet rel sur le cancer !
1.9 Auto-valuation
Quest-ce quun modle probabiliste (en tant quobjet mathmatique) ?
Que reprsente concrtement lespace des possibles ?
Quelles sont les diffrentes traductions concrtes de la notion de probabilit ?
Donnez au moins trois sens nettement diffrents de la notion de probabilit,
assortis dexemples dans chacun des cas.
Tout ce qui est a priori susceptible de varier dans une exprience alatoire
figure-t-il explicitement dans le modle ?
Quest-ce quun vnement formel dans le cadre dun modle probabiliste ?
Quel lien y a-t-il entre vnement concret et vnement formel ?
Un vnement concret est-il toujours associ un vnement formel ?
Comment dfinit-on la probabilit dun vnement partir de la probabilit
associe aux lments de lespace des possibles ?
Y a-t-il en gnral un ou plusieurs modles probabilistes susceptibles de dcrire
la mme situation ? Quelles peuvent tre les diffrences ? Que reprsentent-
elles ?
Que signifie la compatibilit de deux modles ?
Y a-t-il toujours compatibilit entre un modle plus fin et un modle moins fin
dune mme situation ?
Quest-ce quun modle plus fin quun autre ?
A-t-on toujours lgalit P(A B) = P(A) + P(B) (faire un dessin) ? Sinon,
quelle est la relation qui a lieu en gnral entre ces deux quantits ? Quen est-il
avec n vnements A1 , . . . , An au lieu de deux ?
Comment est dfinie (formellement) la probabilit conditionnelle ?
Que reprsente-t-elle concrtement ?
Comment calcule-t-on la probabilit dun vnement conditionnellement un
autre ?
Quest-ce que leffet de loupe probabiliste (donnez au moins un exemple) ?
Que signifie la dpendance de deux vnements ?
Que signifie lindpendance de deux vnements ?
Diffrence(s) entre relation de cause effet et dpendance probabiliste entre
vnements ?
Dans un modle en arbre, que reprsentent les feuilles de larbre ?
96
1.10 Exercices
Exercice 1 Chaque matin, au rveil, Jojo peut se livrer (ou non) chacune des
activits suivantes :
se laver
se brosser les dents
boire un caf
couter la radio
se raser
Dcrire un espace des possibles permettant de modliser les activits matinales de
Jojo.
Appelons A lvnement Jojo se rase, B lvnement Jojo se brosse les dents,
C lvnement Jojo coute la radio. Dcrire les vnements formels correspondants
ces vnements dans lespace des possibles que vous avez choisi.
Exprimer laide des vnements A, B, C les vnements suivants :
ce matin, Jojo se brosse les dents mais ncoute pas la radio
ce matin, Jojo ncoute pas la radio mais se brosse les dents
ce matin, Jojo boit un caf ou se rase, mais ncoute pas la radio
ce matin, Jojo, ou bien se rase, ou bien se brosse les dents, et dans tous les cas
coute la radio
ce matin, Jojo, ou bien se rase, ou bien se brosse les dents et coute la radio
ce matin, Jojo, ou bien se rase et ncoute pas la radio, ou bien se brosse les
dents et coute la radio
ce matin, Jojo ne se rase pas, ou ne se brosse pas les dents ni ncoute la radio
ce matin, Jojo se rase ou se brosse les dents ou coute la radio
ce matin, Jojo ne se rase pas, ou bien il coute la radio et se brosse les dents
ce matin, Jojo ne se rase pas, ou bien il se rase et coute la radio
Le modle probabiliste 97
Exercice 3 Pour chacun des exemples ci-dessous, expliquer comment on doit, selon-
vous, interprter la probabilit qui y apparat, et comment (trs grossirement) on
pourrait tenter dvaluer celle-ci (et donc confirmer ou infirmer les valeurs propo-
ses).
La probabilit pour que le candidat A soit lu lors de la prochaine lection
prsidentielle est de 60%.
La probabilit pour que la pice de monnaie tombe sur face est de 50%.
La probabilit pour que lquipe de football du Brsil lemporte demain face
lAllemagne est de 1/4.
La probabilit pour quil pleuve demain Lyon est de 1/3.
La probabilit pour quil ait plu il y a exactement 3000 ans sur le site aujour-
dhui occup par Lyon est de 1/3.
La probabilit pour quune mtorite de plus de 500m de diamtre de circon-
frence percute la terre au cours du prochain millnaire est de moins de 2%.
La probabilit pour que la fuse explose au dcollage est de moins de 2%.
La probabilit, pour un individu n en France en 1920, de vivre plus de 80 ans
est de 75%.
La probabilit pour un individu n en France en 1954, de vivre plus de 80 ans
est de 85%.
La probabilit pour un individu n en France en 1954 de possder un chien
est de 60%.
La probabilit pour que D*** (qui est n en France en 1954) possde un chien
est de 70%.
La probabilit pour quun atome de carbone 14 subisse une dsintgration au
cours des 5730 prochaines annes est de 50%.
La probabilit pour quun photon incident mis par la source S soit absorb
par le dtecteur D est de 1/3.
La probabilit pour que lpidmie se propage est de 5%.
La probabilit pour quun paquet de donnes mette plus de 0,1 seconde pour
tre transmis dans le rseau est de 10%.
La probabilit pour que lenfant natre soit une petite fille est de 1/2.
La probabilit pour que la croissance du PIB soit cette anne suprieure 2%,
est de 70%.
voix sera limin, et le candidat prsent au second tour obtenant le plus de voix (et
donc la majorit) sera lu prsident. Un institut de sondage a ralis une enqute
sur ltat de lopinion publique au Jojostan en demandant 10 000 personnes de
classer par ordre de prfrence dcroissant les trois candidats. Les rponses obtenues
(en pourcentages) se rpartissent de la faon suivante :
par :
16
Y
P [(x1 , . . . , x16 )] = pxi (1 p)1xi ,
i=1
en est bien une. Montrez que ce modle apparat comme une succession dpreuves
indpendantes.
Exercice 6 Pour prvoir le temps quil fera demain, Alfred se base en partie sur
les mouvements de sa grenouille. Batrice, elle, se fie plutt aux prvisions de la
mtorologie nationale. Finalement, Alfred utilise le modle suivant pour dcrire le
temps :
A = {Haut, Milieu, Bas} {Beau, Maussade, Pluvieux},
avec
PC (Beau) = 1/4, PC (Maussade) = 1/2, PC (Pluvieux) = 1/4.
Expliquez comment Alfred et Batrice peuvent exploiter leurs modles respectifs
pour estimer les probabilits relatives au temps quil fera demain partir des in-
formations fournies par la grenouille et la mto nationale respectivement. Donnez
des reprsentations en arbre des modles (A , PA ), (B , PB ), (C , PC ). Ces modles
sont-ils compatibles ?
Exercice 8 Jojo fait du ski la station Valles blanches. Il est en haut du tlski
des cailloux, et a le choix entre les pistes de Tout-Plat (une bleue), Les-Bosses (une
rouge) et Rase-Mottes (une noire). Il va choisir entre ces trois pistes au hasard, de
telle faon quil choisisse la bleue ou la noire avec probabilit 1/4, et la rouge, quil
prfre, avec probabilit 1/2. Il descend ensuite la piste choisie. Jojo nest pas encore
trs laise cette saison, et il tombe avec une probabilit de 0,1 sur la piste bleue, de
0,15 sur la piste rouge, et de 0,4 sur la piste noire.
1) Soit A lvnement Jojo tombe en descendant la piste quil a choisie. Calculer
P(A).
2) Bernard, qui attend Jojo en bas des pistes, la terrasse dun caf, voit arriver
Jojo couvert de neige : il est donc tomb. Sachant cela, quelle est la probabilit quil
ait emprunt la piste noire ?
100
Exercice 9 Dans le film Willow (Ron Howard, 1988), un sorcier met lpreuve
trois jeunes gens pour dcider lequel sera son apprenti. Lun aprs lautre, chacun
des trois candidats doit dsigner (en public) un doigt de la main du sorcier comme
tant le principal dans lexercice de la magie. Le premier donner la bonne rponse
sera choisi comme apprenti, le ou les suivants tant limins, et, si aucun ne fournit
la rponse correcte, le sorcier ne prendra aucun apprenti (cest dailleurs ce qui se
produit dans le film). Dcrire (et justifier) un modle probabiliste de cette situation,
puis proposer une rponse la question : quel candidat, du premier, du deuxime ou
du troisime, a le plus de chances dtre choisi ?
Exercice 11 Des amis de Jojo lui proposent de participer au jeu suivant : on dis-
pose de trois cartes dont lune a deux faces blanches, lautre deux faces rouges, et la
troisime une face blanche et une face rouge. Une carte est choisie au hasard parmi
les trois et seule lune des faces, choisie au hasard elle aussi, est expose au public.
Il sagit de parier sur la couleur de la face cache. Aprs quelques secondes de r-
flexion, Jojo se dit que, si la face expose est, par exemple, rouge, la carte tire peut
tre soit celle dont les deux faces sont rouges, soit celle dont une face est rouge et
lautre blanche, et quil y a donc une chance sur deux pour que la face cache soit
rouge, et une chance sur deux pour quelle soit blanche. De mme lorsque la face
expose est blanche... Il dcide donc de rpondre de manire alatoire rouge ou
blanc avec probabilit 1/2 pour chaque rponse. Son raisonnement et sa mthode
vous semblent-ils judicieux ? Faites lexprience par vous-mme, en comparant par
exemple la stratgie de Jojo la stratgie qui consiste parier systmatiquement sur
la mme couleur que celle qui figure sur la face visible de la carte. A vos jeux !
Le modle probabiliste 101
= {1; 2; 3; 4; 5; 6} {1; 2; 3; 4; 5; 6}
1 2 3 4 5 6
1 2/46 1/46 2/46 1/46 2/46 1/46
2 1/46 2/46 1/46 2/46 1/46 2/46
3 2/46 1/46 1/46 1/46 1/46 1/46
4 1/46 2/46 1/46 1/46 1/46 1/46
5 2/46 1/46 1/46 1/46 1/46 1/46
6 1/46 2/46 1/46 1/46 1/46 1/46
En admettant que le nombre de jours douverture du magasin est le mme pour les
deux saisons, quel serait le modle probabiliste permettant de dcrire les ventes pour
toute lanne ? Les ventes de lunettes et de parapluies y apparaissent-elles comme
indpendantes ? Quen est-il pour chacun des deux modles pris sparment ? Quen
conclure ?
Exercice 16 Prs de soixante pour cent des accidents de voiture graves impliquant
de jeunes enfants se produisent dans des vhicules o les enfants ne sont pas correc-
tement attachs. Soixante pour cent, cela fait beaucoup... A quoi faudrait-il comparer
ce chiffre ?
Exercice 19 Environ 10% des ouvrages publis par un diteur parisien, dont nous
tairons le nom, sont des succs de librairie. Afin destimer avant sa parution le succs
dun livre, lditeur a pour habitude de consulter deux experts diffrents. Consult sur
un nouvel ouvrage, le premier expert prdit un brillant succs, tandis que le second
rend un avis plutt ngatif, et annonce un chec probable.
On affirme couramment que le jugement du premier expert est fiable prs de
90%, tandis que le jugement du second ne le serait qu prs de 70%.
Comment de telles affirmations pourraient-elles tre traduites, et exploites pour
valuer la probabilit que le nouvel ouvrage soit un succs ?
Le modle probabiliste 103
Lditeur dispose en fait, pour une centaine douvrages quil a publis au cours
des annes prcdentes, des avis mis lpoque par les deux experts, ainsi que des
chiffres de vente des ouvrages correspondants.
Que feriez-vous, par exemple, de linformation selon laquelle le premier expert a
vu son pronostic confirm dans 80% des cas, tandis que le second na eu raison que
dans 60% des cas ?
Et si lon prcise que le premier expert a vu son pronostic confirm dans 70%
des cas lorsquil prdisait un succs, et le second galement dans 70% des cas, mais
lorsquil prdisait un chec ?
Quelles autres informations relatives aux prdictions des experts pourrait-on cher-
cher exploiter en se basant sur les donnes de lditeur, et de quelle manire ?
Exercice 20 Jojo participe un jeu tlvis fond sur le principe suivant. Derrire
trois portes fermes se trouvent respectivement une peluche, une barre chocolate, et
un chque de 5000 euros. Jojo (qui prfre gagner le chque) doit, pour commencer,
dsigner lune des trois portes. Cette porte dsigne, le prsentateur (qui sait, quant
lui, quels lots se trouvent derrire quelles portes) ouvre lune des deux autres portes,
rvlant ainsi le lot qui se trouve derrire. Jojo peut alors choisir, soit de prendre
le lot en question, soit de tenter nouveau sa chance en demandant louverture de
lune des deux portes restantes et gagner le lot situ derrire ladite porte. Sil choisit
de retenter sa chance, Jojo est donc plac devant lalternative suivante : demander
louverture de la porte quil avait initialement dsigne, ou de lautre porte demeurant
ferme (quil navait pas dsigne initialement, et que le prsentateur na pas ouverte).
Il se dit que face deux portes que rien ne semble distinguer, il a une chance sur
deux de trouver le chque derrire la porte quil avait initialement choisie, et une
chance sur deux de le trouver derrire lautre porte. Afin de ne pas regretter davoir
modifi un choix initial potentiellement gagnant (ce que Jojo estime pire que de perdre
en demeurant fidle sa premire impulsion), Jojo projette donc de maintenir son
premier choix. Que pensez-vous du raisonnement de Jojo ?
Exercice 24 Ce soir, Jojo doit se rendre une soire trs chic, et il hsite quant
la faon de shabiller. Il a le choix entre le traditionnel smoking (passe-partout, mais
qui ne lenthousiasme gure), son costume hyper-branch franges luminescentes (qui
lamuse beaucoup plus), et sa tenue de tous les jours (tout de mme beaucoup plus
confortable, mais pas trs prsentable). Il sera refoul lentre avec probabilit 0,1
sil porte le smoking, 0,3 avec son costume branch, et 0,7 avec sa tenue ordinaire.
Ne parvenant pas choisir, il dcide de sen remettre au hasard en lanant deux ds
quilibrs six faces. Si le maximum des deux ds est gal 6, il mettra son costume
de tous les jours. Sil est gal 4 ou 5, il mettra son costume branch, et son smoking
dans tous les autres cas.
Les heures passent, et les amis de Jojo, qui lattendent dans la salle o la soire
se droule, ne le voient pas arriver : il a donc malheureusement t refoul len-
tre. Comment, dans ces conditions, valuer la probabilit pour que Jojo ait mis son
costume branch ? Mme question avec la probabilit pour que lun des deux ds ait
donn un 3 ?
Exercice 27 Les 52 cartes dun jeu (sans joker) sont rparties au hasard en tas de 4
cartes, sur 13 emplacements numrots laide des indices 2, 3 ,..., 10, Valet, Dame,
Roi, 1. La rpartition effectue, on procde aux oprations suivantes.
1. initialisation : indice-tas-courant 1 ;
2. si le tas numrot par indice-tas-courant nest pas vide, enlever du jeu la carte
situe au sommet de ce tas, sinon STOP ;
106
Exercice 28 Prenez une grande respiration et... crivez rapidement le rsultat dune
suite de 200 rptitions (imaginaires) de lancers de pile/face indpendants et non-
biaiss. Etes-vous satisfait du rsultat ?
Exercice 29 Pour chacune des affirmations suivantes, commencez par indiquer quelle
peuvent tre la population tmoin et la population test, ainsi quune dfinition prcise
possible de la dpendance qui est mentionne. Discutez ensuite la prsence possible
de liens de cause effet, de causes caches et de facteurs de confusion dans chacun
des cas.
en Italie, on a constat que les rgions dans lesquelles les taux dachat dordi-
nateur personnels sont les plus importants sont galement celles o les taux de
divorce sont les plus levs ;
une tude japonaise portant sur 40000 quadragnaires montre que ceux qui se
brossent les dents aprs chaque repas parviennent mieux que les autres garder
la ligne ;
il existe une association positive entre utilisation de crme solaire et cancer de
la peau ;
on constate quau cours dune anne, un nombre lev de noyades enregistres
est positivement associ une consommation leve de crmes glaces ;
sur une longue priode, on constate une association ngative entre un prix lev
des cigarettes et un nombre lev dagriculteurs en Lozre ;
en Ecosse, des achats importants de whisky sont positivement associs la
rception de dons importants par les glises ;
la carte du vote Le Pen lors des lections prsidentielles de 2002 se superpose
avec celle de lirradiation due au nuage de Tchernobyl ;
dans les communes qui abritent des cigognes, la natalit est plus leve que
dans le reste du pays ;
une confiance leve des investisseurs est positivement associe une forte
croissance conomique ;
sur une vaste population, on constate que la consommation rgulire dalcool
pendant la grossesse est associe des retards de QI et des difficults dappren-
tissage chez les enfants ;
au cours du temps, un volume lev des recettes publiques allemandes est posi-
tivement associ un volume lev de dpenses des mnages espagnols ;
Le modle probabiliste 107
Exercice 32 Antoinette, trente et un ans, est une clibataire lgante qui a son
franc-parler. Ce fut une tudiante brillante. A lpoque de ses tudes, elle milita pour
le droit de vote des immigrs et prit part des manifestations en faveur de la mise en
place de crches dans les administrations. Classez les jugements suivants par ordre
de probabilit dcroissante (les ex-quo sont possibles).
Antoinette est une fministe militante.
Antoinette est caissire dans une banque.
Antoinette travaille dans une petite librairie.
Antoinette est caissire dans une banque et fministe militante.
Antoinette est caissire dans une banque, fministe militante, et pratique le
yoga.
Antoinette est une fministe militante qui travaille dans une petite librairie et
pratique le yoga.
Exercice 33 Trois amies, Alice, Bndicte, et Claire effectuent des stages dt dans
trois pays diffrents : Alice aux Etats-Unis, Bndicte au Canada, et Claire en Angle-
terre. La probabilit de subir un cambriolage lt est value 60% aux Etats-Unis,
10% au Canada, et 40% en Angleterre (ces chiffres sont totalement fictifs).
Lune des trois amies est cambriole au cours de son stage. Comment valuer la
probabilit quil sagisse de Claire ?
Total A lheure
Paris 600 534
Lyon 250 176
Pour la compagnie B :
Total A lheure
Paris 200 188
Lyon 900 685
Sur la base de ces donnes, quelle est la compagnie dont, en 2004, les vols
destination de Paris ont la plus forte probabilit darriver lheure ? Et pour Lyon ?
Et de manire globale ? Le rsultat est-il surprenant ?
Exercice 37 Trois amies maries depuis peu, Aricie, Brunhilde et Circ, se re-
trouvent pour une soire. Au cours de leur discussion est voqu le fait quenviron
un tiers des mariages se termine par un divorce. Elles en concluent que, statisti-
quement, lune dentre elles verra son mariage se rompre. Que pensez-vous de cet
argument ? En admettant que les trois amies aient, indpendamment les unes des
autres (ce qui doit tre discut) une probabilit gale 1/3 de voir leur mariage se
rompre, quelle est la probabilit quexactement lune des trois divorce ? Quelle est la
probabilit quaucune ne divorce ?
Quelques annes plus tard, Brunhilde divorce effectivement de son mari, ce qui
correspond bien un mariage rompu sur les trois. Aricie et Circ ont-elles lieu den
tre rassures quant la longvit de leurs propres mariages ? Au fait, quoi cor-
respond exactement le chiffre de 1/3 de mariages solds par un divorce, voqu au
dbut ? Est-il pertinent de lappliquer aux trois amies ?
Exercice 39 M. et Mme D*** ont dj six enfants, dont cinq filles et un garon.
Mme D*** est nouveau enceinte. Comment valuez-vous la probabilit que son
enfant natre soit une fille ?
Exercice 40 Aprs quinze jours de vacances bien mrites quil a choisi de passer en
famille au Jojostan, M. D*** doit rentrer en avion. Deux compagnies sont suscep-
tibles dassurer la liaison : Air-Jojo, et Pigeon-Vole, plus conomique. Cependant, un
avion de Pigeon-Vole sest cras il y a peu, si bien quau moment de faire son choix,
M. D*** est partag entre toute sorte darguments, dont voici quelques exemples.
Pigeon-Vole na eu en moyenne quun accident sur 10000 vols au cours des dix
dernires annes. Comme ils viennent den avoir un, je peux donc sereinement
choisir cette compagnie.
Avec une chance sur 10000 davoir un accident, il faudrait que je prenne 10000
fois lavion pour minquiter. Jai de la marge...
Cet accident laisse penser que Pigeon-Vole nest pas fiable. Choisir Air-Jojo
est peut-tre plus prudent.
Aprs un tel accident, Pigeon-Vole va certainement mettre le paquet sur les
contrles et la scurit pour rassurer ses clients. Aucun risque donc voyager
avec cette compagnie.
Un accident sur 10000 vols, cela reprsente tout de mme une excellente fia-
bilit. Finalement, je ne vois vraiment pas o est le risque de voyager sur
Pigeon-Vole.
Jai cru comprendre que, depuis deux ans, Pigeon-Vole avait beaucoup baiss
ses tarifs. Peut-tre est-ce en mgotant sur lentretien et le contrle des avions,
ou bien la formation et les conditions de travail du personnel ? Cest bien ce
que laisse penser cet accident...
Si je pouvais avoir la garantie que lavion dans lequel je vais voler nest pas
du mme modle que celui qui sest cras, je choisirais volontier Pigeon-Vole.
Mais comment faire si je maperois au moment dembarquer que lon ne ma
dit pas la vrit ce sujet (ce qui nest pas impossible, aprs tout, ils cherchent
112
probablement avant tout remplir leurs avions), je ne vais tout de mme pas
refuser de monter dans lavion alors que jaurai dj pris mon billet...
Pigeon-Vole a effectu 500 vols cette anne. Nous avons donc une probabilit
qui monte prsent 1/500 davoir un accident, soit une multiplication du
risque par 20 par rapport au chiffre des annes prcdentes. Il vaut peut-tre
mieux que je voyage sur Air-Jojo...
De toute faon, jai toujours eu un peu peur de lavion. Cette fois, je prendrai
le bateau.
Quels sont les modles susceptibles de traduire les arguments de M. D*** ? Ces
arguments sont-ils conciliables ? Comment pourrait-on tenter de les dpartager ?
Exercice 42 M. D*** fait passer des entretiens dembauche dans une entreprise.
Le nombre total de candidats auditionner est not N , et le problme qui se pose
M. D*** est quil doit indiquer aux candidats sil sont retenus immdiatement aprs
leur entretien. La stratgie adopte par M. D*** est la suivante : il choisit dabord
dauditionner, sans les recruter, un ensemble de M candidats, afin de se former
une ide du niveau de qualification auquel il peut sattendre. Il procde ensuite
laudition des N M candidats restants, et recrute le premier candidat dont il estime
que le niveau dpasse celui de lensemble des M candidats initialement auditionns.
Comment choisir M de faon maximiser les chances de recruter le meilleur des N
candidats ?
Pour une gnralisation considrable de cette question, vous pouvez consulter lar-
ticle de Thomas Bruss cit dans la bibliographie.
considrer que cette observation renforce mon degr de confiance dans la proprit
selon laquelle tout ce qui nest pas noir nest pas un corbeau, cest--dire la proprit
selon laquelle tous les corbeaux sont noirs. Comment mon degr de confiance dans une
proprit qui ne concerne que les corbeaux peut-il tre modifi par cette observation,
alors que je nai examin aucun corbeau ?
Que pourrait donner une approche baysienne du problme (en cherchant es-
timer laugmentation de probabilit de laffirmation selon laquelle tous les corbeaux
sont noirs lie une observation des objets dans la pice o je me trouve, et en la
comparant avec laugmentation que lon obtiendrait en observant des corbeaux dans
la nature) ?
Exercice 45 Pour diverses reprsentations sous forme darbre (autres que des suc-
cessions indpendantes) de modles probabilistes rencontrs dans ce chapitre, expli-
citez les reprsentations en arbre obtenues en renversant lordre des lments de
variabilit employs pour dfinir la structure de larbre.
PC (10%) PS (19%) Verts (21%) UDF (20%) UMP (22%) FN/MNR (8%)
oui 7% 54% 57% 70% 72% 12%
non 93% 46% 43% 30% 28% 88%
Exercice 55 Que penser dune thorie produisant comme rsultat le fait que la pro-
babilit dapparition de la vie sur Terre soit extrmement faible, et que notre existence
doive donc tre considrs comme le fruit dune formidable coincidence ?
D*** soit innocent, la probabilit pour que son ADN concide avec celui trouv sur
les lieux du crime daprs le test effectu est denviron 1/10000.
1) Doit-on en dduire quil y ait moins dune chance sur 10000 pour que M. D*** soit
innocent ? Si non, comment valuer la probabilit pour que M. D*** soit innocent ?
2) Comment selon vous peut-on parvenir des estimations comme celles proposes
par lexpert. Quelle fiabilit accorder celles-ci ? Comment les variations de cette
estimation affectent-elles lestimation de la probabilit pour que M. D*** soit cou-
pable ?
3) Deux experts diffrents proposent deux estimations diffrentes de la probabilit
de concidence de lADN de M. D*** avec celui trouv sur les lieux du crime dans
lhypoths o celui-ci est innocent, disons p1 et p2 , obtenues par deux mthodes dif-
frentes. Les propositions suivantes vous semblent-elles raisonnables ? Pour quelles
raisons ?
Utiliser comme estimation p1 +p 2
2 .
Evaluer sparment la probabilit de culpabilit de M. D*** en utilisant p1 puis
p2 , et conserver la plus petite des deux valeurs obtenues.
Rexaminer les deux mthodes employes par les experts pour parvenir leurs
estimations, et ne conserver que la valeur obtenue par la mthode qui semble
la plus pertinente.
Multiplier par 10 la plus grande des deux valeurs p1 ou p2 , multiplier par 1/10
la plus petite, calculer les estimations de la probabilit de culpabilit ainsi obte-
nues, et considrer quune valeur raisonnable doit se trouver dans la fourchette
ainsi obtenue.
Dcider que si les rsultats obtenus partir des deux mthodes pointent dans
la mme direction (culpabilit ou innocence), on se satisfait de ce rsultat.
Dcider que si les rsultats obtenus partir des deux mthodes pointent dans
deux directions diffrentes, on ne peut rien dire.
Analyser les deux mthodes employes et tenter de trouver une troisime m-
thode qui puisse remdier leurs dfauts potentiels avant de faire quoique ce
soit.
Essayer destimer, pour chaque mthode, les marges derreurs susceptibles daf-
fecter leurs rsultats, et raisonner avec des fourchettes de valeur (comment ?)
plutt quavec des valeurs fixes.
4) Vous faites partie du jury charg de statuer sur le sort de M. D***. tes-vous
plus impressionn par une valeur, tous calculs faits, de la probabilit de culpabilit
de 0,9998, que par une valeur de 0,9 ou 0,8 ? Dcideriez-vous de dclarer M. D***
coupable en fonction de ce seul calcul (sachant que vous ntes cens le faire que
lorsque sa culpabilit semble tablie au-del de tout doute raisonnable) ? Si oui, jus-
qu quelle valeur de la probabilit de culpabilit vous dcidez-vous pour la culpabilit ?
0,99 ? 0,9 ? 0,8 ? 0,55 ? 0,5000001 ? Comment jugez-vous de la fiabilit de lestima-
118
tion propose ? Une estimation 0,99999 par une mthode qui semble douteuse vous
convainc-t-elle davantage quune estimation de 0,8 par une mthode qui semble plus
fiable ?
5) M. D***, pour expliquer la similarit observe entre son propre ADN et les traces
trouves sur les lieux du crime, prtend avoir t victime dune machination, des
chantillons de ses propres tissus ayant t rcuprs sur lui son insu, puis dposs
sur place, par le meurtrier ou lun de ses complices, dans le but de le faire accuser
tort. Cette machiavlique possibilit a-t-elle t prise en compte dans les valuations
de probabilit ci-dessus ? Si oui, comment, et sinon, comment pourrait-elle ltre ?
Mme question avec la possibilit pour que de lADN de M. D*** se trouve par
hasard sur les lieux du crime (cest-a-dire, sans que celui-ci soit coupable) ?
6) Comment le principe de la prsomption dinnocence est-il, selon vous, pris en
compte, ou au contraire ignor, dans les arguments qui prcdent ?
Exercice 58 M. H*** joue au Loto, et... gagne le gros lot. Quand il tente de faire
valoir ses droits, on refuse de lui verser son gain en lui opposant largument suivant.
La probabilit de gagner sans tricher est infime, et vous venez de gagner. Le plus
probable est donc que vous ntes quun tricheur ! Estimez-vous heureux que nous ne
vous trainions pas devant les tribunaux, et ny revenez pas ! Que pensez-vous du
bien-fond de cet argument ?
Exercice 59 Voici un extrait du journal Le Monde, dat daot 2005, dans un ar-
ticle consacr la scurit arienne. (...) Dans le mme temps, les vols irrguliers
devenaient plus meurtriers : le nombre de tus voyageant sur des charters reprsen-
tait environ 20% du total des dcs dus des accidents davion la fin des annes
1980, contre 50% aujourdhui.(...) Cette phrase vous semble-t-elle convaincante ?
Pourquoi ?
tnus, voire inexistants, et rien ne laissait penser a priori que Mme Clark ait pu
tre une mre ngligente ou violente envers ses enfants. En fait, il semble bien que
la conviction du jury ait t emporte par un argument de nature statistique, version
moderne du dicton selon lequel la foudre ne frappe jamais deux fois au mme endroit,
et affirmant en substance quil faudrait une concidence vraiment extraordinaire pour
que lon observe non pas une, mais deux morts subites du nourrisson successives
au sein dune mme famille. Sir Meadow, qui tmoigna au procs en tant quexpert
mdical, affirma que la probabilit dune telle concidence (que surviennent par hasard
deux morts subites du nourrisson dans une famille comparable celle de Mme Clark)
tait denviron une chance sur 73 millions, ce qui fut apparemment interprt comme
un argument dcisif indiquant la culpabilit de Mme Clark, et prsent comme tel par
les mdias lpoque.
1) Cette estimation de probabilit vous semble-t-elle constituer un argument dcisif ?
2) Lorigine de cet estimation de probabilit partait du chiffre denviron 1/8500 pour
la probabilit dune mort subite du nourrisson au sein dune famille comparable
celle des Clark, estim daprs des donnes mdico-lgales, do une estimation de
1/8500 1/8500 1/73000000. Etes-vous convaincu par cette estimation ?
Afin de satisfaire la curiosit que na sans doute pas manqu de susciter le d-
but de cet exercice, voici quelques lments sur la suite de lhistoire. Des tudes
statistiques menes ultrieurement par le Professeur Hill, de luniversit de Salford,
conduisent proposer que la probabilit dobserver deux morts subites devrait tre
approximativement 9 fois suprieure la probabilit pour une mre de causer dlib-
rment la mort de ses deux enfants, do une estimation de la probabilit de culpabilit
denviron 1/10. Par ailleurs, au sujet de la mthode destimation dcrite la ques-
tion 2), ltude mene par le Pr Hill semble indiquer que le risque de mort subite est
entre 5 et 10 fois suprieur chez un enfant dont un frre ou une sur est lui-mme
dcd de mort subite du nourrisson.
Les Clark firent appel du jugement, sappuyant en particulier sur des avis de sta-
tisticiens dnonant ces diffrentes erreurs dargumentation. Lappel fut rejet, la
conclusion du juge tant que le point essentiel tait la raret de lapparition de deux
morts subites au sein dune mme famille, non remise en question par ces remarques.
Devant une telle incomprhension, la Socit Royale de Statistique crivit aux autori-
ts judiciaires pour enfoncer le clou. De plus, on dcouvrit que des lments mdicaux
accrditant largement lhypothse dune mort accidentelle du deuxime enfant avaient
t dissimuls lors du procs. Un second procs en appel fut alors organis, et Mme
Clark fut finalement acquitte aprs avoir pass prs de deux ans et demi en prison.
Sir Meadow a t radi en 2005 par lordre des mdecins du Royaume-Uni, pour
serious professional misconduct.
3) Daprs vous, que signifie le fait dvaluer la probabilit de mort subite du nour-
risson dans une famille comparable celle des Clark ? Quels critres peut-on ou
120
Variables alatoires
Dans le chapitre prcdent, nous avons prsent le formalisme gnral des modles
probabilistes, qui permet de reprsenter mathmatiquement des situations incorpo-
rant incertitude, variabilit ou hasard. Ce formalisme fait intervenir un espace des
possibles , dont les lments reprsentent les ventualits lmentaires, cest--dire
les diffrentes issues possibles de la situation considre, au niveau de prcision choisi
pour la dcrire, et une probabilit P associant chaque ventualit lmentaire un
nombre reprsentant la probabilit que la situation soit ralise via cette ventualit
particulire. La ralisation de la situation considre est modlise comme le choix
de lune des ventualits lmentaires, , qui contient donc toute linformation
l encore, au niveau de prcision choisi sur la faon dont la situation sest rali-
se. Comme nous lavons vu au cours du chapitre prcdent, lespace des possibles
est gnralement construit en assemblant des morceaux dinformation portant
sur la ralisation de la situation, chacun de ces morceaux reprsentant une partie
de linformation globale contenue dans les lments de , qui permet de spcifier
compltement, au niveau de description choisi, lissue de la situation tudie. En
particulier, on reprsente souvent par un arbre, dont chaque ramification corres-
pond la spcification de lun des choix dont la liste complte permet de spcifier la
manire dont la situation sest ralise. Pourtant, mme si ce formalisme est suffisant
pour donner une description complte de lincertitude affectant la situation qui est
modlise, il nous sera souvent ncessaire dextraire du modle probabiliste (, P)
des informations de nature quantitative, qui ne figurent pas forcment explicitement,
en tant que telles, dans le modle, et permettent den rsumer numriquement cer-
tains des aspects les plus pertinents pour nous. Ceci justifie la dfinition dune notion
122
SX = {X() : },
Exemple
Pour dcrire le rsultat du lancer de deux ds, on peut faire appel lespace
= {1; 2; 3; 4; 5; 6}2 ,
X((x1 , x2 )) = x1
{(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)}.
Y ((x1 , x2 )) = x2 ,
le dcoupage relatif aux valeurs de X est form par les six lignes du tableau, le
dcoupage relatif Y par les six colonnes. Ces deux dcoupages coexistent, mais
sont distincts. Si lon introduit maintenant la variable alatoire Z dfinie par
Z = (X, Y ),
on obtient un dcoupage plus fin que les deux prcdents, correspondant aux trente-
six cases du tableau. En fait, dans ce cas, Z() = .
Si lon reprsente sous la forme dun arbre de profondeur 2 dont la premire
ramification dtermine le rsultat du premier d, et la seconde le rsultat du second
d, X et Y sont formellement des fonctions dfinies sur les feuilles (ou encore, ce
qui revient au mme, sur les rayons conduisant de la racine une feuille) de larbre,
mme si X ne fait rellement intervenir que la premire ramification, et Y la seconde.
Peut-tre cette manire de dfinir explicitement les variables alatoires en fonction
des ventualits vous parat-elle trange. En fait, on retrouve la mme distinction
concret/formel que celle qui sapplique aux vnements. Du point de vue formel,
une variable alatoire X est une fonction (ou encore une application), dont on doit
dfinir la valeur X() pour chaque ventualit lmentaire , tandis que, du point
de vue concret, une variable alatoire est simplement une quantit (ou un caractre
qualitatif) en rapport avec la situation considr, et qui, du fait que cette situation
est variable, incertaine ou alatoire, est elle-mme variable, incertaine, ou alatoire.
Comme dans le cas des vnements, on dfinira souvent (mais pas toujours) les
variables alatoires de manire concrte, la traduction formelle dans le cadre du
124
X() = #{1 i N : i = F}
Xi () = i .
Ces variables alatoires figurent explicitement dans le modle, et cest en fait partir
de la spcification de leurs valeurs quest construit lespace des possibles N . Inver-
sement, la variable alatoire X comptant le nombre de face obtenus ne figure pas
explicitement dans le modle, mais sa valeur se dduit de celle de (1 , . . . , N ).
telles que rose, bleu, vert. Cependant, la plupart des variables alatoires que
nous considrerons prendront des valeurs numriques.
Notons que lon est en gnral amen considrer plusieurs variables alatoires d-
finies sur un mme espace de probabilit le modle de rfrence utilis pour dcrire
la situation. Dans lexemple de pile ou face ci-dessus, les variables X, X1 , . . . , XN
nont rien voir entre elles, mais sont toutes dfinies sur le mme espace N .
La fonction 1A est donc une variable alatoire, puisquil sagit dune fonction dfinie
sur , et sa valeur indique la ralisation ou la non-ralisation de lvnement A :
1A prend la valeur 1 lorsque A est ralis, et 0 lorsquil nest pas ralis. Cest
probablement lexemple le plus simple de variable alatoire.
X : SX .
{(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6)},
en notant que lune repose sur une reprsentation au moyen du modle (, P), et
lautre sur lutilisation du modle (SX , pX ).
Le fait que la loi de probabilit dune variable alatoire apparaisse simplement
comme une probabilit sur lensemble des valeurs de cette variable justifie le fait
que lon parle souvent dune loi de probabilit sur un ensemble S sans rfrence
particulire une variable alatoire susceptible de possder cette loi. Une
loi de probabilit sur un ensemble S (fini ou dnombrable), indpendamment de la
notion de variable alatoire, dsigne simplement une probabilit sur lensemble S,
vu comme un espace des possibles 1 . Au risque dinsister inutilement, une loi de
probabilit sur S (sans rfrence une variable alatoire) est donc la donne dune
probabilit sur lensemble S, cest--dire dune fonction p : S [0, 1], vrifiant la
P
condition de normalisation sSX p(s) = 1. Dire quune variable alatoire suit la
loi p sur SX , cest simplement dire que, pour tout s SX , on a P(X = s) = p(s),
1. On peut noter, que, tant donn un espace de probabilit (S, p), la variable alatoire X dfinie
sur S par X(s) = s suit la loi p.
128
autrement dit, que la loi de la variable alatoire X (en tant que probabilit sur
lespace des possibles SX ) concide avec la probabilit p.
Dans le mme ordre dides, on spcifie implicitement un modle (, P) dune
situation en dfinissant de manire concrte une variable alatoire X et en spcifiant
sa loi. Ce modle correspond alors = SX et P = loi de X.
Il est important de bien comprendre que plusieurs variables alatoires dfinies sur
le mme espace de probabilit, mais bien distinctes, peuvent parfaitement partager la
mme loi. Par exemple, dans le modle (N , PN ) dcrivant une rptition indpen-
dante de N lancers de pile ou face, ( = {P, F}, P(P) = p, P(F) = 1 p), chacune
des variables alatoires Xi reprsentant le rsultat du ime lancer possde la mme
loi, savoir : PN (Xi = P) = p, PN (Xi = F) = 1 p. Ces variables alatoires ne
sont pourtant pas en gnral gales entre elles ! De mme, dans le cas des deux ds,
lorsque la probabilit dcrivant les lancers est uniforme, les trois variables alatoires
X, Y et 7 X ont la mme loi (exercice facile), et ne sont pas gales en gnral. De
mme, des variables alatoires dfinies sur des espaces de probabilit diffrents, et
intervenant dans la modlisation de situations concrtes compltement diffrentes,
pourront galement possder la mme loi. Mieux : parfois, la loi des variables ala-
toires auxquelles on est confront est une loi classique, dont les proprits sont bien
connues, et qui apparat systmatiquement lorsque certaines proprits gnrales sont
prsentes dans le modle.
En ce sens, la notion de loi est portable, les calculs mens partir de la loi
ne faisant intervenir que le modle portable (SX , pX ), et non pas les dtails du
modle (, P) sous-jacent sur lequel X est dfinie qui sont susceptibles de varier
considrablement dune situation lautre , et une mme loi est donc susceptible
dintervenir dans de trs nombreux modles, indpendamment des dtails de ceux-ci.
Dans la suite, nous donnons une liste (non-exhaustive) de lois classiques, ainsi
que les hypothses qui permettent didentifier immdiatement une variable alatoire
comme possdant une telle loi. La loi apparatra donc comme une notion portable,
qui pourra souvent tre manipule sans autre rfrence au modle probabiliste sous-
jacent (, P) que quelques proprits gnrales, essentiellement dindpendance, le
plus souvent sans rapport avec la structure dtaille du modle et de la situation que
lon modlise.
de lancer, on a trouv 44 fois pile, et 56 fois face. La loi empirique associe cet
chantillon simul correspond donc une probabilit empirique de 0, 44 pour pile, et
de 0, 56 pour face. Bien entendu, 100 nouvelles simulations de lancers donneront en
gnral lieu une loi empirique diffrente. Hop ! Un nouveau tirage nous donne 52
pile et 48 face, la probabilit empirique dcrivant ce tirage est donc 0, 52 pour pile
et 0, 48 pour face. Plus la taille de lchantillon est grande, plus on sattend ce que
la loi empirique soit proche de la loi thorique. Avec 10000 simulations, on a trouv
4934 fois pile, et 5067 fois face. En lanant une nouvelle simulation, nous obtenons
5042 fois pile et 4958 fois face. Avec 1000000 simulations, 500290 fois pile, et 499710
fois face. Au premier abord, ceci ne semble pas en contradiction flagrante avec notre
idalisation dune loi thorique de 1/2 pour pile et 1/2 pour face. Des exemples plus
trpidants sont prsents sous forme de graphiques dans la suite. Nous reviendrons
beaucoup plus en dtail sur ces questions dans les chapitres suivants (loi des grands
nombres et courbe en cloche).
Concluons par une remarque terminologique.
tion des diffrentes valeurs que cette quantit peut prendre se stabilisent au voisinage
de limites qui sont justement dcrites par la loi de probabilit de la variable ala-
toire modlisant cette quantit. Comme toute loi (au sens non-probabiliste), celle-ci
peut-tre fausse ou approximative, plus ou moins bien vrifie en pratique, et plus ou
moins bien taye par des arguments thoriques.
Dans ce contexte, la loi de probabilit empirique attache un chantillon de
valeurs mesures de cette quantit est simplement le rsum de linformation obtenue
exprimentalement sur la rpartition des valeurs de celle-ci. Lors de llaboration
dun modle probabiliste dune situation, et notamment de la spcification des lois
de probabilit des variables alatoires intervenant dans le modle, les lois empiriques
associes des valeurs mesures sont lun des lments fondamentaux (parfois le seul
auquel cas le modle peut tre considr comme compltement empirique mais
souvent accompagn de considrations thoriques, connaissances ou hypothses sur le
phnomne tudi) de la dmarche.
Par dfinition, X
Fp (x) = p(s).
s : sx
On vrifie que la fonction Fp est croissante, et quil sagit en fait dune fonction
en escalier continue droite (si on lit le graphe de Fp dans le sens des abscisses
croissantes, la fonction effectue des sauts vers le haut aux points dont les abscisses
correspondent aux lments de S.
On vrifie que limx Fp (x) = 0, et que limx Fp (x) = 1.
La connaissance de Fp est quivalente celle de la loi de p, car, pour x, y S
tels que x < y et ]x, y[S = , on a p(y) = Fp (y) Fp (x).
est trs utile de disposer de diverses reprsentations graphiques dune loi, car cela
permet de saisir visuellement un certain nombre de proprits quil serait parfois
difficile de dgager directement dune liste ou dun tableau de nombres, dune formule,
ou dindicateurs numriques synthtiques (tels quesprance, mdiane, cart-type,...,
nous en discuterons dans la suite).
Diagramme en btons
0.05
0.00
0 5 10 15 20
s
Variables alatoires 133
0.05
0.00
0 5 10 15 20
0.05
0.00
0 5 10 15 20
0.2
0.1
0.0
5 10 15
s
134
0.020
0.015
0 10 20 30 40 50
Voici prsent les diagrammes en btons obtenus partir des lois empiriques as-
socies des chantillons simuls (simulations menes sous R) de variables alatoires.
0.10
0.05
0.00
4 6 7 8 9 10 11 12 13 14
0.10
0.05
0.00
4 6 7 8 9 10 11 12 13 14
x
Variables alatoires 135
0.10
0.05
0.00
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
0.05
0.00
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
0.10
0.05
0.00
1 2 3 4 5 6 7 8 9 10
x
136
0.10
0.05
0.00
1 2 3 4 5 6 7 8 9 10 11
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
x
Variables alatoires 137
0.04
0.02
0.00
1 3 5 7 10 13 15 17 19 21 23 25 27 31 33 36 39 44 46 49
0.04
0.02
0.00
3 6 9 11 13 15 17 19 21 25 28 30 34 36 38 43 45 47 50
0.015
0.010
0.005
0.000
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
x
138
0.010
0.005
0.000
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
On observe bien la diffrence existant entre loi thorique dune part, et, dautre
part loi empirique associe un chantillon produit par simulation, et cens tre
modlis par cette loi thorique.
Mise en garde 5 Il importe de ne pas confondre les diagrammes ci-dessus, qui re-
prsentent la loi empirique associe des chantillons de la forme x1 , . . . , xN , avec
le trac de xi en fonction de i (qui peut avoir un intrt, mais na pas de rapport avec
ce qui est reprsent ci-dessus).
Pour bien saisir la diffrence, voici quoi peut ressembler un tel trac.
20
10
0 10 20 30 40 50
Histogramme
0.040
0.035
0.030
0.025
0.020
0.015
0.010
0.005
0.000
Lorsquon reprsente, comme nous venons de la faire, une loi empirique associe
un chantillon de donnes, on indique parfois en ordonne leffectif correspondant
la barre, cest--dire le nombre de valeurs de lchantillon qui se trouvent dans
lintervalle dlimit par la base de la barre. Par exemple :
10
8
6
Effectif
4
2
0
On note que, dans ce cas, il nest pas forcment pertinent de comparer des his-
togrammes associs des chantillons de tailles diffrentes en les superposant, pour
dvidentes raisons dchelle.
0 5 10 15 20
0 5 10 15 20
0 5 10 15 20
Variables alatoires 143
0 5 10 15
0 10 20 30 40 50
Temps de transmission
1.0
0.8
0.6
0.4
0.2
0.0
Pour marquer le fait que la fonction de rpartition est continue droite, on note
parfois les points situs aux bords gauches des sauts, comme ceci.
144
0 5 10 15 20
Des exemples...
Loi binomiale
Autrement dit, la loi binomiale (sans rfrence une variable alatoire) est la pro-
babilit pbinom(n,p) sur lensemble {0, . . . , n} dfinie par :
Expliquons dans quel contexte cette loi intervient : supposons que, sur un espace
probabilis (, P), nous nous intressions la ralisation de n vnements A1 , . . . , An ,
mutuellement indpendants, et survenant chacun avec une probabilit commune gale
p:
P(A1 ) = = P(An ) = p,
et dfinissons X comme le nombre total (alatoire) dvnements Ai qui se ralisent
effectivement. Par exemple, nous effectuons n rptitions indpendantes dune mme
exprience, qui peut chaque rptition donner lieu un succs (avec probabilit p)
ou un chec (avec probabilit (1 p)), et nous comptons le nombre total (alatoire)
de succs obtenus au cours des n expriences. Alors, X suit une loi binomiale de
paramtres n et p. Pour le voir, il suffit de vrifier que lvnement : ralisation
dexactement k vnements parmi les Ai , cest--dire la ralisation de k dentre eux, et
la non-ralisation des nk restants, peut scrire comme la runion de Cnk vnements
deux--deux disjoints, chacun de probabilit pk (1 p)nk . En effet, il y a Cnk sous-
ensembles dindices I inclus dans {1; 2; . . . ; n} comportant k lments, et, pour tout
tel sous-ensemble dindices I, lvnement EI : ralisation des k vnements Ai dont
les indices se trouvent dans I, et non-ralisation de ceux des Ai dont les indices
146
afin de prouver que lon a bien dfini une loi de probabilit. Cette galit rsulte de
la formule du binme de Newton applique (p + (1 p))n . Cependant, elle rsulte
galement du fait que nous avons prouv que pbinom(n,p) (k) apparat effectivement
comme la loi dune variable alatoire dans un contexte particulier.
Remarque 3 On constate que lon peut tre en prsence de variables alatoires sui-
vant la loi binomiale mme (et surtout) lorsque le modle ne se rsume pas une suc-
cession dpreuves indpendantes de Bernoulli (cest--dire ne possdant que deux is-
sues). Par exemple, le modle de succession indpendante de 50 lancers de d contient
plus dinformation que le simple fait que le 5 sorte ou ne sorte pas, pour chaque lan-
cer. Globalement, il suffira quun modle moins fin que (, P) mais compatible avec
celui-ci soit effectivement constitu par une succession indpendante dpreuves de
Bernoulli (par exemple, dans le cas prcdent, le modle qui ne tient compte, pour
chaque lancer, que du fait dobtenir ou non un 5).
Variables alatoires 147
Loi uniforme
La loi uniforme sur SX (sans rfrence une variable alatoire) est la probabilit
punif (S) sur lensemble SX est donc dfinie par :
1
punif (S) (si ) = pour tout 1 i p.
p
Mise en garde 7 Le fait que X suive la loi uniforme nimplique pas que lespace de
probabilit sous-jacent (, P) soit muni de la probabilit uniforme. Par exemple, si
= {0, 1} {0, 1} et P(0, 0) = 1/3, P(0, 1) = 1/6, P(1, 0) = 1/6, P(1, 1) = 1/3, la
variable alatoire dfinie par X(x1 , x2 ) = x1 + x2 suit la loi uniforme sur {0, 1, 2},
mais P nest manifestement pas la probabilit uniforme sur . Inversement, le fait
que P soit la probabilit uniforme nentrane pas que X suive la loi uniforme : si
= {0, 1} {0, 1} et si P est la probabilit uniforme sur , P(X = 1) = 1/2 alors
que P(X = 0) = 1/4, et X ne suit donc pas la loi uniforme.
Loi de Poisson
Cette loi tire son nom du mathmaticien Poisson 4 , et ne prsente donc a priori
pas de rapport avec la pche en mer ou laquariophilie.
On dira quune variable alatoire X dfinie sur un espace probabilis (, P) suit
une loi de Poisson de paramtre > 0 si elle ne prend que des valeurs entires
positives ou nulles, avec les probabilits :
k
P(X = k) = e , k 0.
k!
Autrement dit, la loi de Poisson (sans rfrence une variable alatoire) est la pro-
babilit pP oiss() sur lensemble N dfinie par :
k
pP oiss() (k) = e , k 0.
k!
Cette loi intervient dans le mme contexte gnral que la loi binomiale : celle dun
comptage du nombre de succs enregistrs au cours dune succession indpendante
4. Simon Denis Poisson (17811840)
148
n (n 1) (n k + 1) nk
Cnk = ,
k! k!
et
nk
1 e .
n
Do, lorsque n tend vers linfini,
k
Pn (Xn = k) e ,
k!
et la loi de Poisson apparat comme un cas limite de la loi binomiale de paramtres
n et /n lorsque n est grand. Bien que la probabilit de succs tende vers 0 lorsque
n tend vers linfini, ceci est compens par le grand nombre dexpriences, de telle
sorte que le nombre de succs observ prend des valeurs finies et non-nulles avec une
probabilit qui ne tend pas vers zro lorsque n tend vers linfini. Pour cette raison,
on appelle parfois le rsultat ci-dessus le thorme des vnements rares.
+
pP oiss() (k) pbinom(n,/n) (k) 2 min(2, ).
X
n
k=0
Pour vrifier que lon a bien affaire une loi de probabilit, il faut vrifier que
lon a :
+
X
pP oiss() (k) = 1,
k=0
ce qui est une consquence de la formule :
+ k
X
e = .
k!
k=0
On peut aussi vrifier cette relation en passant la limite dans la relation analogue
valable pour la loi binomiale (mais le passage la limite est un peu dlicat).
0 20 40 60 80 100
Variables alatoires 151
0 20 40 60 80 100
0 20 40 60 80 100
0 20 40 60 80 100
152
0 20 40 60 80 100
0 20 40 60 80 100
Loi gomtrique
P(X = k) = (1 p)k1 p , k 1.
Autrement dit, la loi gomtrique (sans rfrence une variable alatoire) est la
probabilit pgeom(p) sur lensemble N dfinie par :
Expliquons dans quel contexte cette loi intervient. Supposons que nous rptions
indpendamment une exprience alatoire, chaque exprience tant susceptible de
donner lieu un certain vnement appel succs avec une probabilit p, jusqu
obtenir un succs pour la premire fois. Alors, le numro de la premire exprience se
soldant par un succs suit une loi gomtrique de paramtre p. Exercice : construisez
un modle en arbre rendant compte de cette situation, et prouvez la validit de
la formule ci-dessus. Le seul point dlicat est quil nest pas vident a priori que le
Variables alatoires 153
nombre de tentatives ncessaires pour obtenir un succs est ncessairement fini. Aprs
tout, il serait imaginable que lon soit confront une succession infinie dchecs...
Exemple 7 Jojo lance des flchettes sur une cible. On suppose que la probabilit pour
quil atteigne le mille est de 25%, et que les succs de chaque tentative forment une
succession indpendante. Combien de lancers Jojo doit-il effectuer avant datteindre
le mille ? Un nombre alatoire qui suit une loi gomtrique de paramtre 25%.
Les variables alatoires, telles que les avons dfinies au dbut de ce chapitre, se
rattachent la catgorie dite des variables alatoires discrtes. Celles-ci apparaissent
comme des fonctions dfinies sur un ensemble fini ou dnombrable, et, par cons-
quent, ne peuvent prendre quun nombre fini ou dnombrable de valeurs distinctes.
Pour modliser des quantits pouvant prendre un continuum de valeurs (par exemple
lensemble des valeurs comprises dans un intervalle), il est donc ncessaire de faire
appel une dfinition plus gnrale des modles probabilistes, englobant des espaces
des possibles non-dnombrables. Il faut pour cela se placer dans le cadre de la thorie
mathmatique de la mesure abstraite, dont le niveau technique dpasse largement
celui de ce cours (vous pouvez consulter les ouvrages classiques dintroduction la
thorie mathmatique des probabilits cits en bibliographie pour en avoir un ex-
pos). Par consquent, nous nous contenterons, ce qui nest pas absurde dun point
de vue pratique, de prsenter les variables alatoires continues comme un cas li-
mite de variables alatoires discrtes une chelle microscopique, mais pouvant tre
considres comme continues une chelle plus macroscopique.
Commenons par un exemple de telle situation limite.
Voici lhistogramme dune loi de probabilit, dans lequel la largeur des barres est
fixe = 1 (la graduation verticale reprsente la surface de chaque barre.)
154
Delta=1
0.5
0.4
0.3
0.2
0.1
0.0
8 6 4 2 0 2 4
8 6 4 2 0 2
8 6 4 2 0 2
Delta=0.1
0.5
0.4
0.3
0.2
0.1
0.0
8 6 4 2 0 2
8 6 4 2 0 2
8 6 4 2 0 2
En se rappelant que P(X [a(i1), a+i[) nest autre que la surface de la barre de
lhistogramme ayant pour base lintervalle [a(i 1), a + i[, et que lintgrale dune
fonction continue reprsente la surface sous une portion de courbe, on se convainc
aisment en observant les histogrammes prcdent de la validit de lidentit (2.2),
au moins en tant qugalit approche valable lorsque est petit.
Contrairement aux apparences, la loi reprsente par les histogrammes prcdents
est une loi discrte, en fait simplement la loi empirique associe un chantillon
comportant un trs grand nombre (107 ) de valeurs toutes distinctes, mais trs proches
les unes des autres. Si lon regarde la loupe la zone situe autour de 1, par exemple,
on pourra observer la rpartition suivante (il sagit dun diagramme en btons, chaque
bton reprsente une valeur possible de la variable).
1.4e07
1.2e07
1.0e07
8.0e08
6.0e08
Dfinition
(Pour des raisons techniques, il est plus commode dutiliser la proprit (2.2)
plutt que la proprit (2.1) pour donner une dfinition gnrale, mme si ces deux
dfinitions sont essentiellement quivalentes dans la plupart des situations.) Comme
nous lavons mentionn plus haut, la dfinition ci-dessus nest pas compatible avec le
cadre des espaces de probabilits discrets auquel nous nous sommes confins jusqu
prsent, et donc... ce nest pas une vritable dfinition dans le cadre de ce cours,
puisquaucune variable alatoire telle que dfinie prcdemment ne peut la satisfaire
exactement.
Par exemple, en toute rigueur, la dfinition (2.1) ci-dessus entrane que la pro-
babilit P(X = b) est nulle pour tout b, donc que X ne peut prendre aucune valeur !
En effet, daprs la dfinition :
Z b+
P(X = b) P(X ]b , b + [) = f (u)du,
b
et, en faisant tendre vers zro, on constate bel et bien que P(X = b) = 0. Il faut
donc et, en tout cas, on peut sans aucune difficult dans le cadre de ce cours voir
cette dfinition comme caractrisant correctement une situation limite, la variable
alatoire X pouvant en ralit tre considre comme une variable alatoire discrte,
pour laquelle lquation (2.2) ci-dessus caractrise une bonne approximation prs
158
la loi de X, une chelle pouvant tre trs petite (par rapport 1), mais demeurant
grande devant lchelle microscopique des valeurs de X.
Dans cette interprtation, le paradoxe apparent dcrit ci-dessus, provient simple-
ment du fait quil existe une chelle en-de de laquelle lquation (2.2) cesse dtre
valable.
Cependant, la plupart du temps, on utilise directement lquation (2.2) ci-dessus
et ses consquences, comme si celle-ci tait valable sans restriction, cest--dire sans
reprciser systmatiquement que lon ne manipule en ralit que des approximations
de la validit desquelles il faudrait sassurer systmatiquement. Il est possible de le
faire de manire cohrente, comme nous lexpliquons dans ce qui suit. Simplement,
les sommes qui interviennent dans les manipulations usuelles concernant les variables
alatoires discrtes doivent tre remplaces par des intgrales (qui en sont en ralit
des approximations).
Soulignons que, pour prix de ces (lgres) complications, nous gagnons la possi-
bilit dutiliser un puissant outil de modlisation et de calcul. La notion de variable
alatoire continue permet de traiter de manire unifie un grand nombre de pro-
blmes, discrets une chelle microscopique, mais pouvant tre considrs comme
continus lchelle envisage, et, surtout, nous autorise utiliser le puissant arsenal
de techniques provenant du calcul diffrentiel et intgral.
Proprits
Comme dans le cas discret, la fonction FX est croissante, mais cette fois FX est
une fonction continue. Si f est continue au point x, FX est drivable en x et lon a
FX0 (x) = f (x).
On vrifie que, dans le cas continu comme dans le cas discret, limx FX (x) = 0
et limx FX (x) = 1.
Comparons plus prcisment ces rsultats ceux qui prvalent pour les variables
alatoires discrtes. Dans ce cas, pour a et b fixs, nous pourrions faire la liste des
valeurs possibles de la variable comprises entre a et b, et faire la somme :
X
P(a < X < b) = P(X = x).
a<x<b,xS
Pour les variables continues, la somme portant sur les lments de S compris
Rb
entre a et b est remplace par lintgrale a , et la probabilit P(X = x) par la
probabilit infinitsimale f (x)dx. Cest systmatiquement ainsi que nous passerons
des identits portant sur les variables alatoires discrtes leurs analogues continus.
On retient donc le tableau suivant :
P Rb
a<x<b a
P(X = x) f (x)dx
Rappelons que lon peut toujours retrouver ces relations en considrant une loi
continue comme limite de lois discrtes.
160
0 2 4 6 8 10
0 2 4 6 8 10
0 2 4 6 8 10
0 2 4 6 8 10
Quelques remarques. Lorsque la largeur des barres est suffisament petite pour
que la densit soit peu prs constante sur lintervalle correspondant, on sattend
ce que la hauteur de la barre soit voisine de la densit. Lorsque la densit fluctue
sur lintervalle [a, a + [ formant la base dune barre, cest la valeur moyenne de
1 a+
R
la densit sur lintervalle [a, a + [, soit a f (u)du qui doit tre voisine de la
hauteur de la barre. Par consquent, il est normal que la densit ne colle pas au
162
plus prs de lhistogramme lorsque les barres de celui-ci ne sont pas suffisament fines.
Dautre part, (pour enfoncer le clou), insistons sur le fait que la loi empirique
varie dun chantillon lautre, comme lillustre le graphique suivant.
0 2 4 6 8 10
0 2 4 6 8 10
0 2 4 6 8 10
0 2 4 6 8 10
Cette fois, ladquation est bien meilleure (cest la valeur moyenne de la densit
sur un intervalle qui doit tre compare la largeur dune barre).
Avec le mme chantillon de 10000 valeurs et = 0, 1.
0 2 4 6 8 10
Ladquation entre densit et histogramme est valable jusqu une chelle nette-
ment plus fine que lorsque lon ne disposait que de 100 ou 20 valeurs. Cependant, en
affinant suffisament lchelle, on parvient toujours mettre en vidence une inad-
quation criante. Sur les deux histogrammes prcdents, on constate que la densit
fournit encore une approximation satisfaisante lorsque lon regroupe plusieurs inter-
valles conscutifs.
Une discussion quantitative sur la manire de juger quand un cart entre histo-
gramme et densit est ou non raisonnable, et comment les valeurs de peuvent tre
choisies par rapport la taille de lchantillon, est manifestement ncessaire. Elle
sera prsente dans le chapitre Statistique.
1 x
x 7 |a| f a b .
Cette formule est une simple consquence de lgalit, due la formule de chan-
Ry 1 R y b
f ua b du = xa
gement de variables pour les intgrales : x |a| f (u)du.
a b
On peut encore la vrifier en tudiant la faon dont se transforme un histogramme
sous leffet dune telle transformation : la probabilit pour que aX + b soit compris
entre x et x + nest autre que la probabilit pour que X soit compris entre x0 =
x 0
a b et x + a . La surface de la barre B correspondant lintervalle [x, x + [
dans lhistogramme de la loi de aX + b est donc la mme que celle de la barre B 0
correspondant lintervalle [x0 , x0 +
a ] dans lhistogramme de la loi de X. La hauteur
de B doit donc tre gale |a| fois la hauteur de B 0 , puisque la largeur de B est |a|
1
La loi uniforme sur un intervalle [a, b] est la plus simple des lois continues. Confor-
mment la dfinition donne dans le cas discret savoir, la loi qui attribue
chaque lment de S la mme probabilit, il sagit de la loi qui attribue chaque
lment de [a, b] la mme densit de probabilit. La probabilit attribue par cette
loi aux valeurs extrieures lintervalle [a, b] devant tre nulle, la densit est donc
nulle hors de [a, b]. La densit de la loi uniforme sur [a, b] doit donc valoir : une
R
constante c sur [a, b], et zro hors de [a, b]. Pour que la condition R f (x)dx = 1 soit
vrifie, on constate que la seule valeur possible pour c est 1/(ba), do finalement :
1
f (x) = ba si x [a, b],
f (x) = 0 si x
/ [a, b].
Loi exponentielle
En supposant que p /n, lorsque n tend vers linfini, o est une constante, on
constate que
do lon dduit, par drivation, la densit fexp() (t) = et . Pour t < 0, cette
densit est bien entendu nulle (linstant que lon tudie prend toujours une valeur
positive), et lon a donc :
fexp() (t) = et si t 0,
f (t) = 0 si t < 0.
1.0
0.5
0.0
2 0 2 4 6 8 10
1.0
0.5
0.0
2 0 2 4 6 8 10
Cette loi tire son nom de celui du mathmaticien Gauss 5 , et on lui attache souvent
galement le nom de Laplace 6 .
5. Carl-Friedrich Gauss (17771855)
6. Pierre-Simon Laplace (17491827).
168
Il sagit dune loi continue intervenant dans un trs grand nombre de situations, et
dont ltude fait elle seule lobjet du chapitre courbe en cloche, dans lequel seront
entre autres prsentes des explications son apparition frquente. Contentons-nous
den rappeler la dfinition : sa densit est donne par la fonction dfinie sur R
(x m)2
1
m,v (x) = exp .
2v 2v
Le paramtre m joue le rle dun paramtre de position, et v celui dun paramtre
dchelle. En effet, si X suit la loi gaussienne de paramtres m = 0 et v = 1, X +
suit la loi gaussienne de paramtres m = et v = 2 .
Voici quelques exemples de graphes de la densit gaussienne.
Gaussienne , m=0 v=1
0.7
0.6
0.5
0.4
f(x)
0.3
0.2
0.1
0.0
4 2 0 2 4
0.3
0.2
0.1
0.0
4 2 0 2 4
Loi de Cauchy
Il sagit de la loi sur R+ dont la densit est dfinie pour ` R et s > 0 par
1
fCauchy(`,s) (x) = 2 .
s(1 + x`
s )
Loi gamma
1
fgamma(a,s) (x) = xa1 exp(x/s)
sa (a)
pour x 0, et fgamma(a,s) (x) = 0 si x < 0. Les deux paramtres a > 0 et s > 0 sont
respectivement appels paramtre de forme et dchelle.
Si X suit la loi gamma de paramtres a et 1, X suit la loi gamma de paramtres
a et .
Rappelons que la fonction gamma dEuler est dfinie pour a > 0 par
Z +
(a) = xa1 exp(x)dx.
0
Voir lexercice 128 pour un exemple de contexte dans lesquels cette loi intervient.
Loi beta
Il sagit de la loi sur [0, 1] dont la densit est dfinie de la manire suivante
(a + b) a1
fbeta(a,b) (x) = x (1 x)b1 ,
(a)(b)
Loi du chi-deux
Pour n entier 1, la loi du chi-deux n degrs de libert est la loi sur R+ dfinie
par la densit
Remarque 6 Vous noterez que, comme annonc, les hypothses qui nous permettent
daffirmer automatiquement que lon est en prsence de telle ou telle loi classique sont
trs gnrales, et ne font quassez peu intervenir la forme dtaille des modles. Nous
avons seulement besoin de proprits assez gnrales dindpendance sous-jacentes au
modle sur lequels les variables alatoires tudies sont dfinies. La facilit que pro-
cure lutilisation de ces lois classiques ne doit pas pour autant nous faire abandonner
la mthode systmatique qui convient pour aborder la modlisation dune situation :
il est indispensable de prciser les donnes, connaissances, et hypothses de mod-
lisation sur lesquelles on sappuie. Cest seulement une fois cette tape accomplie
que lon peut se demander si telle ou telle variable alatoire suit une loi classique,
en vrifiant que le modle possde bien les proprits correspondantes. Il faut donc
voir les rsultats ci-dessus sur lidentification des lois classiques comme des moyens
de gagner du temps en vitant de refaire des raisonnements ou des calculs qui ont
dj t mens (il est inutile de refaire chaque fois le raisonnement qui mne
la loi binomiale, il suffit de retenir dans quelles conditions gnrales de modlisa-
tion celle-ci apparat). En revanche, commencer ltude dune situation en tentant
de plaquer dessus telle ou telle loi classique, sans sinterroger sur la forme du mo-
dle, les donnes et les connaissances disponibles, et les hypothses de modlisation
quil est pertinent de formuler, nest pas une dmarche acceptable, et conduit le plus
souvent des rsultats errons. Il est important de noter que des lois distinctes des
lois classiques apparaissent dans de nombreuses situations.
Mise en garde 9 Les SXi peuvent tre totalement diffrents les uns des autres,
mais, pour que la notion de loi jointe ait un sens, il est ncessaire que toutes les va-
riables alatoires considres soient dfinies sur le mme espace de probabilit (, P).
Variables alatoires 171
Mise en garde 10 Il est important de bien noter que la connaissance de la loi indi-
viduelle de Xi pour tout 1 i n ne suffit pas en gnral dterminer la loi jointe
de ces variables. Prenons par exemple le modle (N , PN ) dcrivant une rpti-
tion indpendante de N lancers de pile ou face, la variable alatoire Xi reprsentant
le rsultat du ime lancer. Dans le N uplet (X1 , . . . , XN ), chaque variable pos-
sde individuellement une loi de Bernoulli de paramtre p. Cest aussi le cas si lon
constituant le N uplet (X1 , X1 , . . . , X1 ). Pourtant, il est bien vident que ces deux
N uplets nont pas la mme loi !
Sans plus dinformation, la rponse est : NON, car nous ne pouvons pas dter-
miner la loi jointe de X1 et X2 . Illustrons ceci laide dexemples.
Considrons un espace de probabilit (, P), sur lequel sont dfinies deux variables
alatoires X1 et X2 , chacune suivant la loi uniforme sur {1; 2; . . . ; 10}.
Par exemple, partons dune variable alatoire X de loi uniforme sur {1; 2; . . . ; 10},
et dfinissons X1 = X, X2 = 11 X. X1 suit donc la loi uniforme sur {1; 2; . . . ; 10},
et X2 galement. On constate, par exemple, que la probabilit P((X1 , X2 ) = (1, 1))
est gale zro. prsent, choisissons X1 et X2 gales X toutes les deux. X1 et X2
suivent encore chacune la loi uniforme sur {1; 2; . . . ; 10}, mais cette fois, la probabilit
P((X1 , X2 ) = (1, 1)) est gale 1/10 (cest la probabilit pour que X = 1). On
constate donc que la connaissance de la loi de X1 et de la loi de X2 prises sparment
ne permet pas den dduire la loi du couple Y = (X1 , X2 ). En revanche, si lon
suppose que X1 et X2 sont indpendantes, on a ncessairement :
Considrons donc le dcoupage de form par les vnements form par les 100
vnements :
A(a,b) = {X1 = a , X2 = b} , 1 a, b 10.
Lvnement X1 + X2 = 12 est form par la runion des 11 vnements deux--deux
disjoints :
A(1,11) , A(2,10) , A(3,9) , A(4,8) , A(5,7) , A(6,6) , A(7,5) , A(8,4) , A(9,2) , A(10,2) , A(11,1) ,
et, par consquent, la probabilit que nous cherchons est gale :
11
X 11
X
P(X1 + X2 = 12) = P(A(i,12i) ) = P(X1 = i , X2 = 12 i).
i=1 i=1
Remarquons que bien entendu, cette formule ne fait pas intervenir explicitement
lespace des possibles , mais simplement les lois des variables alatoires dfinies sur
. Lindpendance suppose de X1 et X2 nous permet de dduire directement la loi
jointe de X1 et X2 des lois individuelles.
Cas continu
X h
On notera la composition SX Sh(X) , et lutilisation dans la formule
ci-dessus dun dcoupage selon les valeurs de lensemble intermdiaire SX .
Dans le cas continu, le calcul prcdent prend une forme spcifique lorsque,
comme il est courant, la fonction h possde de bonnes proprits de rgularit. Appe-
lons f la densit de X, et supposons par exemple, que h est un C 1 diffomorphisme
de R sur lui-mme. On vrifie alors que h(X) possde la densit
1
x 7 f (h1 (x)).
|h0 (h1 (x))|
Ceci se vrifie (au moins formellement) en crivant que, lorsque h est croissante
(et h est ncessairement croissante ou dcroissante avec nos hypothses), P(a
h(X) a + da) = P(h1 (a) X h1 (a + da)). En ngligeant les termes dordre
suprieur 1 en da, on peut alors crire que h1 (a + da) h1 (a) + (h1 )0 (a)da,
et que P(h1 (a) X h1 (a) + (h1 )0 (a)da) = f (h1 (a)) (h1 )0 (a)da, do
le rsultat. Le cas o h est dcroissante se traite de la mme faon. Une manire
de procder plus correcte mathmatiquement est de considrer des intervalles de
taille finie (et non pas infinitsimale) et dappliquer la formule de changement de
variables pour les intgrales, qui conduit au mme rsultat. Lorsque h nest pas
un C 1 diffomorphisme, rien ne nous empche de tenter une approche similaire en
tenant compte des proprits spcifiques de la fonction h considre.
Dans le cas multidimensionnel, ce qui prcde se gnralise sous la forme suivante.
Si (X1 , . . . , Xm ) est un vecteur alatoire continu de densit f sur Rm et si h =
(h1 , . . . , hm ) est un C 1 diffomorphisme de Rm sur lui-mme, h(X1 , . . . , Xm ) est
encore un vecteur alatoire, de densit
1
(x1 , . . . , xm ) 7 f (h1 (x1 , . . . , xm )).
dt hi
(h1 (x , . . . , x ))
xj 1i,jm 1 m
Lesprance dune variable alatoire est donc un nombre rel, non-alatoire (il ne d-
pend pas de ) obtenu en effectuant la somme sur toutes les ventualits lmentaires,
cest--dire sur toutes les issues de la situation tudie, au niveau de description
adopt , de la valeur que prend la variable alatoire dans le cas o cest cette issue
qui est ralise, multiplie par la probabilit que cette ventualit se ralise. Plus une
ventualit lmentaire est probable, plus le poids attribu dans cette somme la
valeur que prend X lorsque cette ventualit est ralise est grand, et plus celle-ci
contribue la valeur totale de la somme. En dautres termes, lesprance est une
moyenne pondre des valeurs que prend la variable X sur les diffrentes ventuali-
ts lmentaires, la pondration tant fournie par les probabilits de ces ventualits
lmentaires.
Lorsquil ny a aucune ambiguit concernant la probabilit sur laquelle on
se rfre, on note simplement lesprance sous la forme E(X). Inversement, lorsque
plusieurs probabilits sur peuvent tre envisages, il convient de prciser !
Exemple 8
= {a, b, c};
X(a) = 2 , X(b) = 4 , X(c) = 2;
P (a) = 2/8 , P (b) = 1/8 , P (c) = 5/8.
1 1 1
Une autre manire de dfinir lesprance consiste lcrire, non plus comme une
somme sur toutes les ventualits lmentaires, pondres chacune par leur probabi-
lit de ralisation, mais comme une somme sur toutes les valeurs que peut prendre
X, pondres chacune par leur probabilit dapparition. (Ou, autrement dit, en se
plaant sur lespace de probabilit image (SX , pX ) associ X et compatible avec le
modle (, P) pour le calcul de lesprance). En effet, si, dans la formule qui dfinit
lesprance de X, nous regroupons toutes les ventualits lmentaires qui donnent
X la valeur s, leur contribution totale dans la somme est :
X X X
X()P() = sP() = s P() = sP(X = s).
: X()=s : X()=s : X()=s
En considrant lensemble SX de toutes les valeurs possibles que peut prendre la va-
riable alatoire X, on constate que lesprance de X sexprime donc galement
par la formule : X
E(X) = s P(X = s).
sSX
Remarque 7 dans les deux dfinitions ci-dessus, nous ne nous sommes pas proc-
P P
cups de lexistence des sommes de la forme : ou sS . Lorsque les variables
alatoires considres ne prennent quun nombre fini de valeurs, et, a fortiori, lorsque
ne comporte quun nombre fini dlments, cette criture ne soulve aucune dif-
ficult. En revanche, si est infini (nous le supposerons toujours dnombrable), il
faut sassurer que les sommes que lon manipule sont bien dfinies, et ce nest pas
Variables alatoires 179
toujours le cas. Par exemple, considrons une variable alatoire dont lensemble
des valeurs est N , et dont la loi est dfinie par :
1 1 1
P(X = n) = = .
n(n + 1) n n+1
P+ 1
On dfinit bien ainsi une loi de probabilit car n=1 n(n+1) = 1. Cependant, la
somme qui dfinit lesprance de X ne converge pas :
+ + +
X X n X 1
n P(X = n) = = ,
n(n + 1) (n + 1)
n=1 n=1 n=1
et lesprance nest donc pas dfinie. On pourrait cependant convenir que, dans ce cas,
que lesprance de X est gale +. Lexemple dune variable alatoire valeurs
dans Z et qui vrifie P(X = n) = 2|n|(|n|+1)
1
devrait vous convaincre que lon ne peut
vraiment pas toujours dfinir lesprance.
Dans tous les cas, nous ne parlerons de lesprance de X que lorsque la srie :
X
|X()|P()
converge, et nous dirons alors que lesprance de X existe, ou est bien dfinie, ou
encore que X possde une esprance. Dans ce cas, la srie dfinissant lesprance
converge, et le rsultat ne dpend pas de lordre dans lequel la sommation est effectue.
En tout cas, il faut chaque fois sassurer, lorsque lon manipule une esprance, que
ces convergences ont bien lieu.
(On dduit facilement cette formule de celle qui prvaut dans le cas discret).
180
On note bien que cest le caractre numrique, quantitatif, dune variable ala-
toire, qui permet de donner un sens son esprance, dfinie comme une somme
pondre de valeurs. Que serait lesprance dune variable alatoire dont la valeur
serait un prnom ou une couleur ?
Autrement dit, la moyenne (au sens usuel) des valeurs dun chantillon scrit gale-
ment comme la somme des valeurs prsentes dans cet chantillon pondres par leurs
frquences relatives dapparition dans lchantillon. La formule donnant lesprance
sous la forme : X
E(X) = s P(X = s),
sS
apparat donc comme une extension de cette dfinition, dans laquelle les frquences
dapparition des diffrentes valeurs sont remplaces par leurs probabilits. Remar-
quons que, lorsque la loi de X est la loi empirique dcrivant un chantillon de valeurs
x1 , . . . , xN , cest--dire lorsque les probabilits affectes aux diffrentes valeurs de
X sont prises gales aux frquences dapparition de ces valeurs dans lchantillon,
lesprance de cette loi empirique est gale la moyenne (au sens usuel) des valeurs
de lchantillon.
Variables alatoires 181
Interprtation frquentielle
la possibilit deffectuer ces choix long terme (par exemple, ne pas risquer dtre
ruin aprs quelques checs et donc dans limpossibilit de participer aux choix ul-
trieurs), ce qui nest pas toujours garanti, et limite la porte de cette rgle mme
dans ce contexte. Quantifier prcisment le risque correspondant et ce que signifie
un long terme en pratique, est, dans ce contexte, une question dlicate, mais im-
portante (voir par exemple le chapitre Loi des grands nombres pour en apprendre
davantage), que nous naborderons pas de manire systmatique.
Par ailleurs, Von Neumann et Morgenstern ont prouv que, sous des hypothses
gnrales censes tre vrifies par un individu rationnel, les prfrences entre diff-
rentes situations peuvent toujours tre exprimes en termes dutilit espre.
Plus prcisment, supposons donne une relation de prfrence entre les dif-
frentes probabilits sur , P1 P2 signifiant que lon prfre (au sens large) P2
P1 , lindiffrence tant traduite par le fait que P1 P2 et P2 P1 . Nous noterons
P1 s P2 le fait que lon prfre P2 P1 au sens strict, cest--dire que P1 P2 et
que lon na pas P2 P1 .
Le rsultat de Von Neumann et Morgenstern est que, si la relation vrifie les
quatre proprits prsentes ci-aprs, il existe ncessairement une fonction U dfinie
sur et valeurs relles telles que EP1 (U ) EP2 (U ) si et seulement si P1 P2 .
Voici ces quatre proprits :
la relation de prfrence est totale, ce qui signifie que lon a toujours une
prfrence (qui peut ventuellement tre lindiffrence) entre deux probabilits
P1 et P2 ;
la relation de prfrence est transitive, ce qui signifie que si lon prfre P2
P1 et P3 P2 , on doit prfrer P3 P1 ;
si P1 s P2 s P3 , il existe a, b ]0, 1[ tels que P2 s (aP1 + (1 a)P3 ) et
(bP1 + (1 b)P3 ) s P2 ;
si P1 P2 , alors, pour tout a [0, 1] et toute probabilit P3 , aP1 + (1 a)P3
aP2 + (1 a)P3 .
Nous vous laissons le soin de rflchir la signification de ces proprits en termes
de rationalit des choix. Voir lexercice 81 pour des exemples illustrant le fait que les
relations de prfrence relles des individus ne satisfont pas toujours ces axiomes.
un rsum numrique synthtique (un seul nombre) susceptible de donner une ide
de la localisation des valeurs de la variable alatoire considre, qui, rappelons-le, est
une fonction, dont les valeurs sont affectes de probabilits varies.
Une premire confusion, qui vaut tant pour la notion usuelle de moyenne que
pour la notion desprance, est de croire que celle-ci fournit en gnral une valeur
typique, ou encore reprsentative des valeurs prises par la variable alatoire
considre. Pour au moins deux raisons distinctes, ce nest pas le cas en gnral.
Une premire raison est la compensation pouvant exister entre valeurs suprieures
et infrieures E(X). Un exemple caricatural est une variable alatoire prenant la
184
Directeur 99123
Cadre 1 66244
Cadre 2 65908
Cadre 3 58163
Cadre 4 52284
Cadre 5 45928
Cadre 6 33354
Cadre 7 25736
Employ 1 15262
Employ 2 14634
Employ 3 13253
Employ 4 13078
Employ 5 12044
Employ 6 12027
Employ 7 12010
Employ 8 11773
Employ 9 11602
Employ 10 11244
Employ 11 10640
Employ 12 10283
Variables alatoires 185
Entreprise A
12
10
8
6
4
2
0
Directeur 50123
Cadre 1 33244
Cadre 2 32908
Cadre 3 31163
Cadre 4 29284
Cadre 5 29128
Cadre 6 29054
Cadre 7 28736
Cadre 8 28363
Cadre 9 28284
Cadre 10 27928
Cadre 11 27854
Cadre 12 27736
Cadre 13 27654
Cadre 14 26936
Cadre 15 26854
Cadre 16 25732
Employ 1 19262
Employ 2 13634
Employ 3 12253
une valeur typique est ce que lon appelle sa sensibilit aux valeurs extrmes.
Prenons lexemple de lentreprise C.
Directeur 250123
Cadre 1 132244
Employ 1 11262
Employ 2 11189
Employ 3 11124
Employ 1 10982
Employ 2 10903
Employ 3 10884
Employ 1 10880
Employ 2 10875
Employ 3 10864
Employ 1 10859
Employ 2 10841
Employ 3 10838
Employ 1 10832
Employ 2 10822
Employ 3 10818
La moyenne des rmunrations est de 30962,33 euros environ. Pourtant, tous les
salaris sauf deux gagnent moins de 1000 euros par mois ! Les deux rmunrations
du directeur et du cadre sont tellement importantes que leur faible poids dans la
moyenne (10%) est compens par leur valeur leve. On parle parfois de phnomne
du loto pour dsigner cette situation : lexistence dun gain trs lev mais trs rare,
et donc nullement reprsentatif, contribue de manire dterminante la valeur de
lesprance. Voir lexercice 71. Le mme problme peut galement se poser lorsquun
188
Pour tenter de pallier les limitations les plus flagrantes de lesprance en tant
quindicateur de position, on a souvent recours dautres indicateurs numriques,
qui ont leurs dfauts et limitations propres, mais permettent daffiner la description
de la loi dune variable alatoire par rapport la seule donne de lesprance.
Lune dentre elles est la mdiane, ou encore, lintervalle mdian, dont voici les
dfinitions.
On pose x1/2, (X) = sup{x R : P(X x) > 1/2} et x1/2,+ (X) = inf{x
R : P(X x) > 1/2}.
On vrifie que ces deux nombres sont toujours bien dfinis et finis, du fait que
P(X x) tend vers zro (resp. 1) lorsque x tend vers (resp. +). Qui plus est,
par croissance de la fonction de rpartition FX , on vrifie que x1/2, x1/2,+ . On
vrifie galement le fait que P(X x1/2,+ ) 1/2, et P(X x1/2, ) 1/2.
Lintervalle mdian de X est lintervalle [x1/2, ; x1/2,+ ]. Lorsque x1/2,+ =
x1/2,+ , cette valeur commune est appele la mdiane de X. Lorsque x1/2,+ 6= x1/2, ,
x +x
on prend souvent pour mdiane le milieu de lintervalle mdian, soit 1/2,+ 2 1/2, , ce
qui permet de dfinir la mdiane de manire systmatique. Clairement, la mdiane ne
prsente pas le mme phnomne de sensibilit aux valeurs extrmes que lesprance.
Considrons le cas particulier dune loi empirique associe un chantillon de
valeurs x1 , . . . , xN , on a, en notant xi1 xi2 . . . xiN . Si N = 2k + 1, la mdiane
est simplement gale xik+1 . Si N = 2k, x1/2, = xik randis que x1/2,+ = xik+1 .
Dans les exemples prcdents, la mdiane associe aux rmunrations est de
13943,5 euros pour lentreprise A, de 28106 euros pour lentreprise B, et de 10882
euros pour lentreprise C. Pour lentreprise A, la valeur de la mdiane est nette-
ment infrieure lesprance, et traduit le fait quune majorit de salaris sont des
employs gagnant moins de 13943 euros, cette valeur ne reprsentant, pas plus que
lesprance, une valeur typique de la rmunration (il ne peut de toute faon pas
y avoir de valeur typique unique dans ce cas). Notamment, cette valeur ne donne
Variables alatoires 189
Le mode est une notion surtout approprie aux variables prenant un petit nombre
de valeurs distinctes : cest simplement la valeur la plus probable de X (le mode
nest pas toujours dfini car plusieurs valeurs peuvent tre ex-quo). Le fait que,
lorsquil est dfini, le mode soit plus probable que nimporte quelle autre valeur
prise individuellement ne signifie pas quil soit affect dune probabilit importante.
Mme la valeur la plus probable peut navoir quune probabilit trs faible et ne
pas reprsenter grand-chose de pertinent. Dans les exemples prcdents des trois
entreprises A, B et C, chaque valeur apparat exactement une fois, si bien que le
mode nest pas correctement dfini.
Dans le cadre des lois continues, les modes seront plutt dfinis comme les pics
de la densit.
Voici un extrait du World Almanac and Book of Facts (1975), dans lequel se
trouve une estimation du nombre des grandes inventions mises au point chaque anne
entre 1860 et 1959, soit
5 3 0 2 0 3 2 3 6 1 2 1 2 1 3 3 3 5 2 4 4 0 2 3 7 12 3 10 9 2 3 7 7
233624352240425233658366052226344
2247533022213422111214432141110020
x effectif frquence
0 9 0.09
1 12 0.12
2 26 0.26
3 20 0.20
4 12 0.12
5 7 0.07
6 6 0.06
7 4 0.04
8 1 0.01
9 1 0.01
10 1 0.01
12 1 0.01
0 1 2 3 4 5 6 7 8 9 10 12
On note en passant son absence de symtrie. Lesprance est ici gale 3,1, et la
mdiane 3. Il y donc concidence entre ces trois indicateurs. Comme les exemples
prcdents le prouvent, ce nest en gnral pas le cas.
0.08
0.06
P(X=x)
0.04
0.02
0.00
0 10 20 30 40 50
2.6.6 Variance
La variance dune variable alatoire X est dfinie comme lesprance
des carts quadratiques de la variable son esprance, cest--dire :
V(X) = E (X E(X))2 ,
nant les cadres, cet cart nest quasiment jamais proche de lcart rel, la liste des
(valeurs absolues des) carts tant la suivante : 69393,5 ; 36514,5 ; 36178,5 ; 28433,5 ;
22554,5 ; 16198,5 ; 3624,5 ; 3993,5. Lcart-type fournit nanmoins, de manire trs
grossire, une mesure de lcart, et une indication de lordre de grandeur de la dis-
persion des rmunrations.
Pour lentreprise B, lcart-type surestime globalement lcart la rmunration
moyenne, qui a par exemple plus de 70% de chances dtre infrieur la moiti de
lcart-type, deux autres valeurs tant voisines de celui-ci, et deux autres encore trs
loignes. Ici encore, on nobtient quune estimation trs grossire de lcart, et de
lordre de grandeur de la dispersion des rmunrations.
Quant lentreprise C, lcart-type ne reprsente peu prs rien, lesprance
tant elle-mme affecte par les deux valeurs extrmes. Lcart entre la rmunration
et sa valeur moyenne est, avec une probabilit de 90%, de lordre de 20000 euros, et,
pour les deux valeurs extrmes, de 219160,67 et 101281,67 euros.
Entreprise A
1e+05
8e+04
6e+04
4e+04
2e+04
196
Entreprise B
50000
40000
30000
20000
Entreprise C
250000
200000
150000
100000
50000
On constate que ces graphiques rendent bien compte des diffrences qualitatives
existant entre les trois distributions : deux groupes de rmunrations pour lentreprise
A, lun assez resserr (les employs), lautre plus tal (les cadres) ; une rpartition
assez concentre des revenus pour lentreprise B ; une rpartition comportant deux
extrmes trs loigns du reste de la distribution pour lentreprise C.
La mme remarque gnrale que celle faite propos des indicateurs de position
sapplique : chaque indicateur possde des avantages et des dfauts, qui rendent leur
valeur plus ou moins pertinente ou trompeuse selon le contexte. Linformation conte-
nue dans la loi dune variable alatoire est trop riche pour pouvoir, en toute gnralit,
tre rsume par un ou mme plusieurs indicateurs numriques synthtiques.
Variables alatoires 197
a 1 2 3 4 5 6 7 8
P(X a) 0,86 0,59 0,32 0,14 0,053 0,016 0,0045 0,0010
E(X)/a 2 1 0,67 0,50 0,40 0,33 0,29 0,25
a 40 42 44 46 48 50 52 54
P(X a) 0,54 0,38 0,24 0,13 0,064 0,027 0,010 0,003
E(X)/a 1 0,95 0,91 0,86 0,83 0,80 0,77 0,74
Ces deux exemples illustrent le fait que, dans certains cas (en fait, souvent),
la fonction a 7 P(X a) dcrot bien plus rapidement avec a que E(X)/a, ce
qui fait que lingalit de Markov, quoique valable (nous lavons prouve ! ! !), nest
pas prcise. Autre exemple : la loi exponentielle, pour laquelle on a P(X a)
exp(a/E(X)), ce qui met encore en vidence ce phnomne.
Pour autant, on ne peut pas en toute gnralit esprer (cest--dire pour toute
variable alatoire positive dont lesprance est dfinie) obtenir mieux que lingalit
de Markov, car il est facile (voir lexercice 119) de construire des exemples de variables
alatoires positives pour lesquels P(X a) est aussi proche de E(X)/a quon le
souhaite, au moins pour certaines valeurs de a. Des hypothses supplmentaires sur la
loi de X (comme par exemple, le fait que la loi de X appartienne une famille de lois
paramtriques particulire, comme les lois de Poisson, ou exponentielle, par exemple)
sont donc ncessaires pour que lon puisse esprer dduire de la seule connaissance de
lesprance de X des informations sur la localisation des valeurs de X plus prcises
que celles fournies par lingalit de Markov.
Lingalit de Markov fournit une borne suprieure sur les probabilits du type
P(X a), cest--dire sur la probabilit pour que X dpasse une certaine valeur a,
cette ingalit ayant un rel contenu lorsque a > E(X).
La connaissance de E(X) nous permet-elle de dduire des informations non-
triviales sur dautres probabilits relatives la localisation des valeurs de X ?
On pourrait chercher obtenir des bornes infrieures sur des probabilits du type
P(X a) lorsque a > E(X) (ce qui est un peu contradictoire avec lutilisation de
lesprance comme indicateur de position, mais bon...), on voit facilement que cette
probabilit peut tre rendue gale zro dans certains cas, et que lon ne peut donc
rien dire ce sujet au seul vu de lesprance.
Pour a = E(X), on note que lon a ncessairement P(X E(X)) > 0 et
P(X E(X)) > 0. Il est facile de construire des exemples o lune ou lautre de
ces probabilits sont aussi petites quon le souhaite (elles ne peuvent videmment
pas tre petites simultanment, du fait que leur somme est suprieure ou gale 1),
Variables alatoires 199
et lon ne peut donc pas dire quoique ce soit de plus en toute gnralit (cest--dire
sans hypothses supplmentaires sur la loi de X).
Pour a < E(X), tant donns deux nombres a, b > 0 vrifiant a < b et 0 < p < 1,
on peut toujours construire une variable alatoire positive X vrifiant P(X a) =
p et E(X) = b. Il suffit de choisir X prenant la valeur a avec probabilit p et
(b ap)/(1 p) avec probabilit 1 p.
On constate donc que lon ne peut rien dire sans hypothse supplmentaire sur
la probabilit P(X a) ou, en passant au complmentaire, P(X < a).
Notons par ailleurs que lhypothse selon laquelle la variable alatoire X consi-
dre ne prend que des valeurs positives est essentielle. Sans hypothse de ce type,
la seule connaissance de lesprance E(X) ne permet pas de dire quoique ce soit de
quantitatif sur les probabilits du type P(X a) ou P(X a) sans hypothses
supplmentaires, hormis le fait trivial que P(X E(X)) > 0 et P(X E(X)) > 0.
Ceci en raison des compensations entre valeurs positives et ngatives qui peuvent
survenir dans le calcul de E(X).
Par exemple, une variable alatoire desprance gale zro peut prendre des
valeurs positives et ngatives arbitrairement grandes en valeur absolue (penser une
v.a. prenant la valeur a avec probabilit 1/2 et a avec probabilit 1/2).
On peut nanmoins obtenir des estimations sur des variables de signe quelconque,
mais en considrant les esprances de fonctions positives de ces variables alatoires,
telles que |X|p ou exp(tX).
Un exemple clbre et important est lingalit de Bienaym-Tchebychev 9 ,
que lon obtient en appliquant lingalit de Markov la variable alatoire positive
[X E(X)]2 , soit
(X) 2
V(X)
P (|X E(X)| t) = ,
t2 t
valable pour tout t > 0.
Lingalit de Bienaym-Tchebychev fournit donc une majoration de la probabi-
lit pour que la valeur prise par X scarte de E(X) dune distance suprieure (ou
gale) t. Cette ingalit fait intervenir le rapport entre lcart-type de X, (X), et
t, cest--dire lcart lesprance, et la majoration fournit une valeur dautant plus
petite que lcart entre X et son esprance est suppos grand devant lcart-type
(X). En ce sens, observer une valeur de X dont lcart par rapport E(X) dpasse
de beaucoup lcart-type est donc trs improbable. Ceci entrane que, lorsque lcart-
type est lui-mme petit devant lesprance, la valeur de E(X) reprsente la valeur
typique de X.
Conformment la discussion prcdente sur lingalit de Markov, cette inga-
lit est trs souvent imprcise (la majoration est exagrment pessimiste), mais on ne
9. I.-J. Bienaym (17961878), P. L. Tchebychev (18211894).
200
peut pas lamliorer en toute gnralit, car il existe des cas o celle-ci est peut-tre
rendue arbitrairement prcise. Enfin, on ne peut rien dduire, en labsence dinfor-
mations ou dhypothses supplmentaires au sujet de la variable alatoire considre,
sur la probabilit pour que lcart soit effectivement plus grand quune fraction don-
ne de lcart-type : un cart beaucoup plus grand que lcart-type est, daprs ce qui
prcde, trs improbable, mais rien ne prouve que les carts ne sont pas typiquement
beaucoup plus petits que lcart-type (voir lexemple de lentreprise C dans ce qui
prcde, ou lexercice 71).
Exemple des entreprises A, B, C.
Pour illustrer cette ingalit, considrons une variable alatoire de loi binomiale
de paramtres n = 50 et p = 0, 6. (Les valeurs prsentes sont arrondies au plus
proche partir de la deuxime dcimale significative.)
a 2 3 4 5 6 7 8 9
P(|X E(X)| a) 0,67 0,47 0,31 0,19 0,11 0,059 0,029 0,0013
V (X)/a2 3 1,33 0,75 0,48 0,33 0,24 0,19 0.15
a 4 5 6 7 8 9 10
P(|X E(X)| a) 0,37 0,24 0,15 0,09 0,050 0,027 0,014
V (X)/a2 0,94 0,60 0,41 0,30 0,23 0,19 0,12
Multiplier une variable alatoire par a donc pour effet de multiplier sa variance
par 2 , et lcart-type se trouve donc, lui, multipli par ||.
V( X) = 2 V(X) , ( X) = || (X).
clauses. (Ce nest bien entendu pas toujours possible.) Il sagit dun problme NP-
complet, jouant un rle important en informatique thorique, et personne ne sait
lheure actuelle sil existe une mthode pour le rsoudre essentiellement meilleure
que dessayer une par une toutes les combinaisons de valeurs possibles pour les yi .
Nous allons prouver, laide dun raisonnement de probabilits, le rsultat sui-
vant : pour tout ensemble de m clauses, il existe une assignation des variables yi telle
quau moins m/2 clauses sont satisfaites.
Supposons que les valeurs des n variables boolennes sont tires au hasard, cest-
-dire donnes par n variables alatoires mutuellement indpendantes X1 , . . . , Xn
prenant chacune la valeur vrai avec probabilit 1/2, et faux avec probabilit 1/2.
Notons C1 , . . . , Cm les diffrentes clauses, et intressons-nous la probabilit quune
clause donne Ci soit satisfaite. Appelons k le nombre de variables apparaissant
dans Ci . Par dfinition, Ci est satisfaite ds que lune au moins des k variables qui y
figurent prend la valeur vrai. En consquence, la probabilit pour que Ci ne soit
pas satisfaite est la probabilit pour que chacune de ces k variables prenne la valeur
faux, et vaut donc, les variables tant mutuellement indpendantes, (1/2)k . La
probabilit pour que Ci soit satisfaite est donc gale 1 (1/2)k , et se trouve donc
toujours suprieure ou gale 1/2.
prsent, intressons-nous au nombre total X de clauses satisfaites simultan-
ment. Par dfinition, ce nombre scrit :
m
X
X= 1Ci est satisfaite .
i=1
de prouver le rsultat par une autre mthode ! Pour en savoir (beaucoup) plus sur
ce type dapproche, et en particulier sur lutilisation de lalatoire pour concevoir
des algorithmes simples et performants dans de nombreuses situations, vous pouvez
consulter louvrage de Motwani et Raghavan cit dans la bibliographie.
et
Y (1) = 0 , Y (2) = 1 , Y (3) = 1 , Y (4) = 0.
On vrifie que X Y () = 0 pour tout , et par consquent, E(X Y ) = 0.
Dautre part, E(X) = 41 (1) + 14 0 + 14 0 + 41 1 = 0 = E(Y ). On a donc bien
E(X Y ) = E(X) E(Y ). En revanche, X et Y ne sont pas indpendantes, car, par
exemple, P(X = 0, Y = 0) = 0 alors que P(X = 0) = P(Y = 0) = 21 , do le fait que
P(X = 0, Y = 0) 6= P(X = 0) P(Y = 0). Nous reviendrons dans la partie suivante
sur cette question.
Rinsistons sur le fait que, sans hypothses supplmentaires (telles que lindpen-
dance), lesprance dun produit na aucune chance dtre le produit des esprances.
Considrons encore un exemple.
Jojo rclame une augmentation de salaire son employeur. Celui-ci, apparem-
ment convaincu par les arguments de Jojo, lui propose larrangement suivant : si les
rsultats de lentreprise continuent dtre satisfaisants, Jojo verra son salaire aug-
menter de 20% ds cette anne. En revanche, son salaire naugmentera pas lanne
suivante. Si au contraire les rsultats sont infrieurs ceux qui taient attendus,
Variables alatoires 205
le salaire de Jojo ne sera pas augment cette anne, mais sera de toute faon ac-
cru lanne suivante de 20%. Au vu de la situation conomique incertaine, Jojo, qui
nest gure optimiste, estime 1/2 la probabilit pour que lentreprise atteigne ses
objectifs cette anne.
Appelons A1 laugmentation relative de salaire (alatoire) reue par Jojo cette
anne, et A2 laugmentation relative de lanne suivante.
Lesprance de A1 est :
1 1
E(A1 ) = 1, 2 + 1 = 1, 1.
2 2
Celle de A2 se calcule de la mme manire :
1 1
E(A2 ) = 1, 2 + 1 = 1, 1,
2 2
laugmentation de Jojo ayant une chance sur deux de se produire cette anne, et une
sur deux de se produire lanne suivante. Que dire de laugmentation totale A1 A2
perue par Jojo sur les deux annes ? Jojo tant certain dtre augment de 20% cette
anne ou bien lanne suivante, A1 A2 est toujours gal 1, 2. En particulier, E(A1
A2 ) = 1, 2. En revanche, le produit des esprances E(A1 ) E(A2 ) est gal 1, 1
1, 1 = 1, 21. Lesprance de a1 A2 nest donc pas gale au produit des esprances de
A1 et de A2 . Ces deux variables ne sont bien entendu pas indpendantes, puisquune
augmentation cette anne entrane une absence daugmentation lanne suivante, et
inversement.
Dmontrons prsent la proprit. Considrons donc deux variables alatoires
indpendantes X et Y , dont les esprances sont bien dfinies. Notons SX et SY les
ensembles de valeurs possibles pour X et Y respectivement.
Par dfinition :
X X
E(X) E(Y ) = s P(X = s) t P(Y = t) .
sSX tSY
Regroupons dans la somme ci-dessus tous les couples (s, t) tels que s t = u.
Leur contribution totale dans la somme ci-dessus est donc :
X X
u P(X = s , Y = t) = u P(X = s , Y = t).
(s,t) : st=u (s,t) : st=u
o SXY dsigne lensemble des valeurs possibles pour le produit dun lment de SX
par un lment de SY .
Par ailleurs,
est gal environ 0, 28. Pourtant, ces valeurs ont t simules partir dun
modle dans lequel X et Y sont indpendantes, X tant une variable alatoire de loi
exponentielle de paramtre 1 arrondie deux dcimales, et Y une variable alatoire
indpendante de X, de loi uniforme sur [0, 1] galement arrondie deux dcimales.
Variables alatoires 209
10000
9900
9800
x(i)
suit une loi de Poisson de paramtre = 10000, le nombre de chemines suit une
loi de Poisson de paramtre = 10000, et le nombre de naissances suit une loi de
Poisson de paramtre = 20000, ces variables tant indpendantes entre elles, et
indpendantes dune ville lautre.
Rptons 1000 fois lexprience consistant simuler, pour 100 villes, le nombre de
naissances, le nombre de chemines, et le nombre de femmes en ge de procrer, puis
calculer le coefficient de corrlation linaire entre les deux rapports : (nombre de che-
mines)/(nombre de femmes en ge de procrer) et (nombre de naissances)/(nombre
de femmes en ge de procrer).
Les 1000 valeurs obtenues pour le coefficient de corrlation fournissent lhisto-
gramme suivant :
Coeff. de corr.
200
150
Effectif
100
50
0
Loi de Bernoulli
Bernoulli de paramtre p, (
E(X) = p,
V(X) = p(1 p).
Loi binomiale
X = 1A 1 + + 1A n .
Cette dduction est un peu rapide, car nous navons prouv ladditivit des variances
que pour une somme de deux variables alatoires indpendantes. Pour passer n
variables, il suffit de remarquer que, par exemple, les deux variables 1An et 1A1 +
+ 1An1 sont indpendantes, et ditrer largument.
Rcapitulons : si X suit une loi binomiale de paramtres n et p :
(
E(X) = np,
V(X) = np(1 p).
Remarquons que nous aurions galement pu, pour calculer E(X) et V(X), partir
de la dfinition de la loi binomiale
et calculer
n
X
E(X) = kCnk pk (1 p)nk
k=0
et
n
X
V(X) = k 2 Cnk pk (1 p)nk (E(X))2
k=0
Loi de Poisson
et
V(X) = lim n 1 = ,
n+ n n
et ce raisonnement peut tre rendu rigoureux, au prix dun peu de travail suppl-
mentaire.
Pour obtenir ces valeurs, il serait galement possible de partir de la dfinition de
la loi de Poisson
k
P(X = k) = e , k 0.
k!
et de calculer
+
X k
E(X) = k e
k!
k=0
et
n
X k
V(X) = k2 e (E(X))2
k!
k=0
Loi gomtrique
P(X = k) = (1 p)k1 p , k 1.
Son esprance et sa variance se calculent laide didentits sur les sries entires :
+
X 1
E(X) = k(1 p)k1 p = ,
p
k=1
+
X 1p
V(X) = k 2 (1 p)k1 p (E(X))2 = .
p2
k=1
Loi exponentielle
Loi gaussienne
Loi gamma
Loi beta
Loi de Cauchy
La loi de Cauchy est lexemple le plus classique de loi pour lesquelles lesprance
nest pas dfinie (et, par voie de consquence, la variance ne lest pas non plus).
R + x
En effet, on voit facilement que 1+x 2 dx = +.
tendu, ce choix nest pas le seul possible, et prsente un certain nombre davantages
et dinconvnients la mesure de lerreur par ce critre est donc discutable, et cette
discussion rejoint celle sur la pertinence de lesprance en tant quindicateur de po-
sition (voir ce qui a t dit prcdemment ce sujet). Dans le cadre frquentiel, ce
216
critre fournit un contrle sur la somme des erreurs quadratiques commises. Linga-
lit de Markov assure au moins quune faible valeur de lcart en ce sens conduit
un cart typiquement faible.
Ce choix tant fix, le problme de la rgression est donc de trouver une fonction
h qui minimise la quantit E (Y h(X))2 . On parle alors de rgression au sens des
sSX
et nous vous renvoyons aux remarques sur le conditionnement par une variable ala-
toire continue effectues plus bas pour une discussion des problmes techniques sou-
levs par cette situation.
Sil nexiste aucune contrainte liant entre elles les valeurs de h(x) pour diffrentes
valeurs de x (telles que, par exemple, des contraintes de continuit) ce qui est le
cas lorsque lon cherche une rgression sous la forme h(X), o h est la fonction la
plus gnrale possible, il suffit de minimiser sparment pour chaque valeur de x la
quantit E (Y f (x))2 |X = x . Lexercice 94 entrane que le minimum est atteint
en choisissant
h(x) := E [Y |X = x] .
Notons que la variable alatoire h(X) nest autre que lesprance conditionnelle
E(Y |X), notion tudie en tant que telle dans une autre partie.
Pour tre simple dfinir, cette solution au problme de la rgression nest en
gnral que thorique, car, entre autres, de redoutables problmes destimation se
posent lorsque lon cherche concrtement, partir de listes de valeurs mesures
(xi , yi )i=1,...,n du couple de variables (X, Y ), estimer la fonction h dfinie ci-dessus.
Nous allons dans cette partie nous intresser une version restreinte du problme :
rechercher la meilleure approximation de Y non pas par une variable alatoire de la
forme h(X), o h peut-tre une fonction quelconque (ou presque), mais en nous
restreignant aux fonctions affines, cest--dire de la forme h(x) = ax + b. Nous serons
donc amens chercher les rels a et b qui minimisent la quantit E([Y (aX + b)]2 ).
Variables alatoires 217
On parle dans ce cas de rgression linaire, pour insister sur le fait que les fonctions
h considres sont linaires (en fait, affines).
Un problme de ce type dapproche est quen gnral, mme en choisissant a et b
de manire optimale, lapproximation aX + b de Y est diffrente de E(Y |X). Autre-
ment dit, notre approximation nest pas la meilleure au sens des moindres carrs. En
revanche, ce choix conduit des problmes destimation faciles rsoudre, et rsulte
donc dun compromis entre prcision de lapproximation fournie par la rgression, et
possibilit de calculer concrtement (et pas seulement de manire thorique) celle-ci.
Le rle privilgi de la rgression linaire dans les modles gaussiens (o elle con-
cide effectivement avec la rgression optimale au sens des moindres carrs E(Y |X),
nous en reparlerons dans le chapitre sur la courbe en cloche) est une autre raison de
limportance de ce type de rgression.
De nombreuses mthodes plus labores que la rgression linaire (tels que splines,
rseaux de neurones, arbres de dcision,...), et ralisant des compromis diffrents
et plus ou moins bien adapts aux diffrents contextes existent, et sont devenus
utilisables ces dernires annes notamment grce laccroissement de la puissance
de calcul des ordinateurs. Pour en apprendre (beaucoup) plus sur le sujet, vous
pouvez consulter par exemple louvrage de Hastie, Tibshirani et Friedman cit dans
la bibliographie.
Expliquons maintenant comment calculer les coefficients de la rgression linaire
de Y sur X, cest--dire les rels a et b qui minimisent la quantit E([Y (aX + b)]2 ).
On vrifie quune manire quivalente de poser le problme consiste chercher une
criture de Y sous la forme Y = aX+b+W , o W vrifie E(W ) = 0 et cov(W, X) = 0.
Ou encore, chercher crire Y sous la forme (X E(X)) + E(Y ) + W , o W
vrifie E(W ) = 0 et cov(W, X) = 0, soit une somme dun terme constant (E(Y )),
un terme proportionnel lcart entre X et E(X), et un terme rsiduel centr et
non-corrl X.
Remarque 9 Dans le cas o la loi du couple (X, Y ) est la loi empirique associe
un chantillon de valeurs (x1 , y1 ), . . . , (xN , yN ), on vrifie que le problme revient
chercher la droite dapproximation des moindres carrs du nuage de points du plan
form par (x1 , y1 ), . . . , (xN , yN ), donne par son quation y = ax + b.
elle, souvent appele la variance explique par la rgression, car elle apparat dans
lexpression ci-dessus comme la part de la variance de Y qui est explique par la
variance de X dans le modle de rgression linaire ; toutefois, cette terminologie peut
prter confusion, et il faut se garder (comme de la peste) de confondre rgression
(linaire ou non) et explication (voir par exemple larticle de D. Freedman cit dans
la bibliographie), de mme quune simple association entre vnements ne permet
pas de conclure lexistence dun lien de cause effet entre ceux-ci.
On vrifie que V(X,Y ) = (1 corr(X, Y )2 )V(Y ) tandis que V(aX,Y X + bX,Y ) =
corr(X, Y )2 V(Y ), et lon en dduit donc que le coefficient de corrlation r fournit
une mesure de la prcision de la rgression linaire de Y sur X.
Voici prsent une version normalise de la rgression de X sur Y , dans
laquelle ces variables sont ramenes sur une chelle o leur esprance est nulle et
leur cart-type gale 1 10 .
Lorsque (X) et (Y ) sont non-nuls, on dfinit X = (X E(X))((X))1 et
Y = (Y E(Y ))((Y ))1 .
Le coefficient de corrlation corr(X, Y ) est alors gal au coefficient a de la rgres-
sion linaire de la variable alatoire Y sur X. On vrifie que lerreur dapproximation
2
E Y corr(X, Y )X ,
Comme nous lavons mentionn, lun des intrts de la rgression linaire est
que les paramtres a et b peuvent tre facilement (cest--dire au moyen de calculs
relativement peu coteux) et en gnral efficacement (cest--dire avec une prcision
raisonnable lorsque lon suppose de donnes en nombre raisonnable, voir le chapitre
Statistique pour une introduction ce type de questions) estims partir dun
chantillon (x1 , y1 ), . . . , (xN , yN ) de valeurs mesures du couple (X, Y ).
Dautre part, la rgression linaire joue un rle privilgi dans les modles gaus-
siens, sur lesquels nous reviendrons dans le chapitre sur la courbe en cloche.
Une situation particulirement confortable pour la rgression linaire est celle o
Y peut effectivement se mettre sous la forme Y = aX + b + W , o W est centre,
possde une variance, et est indpendante de X. En effet, dans ce cas, les coefficients
a et b sont ncessairement ceux de la rgression linaire de Y sur X, et aX + b
constitue la meilleure estimation possible de Y par une fonction quelconque de X,
au sens des moindres carrs, autrement dit, en anticipant quelque peu, aX + b est
lesprance conditionnelle de Y sachant X.
Afin dillustrer un peu cette situation, voici un exemple du nuage de points
obtenus en gnrant un chantillon de 100 valeurs (xi , yi ) selon le modle Y =
2, 3 X + 5, 7 + W , o X suit une loi exponentielle de paramtre 1, et W est
indpendante de X et suit une loi gaussienne de paramtres m = 0 et v = 0, 64. Sur
le nuage de points, nous avons galement trac la droite dquation y = 2, 3x + 5, 7
(dans ce cas, nous connaissons lavance ces coefficients, et nous ne nous posons pas,
pour linstant, la question de leur estimation partir des donnes).
14
12
10
y(i)
8
6
4
x(i)
On constate que les abscisses des points ne sont pas uniformment rparties, ce
qui est normal et ne fait que reflter le fait que la distribution des abscisses nest
pas de loi uniforme, mais de loi exponentielle de paramtre 1. On constate des carts
220
alatoires entre la droite trace (appele droite de rgression) et les ordonnes des
points, et lon observe grossirement le caractre symtrique de leur loi de probabilit.
Modifions la valeur de v en la portant v = 9.
Nous obtenons le graphique suivant. On observe que la prdiction de y(i) fournie
par ax(i) + b est en gnral moins prcise que dans le cas prcdent. Cette prdiction
est nanmoins la meilleure possible au sens des moindres carrs, et cest la disper-
sion plus importante des valeurs de W qui limite la qualit des prdictions quil est
possible deffectuer partir de la seule valeur de X.
15
10
y(i)
5
0
0 1 2 3 4 5
x(i)
10
5
0 1 2 3 4
x(i)
Les carts ne sont plus symtriques, mais demeurent centrs, les valeurs positives
plus rares et plus grandes compensant les valeurs ngatives plus frquentes et plus
Variables alatoires 221
Dans lexemple ci-dessous, la loi de W sachant que X = x est une loi exponentielle
de paramtre = (|x 0, 7| + 0, 1)1 translate par son esprance, de manire
vrifier le fait que lesprance de W sachant que X = x est nulle.
20
15
y(i)
10
5
x(i)
10
0 1 2 3 4 5
x(i)
10
0 1 2 3 4 5
x(i)
Sur cet exemple, les choses sont relativement claires, et une simple observation
des donnes suffit suggrer quun procd de rgression quadratique (ou tout au
moins autre que linaire) est plus appropri. Dans des cas plus complexes, soit que
lon ne dispose pas de suffisament de donnes pour se faire une ide prcise de la
loi jointe de (X, Y ), soit que les objets manipuls ne soient pas simplement des
variables relles unidimensionnelles, mais des objets de nature plus labore, il est
difficile, voire impossible, de dterminer la manire optimale de prdire Y partir
de X, et lon se restreint souvent lutilisation de certains types de procds de
rgression, dont la rgression linaire est certainement le plus simple tout point de
Variables alatoires 223
vue.
Pour en revenir la rgression linaire, tout en sachant quelle ne constitue pas
en gnral le moyen dobtenir la meilleure estimation, on note que le coefficient de
corrlation fournit une estimation de lerreur commise (plus prcisment, de sa va-
riance). Toutefois, une mme erreur destimation peut recouvrir des situations trs
diffrentes. De mme que la dmarche consistant simplement calculer lesprance
et lcart-type dune variable alatoire valeurs relles et considrer que lon ob-
tient ainsi lessentiel des informations sur la loi de cette variable alatoire est une
dmarche catastrophique (sauf lorsque lon dispose dinformations spcifiques sur
la loi en question, telle que, par exemple, son appartenance une famille param-
trique de lois telles les gaussiennes), la dmarche consistant, en prsence dun couple
de variables alatoires valeurs relles (X, Y ), calculer simplement lesprance et
lcart-type de X et de Y , ainsi que le coefficient de corrlation, est elle aussi catas-
trophique (sauf, l encore, lorsque lon dispose dinformations spcifiques sur la loi
du couple). Il est indispensable de procder une analyse plus dtaille, par exemple
au moyen dautres indicateurs et doutils de visualisation.
En voici une illustration classique, due Anscombe (Anscombe, Francis J. (1973)
Graphs in statistical analysis. American Statistician, 27, 1721).
Supposons donc que lon dispose dun chantillon de 11 mesures portant simul-
tanment sur huit caractres quantitatifs X1 , . . . , X4 et Y1 , . . . , Y4 .
x1 x2 x3 x4 y1 y2 y3 y4
1 10 10 10 8 8,04 9,14 7,46 6,58
2 8 8 8 8 6,95 8,14 6,77 5,76
3 13 13 13 8 7,58 8,74 12,74 7,71
4 9 9 9 8 8,81 8,77 7,11 8,84
5 11 11 11 8 8,33 9,26 7,81 8,47
6 14 14 14 8 9,96 8,10 8,84 7,04
7 6 6 6 8 7,24 6,13 6,08 5,25
8 4 4 4 19 4,26 3,10 5,39 12,50
9 12 12 12 8 10,84 9,13 8,15 5,56
10 7 7 7 8 4,82 7,26 6,42 7,91
11 5 5 5 8 5,68 4,74 5,73 6,89
1. Eemp. (X1 ) = 9, Eemp. (Y1 ) = 7, 5, Vemp. (X1 ) = 11, Vemp. (Y1 ) = 4, 13, corremp. (X1 , Y1 ) =
0, 82 ;
224
2. Eemp. (X2 ) = 9, Eemp. (Y2 ) = 7, 5, Vemp. (X2 ) = 11, Vemp. (Y2 ) = 4, 13, corremp. (X2 , Y2 ) =
0, 82 ;
3. Eemp. (X3 ) = 9, Eemp. (Y3 ) = 7, 5, Vemp. (X3 ) = 11, Vemp. (Y3 ) = 4, 12, corremp. (X3 , Y3 ) =
0, 82 ;
4. Eemp. (X4 ) = 9, Eemp. (Y4 ) = 7, 5, Vemp. (X4 ) = 11, Vemp. (Y4 ) = 4, 12, corremp. (X4 , Y4 ) =
0, 82 ;
Ces indicateurs ne font donc pas apparatre de diffrence entre les quatre paires
de variables (Xi , Yi ) pour i, pour lesquelles une corrlation leve. En revanche, les
graphiques suivants, qui reprsentent yi en fonction de xi pour i = 1, 2, 3, 4, font
clairement apparatre des diffrences qualitatives fondamentales entre ces variables,
en particulier (mais pas seulement) dans la dpendance pouvant exister entre deux
membres dune mme paire.
11
10
9
8
y1
7
6
5
4
4 6 8 10 12 14
x1
9
8
7
y2
6
5
4
3
4 6 8 10 12 14
x2
Variables alatoires 225
12
10
y3
8
6
4 6 8 10 12 14
x3
12
10
y4
8
6
8 10 12 14 16 18
x4
Le premier graphique voque ceux obtenus dans le cas o Y scrit sous la forme
dune fonction linaire de X laquelle sajoute un bruit alatoire centr indpendant
de X.
Le deuxime suggre trs fortement que Y2 doit sexprimer de manire dtermi-
niste en fonction de Y2 , mais comme une fonction non-linaire. La dpendance est
donc bien plus forte que ce que le coefficient de corrlation laisse supposer, et na
rien de linaire.
Le troisime suggre galement trs fortement le fait que Y3 doit sexprimer exac-
tement comme une fonction linaire de X3 diffrente de celle calcule par rgression
linaire, et quun point aberrant affecte les mesures (la mesure lorigine de ce point
devant certainement tre rexamine de manire critique 12 ).
Le dernier nous rappelle que X4 est constante, lexception dune unique valeur,
la distribution de X4 semblant relativement uniforme entre 5 et 9.
Nous nous contentons ici dune discussion trs rapide et informelle, davantage de-
vant tre dit sur ce type de question dans le chapitre Statistique. Le point essentiel
est de noter les trs fortes diffrences entre ces situations, qui donnent pourtant lieu
des indicateurs desprance/variance/covariance totalement identiques.
12. La question des points aberrants sera reprise dans le chapitre Statistique
226
Cette partie est principalement destine aux lecteurs ayant dj une connaissance
au moins rudimentaire de la thorie des espaces euclidiens, voire hilbertiens.
Les rsultats qui prcdent ont une interprtation gomtrique trs simple.
En appelant L2 (, P) lensemble des variables alatoires dfinies sur (, P)
valeurs relles possdant une variance, on vrifie que L2 (, P) est un espace vectoriel
vis--vis des oprations daddition des variables alatoires et de leur multiplication
par un scalaire, et que lapplication X 7 E(X 2 ), dfinit (le carr d) une norme
euclidienne || || sur L2 (, P), dont le produit scalaire est donn par < X, Y >=
E(XY ).
Appelons C le sous-espace vectoriel de L2 (, P) form par les fonctions constantes,
et L20 (, P) le sous-espace vectoriel de L2 (, P) form par les variables alatoires dont
lesprance est nulle.
On vrifie immdiatement que L2 (, P) = L20 (, P) C.
On vrifie que lesprance de X nest autre (voir lexercice 94) que la projection
orthogonale de X sur C.
Par consquent, le centrage de X, cest--dire la transformation : X 7
X E(X) nest autre que la projection de X sur L20 (, P). On voit ainsi que V(X) =
||(X)||2 et cov(X, Y ) =< (X), (Y ) >.
Dans ce cadre, lquation 2.3 nest autre que la reformulation de la formule bien
connue sur la norme euclidienne dune somme de deux vecteurs : ||(X + Y )||2 =
||(X)||2 + ||(Y )||2 + 2 < (X), (Y ) >.
Lindpendance de X et de Y entrane le fait que (X) et (Y ) sont orthogonales,
la rciproque tant fausse en gnral.
Le problme de la rgression linaire de Y sur X sinterprte alors simplement
comme celui de la recherche de la projection orthogonale de Y sur le sous-espace
constitu par les vecteurs de la forme aX + b, (a, b) R2 .
La normalisation de X par X revient simplement normaliser le vecteur (X),
cest--dire le diviser par sa norme.
Dans ce contexte, le coefficient de corrlation de X et de Y se prsente comme
le cosinus de langle entre les deux vecteurs (X) et (Y ).
E(X1(A))
E(X|A) = .
P(A)
Vous ne rvez donc pas, il sagit bel et bien dune probabilit alatoire sur .
A tout est associ une probabilit sur , gale la probabilit conditionnelle
lunique vnement de A contenant (lexistence et lunicit dun tel vnement
provient du fait que A forme un systme complet dvnements).
Un (lger) problme de dfinition provient du fait que P(|Ai ) nest pas dfinie
lorsque P(Ai ) = 0. Un choix arbitraire dune probabilit sur (par exemple P) dans
le cas o P(Ai ) = 0 permet de dfinir compltement P(|A). Ce choix arbitraire
na aucune importance en pratique, puisque, si P(Ai ) = 0, les lments Ai ne
correspondent jamais une issue ralise de la situation considre.
228
EP (P(B|A)) = P(B).
Etant donne une variable alatoire X valeurs relles dfinie sur , on parlera
de la loi conditionnelle de X par rapport A et P pour dsigner la variable
alatoire constitue par la loi de X par rapport la probabilit alatoire P(|A) sur
.
Si X est valeurs relles et possde une esprance, on pourra dfinir de la mme
manire lesprance conditionnelle de X par rapport A et P, note EP (X|A)
(en utilisant le fait que si X possde une esprance sous P, il en va de mme de
P(|Ai )).
(Comme toujours, lorsquil ny a pas dambiguit, nous crirons simplement
E(X|A).) On vrifie facilement que, si X possde une esprance, cest galement
le cas de E(X|A), et que
EP EP (X|A) = EP (X).
Pour le voir, il suffit dcrire que 1 = pi=1 1(Ai ), et donc que X = pi=1 X1(Ai ),
P P
Pp Pp
do le fait que E(X) = i=1 E(X1(Ai )) = i=1 E(X|Ai ) P(Ai ) = E (E(X|Ai )).
Une caractrisation importante de lesprance conditionnelle, qui dcoule de la
caractrisation de lesprance donne dans lexercice 94 est la suivante : si X possde
une variance, cest galement le cas de E(X|A), et E(X|A) est la meilleure approxi-
mation au sens des moindres carrs de X par une variable alatoire qui ne dpend
que de la ralisation des vnements de A (cest--dire une fonction de la variable
alatoire (1(A1 ), . . . , 1(Ap )), ou encore, pour rutiliser une dfinition du chapitre
prcdent, une variable alatoire possdant une traduction formelle dans lespace des
possibles A = {A1 , Ac1 } {An , Acn } dcrivant la ralisation des vnements
Ai ).
En particulier, si lon prend comme systme complet dvnements la liste des
vnements X = s , que nous noterons A(X), et si Y est une variable alatoire
dfinie sur (, P) et possdant une variance, E(Y |A(X)), que nous noterons parfois
simplement E(Y |X) est la meilleure approximation au sens des moindres carrs de
Variables alatoires 229
Y par une variable alatoire qui scrit comme une fonction de X. (Voir ce sujet la
partie sur la rgression).
En termes plus abstraits, et pour reprendre linterprtation gomtrique pr-
sente prcdemment propos de la rgression linaire, on vrifie que lensemble
L2 (, A(X), P) des variables alatoires possdant une variance et scrivant comme
une fonction de X forme un sous-espace vectoriel ferm de L2 (, P). Lapplication
Y 7 E(Y |A(X)) dfinie sur L2 (, P) sidentifie alors, daprs ce qui prcde, la
projection orthogonale sur L2 (, A(X), P).
Pour plus de dtails sur cette notion importante, nous vous invitons consulter
les ouvrages dintroduction la thorie mathmatique des probabilits cits dans la
bibliographie.
.
Voyant le cas dune variable continue comme un procd dapproximation de la
situation discrte que nous venons de dcrire, nous serons donc amens utiliser la
dfinition suivante : pour une variable continue, P(A|X = x) = limdx0 P(A|x
X x + dx), lorsque cette limite existe.
On peut alors crire que
Z +
P(A) = P(A|X = x)f (x)dx. (2.4)
Pour une variable discrte, cela revient donc utiliser h(A, x) en lieu et place de
P(A|X = x), mme si cette dernire expression est dfinie. Cest cette condition
que lon peut utiliser la densit de X pour faire les calculs dans des expressions telles
que 2.4.
Cette dfinition tant acquise, on peut utiliser lexpression P(A|X = x) essentiel-
lement comme on le ferait dans le cas discret, en se rappelant les rgles de passage
P R
usuelles du cas discret au cas continu ( , et P(X = x) f (x)dx).
P+
Du fait que P(X = k) 0 pour tout k et que k=0 P(X = k) = 1, la srie entire
+
X
GX (z) = P(X = k)z k ,
k=0
Cette identit est une consquence immdiate du fait que z X et z Y sont indpen-
dantes.
Cette identit est une consquence immdiate du fait que exp(tX) et exp(tY )
sont indpendantes.
Nous admettrons que la donne de la fonction LX caractrise entirement la loi
de X.
Autrement dit, si deux variables alatoires positives X et Y sont telles que LX =
LY , alors X et Y ont mme loi.
232
Cette identit est une consquence immdiate du fait que exp(itX) et exp(itY ) sont
indpendantes.
Loi binomiale
Une consquence de ce qui prcde est que, si X suit une loi binomiale de para-
mtres n et p, on a
Loi de Poisson
Loi gomtrique
Loi exponentielle
Loi gaussienne
Loi de Cauchy
s|t|
Si X suit une loi gaussienne de paramtres ` et s, on a FX (t) = exp it` 4 .
Par le calcul de lintgrale correspondante.
2.10.1 Entropie
Etant donn un ensemble fini S, et une probabilit P sur S, on dfinit lentropie
en base 2 de P par la formule
X
H2 (P) = P(x) log2 (P(x)),
xS
234
2.10.2 Questionnaires
Dfinition
fois la question qui permet de dterminer quelle est la bifurcation dirige vers x
(lorsquil y a possibilit de bifurcation, cest--dire deux fils).
On note quune question associe un sommet v qui vrifie d(v) = 1 est inutile,
car sa rponse est identique celle de la question associe au pre de v. Cest en ce
sens quun questionnaire possdant des sommets vrifiant d(v) = 1 est dit inefficace.
Partant dun questionnaire qui nest pas efficace, il suffit de contracter toutes les
artes reliant un sommet son fils unique, cest--dire toutes les questions inutiles,
pour le transformer en un questionnaire efficace.
(Dessin.)
La profondeur du sommet de larbre tiquet par un lment donn x de S corres-
pond donc au nombre de questions quil est ncessaire de poser avec ce questionnaire
pour identifier x (en tenant compte des questions inutiles dans le cas de question-
naires inefficaces). Etant donn un questionnaire Q relatif S et un lment x de S,
nous noterons `Q (x) cette profondeur.
associ x.
Ingalit de Kraft
Nous allons prouver que tout questionnaire binaire vrifie lingalit suivante,
appele ingalit de Kraft :
X
2`Q (x) 1.
xS
dernires feuilles de T restant sans tiquettes. Qui plus est, le fait que la suite
(M dxi )1in soit dcroissante entrane le fait que, pour tout i, il existe un sommet
hi de T situ une profondeur gale dxi , tel que les feuilles qui en descendent sont
exactement les feuilles tiquetes par xi dans ltiquetage que nous venons de dfinir.
On construit alors un questionnaire de la manire suivante : on tiquette chaque
hi par xi , puis on lague T en supprimant tous les descendants des hi , si bien que
{h1 , . . . , hn } forme lensemble des feuilles de larbre lagu.
Variables alatoires 237
Une consquence simple de lingalit de Kraft est que, dans tout questionnaire Q,
il existe au moins un lment x de S tel que `Q (x) dlog2 (|S|)e. Rciproquement,
il est clair que lon peut toujours construire un questionnaire dans lequel tous les
lments ont une profondeur infrieure ou gale dlog2 (|S|)e. Si la performance dun
questionnaire est mesure par sa profondeur maximale (le nombre de questions quil
est ncessaire de poser pour identifier un lment dans la pire des cas), la question
de trouver un questionnaire optimal nest donc pas trs intressante. En revanche,
lorsque S est muni dune probabilit P, et que lon tudie le nombre de questions quil
est ncessaire de poser pour identifier un lment de S choisi selon la probabilit
P, on obtient une variable alatoire dont la loi peut diffrer trs fortement dun
questionnaire lautre. Intuitivement, on peut tirer parti de diffrences de probabilit
entre les diffrents lments de S en associant aux plus probables les nombres de
questions les plus faibles.
Nous supposerons dans la suite que P(x) > 0 pour tout x S (si ce nest pas le
cas, il suffit dliminer de S les lments de probabilit nulle, qui, de toute faon, ne
peuvent jamais apparatre).
On sintressera spcifiquement lesprance du nombre de questions poser
pour identifier un lment de S choisi selon la probabilit P, soit
X
LP (Q) = `Q (x)P(x).
xS
le minimum tant pris sur la totalit des questionnaires binaires permettant diden-
tifier les lments de S.
13. Claude Elwood Shannon (19162001).
238
Remarque 11 Lentropie, telle que nous lavons introduite dans cette partie, inter-
vient dans bien dautres contextes (par exemple en physique statistique, en statistique
baysienne, en intelligence artificielle,...), o elle joue un rle important, avec des
interprtations parfois trs diffrentes.
Prouvons maintenant la borne de Shannon. Dans la suite, nous noterons ((dx )xS ) =
P
xS dx P(x) et
Appelons D lensemble des familles dentiers (dx )xS , suprieurs ou gaux 1, et
vrifiant xS 2dx 1.
P
On vrifie que, lorsque (dx )xS tend vers linfini, cest galement le cas de ((dx )xS )
par positivit des P(x). Par consquent, possde bien un minimum absolu sur D.
Le fait que lensemble D soit constitu de nombres entiers nous complique la vie
car nous ne pouvons pas utiliser les outils du calcul diffrentiel pour rsoudre ce
problme de minimisation.
0
Appelons D des familles de nombres rels (dx )xS , suprieurs ou gaux 0, et
vrifiant xS 2dx 1, et considrons le problme de minimisation suivant :
P
0
minimiser sur lensemble D .
0
On note quen ralit, un lment de D vrifie toujours que dx > 0 pour tout
x S, sans quoi lingalit xS 2dx 1 serait contredite.
P
Variables alatoires 239
Par continuit de , et toujours du fait que ((dx )xS ) tend vers linfini lorsque
0
(dx )xS tend vers linfini, possde bien un minimum absolu sur D . De plus, si la
contrainte xS 2dx 1 est satisfaite, cest encore le cas si lon augmente certains
P
P
des dx . Or cette opration fait crotre strictement la fonctionnelle xS dx P(x). On
en dduit que le minimum ne peut tre atteint que pour une famille dx vrifiant
dx = 1.
P
xS 2
P
Calculons la diffrentielle de en (dx )xS : D((dx )xS ) = xS P(x)Ddx . Par
ailleurs, D( xS 2dx ) = xS log(2)2dx Ddx . En crivant, comme nous y autorise
P P
un extremum local sous contrainte, on en dduit que le minimum est atteint pour
dx = log2 (P(x)).
Par consquent, minD0 = H2 (P).
0
En notant que minD minD0 puisque D D , on en dduit que minD
H2 (P), ce qui fournit une moitit de lingalit annonce. Quant lautre moiti, on
vrifie que la famille dentiers (dlog2 (P(x))e)xS est dans D, et lon vrifie facilement
que (dlog2 (P(x))exS ) (log2 (P(x))xS ) + 1. Lingalit affirmant que minD
H2 (P) + 1 en rsulte.
Lalgorithme de Huffmann
les lments les plus probables doivent avoir la profondeur la plus faible possible.)
En effet, notons que, si `Q (a) > `Q (b), il suffit dchanger les tiquetages des
feuilles associes a et b dans larbre du questionnaire pour obtenir un nouveau
questionnaire Q2 tel que LP (Q2 ) < LP (Q ), ce qui est impossible par optimalit de
Q .
Considrons la feuille sur de celle tiquete par xn dans Q , et appelons z
son tiquette. Si P(z) < P(xn1 ), on a ncessairement `Q (z) `Q (xn1 ). Si
`Q (xn1 ) = `Q (z), il suffit dchanger les tiquetages des feuilles associes z
et xn1 , pour obtenir un questionnaire dans lequel les feuilles tiquetes par xn
et xn1 sont surs, tout en conservant la valeur de LP (Q ), et donc loptimalit. Si
`Q (xn1 ) > `Q (z) = `Q (xn ), en appelant w ltiquette de la feuille sur de xn1 ,
on doit ncessairement avoir P(w) = P(xn ). En changeant les tiquetages des feuilles
associes w et xn , on obtient encore un questionnaire o les feuilles tiquetes par
xn et xn1 sont surs, tout en conservant la valeur de LP (Q ), et donc loptimalit.
Enfin, si P(z) = P(xn1 ), en changeant les tiquetages des feuilles associes z et
xn1 , on obtient encore un questionnaire o les feuilles tiquetes par xn et xn1
sont surs, tout en conservant la valeur de LP (Q ), et donc loptimalit.
(Dans le cas o lon a Q(x1 ) > > Q(xn ), on note que le raisonnement ci-dessus
peut tre grandement simplifi, car on a ncessairement que `Q (xn ) = `Q (xn1 ).)
Considrons donc un questionnaire optimal Q tel que les feuilles tiquetes par
xn et xn1 sont surs.
0
Partant de Q , nous pouvons construire un questionnaire (Q ) sur S en trans-
formant le pre de xn et xn1 en une feuille, tiquete par y, et qui vrifie donc que
LP (Q ) = LP0 ((Q )) + P(xn1 ) + P(xn ).
0
Inversement, partant dun questionnaire Q sur S , nous appellerons (Q) le ques-
tionnaire fabriqu par lalgorithme de Huffmann sur S partir de Q. Clairement,
LP ((Q)) = LP0 (Q) + P(xn1 ) + P(xn ). De plus, ((Q )) = Q .
0 0
Nous voyons prsent que (Q ) doit tre optimal pour (S , P ). Sinon, on pour-
0
rait trouver un questionnaire Q sur S tel que LP0 (Q) < LP0 ((Q )), do le fait que
LP ((Q)) < LP (Q )), ce qui contredirait loptimalit de Q .
0 0
Ncessairement, il existe donc un questionnaire optimal pour (S , P ) que trans-
forme en Q .
Comme la diffrence entre LP ((Q))LP0 (Q) est toujours gale P(xn1 )+P(xn ),
0 0
(Q) est optimal pour (S, P) pour tout Q questionnaire optimal pour (S , P ), ce qui
prouve le bon fonctionnement de lalgorithme de Huffmann.
Nous navons prsent ici que quelques mots extraits du vaste corpus connu sous
le nom de thorie de linformation, qui aborde toutes sortes de problmes et de
questions (tels que codage et dcodage rapides, ou encore compression de donnes
avec perte dinformation, transmission dinformation dans des canaux bruits,...).
Variables alatoires 241
Exemple 9 Un exemple relativement bien tabli est que, dans de nombreux textes,
si lon classe par ordre dcroissant les frquences dapparition des diffrents mots du
texte, soient f (1) f (2) , (ce qui signifie donc que f (1) est la frquence du mot
le plus reprsent, f (2) la frquence du second mot le plus reprsent, etc...) f (n) cor-
respond souvent approximativement une loi de Zipf-Mandelbrot, tout au moins pour
un certain domaine de valeurs de n. Vous pouvez vous-mme tester exprimentale-
ment la validit de la loi de Zipf sur les textes de votre choix en vous rendant sur le site
maintenu par Emmanuel Giguet : http://users.info.unicaen.fr/~giguet/java/zipf.html.
Autres exemples...
2.13 Auto-valuation
Quest-ce quune variable alatoire (concrtement, en franais) ?
Quest-ce quune variable alatoire (en tant quobjet mathmatique) ?
La dfinition dune variable alatoire dpend-elle de la probabilit sur ?
Quest-ce que la loi dune variable alatoire ?
Deux variables alatoires possdant la mme loi sont-elles ncessairement gales ?
Deux variables alatoires dfinies sur des espaces de probabilit diffrents peuvent-
elles nanmoins possder la mme loi ?
Quest-ce quune loi de probabilit en gnral (sans rfrence une variable
alatoire) ?
Donnez la dfinition des lois de Bernoulli, Binomiale, de Poisson, uniforme,
gomtrique, leurs paramtres, le contexte exact (hypothses sur le modles,
exemples concrets) dans lequel on sait quelles interviennent.
Variables alatoires 243
2.14 Exercices
Exercice 63 tant donns deux vnements A et B sur un espace des possibles ,
comment exprimer laide des fonctions indicatrices de A et B :
la fonction indicatrice de A B ?
la fonction indicatrice de A B ?
la fonction indicatrice de Ac ?
la fonction indicatrice de lvnement A ou bien B (ou exclusif ) ?
Exercice 64 La Jojomobile dans laquelle roule Jojo est une vritable antiquit, et
les dboires de Jojo avec son vhicule sont un sujet damusement permanent pour ses
collgues. En particulier, les portires ont une fcheuse tendance souvrir inopin-
ment lorsque la voiture est en marche. Conducteur peu scrupuleux, Jojo ne sarrte
que lorsque la moiti au moins des portires souvre. En admettant quau cours dun
trajet, le mcanisme de fermeture de chaque portire a une probabilit p de sou-
vrir, indpendamment des autres, prcisez quelle est la loi du nombre de portires
qui souvrent au cours dun trajet avec la Jojomobile. Quelle est la probabilit pour
que Jojo sinterrompe au cours dun trajet ? Lass de sarrter aussi souvent, Jojo
dcide dattacher avec du ruban adhsif la portire avant gauche la portire arrire
gauche, et la portire avant droite la portire arrire droite. Grce cet ingnieux
dispositif, une portire ne souvre plus que lorsque les mcanismes de fermeture de
cette portire et de celle laquelle elle est attache souvrent simultanment. Quelle
est prsent la probabilit pour que Jojo sinterrompe au cours dun trajet ?
En fait, chaque membre du rseau est plus ou moins un agent double et, pour des rai-
sons qui lui sont propres, transmet linformation oppose celle quil vient de recevoir
avec une probabilit p [0, 1]. Seul le premier maillon de la chane sait effectivement
si la technologie concerne est au point, et lon suppose que les dcisions prises par
chacun des agents transmettre correctement ou non linformation quils ont reue
sont mutuellement indpendantes. Calculez la probabilit pn pour que linformation
fournie par le nme maillon de la chane soit correcte. Trouver une relation de
rcurrence entre pn et pn+1 . Que se passe-t-il lorsque n tend vers linfini ?
Exercice 66 Pour agrmenter dun peu de fantaisie son morne quotidien, un mar-
chand de confiseries dcide de piger quelques unes des botes de chocolats de son
talage en y plaant des ptards qui exploseront louverture de la bote. Aujourdhui,
sur les 52 botes de chocolats disposes sur ltalage, 4 sont piges. Un client entre
dans la boutique, choisit une bote de chocolat au hasard (uniformment parmi les
botes prsentes), lachte, et sen va. Quelle est la probabilit quil emporte, sans le
savoir, lune des botes spcialement arranges par notre factieux confiseur ? Peu
aprs, un deuxime client pntre dans la boutique, choisit son tour une bote de
chocolats, et lemporte, aprs, naturellement, lavoir paye. Quelle est la probabilit
pour quil ait choisi une bote de chocolats pige ? Mme question pour le troisime
client, le quatrime, etc...
Exercice 68 Les quarante marins qui forment lquipage du Jojo des mers des-
cendent au port pour une nuit de beuverie. Au petit matin, compltement ivres, ils
retournent sur le bateau, et chacun choisit une cabine au hasard parmi les quarante
possibles, indpendamment de ses camarades. Quelle est la loi du nombre de marins
qui dorment dans leur propre cabine ? Quelle est son esprance ? Et sa variance ?
D : (1, 1, 1, 5, 5, 5)
On considre prsent le jeu deux joueurs suivant. Un premier joueur choisit
lun des quatre ds ci-dessus, et le deuxime joueur choisit un d parmi les trois
restants. Chacun lance ensuite son d, et le joueur ayant obtenu le plus grand chiffre
gagne la partie. Comment conseilleriez-vous aux deux joueurs de choisir leurs ds ?
est la mme que celle de (X1 , . . . , Xn ). Quelle est cette loi ? Dduisez-en le fait que,
si I = {i1 , . . . , ik } et J = {j1 , . . . , jk } sont deux sous-ensembles de {1, . . . , n} com-
portant chacun k lments, (Xi1 , . . . , Xik ) et (Xj1 , . . . , Xjk ) possdent la mme loi.
Quel rsultat obtient-on en spcialisant ce rsultat au cas densembles comportant un
seul lment ?
Comment ce rsultat peut-il sappliquer dans les exercices 9, 66, 86, 67, 124, 36 ?
et
modalit 1 : gain de 1000 euros avec probabilit 1/2, gain de 0 euro avec pro-
babilit 1/2
modalit 2 : gain de x euros avec probabilit 1.
A partir de quelle valeur de x prfrez-vous loption 2 loption 1 ? Quelle valeur
accepteriez-vous de payer un billet de loterie vous donnant droit loption 2 ?
Exercice 82 Vous jouez au jeu des devinettes avec votre petit cousin. Le principe
du jeu consiste choisir un nombre entre 1 et 6, et le faire deviner par lautre
Variables alatoires 251
en rpondant les unes aprs les autres ses questions, qui sont du type le nombre
figure-t-il dans A ?, o A est un sous-ensemble de {1, 2, 3, 4, 5, 6}.
A force de jouer, vous avez fini par attribuer chaque entier i entre 1 et 6 une
probabilit pi dtre choisi par votre petit cousin :
Exercice 83 Jojo vit dans une rgion o les risques sismiques, quoique faibles, sont
loin dtre ngligeables. Limmeuble dans lequel vit Jojo a t conu pour rsister
des secousses dont la magnitude ne dpasse pas 20 (sur lchelle de Jojo). Des tudes
exprimentales menes sur plusieurs annes ont permis de conclure que des sismes
de faible amplitude survenaient une fois par an, avec une magnitude moyenne de 10
et une variance de 4 (sur lchelle de Jojo). Jojo peut-il dormir tranquille ? Pour
combien de temps ? (Justifiez.)
Exercice 84 Une squence gntique se prsente comme une suite de lettres de lal-
phabet {A, C, G, T }. On modlise de faon trs simplifie une squence gnomique
de longueur 1000 issue du gnme dun individu comme une suite X1 , X2 , . . . , X1000
de variables alatoires indpendantes, les probabilits attribues chaque lettre tant
donnes par :
prsent dans la squence (le plus petit indice i tel que Xi = A). (Si la squence ne
comporte aucun A, on pose par convention S = 1001.) Quelle est la loi de S ? Lorsque
la squence comporte au moins un A, le A situ en position S est la premire lettre
dune suite ininterrompue de A (ventuellement rduite un seul A). Par exemple,
dans la squence :
CGCT GT AAAGCT C...
on a S = 7, et le A situ en position S est la premire lettre dune suite de A
ininterrompue de longeur 3. Appelons U la position du A situ le plus droite dans
la squence ininterrompue de A commenant en S (par convention, on pose U = 1001
lorsque la squence ne comporte pas de A). Sur lexemple ci-dessus, on a donc U = 9.
Quelle est (de manire gnrale) la probabilit pour que U = 30 ?
Exercice 85 Chouette ! En rclant le fond de ses poches, Jojo vient de trouver 100
euros. Heureuse concidence, son ami Pierrot vient de lui proposer dinvestir de lar-
gent dans une affaire commerciale qui sannonce, affirme-t-il, trs lucrative. Jojo sera
rmunr hauteur de son investissement : sil investit x euros, il recevra au bout
dun an x (1 + L) euros, L dsignant le taux (alatoire) de rentabilit de laffaire.
Jojo hsite alors entre deux stratgies. La premire consiste simplement investir
ses 100 euros dans laffaire propose. La seconde, plus complexe, consiste dabord
emprunter 10000 euros la banque, quil devra rembourser au bout dun an, en don-
nant immdiatement ses 100 euros titre dintrts, et investir dans laffaire les
10000 euros emprunts. Discutez les avantages et les inconvnients de ces deux stra-
tgies, notamment les risques de perte et les perspectives de gain des deux stratgies,
en fonction des proprits de L (avec des arguments prcis, bien entendu).
Exercice 86 Un certain soir, Jojo reoit dix de ses amis chez lui. En fin de soire,
aprs un repas bien arros, ceux-ci ne sont plus en tat de retrouver leur chapeau
parmi ceux des autres, et sen retournent donc chez eux (en taxi) aprs avoir choisi
au hasard lun des dix chapeaux en prsence. On sintresse au nombre X des amis
de Jojo ayant effectivement retrouv leur propre chapeau. Dcrivez prcisment la
modlisation du tirage alatoire des chapeaux par les invits que vous allez adopter
(indication : une affectation des chapeaux aux invits peut, par exemple, se reprsen-
ter par une permutation des entiers de 1 10). On dfinit les variables alatoires
X1 , X2 , . . . , X10 par :
Exercice 87 Lorsquil tlcharge des documents sur internet, Jojo a pour habitude
dinterrompre le chargement lorsque la dure de celui-ci dpasse une minute. Son
ide est quune dure de tlchargement anormalement longue (suprieure une mi-
nute) est le signe probable dun problme technique ralentissant considrablement le
tlchargement, et rendant donc inutile le fait dattendre une ou deux minutes suppl-
mentaires. Il prfre donc, dans le but de gagner du temps, abandonner le chargement
en cours, et retenter un nouveau tlchargement quelques dizaines de minutes plus
tard. Cette ide est-elle compatible avec la modlisation de la dure totale de tlchar-
gement dun fichier sans interruption ni nouvelle tentative (en secondes par exemple)
laide dune loi gomtrique de paramtre fix p ? (Argumentez votre rponse, en
comparant, par exemple, la mthode de Jojo avec celle qui consisterait simplement
attendre le chargement complet dun fichier, sans interrompre celui-ci au bout dune
minute.)
Exercice 88 Ce soir, Jojo joue aux checs avec son ami Horace. Du moins le crot-
il. En effet, Horace est un joueur de niveau assez moyen, mais il demande parfois
son frre jumeau, Hyacinthe, excellent joueur, de le remplacer, sans que personne ne
puisse sapercevoir de limposture. Lorsquil joue contre Horace, Jojo a une probabilit
de 0,5 de lemporter. En revanche, lorsquil joue contre Hyacinthe, cette probabilit
chute 0,2. Aprs cinq parties joues, Jojo en a dj perdu trois, et, de mauvaise
humeur, commence maugrer quil se trouve probablement en face de Hyacinthe et
non de son frre. Pouvez-vous lui donner raison ?
La raison de la mauvaise humeur de Jojo est que, un peu prsomptueux, celui-ci a
pari un repas au restaurant avec Horace quil remporterait au moins quatre parties
sur les sept que ceux-ci projetaient de jouer ce soir (dont les cinq premires ont
donc dj t joues). Jojo propose un arrangement : les deux parties restantes ne
seront pas joues, et les deux amis se rpartiront la note du restaurant quitablement
au vu du rsultat des cinq premires parties. Quelle est selon vous cette rpartition
quitable ?
chaque pari gagn, de quelle somme devrait-elle disposer aprs 6 mois si elle applique
votre mthode ?
Exercice 91 Montrez que toute variable alatoire ne pouvant prendre quun nombre
fini de valeurs distinctes peut se mettre sous la forme dune combinaison linaire de
fonctions indicatrices.
Exercice 93 Montrez que, si est un ensemble fini, il existe une seule fonction h
associant toute probabilit P sur et toute variable alatoire X valeurs relles et
dfinie sur , un nombre rel h(X, P) vrifiant les conditions suivantes :
si X et Y sont deux variables alatoires sur (, P) vrifiant P(X Y ) = 1,
alors h(X, P) h(Y, P) (positivit)
si R est un rel fix, h(X, P) = h(X, P) (invariance par changement
dchelle) ;
si c R est un rel fix, h(X +c, P) = h(X, P)+c (invariance par translation) ;
si X et Y sont deux variables alatoires sur (, P), h(X + Y, P) = h(X, P) +
h(Y, P) ;
h(X, P) ne dpend que de la loi de X.
En conclure que cette fonction vrifie ncessairement h(X, P) = E(X).
Quelles sont les proprits ci-dessus que vrifient ou ne vrifient pas la mdiane,
le mode, et le milieu du domaine ?
De mme, montrez que lensemble des points o la fonction dfinie sur R par
a 7 E |X a| atteint son minimum est lintervalle mdian. Enfin, montrez que, si
X est borne, lensemble des points o la fonction dfinie sur R par a 7 sup |X a|
atteint son minimum est le milieu du domaine de X.
variance de X peut tre vue comme une mesure de la variation existant entre deux
variables alatoires indpendantes de mme loi que X.
Exercice 97 Deux amis, Amde et Basile jouent au jeu suivant. Amde pense
deux nombres rels distincts, choisit pile ou face lun de ces deux nombres et le
communique Basile. Basile, de son ct, doit tenter de deviner si le nombre qui
lui a t communiqu est le plus grand ou le plus petit des deux auxquels Amde a
pens. Il ne semble gure possible de faire mieux en toute gnralit que de rpondre
en tirant pile ou face, avec exactement une chance sur deux de gagner. Et pour-
tant... Supposons que Basile saide en gnrant une variable alatoire relle X, de
loi continue, possdant une densit strictement positive sur R tout entier, et rponde
Amde de la manire suivante. Lorsque le nombre communiqu par Amde est
infrieur la valeur de X, Basile parie sur le fait que ce nombre est le plus petit des
deux, et, rciproquement, lorsque le nombre communiqu est suprieur la valeur de
X, Basile parie sur le fait que ce nombre est le plus grand des deux. Montrez quainsi
Basile possde strictement plus dune chance sur deux de gagner. Discutez ce rsultat.
N = R fp ne fl fi fc L,
o :
N est le nombre de civilisations extra-terrestres prsentes dans notre galaxie et
avec lesquelles nous pourrions nous attendre pouvoir communiquer ;
R est le taux de formation dtoiles dans notre galaxie ;
fp est la proportion de ces toiles possdant des plantes ;
ne est le nombre moyen de plantes susceptibles dabriter la vie rapport au
nombre dtoiles possdant des plantes ;
fl est la fraction des plantes ci-dessus qui vont rellement voir la vie se dve-
lopper ;
fi est la proportion dentre elles qui vont voir une civilisation intelligente se
dvelopper ;
fc est la fraction des civilisations ci-dessus qui sont dsireuses de communiquer
et capables de le faire ;
L est la dure moyenne dexistence dune telle civilisation.
Sur quels prsupposs et approximations cette quation repose-t-elle ? Comment
pourrait-on tenter dvaluer les diffrents termes apparaissant dans lquation ? Pour-
quoi cette quation comporte-t-elle un produit de 7 termes et non pas 8 ou 6 ? Peut-on
imaginer dautres quations visant estimer N ?
Exercice 100 Un arbre de jeu est un arbre fini enracin, dont les noeuds distance
paire de la racine sont tiquets MIN et les noeuds distance impaire sont tiquets
MAX. A chaque feuille de larbre est associe la valeur 0 ou 1. Lvaluation de larbre
consiste attribuer itrativement une valeur chaque noeud de larbre, en partant
des feuilles, de la manire suivante : la valeur associe un noeud tiquet MIN
est le minimum des valeurs associes ses enfants, et la valeur associe un noeud
tiquet MAX en est le maximum.
1) Concrtement, un tel arbre reprsente le droulement dun jeu deux joueurs,
dans lequel chacun des deux joueurs joue son tour, les ramifications de larbre
reprsentant, chaque tape, les diffrentes possibilits offertes au joueur dont cest
le tour de jouer. Les feuilles de larbre correspondent aux fins de partie, et sont
tiquetes 0 lorsque la partie sest solde par une victoire du joueur ayant jou le
premier coup, et 1 dans le cas dune victoire du joueur ayant jou le deuxime coup
(on suppose quil ny a pas de nul possible, et quune partie doit toujours se terminer).
Que traduit lvaluation de larbre, et en particulier la valeur attribue la racine ?
Comment modifier ce modle pour prendre en compte la possibilit dun match nul ?
Dans la suite, on se place dans le cas particulier dun arbre binaire rgulier de
profondeur n 2 fixe.
Variables alatoires 257
2) Est-il toujours ncessaire de prendre en compte la valeur de toutes les feuilles pour
calculer la valeur de la racine ou peut-on parfois en ignorer certaines ?
3) On considre maintenant des algorithmes dterministes (i.e. non-randomiss) per-
mettant de calculer ltiquette attache la racine partir de la lecture de tout ou
partie des tiquettes attaches aux feuilles. Plus prcisment, un algorithme dter-
ministe dvaluation de larbre fonctionne de la manire suivante. Il commence par
spcifier une feuille de larbre, dont la valeur est lue. Ensuite, chaque tape, une
nouvelle feuille est spcifie en fonction des rsultats obtenus au cours des tapes
prcdentes, et sa valeur est lue son tour. Lalgorithme sarrte lorsque les valeurs
quil a lues lui permettent de dterminer ltiquette attache la racine.
Montrez (par exemple par rcurrence) quil est toujours possible de trouver une
affectation de 0 et de 1 aux feuilles de larbre qui force un tel algorithme lire toutes
les feuilles de larbre avant de pouvoir dterminer la valeur de la racine.
4) On considre un algorithme randomis fonctionnant de la manire suivante : pour
valuer un noeud MIN, lalgorithme choisit au hasard avec probabilit 1/2 lun de ses
deux descendants, qui est lui-mme valu en faisant appel lalgorithme de manire
rcursive. Si celui-ci a pour valeur 0, la valeur du noeud MIN est donc dtermine
et est gale 0. Si le descendant a pour valeur 1, on value lautre descendant de la
mme manire. Dans le cas dun noeud MAX, on procde suivant le mme principe,
ceci prs que la valeur du noeud est dtermine par son premier desccendant lorsque
celui-ci a pour valeur 1. Prouvez que, pour toute affectation des valeurs des feuilles, le
nombre moyen de feuilles lues par cet algorithme est infrieur ou gal 3k . Comment
ce temps moyen se compare-t-il au pire cas ?
Exercice 101 Afin de dterminer le nombre moyen denfants par famille, on sonde
un grand nombre denfants en leur demandant combien ils possdent de frres et
de surs (y compris eux-mmes). En faisant la moyenne des valeurs obtenues, on
obtient un nombre bien suprieur 2, qui est pourtant approximativement la valeur
correcte. Que sest-il pass ?
En admettant que le nombre moyen denfants par famille soit gal 2,2, peut-on
en dduire que la population devrait augmenter au cours des prochaines annes ?
Exercice 103 Soit n un nombre premier, et Z/nZ lensemble des (classes de congruence
d) entiers modulo n. On part de deux variables alatoires A et B valeurs dans
Z/nZ, indpendantes et de loi uniforme. Pour tout 1 i n, on dfinit Yi =
Ai + B mod n. Montrez que Yi suit la loi uniforme sur Z/nZ, et que, pour tout
258
Exercice 104 Pour tester une certaine proprit P pouvant ou non tre vrifie par
un objet x, on suppose que lon dispose dun algorithme randomis prenant en entre
x ainsi quun entier uniformment choisi entre 1 et n, n tant un entier premier. Si
x vrifie effectivement la proprit P , lalgorithme rpond toujours que P est vrifie.
En revanche, si P nest pas vrifie, tout ce que lon sait est que la probabilit pour
que lalgorithme rponde que P nest pas vrifie est suprieure ou gale 1/2. On
suppose que n est trop grand pour quil soit rentable de tester la totalit des entiers
compris entre 1 et n (ce qui permettrait de dcider de manire certaine si x possde
ou non la proprit). En utilisant r rptitions indpendantes de son algorithme,
Jojo parvient diminuer la probabilit derreur 2r au pire (voir lexercice 23).
Combien de bits alatoires (i.e. de v.a. de Bernoulli indpendantes symtriques) faut-
il pour gnrer r excutions de lalgorithme ? Si lon utilise la place la mthode de
lexercice 103 pour gnrer les r (suppos infrieur n) nombres alatoires de loi
uniforme sur {1, 2, . . . , n} ncessaires aux r excutions successives de lalgorithme,
combien ce nombre passe-t-il ? Que peut-on dire alors de la probabilit derreur ?
Exercice 105 Dans un pays dont nous tairons le nom, les prjugs sexistes sont tels
que la plupart des femmes planifient ainsi les naissances de leurs enfants : donner
naissance des enfants jusqu obtenir un garon ou quatre enfants. Daprs vous,
cette attitude a-t-elle plutt tendance augmenter ou diminuer la proportion de
filles parmi les naissances ? Montrez quil en est de mme de toute stratgie de plani-
fication des naissances dans lesquelles la dcision darrter ou de continuer davoir
des enfants est prise en fonction des naissances prcdentes, et pour lesquelles le
nombre maximum denfants ne peut pas dpasser une certaine limite.
Quen est-il de la stratgie suivante : continuer davoir des enfants jusqu ce que
le nombre de garons dpasse dau moins un le nombre de filles (sans restriction sur
le nombre total denfants) ?
En dduire la loi de T2 .
3) Prouver une relation similaire pour le temps Tk correspondant un message n-
cessitant k secondes de transmission.
4) Reprenez les questions prcdentes en supposant que le message puisse tre divis
en fragments dune seconde pouvant tre transmis de manire non-conscutive.
Exercice 107 Deux amis, appelons-les Jojo et Gg, dcident de jouer au jeu sui-
vant. Deux enveloppes indiscernables contiennent lune un montant de m euros, et
lautre un montant de 2m euros (o m est un montant non-nul, inconnu des deux
joueurs, mais fix.) On rpartit alatoirement les deux enveloppes entre Jojo et Gg.
Jojo ouvre lenveloppe qui lui a t attribue, et y dcouvre une somme de X euros.
On lui propose ensuite dchanger le montant de son enveloppe avec celui de len-
veloppe de Gg (quil na pas pu observer). Le raisonnement de Jojo est alors le
suivant : il y a une chance sur deux pour que mon enveloppe contienne le montant
le plus lev (2m euros), et une chance sur deux pour quelle contienne le montant le
plus bas (m euros). Par consquent, il y a une chance sur deux pour que le montant
de lenveloppe de Gg soit gal au double du montant contenu dans mon enveloppe,
et une chance sur deux pour que le montant de lenveloppe de Gg soit gal la
moiti du montant contenu dans mon enveloppe. En moyenne, lenveloppe de Gg
doit donc contenir 1/2(1/2 X) + 1/2(2 X) = 5/4 X euros. Or (5/4)X > X,
et, par consquent, jai intrt accepter lchange qui mest propos. Le problme
est que Gg, de son ct, peut se livrer exactement au mme raisonnement et par-
venir la conclusion que lui aussi a intrt procder lchange. Comment Jojo
et Gg peuvent-ils avoir intrt simultanment procder lchange des montants
contenus dans leurs enveloppes respectives ? En vous appuyant sur une modlisation
probabiliste dtaille du problme, pouvez-vous confirmer ou infirmer le raisonnement
de Jojo, et prsenter une solution ce paradoxe apparent ?
Exercice 108 Supposons que lon tire un nombre alatoire U de loi uniforme sur
lintervalle [0, 1], puis que lon effectue n lancers indpendants dune pice de monnaie
ayant une probabilit de U de tomber sur pile, et 1 U de tomber sur face. Quelle
est la loi de probabilit du nombre de pile obtenus ?
Exercice 109 Supposons que lon tire un nombre alatoire A selon une loi exponen-
tielle de paramtre > 0, puis, ce tirage effectu, un nombre alatoire X selon une
loi exponentielle de paramtre A. Quelle est la loi de probabilit de X ?
260
Exercice 110 On remplit une urne avec N boules selon la procdure suivante. Par-
tant dune urne vide, on effectue successivement N lancers indpendants dune pice
de monnaie (pas ncessairement symtrique). A chaque lancer, on ajoute une boule
dans lurne, de couleur rouge si la pice a donn pile, de couleur noire si la pice
a donn face. Une fois lurne remplie, on tire uniformment au hasard, et sans re-
mise, des boules dans lurne, jusqu avoir vid lurne. Montrez que la couleur de la
boule tire ltape i (avec 1 i N ) est indpendante des couleurs des boules ti-
res prcdemment. A prsent, considrons le raisonnement suivant. Une fois lurne
remplie, celle-ci contient N boules, dont un nombre alatoire R de boules rouges. Au
premier tirage, la probabilit dobtenir une boule rouge est alors de R/N . Si cest
effectivement une boule rouge que jobtiens, le deuxime tirage seffectue avec une
boule rouge de moins dans lurne, et donc la proportion des boules rouges par rapport
aux boules noires est moindre que lors du premier tirage. La probabilit dobtenir une
boule rouge au deuxime tirage doit donc tre infrieure ce quelle tait lors du
premier tirage. Comment concilier ceci avec le fait que, daprs ce qui prcde, la
probabilit dobtenir une boule rouge au i-me tirage ne dpend pas des couleurs des
boules tires prcdemment ? Reprendre la totalit de la question en supposant que
lon effectue des tirages rpts avec remise.
1 E(X 2 )
P(X 21 E(X)) 4 [E(X)]2
3) En dduire que E(N (I)) est de la forme cL, o c est une constante.
4) En approchant un cercle de diamtre 1 par des lignes polygonales, montrez que la
constante c est gale 2/.
262
Exercice 114 Prouvez que, si (pn )n1 est une suite de nombres compris entre 0 et
1 telle que limn+ npn = > 0, la loi binomiale de paramtres n et pn converge
vers une loi de Poisson de paramtre .
Xi = 0 si Ui 1 p et Xi = 1 si Ui > 1 p,
k1 k
X pj X pj
Yi = k si ep < Ui ep
j! j!
j=0 j=0
P1
(avec la convention j=0 = 0). Enfin, on dfinit Sn = ni=1 Xi et Tn = ni=1 Yi .
P P
1) Dterminer la loi de Sn et de Tn .
2) En utilisant lingalit 1 p ep , prouver que, pour tout i, P (Xi = Yi ) 1 p2 .
n
3) En dduire que P (Sn = Tn ) 1 p2 .
4) En crivant P(Sn A) = E(1(Sn A)) et P(Tn A) = E(1(Tn A)), et
en utilisant lingalit de lexercice 116, prouvez que |P(Sn A) P(Tn A)|
n
1 1 p2 .
5) En dduire lingalit suivante :
kN
Exercice 116 Prouvez que, si X est une variable alatoire possdant une esprance,
et si |X| possde une esprance, on a lingalit |E(X)| E(|X|).
Exercice 119 Etant donns a > 0 et > 0, construire une variable alatoire positive
X possdant une esprance et vrifiant P(X a) (1 )E(X)/a.
Exercice 120 Considrons une variable alatoire X de loi continue sur R, donne
par une densit f . Montrez que, lorsque n tend vers linfini, la loi de nX mod 1 tend
vers une loi uniforme sur lintervalle [0, 1].
N!
PN (N1 = d1 , . . . , Nm = dm ) = pd1 pdmm .
d1 ! dm ! 1
Cette loi est appele loi multinomiale de paramtres N et (p1 , . . . , pm ). Pour m = 2,
on retrouve la loi binomiale habituelle.
Si i1 , . . . , is est un sous-ensemble dindices de {1, . . . , m}, que pouvez-vous dire
de la loi de Ni1 + + Nis ? Et de la loi de (Ni1 , . . . , Nis ) conditionnellement
lvnement Ni1 + +Nis = k, o 0 k N est un nombre fix ? Et de la loi jointe
des deux variables alatoires (Ni1 , . . . , Nis ) et (Nj )j {i
/ 1 ,...,is } conditionnellement ce
mme vnement ?
Exercice 123 On considre un modle probabiliste (, P) sur lequel est dfinie une
variable alatoire X de loi binomiale de paramtres n et p. Est-il toujours vrai que lon
peut dfinir sur une famille de n variables alatoires mutuellement indpendantes,
toutes de loi de Bernoulli de paramtre p ?
264
Exercice 124 On considre une urne contenant m boules dont a sont rouges et ma
sont blanches. On effectue un nombre n m de tirages sans remise dans lurne, en
supposant que chaque tirage est effectu uniformment au hasard dans lensemble des
boules restantes au moment o celui-ci a lieu. Appelons Na le nombre total de boules
rouges figurant parmi les n boules tires. La loi de Na est appele loi hypergomtrique
de paramtres n, a et m.
nk
1) Prouvez que lon a, pour tout 0 k min(a, m), P(Na = k) = Cak Cma n.
/Cm
(Proposez au moins trois arguments de dnombrement diffrents !)
2) Pouvez-vous calculer, partir de la formule prcdente, E(Na ) et V(Na ) ?
3) On dfinit, pour 1 i m, la variable Xi comme lindicatrice de lvnement :
tirer une boule rouge lors du ime tirage. Quelle relation y a-t-il entre Na et les
variables Xi ? Pouvez-vous en dduire lesprance et la variance de Na ?
4) Comment la loi hypergomtrique se diffrencie-t-elle de la loi binomiale de para-
mtres n et a/m ? Prouvez que, si n est fix, et si m et a tendent vers linfini de telle
sorte que a/m tend vers une valeur limite p, on obtient la limite la loi binomiale
de paramtres n et p.
Barnab loption j, Barnab doit Anselme une somme de aij euros, cette somme
pouvant tre soit positive (Anselme a vraiment gagn, et Barnab lui doit de largent),
soit ngative (auquel cas, cest en fait Barnab qui a gagn, et Anselme qui lui doit
de largent, puisque la somme due Anselme par Barnab est ngative.)
1) Supposons par exemple que n = 2, m = 3, et que la matrice (aij ) soit la suivante
Exercice 137 On choisit un angle selon la loi uniforme dans lintervalle [0, 2].
Quelle est la loi de la tangente de cet angle ?
Exercice 138 Pourquoi peut-on affirmer, sans mme effectuer de calcul de probabi-
lits, que la plupart des loteries (la loterie nationale, leuro-million) prsentent une
esprance de gain ngative ? Le fait que de trs nombreux individus participent ces
jeux est-il compatible avec la rgle de lutilit espre ? Estimez-vous, selon les termes
de Flaubert, que le loto est un impt volontaire sur la btise ?
choue, ils seront impitoyablement excuts. Telle est la dcision du chef des bandits,
qui, souligne-t-il, a tenu mnager aux prisonniers une infime chance de sen tirer.
1) En admettant que chaque prisonnier choisisse au hasard les coffres quil peut
ouvrir, quelle devrait tre la probabilit de succs dun prisonnier ? Quen est-il alors,
de la probabilit de survie du groupe ?
Aprs avoir men ce petit calcul, les prisonniers sont bien dsempars, mais...
lun dentre eux les invite ne pas totalement perdre espoir, et leur affirme quil
dtient une mthode leur permettant daugmenter considrablement leurs chances de
succs.
Sa mthode est la suivante : le prisonnier titulaire du numro i devra ouvrir en
premier le ime coffret en partant de la droite. En appelant j le numro inscrit
lintrieur de ce coffret, il devra ensuite ouvrir le jme coffret en partant de la
droite. En appelant k le numro inscrit lintrieur de ce nouveau coffret, il devra
ensuite ouvrir le kme coffret, et ainsi de suite jusqu avoir dcouvert le coffret
portant le numro i, ou, malheureusement, puis les dix coffrets quil tait en droit
douvrir.
2) En appelant (i) le numro contenu dans le coffret plac en ime position en par-
tant de la droite, et en admettant que est une permutation alatoire de loi uniforme
sur lensemble des permutations des entiers de 1 20, calculez la probabilit de succs
de lensemble des prisonniers. (Indication : caractrisez lvnement correspondant
au succs des prisonniers en termes dexistence de cycles de longueur suprieure
10 pour la permutation . Ensuite, pour k 11, comptez le nombre de permutations
des entiers de 1 20 possdant un cycle de longueur k.)
3) Au courant du stratagme imagin par les prisonniers, et afin de les dsesprer
plus encore, le chef laisse filtrer linformation selon laquelle il permutera les coffrets
de telle faon quil existe au moins un cycle de longueur suprieure 10. Comment,
en se mettant daccord lavance sur une permutation alatoire des entiers de 1
20, dont ils garderont le secret, les prisonniers peuvent-ils contourner cet obstacle ?
3) Le nombre i tant fix, quelle est la probabilit pour que le prisonnier numro i
russisse ouvrir le coffret portant son propre numro ?
4) Appelons X le nombre total de prisonniers parvenant ouvrir le coffret portant
leur numro. Quelle sont lesprance et la variance de X ? Si les succs des diff-
rents prisonniers taient mutuellement indpendants, quelle serait la loi de X ? En
tudiant ce qui advient lorsquil existe un cycle de longueur suprieure 10 dans la
permutation applique par les prisonniers, et en reprenant les calculs de la question
2), calculez la loi de X.
Exercice 140 Considrons un jeu de loto dans lequel N personnes achtent des
bulletins cotant chacun 1 euro. Chaque personne indique sur son bulletin une com-
binaison de chiffres, m combinaisons diffrentes tant disponibles, puis fait valider
270
son bulletin. Un tirage est ensuite effectu, au cours duquel lune des combinaisons
est choisie alatoirement, selon la loi uniforme. On rpartit ensuite un pourcentage
fix (disons ) des N euros collects entre les personnes dont les bulletins portent la
combinaison qui a t tire.
Supposons quil existe un numro particulier que personne ne pense jamais
jouer. Quelle serait lesprance de gain dune personne qui choisirait justement de
miser sur ce numro ?
Ceci vous suggre-t-il une stratgie vous permettant de gagner de largent en
jouant au loto ?
1.7
1.6
1.5
x(i)
1) Quelle observation trs grossire sur lassociation entre taille du pre et taille du
fils peut-on faire, simplement partir de lobservation de ce nuage de points ?
2) Les tailles moyennes calcules partir des donnes prsentes sont trs voisines
chez les pres et chez les fils 1, 770m pour les pres, et 1, 771m pour les fils (en ar-
rondissant au millimtre). Le graphique suivant reprsente, pour diffrentes tranches
18. Sir Francis Galton (18221911).
Variables alatoires 271
de valeurs de la taille du pre, la valeur moyenne de la taille du fils dans les familles
correspondantes, et en surimpression la droite dquation y = x.
1.75
1.70
1.65
Lobservation qui avait frapp Galton tait la suivante : la courbe obtenue est ap-
proximativement une droite, mais dont la pente est nettement infrieure 1, coupant
la droite dquation y = x au niveau de la taille moyenne de la population, ce qui
signifie que les enfants ns dun pre plus grand que la moyenne, sont, galement, en
moyenne, plus grands que la moyenne de la population, mais que leur taille moyenne
est plus proche de la moyenne que ne lest celle de leur pre. La mme observation
peut tre faite, en sens inverse, pour les enfants issus dun pre de taille infrieure
la moyenne. On observe donc un phnomne de retour vers la moyenne, chaque
individu donnant naissance des enfants en moyenne plus proches queux mmes de
la taille moyenne de la population. On note donc que la taille dun fils nest pas en
moyenne gale celle de son pre, mais prsente un dcalage dans la direction de la
moyenne de la population. La conclusion en apparence logique de cette observation
serait que, au fur et mesure des gnrations, la taille des individus a tendance
converger vers la valeur moyenne (1,77 m dans notre exemple). Pourtant, si lon exa-
mine les deux distributions de taille, chez les pres et chez les fils, on nobserve aucun
phnomne de resserrement des tailles autour de la moyenne dans la population
des fils par rapport celle des pres, et les deux distributions des tailles semblent
trs voisines. Les carts-types, quant eux, sont tous les deux gaux 0,060 (en
arrondissant au millimtre).
272
histogramme de x(i)
6
5
4
3
2
1
0
histogramme de y(i)
6
5
4
3
2
1
0
Comment pourrait-on alors expliquer une telle situation ? Comment votre expli-
cation saccomode-t-elle du graphique suivant, qui reprsente non plus la moyenne,
mais lcart-type, calcul dans chacune des tranches de taille des pres prsentes
ci-dessus, et qui suggre galement que la variabilit de la taille des fils telle que
mesure par lcart-type ne varie pas ou peu avec la taille des pres ?
0.12
0.10
0.08
ec. type de y
0.06
0.04
0.02
0.00
x
Variables alatoires 273
1.75
1.70
1.65
x
274
0.12
0.10
0.08
ec. type de y
0.06
0.04
0.02
0.00
1.75
1.70
1.65
x
Variables alatoires 275
0.12
0.10
0.08
ec. type de y
0.06
0.04
0.02
0.00
1.75
1.70
1.65
x
276
0.12
0.10
0.08
ec. type de y
0.06
0.04
0.02
0.00
Exercice 142 (Mariages stables) On appelle problme des mariages stables la ques-
tion suivante. On dispose de deux populations A et B comportant chacune n individus
(disons, les hommes et les femmes). Chaque individu possde une liste de prfrence
personnelle, dans laquelle les n individus de la population du sexe oppos sont clas-
ss par ordre de prfrence. Un mariage entre ces deux populations est simplement
la donne de n couples (a1 , b1 ), . . . , (an , bn ) tels que chaque entier entre 1 et n figure
une et une seule fois dans chacune des deux listes (a1 , . . . , an ) et (b1 , . . . , bn ). Si lon
voit les lments ai comme numrotant des hommes, et les bi comme numrotant des
femmes, un mariage est donc simplement un appariement entre tous les hommes et
toutes les femmes de la population. On dit quun tel mariage est stable lorsquil ne
comporte aucune paire de couples (ai , bi ) et (aj , bj ) tels que ai classe bj avant bi dans
sa liste de prfrence, tandis que bj classe ai avant aj dans sa liste de prfrences (ai
et bj auraient alors tendance rompre leurs couples pour se regrouper tous les deux).
Un rsultat non-trivial est que, quelles que soient les listes de prfrences, il existe
toujours au moins un mariage stable. La question est ensuite : comment trouver algo-
rithmiquement un tel mariage stable. Compte-tenu du nombre de mariages possibles
(n!), il nest pas question dnumrer tous les mariages possibles. La mthode nave
consistant partir dun mariage arbitraire pour essayer de le corriger progressive-
ment en liminant les mariages instables ne fonctionne pas, mais lalgorithme suivant
(les hommes proposent, les femmes disposent) rpond cette question. Cet algo-
rithme fonctionne de la manire suivante. A tout moment de son droulement, un
mariage partiel (certains couples maris sont forms, tandis que dautres individus
peuvent tre clibataires) entre les deux populations est dfini, et chaque homme a
dj enregistr un certain nombre de refus de mariage de la part de certaines femmes.
Initialement, aucun individu nest mari. Ensuite, lun des hommes non maris (par
exemple celui possdant le plus petit indice) propose de se marier la femme qui se
Variables alatoires 277
trouve le plus haut place dans sa liste de prfrence, et qui ne la pas dj refus. Si
cette femme nest pas marie, elle accepte le mariage avec cet homme. Si elle est dj
marie, mais que son mari actuel se trouve moins bien plac dans sa liste de pr-
frences que le nouveau prtendant, le mariage prcdent est dfait, et la femme est
remarie avec le prtendant. Dans le cas contraire, la femme repousse la proposition
qui lui est faite.
Lorsque tous les hommes (et donc toutes les femmes) sont maris, lalgorithme
sarrte.
1) Prouver que lalgorithme sarrte aprs n2 tapes au pire, et que le mariage consti-
tu lorsquil sarrte est un mariage stable.
2) On sintresse la distribution de probabilit du temps dexcution (compt en
nombre dtapes) de lalgorithme lorsque les listes de prfrences des hommes sont
obtenues en effectuant une permutation alatoire de loi uniforme sur lensemble des
permutations des entiers de 1 n, et ce, indpendamment dun homme lautre, les
listes de prfrence des femmes pouvant, quant elles, tre totalement arbitraires (on
ne fait aucune hypothse de modlisation leur sujet). Appelons T ce temps dex-
cution, et introduisons le temps T 0 obtenu en modifiant lalgorithme de la manire
suivante : au lieu de suivre sa liste de prfrences, chaque homme tire chaque fois
uniformment au hasard la femme laquelle il va proposer de se marier (il se peut
donc quil repropose le mariage une femme qui la dj rejet, et ne pourra donc que
refuser nouveau). Montrer que pour tout k 0, P(T k) P(T 0 k). Montrez
ensuite que le temps T 0 peut-tre analys comme dans le problme du collectionneur
de vignettes n vignettes (exercice 69). Que peut-on en dduire sur la distribution
de probabilit du temps T ?
Exercice 144 Ce soir, Jojo reoit ses beaux-parents chez lui pour la premire fois.
Soucieux que tout se passe pour le mieux, il va jusqu sinterroger sur le bon fonction-
nement des ampoules lectriques installes son domicile. En particulier, lampoule
clairant la salle manger na pas t change depuis plus de deux ans, et Jojo re-
doute que celle-ci ne claque pendant le repas. Il prfre donc changer ladite ampoule
en la remplaant par une ampoule neuve, du mme modle que la prcdente, en es-
prant diminuer la probabilit dun claquage au cours du repas. En admettant que la
dure de vie (en secondes) dune ampoule aprs son installation puisse tre modlise
laide dune loi gomtrique, ce que vient de faire Jojo est-il judicieux ?
Exercice 145 Jojo dsire coder un long message laide dun code binaire. Spci-
fiquement, il cherche associer chaque mot du message un mot de code binaire,
constitu dune suite finie de 0 et de 1, et, pour des raisons de facilit de dcodage, il
souhaite que son code possde la proprit du prfixe : aucun mot du code binaire ne
doit tre le dbut dun autre mot du code. Supposons que le message soit crit dans
un langage trs primaire qui ne comporte que 6 mots diffrents, nots A1 , . . . , A6 , et
que, dans le message que Jojo cherche transmettre, les frquences de chacun des
mots soient les suivantes : A1 reprsente 12% des mots du message, A2 25%, A3 8%,
A4 11%, A5 14% , et A6 30%.
Quel code pouvez-vous proposer Jojo afin de minimiser la longueur du message
une fois cod ? Quel est le nombre moyen de signes binaires utiliss par votre code
pour coder le message de Jojo ? Comment se compare-t-il lentropie associe aux
frquences des diffrents mots dans le message ?
Variables alatoires 279
Exercice 146 Au cours dune mission, on invite une vingtaine de mdiums censs
deviner des informations sur des membres du public choisis au hasard (par exemple,
leur nombre denfants, sils sont ou non clibataires, etc...). A chaque tape, les m-
diums ayant devin juste restent sur scne, tandis que les autres sont limins. Aprs
cinq tapes, M. H*** est le seul rester en lice, et couronn comme possdant un don
vraiment exceptionnel. Pensez-vous que cela soit justifi ? En quoi llimination pro-
gressive peut-elle tendre accrditer indment, auprs des spectateurs non-avertis,
bien entendu M. H*** ?
des trente traits qui fut observe, suggrant la possibilit que la signature inscrite sur
la page supplmentaire du testament ait t recopie partir de lautre.
Les Peirce affirmrent quau vu de leur tude, on pouvait valuer la probabilit
quune telle concidence survienne de manire accidentelle 1/530 , soit, daprs les
Peirce toujours, environ 1/2, 666... 1021 , La conclusion tait quune probabilit si
faible indiquait que, selon toute raison, la page supplmentaire du testament tait un
faux.
1) Vrifiez que 1/530 1/2, 666... 1021 .
2) Expliquez en quoi cet argument apparat comme un (bel) exemple du sophisme
du procureur. Quelles probabilits aurait-il galement fallu valuer pour tenter de
conclure de manire correcte ? Dans quelles conditions pourrait-on nanmoins consi-
drer que les probabilits mettent srieusement en cause lauthenticit du document
produit par Mme Howland Green ?
3) Tentez dexpliquer comment les Peirce ont pu parvenir, partir de leur tude,
la valeur de 1/530 . Sur quelles hypothses ont-ils pu sappuyer ? Comment jugez-vous
la pertinence et la fiabilit de leur argument ?
4) Dans le cadre du procs, un chantillon de 110 signatures traces par lancien
prsident des Etats-Unis John Quincy Adams fut analys, rvlant que les douze
signatures de lchantillon les plus proches entre elles prsentaient des similarits
suprieures celles observes entre les deux signatures figurant sur le testament de
1862. Largument fut employ par les avocats de Mme Howland Green pour affirmer
quune telle similitude pouvait survenir de manire naturelle. Les avocats de la partie
adverse rtorqurent que le prsident Adams tait connu pour possder une criture
particulirement uniforme. Dautres exemples de signatures trs voisines produites
par une mme personne furent donns (entre autres, partir de chques bancaires).
Quelle est, selon-vous, la porte de ces arguments ?
5) Il fut galement propos quune similitude importante pouvait exister entre des
signatures ralises par une mme personne peu de temps dintervalle, la mme
place et sur le mme bureau, par exemple. Que pensez-vous de cet argument ?
6) En dfinitive, si vous deviez tudier vous-mme la question, de quelles donnes
chercheriez-vous disposer, et comment procderiez-vous ?
Sophisme du procureur ou pas, laffaire fut tranche en dfinitive sur la base
darguments purement juridiques et compltement indpendants des considrations
prsentes ci-dessus, qui donnrent tort Mme Howland Green. La question de savoir
si la cour aurait tranch en sa faveur si la seconde signature avait t considre
comme authentique, reste ouverte...
p
Exercice 148 Considrons une variable alatoire X telle que E(X) > 0 et V(X) <<
X
E(X). Montrez que E(X) est typiquement proche de 1. Peut-on en dduire que |X
X
p
E(X)| << 1 ? Si inversement V(X) >> E(X), peut-on en dduire que E(X) a une
Variables alatoires 281
En dduire quil existe une unique solution dont les coordonnes dcrivent une loi de
probabilit sur lensemble {0, 1, 2}. Soit = ( (0), (1), (2)) cette solution.
Nous admettrons (il sagit en fait dun rsultat gnral provenant de la tho-
rie des chanes de Markov) que, quelle que soit la valeur de 0 , on a toujours
limn+ 0 M n = .
4) En dduire, en fonction de p1 et p2 , la valeur limite lesprance de gain au nme
pas en jouant de manire rpte au jeu B, lorsque n tend vers linfini. A quelle
condition celle-ci est-elle ngative ?
5) Mme question avec le jeu C : quelle est la valeur limite, en fonction de p, p1 , p2 ,
de lesprance de gain au nme pas en jouant de manire rpte au jeu C, lorsque
n tend vers linfini, et quelle condition celle-ci est-elle ngative ? Indication : re-
prendre la stratgie employe pour les questions 2) et 3).
6) Donnez un exemple de valeur de p, p1 , p2 pour lequel les jeux A et B sont perdants
long terme, tandis que C est gagnant long terme.
Exercice 150 On considre une variable alatoire X dont la loi possde une densit
de la forme f (x) = Kxc pour x b, avec b > 0 et c > 1.
1) Montrez que la valeur de K est entirement dtermine par la donne de c et de
b.
2) Etant donn un nombre a b, on se concentre sur les valeurs de X suprieures
ou gales a, autrement dit, on sintresse la loi de X conditionnelle au fait que
X a. Pour pouvoir comparer entre elles des lois associes diffrentes valeurs de a,
on ramne la valeur de a lchelle 1, en considrant la loi de X/a conditionnelle au
fait que X a. Montrez que cette loi ne dpend en fait pas de a. Cette proprit est
ce que lon appelle linvariance dchelle de la loi de X : les valeurs de X suprieures
une valeur donne ont exactement (aprs mise lchelle) la mme distribution de
probabilit que X.
3) Supposons maintenant que X suive une loi exponentielle de paramtre > 0.
Quelle est cette fois la loi de X/a conditionnelle au fait que X a ?
Exercice 151 Deux lignes dautobus, les lignes 1 et 2, effectuent la liaison entre
la gare de Jojo-les-Pins et la place du march, situe au centre-ville. Les bus de
la ligne 1, sans arrt ou presque sur ce trajet, effectuent la liaison en 10 minutes
en moyenne. En revanche, les bus de la ligne 2 comportent plusieurs arrts sur le
parcours, et effectuent la liaison en 20 minutes, toujours en moyenne. Pour simplifier,
Variables alatoires 283
on suppose on supposera que les dures de parcours sont toujours exactement gales
10 et 20 minutes, respectivement pour les lignes 1 et 2. On modlise la dure
de lattente de lautobus pour un passager venant darriver la gare, et souhaitant
prendre la ligne 1, par une variable alatoire de loi exponentielle de paramtre 1 . La
mme loi est employe pour un passager attendant un bus de la ligne 2, mais avec
un paramtre 2 a priori diffrent de 1 .
1) Quelles hypothses de modlisation sous-jacente pourrait expliquer lemploi de lois
exponentielles dans ce contexte ?
2) Quel est en moyenne le temps total (attente plus trajet) pour un passager arrivant
la gare et souhaitant se rendre place du march en utilisant un bus de la ligne 1 ?
Mme question avec un bus de la ligne 2 ? A quelle condition est-il plus avantageux
de prendre la ligne 1 que la ligne 2 ?
3) Considrons prsent un passager choisissant de se rendre au march par le pre-
mier autobus (de la ligne 1 ou de la ligne 2) qui arrive. En supposant lindpendance
entre le temps dattente dun bus de la ligne 1 et dun bus de la ligne 2, quelle est
la loi du temps dattente de ce passager avant de pouvoir monter dans un bus ? Quel
est le temps total moyen mis par le passager pour se rendre destination ? Comment
ceci se compare-t-il, en fonction de 1 et 2 , au choix le plus avantageux obtenu
la question 2) ? Donnez des exemples de valeurs numriques ralistes pour lesquelles
cette comparaison a lieu dans un sens, et dans lautre.
Exercice 152 Une girafe cherche (mais pourquoi ?) traverser une route troite,
la dure ncessaire pour quelle effectue sa travere tant estime un nombre a de
minutes. On suppose quil passe en moyenne 6 vhicules par minute sur cette route
lendroit o la girafe cherche traverser, et, plus prcisment, que le nombre total de
vhicules traversant la route au cours dune priode de temps donne de a minutes
suit une loi de Poisson de paramtre proportionnel a.
1) Quelles hypothses de modlisation sous-jacentes le choix de cette loi de Poisson
peut-il traduire ?
2) Pour quelles valeurs de a la girafe a-t-elle moins de 5% de chances dentrer en col-
lision avec un vhicule ? Pour quelles valeurs de a cette probabilit est-elle suprieur
95% ?
Exercice 153 Un laboratoire danalyses mdicales effectue des tests sanguins des-
tins dtecter la prsence dune certaine substance dans le sang des personnes
sur lesquelles lanalyse est pratique. Une premire manire de procder pour le la-
boratoire consiste simplement effectuer individuellement un test sur chacun des
chantillons recueillis. Compte-tenu du cot unitaire lev des tests, le laboratoire
envisage de rduire le nombre de ceux-ci en procadant de la manire suivante. Deux
chantillons, au lieu dun seul, sont prlevs sur chacune des personnes concernes.
284
3.1 Introduction
La loi des grands nombres constitue le premier des thormes limites de la
thorie des probabilits. Dans sa version la plus simple, elle affirme que la moyenne
dun grand nombre de variables alatoires valeurs relles, indpendantes et de mme
loi est, typiquement, approximativement gale lesprance commune de ces variables
alatoires, lorsque celle-ci existe. Dans ce chapitre, nous prsentons et discutons
diffrentes versions de ce rsultat, leur interprtation et leur porte pratique.
3.2.2 Enonc
Dans le cadre et sous les hypothses dcrits dans le paragraphe prcdent, cest-
-dire N variables alatoires X1 , . . . , XN reprsentant N rptitions indpendantes
dune variable alatoire X possdant une esprance, la loi faible des grands
nombres affirme que, pour tout > 0,
N 1
lim P N (X 1 + + XN ) E(X) = 0.
N +
Ainsi, tant donn un > 0 fix, mais que lon peut choisir arbitrairement petit,
la probabilit pour que N1 (X1 + + XN ) soit loign de E(X) dun cart suprieur
, tend vers zro lorsque N tend vers linfini. En dautres termes, lorsque N tend
vers linfini, la loi de la variable alatoire N1 (X1 + + XN ) se concentre autour de
la valeur E(X).
En termes plus imags, la loi des grands nombres affirme donc que, lorsque
N est suffisament grand, la variable alatoire N1 (X1 + + XN ) est, typique-
ment (avec une probabilit proche de 1), approximativement ( prs) gale
lesprance E(X).
Dans le cas dune indicatrice, on obtient que la proportion de fois o A se produit
est typiquement approximativement gale la probabilit de A.
Loi des grands nombres 287
Remarque 12 Soulignons que lon ne peut esprer se passer, dans lnonc ci-
dessus, daucun des deux termes approximativement et typiquement.
Pour sen convaincre, il suffit de penser lexemple du jeu de pile ou face, mo-
dlis par une suite de lancers indpendants donnant lieu pile ou face de manire
quiprobable. Aprs 10000 lancers, on peut sattendre ce que la proportion observe
de pile soit proche de 1/2, mais certainement pas obtenir exactement 5000 fois pile
et 5000 fois face. De mme, il est physiquement possible que lon obtienne 10000
fois face au cours des 10000 lancers, et il est donc physiquement possible que la pro-
portion observe de pile soit trs diffrente de 1/2. Simplement, une telle ventualit
est extrmement improbable (dans le modle de lancers indpendants avec quipro-
babilit de pile et de face), et cest pourquoi, bien que lon ne puisse pas exclure le
fait quelle puisse survenir, on sattend ce que typiquement, elle ne se produise pas.
Soulignons que la loi des grands nombres nonce ci-dessus est un thorme ma-
thmatique, qui ncessite pour que lon puisse lappliquer que ses hypothses (va-
riables alatoires indpendantes et de mme loi possdant une esprance) soient
satisfaites (voir galement ce sujet le paragraphe sur la robustesse de la loi des
grands nombres) que nous allons dmontrer dans le paragraphe suivant.
3.2.3 Preuve
Pour simplifier, nous donnerons une preuve en nous plaant sous lhypothse
supplmentaire selon laquelle la variance de X, et non seulement son esprance, est
dfinie.
Dabord, on vrifie que lesprance de la variable alatoire N 1 (X1 + + XN )
est gale E(X), grce la proprit de linarit de lesprance :
1 1 1
E (X1 + + XN ) = (E(X1 ) + + E(XN )) = (N E(X)) = E(X),
N N N
en utilisant le fait que toutes les possdent individuellement la mme loi que X, et
donc la mme variance. En dfinitive, on obtient que :
1 V(X)
V (X1 + + XN ) = .
N N
La variance de la moyenne empirique associe N ralisations indpendantes
de la variable alatoire X est donc N fois plus petite que la variance de X. Cette
galit traduit donc le fait que la moyenne empirique fluctue dautant moins autour
de son esprance E(X) que N est grand. Plus prcisment, lingalit de Bienaym-
Tchebychev (voir le chapitre Variables alatoires) entrane que, pour tout > 0,
N 1 V(X)
P N (X1 + + XN ) E(X) N 2 ,
ce qui implique la loi des grands nombres nonce plus haut, en prenant la limite
lorsque N tend vers linfini.
Notons que, malgr son aspect anodin, la proprit dadditivit des variances
dans le cas de variables alatoires indpendantes est la clef de la preuve ci-dessus :
a priori, on pourrait sattendre ce que la variance de X1 + . . . + XN soit une
quantit dordre N 2 , car elle fait intervenir le carr de quantits dordre N (somme
de N variables alatoires). Le fait que cette variance savre en ralit tre dordre
N (du fait de ladditivit des variances) est donc un rsultat non banal (provenant
de lindpendance des variables alatoires X1 , . . . , XN ) !
est valable. Comme nous lavons observ prcdemment, mais il nest peut-tre pas
inutile dinsister, on ne peut se passer ni du ni du pour aborder cette question,
ceux-ci permettant de quantifier le approximativement () et le typiquement
() intervenant dans la loi des grands nombres.
1. Une ingalit telle que (3.1) est souvent appele ingalit de dviation.
Loi des grands nombres 289
La premire chose retenir ce sujet est la suivante : la valeur dun N tel que
lingalit ( 3.1) soit valable dpend de , de , et de la loi de X. En aucun cas il
ne peut exister de nombre N grand dans labsolu, qui permettrait de garantir que
lapproximation N1 (X1 + + XN ) E(X) est satisfaisante pour toute valeur de ,
ou de , ou de X.
500
0
k
290
3000
2500
2000
1500
Effectif
1000
500
0
k
1500
1000
Effectif
500
0
Effectuons prsent des simulations avec des variables alatoires Xi de loi uni-
forme sur [49, 5; 50, 5], pour lesquelles on a encore E(X) = 1/2, et donc exactement
le mme nonc de la loi des grands nombres.
Voici les histogrammes correspondant respectivement N = 500 et N = 50000,
obtenus, comme prcdemment, au cours de 10000 simulations.
Loi des grands nombres 291
3000
2500
2000
Effectif
1500
1000
500
0
6 4 2 0 2 4 6
k
1500
1000
Effectif
500
0
2 1 0 1 2
nette que dans le cas des variables alatoires uniformes sur [0, 1], les fluctuations
alatoires autour de 1/2 savrant beaucoup plus importantes, de telle sorte que
lapproximation N1 (X1 + + XN ) 1/2 est nettement moins bonne (de lordre de
lunit pour N = 500, de lordre du dixime pour N = 50000).
En reprenant les mmes expriences, avec cette fois des variables alatoires uni-
formes sur [4999, 5; 5000, 5], on obtient les histogrammes suivants pour N = 500 et
N = 50000 (toujours avec 10000 tirages), les voici.
1500
1000
Effectif
500
0
k
Loi des grands nombres 293
2500
2000
1500
Effectif
1000
500
0
40 20 0 20 40
On constate que la concentration autour de 1/2 est encore moins nette, et que
les flucutations alatoires autour de 1/2 sont si importantes que lapproximation
1
N (X1 + + XN ) 1/2 semble perdre sa pertinence : pour N = 500, les carts se
mesurent en centaines, et en dizaines pour N = 50000.
25
20
15
Effectif
10
5
0
4 2 0 2 4
Remarquons simplement que, dans les exemples prcdents, plus la variable ala-
toire Xi a tendance fluctuer, plus la variable alatoire N1 (X1 + + XN ) a elle-
mme tendance fluctuer, et ceci se retrouve dans le calcul de la variance de
1
N (X1 + + XN ), qui nous a servi a prouver la loi faible des grands nombres.
Loi des grands nombres 295
permet en aucun cas daffirmer que N1 (X1 + + XN ) /E(X) est voisin de 1 avec
forte probabilit. Il faudrait pour cela choisir petit, non seulement devant 1, mais
galement devant E(X), ce qui est dailleurs impossible si E(X) = 0. Voir ce sujet
lexercice 161.
Notons galement que le fait que N1 (X1 + + XN ) = E(X) + avec << 1
nentrane certainement pas que X1 + + XN = E(X) + avec << 1. Tout ce
que lon peut dduire est que X1 + + XN = E(X) + N , et, N peut aussi bien
tre << 1, >> 1, que de lordre de 1, suivant les cas.
portions de droite, mais il faut se rappeler quil sagit en ralit de points dont les
coordonnes horizontales sont des nombres entiers.
1.0
0.9
0.8
0.7
0.6
0.5
0 10 20 30 40 50
0.75
0.70
0.65
0.60
0.55
0.50
0 10 20 30 40 50
0.65
0.60
0.55
0.50
0.45
0 10 20 30 40 50
Voici prsent les courbes obtenues en suivant le mme principe, mais avec i
Loi des grands nombres 299
allant de 1 500.
0.5
0.4
0.3
0.2
0.1
0.54
0.52
0.50
0.48
0.46
Reprenons lexprience, mais avec des variables alatoires de loi uniforme sur
[49, 5; 50, 5],
En reprenant les mmes expriences, avec des variables alatoires uniformes sur
[4999, 5; 5000, 5], on obtient les graphiques suivants (trac de 1i (X1 + + Xi ) en
fonction de i pour 1 i N , pour N = 500 puis N = 50000, avec chelles sont
tronques verticalement).
Loi des grands nombres 303
400
200
0
200
400
3.2.7 Robustesse
Nous avons nonc la loi (faible) des grands nombres dans le contexte dune rp-
tition indpendante de modles probabilistes, donnant lieu des variables alatoires
X1 , . . . , XN mutuellement indpendantes, de mme loi, et pour lesquelles lesprance
est dfinie. Il est naturel de sinterroger sur la robustesse de la loi des grands nombres
304
vis--vis de ce cadre particulier. Que se passe-t-il lorsque lon considre des variables
alatoires qui prsentent entre elles une certaine dpendance, ne sont plus exactement
distribues de la mme faon, ou pour lesquelles lesprance nest pas dfinie ?
De manire gnrale, il existe un trs grand nombre de rsultats dont la formula-
tion sapparente celle de la loi des grands nombres que nous avons prsente, et qui
tendent celle-ci dans diverses directions. Plutt quun rsultat unique, le terme de
loi des grands nombres dsigne donc un vaste ensemble de rsultats qui diffrent
par la nature exacte de leurs hypothses et la forme prcise de leurs conclusions.
Tous ont en commun le fait dnoncer que la somme dun grand nombre de variables
alatoires, sous certaines hypothses qui caractrisent la dpendance existant entre
celles-ci, ainsi que lordre de grandeur des valeurs que ces variables peuvent prendre,
conduit, aprs une normalisation adquate (en gnral le nombre de variables pr-
sentes dans la somme), une valeur essentiellement constante et dterministe (non-
alatoire). Dans lnonc que nous avons donn prcdemment, la dpendance entre
les variables est caractrise par le fait que celles-ci sont indpendantes, et lhypo-
thse concernant lordre de grandeur des valeurs prises est que celles-ci possdent
toutes la mme loi, dont lesprance est dfinie.
Dans la discussion qui suit, nous tenterons simplement dillustrer sur quelques
exemples principalement par simulation , la robustesse, ou, au contraire, la non-
robustesse, de la loi des grands nombres, vis--vis de certaines altrations du contexte
simple dans lequel nous lavons nonce.
La loi des grands nombres continue de sappliquer lorsque les variables alatoires
X1 , . . . , XN que lon tudie sont produites au cours dune succession dexpriences
qui ne sont ni exactement indpendantes, ni dcrites individuellement par des mo-
dles exactement semblables, mais satisfont cependant ces hypothses de manire
approche. Lorsque lon scarte trop de ces hypothses en revanche, la loi des grands
nombres cesse en gnral dtre valable.
Donner une formulation mathmatique prcise de ce que peut tre une succession
approximativement indpendante dexpriences approximativement semblables, et
plus encore de prouver la loi des grands nombres dans ce contexte ou tenter de
dterminer prcisment la frontire partir de laquelle la loi des grands nombres ne
sapplique plus dpasse largement le cadre de ce cours.
Nous dcrivons simplement dans ce qui suit trois situations dans lesquelles des
suites de variables alatoires possdant chacune exactement la mme loi, mais pr-
sentant des degrs de dpendance varis, prsentent ou non un comportement du
type dcrit par la loi des grands nombres.
Loi des grands nombres 305
A titre de comparaison, commenons par une pice dont les lancers successifs
sont dcrits par une suite de variables alatoires indpendantes de loi de Bernoulli
de paramtre 1/2 : P(Xi = P) = P(Xi = F) = 1/2. La proportion de F obtenue au
cours des N premiers lancers peut scrire
f (X1 ) + + f (XN )
TN = ,
N
50
0
Proportion de F
306
100
50
0
Proportion de F
100
0
Proportion de F
1.0
0.8
(f(X1)+...+f(Xi))/i
0.6
0.4
0.2
i
0.6
(f(X1)+...+f(Xi))/i
0.4
0.2
0.0
i
308
(f(X1)+...+f(Xi))/i (f(X1)+...+f(Xi))/i
0.46 0.48 0.50 0.52 0.54 0.0 0.1 0.2 0.3 0.4 0.5
0
0
2000
2000
4000
4000
i
i
6000
6000
8000
8000
10000
10000
(f(X1)+...+f(Xi))/i (f(X1)+...+f(Xi))/i
0.46 0.48 0.50 0.52 0.54 0.46 0.48 0.50 0.52 0.54
0
0
Loi des grands nombres
2000
2000
4000
4000
i
i
6000
6000
8000
8000
10000
10000
309
310
On suppose que lon a affaire une pice de monnaie obstine possdant la pro-
prit suivante : une fois la pice sortie de sa bote, le premier lancer est effectivement
alatoire, pouvant donner pile ou face avec une probabilit gale 1/2, mais, au cours
de tous les lancers suivants, la pice se souvient du rsultat de son premier lancer, et
sarrange toujours pour retomber exactement du mme ct. Si lon note X1 , . . . , XN
les rsultats des N premiers lancers de la pice, on se trouve ici dans un cas extrme
de non-indpendance : la valeur de Xi+1 est toujours gale la valeur de Xi . En
revanche, les lancers sont tous dcrits individuellement par une loi de Bernoulli de
paramtre 1/2 : P(Xi = P) = P(Xi = F) = 1/2. La proportion de F obtenue au
cours des N premiers lancers peut scrire
f (X1 ) + + f (XN )
TN = ,
N
en posant f (F) = 1 et f (P) = 0.
Bien entendu, la loi des grands nombres ne sapplique pas TN , puisque la
suite des rsultats obtenus est soit exclusivement constitue de P, soit exclusivement
constitue de F.
Rptons un grand nombre de fois (mettons 1000) lexprience consitant sortir
la pice obstine de sa bote et effectuer 100 lancers successifs. Lhistogramme
obtenu pour TN est le suivant :
traduisant le fait que lon obtient soit 0% soit 100% de P, avec une probabilit
de 1/2.
Si lon trace lvolution de Ti en fonction de i pour i variant de 1 N , on obtient
environ la moiti du temps le graphe suivant :
Loi des grands nombres 311
100
80
60
Proportion de F
40
20
0
0 20 40 60 80 100
Nombre de lancers
0.0
0.5
1.0
0 20 40 60 80 100
Nombre de lancers
A comparer aux graphiques que lon obtenait dans le cadre dune rptition
indpendante !
312
On peut par ailleurs facilement vrifier que, pris de manire individuelle, les
lancers sont dcrits par une loi de Bernoulli de paramtre 1/2 : P(Xi = P) = P(Xi =
F) = 1/2.
Il se trouve que, quelle que soit la valeur de p ]0, 1[ dans ce modle, la loi des
grands nombres est effectivement vrifie par la proportion de P obtenue aprs N
lancers, que nous notons TN comme dans le paragraphe prcdent.
100
50
0
50
0
100
50
0
p=0.7
1.0
0.9
0.8
Proportion de F
0.7
0.6
0.5
0.4
Nombre de lancers
On constate bien sur ces graphiques un comportement de type loi des grands
nombres, la proportion de pile se concentrant autour de la valeur 1/2 lorsque lon
effectue un grand nombre de lancers.
En prenant par exemple p = 0, 95, on constate le mme type de phnomne,
mais avec une convergence plus lente se manifester, consquence de la plus forte
similarit entre valeurs successives.
Voici lhistogramme obtenu pour la proportion de F en effectuant 1000 simula-
tions de 100 lancers.
Loi des grands nombres 315
50
0
150
100
50
0
50
0
La plus forte dpendance entre valeurs successives se traduit donc ici par une
convergence plus lente.
En prenant p = 0, 2, on observe encore constate le mme type de phnomne,
mais avec une convergence qui se manifeste de manire plus rapide. En effet, les
rsultats des lancers successifs ont tendance alterner plus souvent que dans le cas
de lancers indpendants, ce qui stabilise plus rapidement autour de 1/2 la proportion
de F.
Voici lhistogramme obtenu avec 1000 simulations de 100 lancers.
150
100
50
0
100
50
0
150
100
50
0
Considrons prsent une pice dont les lancers successifs sont relis entre eux
de la manire suivante. Une fois la pice sortie de sa bote, le premier lancer effectu
est alatoire, donnant pile ou face avec une probabilit gale 1/2. Ensuite, pour
318
tout i 1, tant donns les rsultats des i premier lancers, le i + 1me lancer se
droule de la faon suivante : la pice accorde P une probabilit proportionnelle
1 + Ni (P ) et F une probabilit proportionnelle 1 + Ni (F ), Ni (P ) et Ni (F )
dsignant respectivement les nombres de fois o P et F sont sortis au cours des
i premiers lancers, et > 0 dsignant un paramtre. En dautres termes, chaque
nouveau lancer donnant lieu un F renforce dune valeur gale le poids accord
F dans les futurs lancers, et il en va de mme pour P. On peut vrifier facilement
que, pris de manire individuelle, les lancers sont dcrits par une loi de Bernoulli de
paramtre 1/2 : P(Xi = P) = P(Xi = F) = 1/2.
100
50
0
100
50
0
100
50
0
100
50
0
100
50
0
100
50
0
Les histogrammes obtenus sont plus resserrs autour de la valeur 1/2 que dans
le cas = 2, mais on nobserve, ici non plus, aucun resserrement lorsque la valeur
de N crot.
Delta=2
1.0
0.8
0.6
Proportion de F
0.4
0.2
0.0
Nombre de lancers
322
Delta=2
1.0
0.8
0.6
Proportion de F
0.4
0.2
0.0
Nombre de lancers
Delta=2
1.0
0.8
0.6
Proportion de F
0.4
0.2
0.0
Nombre de lancers
Delta=0.5
1.0
0.8
0.6
Proportion de F
0.4
0.2
0.0
Nombre de lancers
Delta=0.5
1.0
0.8
0.6
Proportion de F
0.4
0.2
0.0
Nombre de lancers
324
Delta=0.5
1.0
0.8
0.6
Proportion de F
0.4
0.2
0.0
Nombre de lancers
50
0
10 5 0 5 10
50
0
10 5 0 5 10
50
0
10 5 0 5 10
50
0
10 5 0 5 10
Certes, les histogrammes sont obtenus ont en gros la forme de pics symtriques
par rapport laxe x = 0, mais lon ne constate aucun phnomne de concentration
de la loi autour dune valeur fixe mesure que N crot.
4
3
(X1+...+Xi)/i
2
1
0
i
3
2
1
(X1+...+Xi)/i
0
1
2
3
i
328
3
2
(X1+...+Xi)/i
1
0
1
Ces quelques exemples sont destins illustrer que la loi des grands nombres ne
sapplique plus lorsque lesprance nest pas dfinie.
On notera la diffrence par rapport au comportement observ dans le troisime
exemple de pice obstine : mme si, dans le cas prsent les histogrammes restent
peu prs identiques lorsque N crot, les courbes 1i (X1 + + Xi ) en fonction de i
ne montrent, en revanche, aucun signe de convergence vers une valeur dfinie, ft-
elle alatoire. On notera galement sur les trois derniers tracs le fait que quelques
sauts de la courbe suffisent apporter une contribution importante sa position
finale : quelques valeurs de Xi sont suffisament importantes pour chambouler la
valeur moyenne obtenue sur un jeu pourtant important dobservations !
Il est naturel de se demander ce que signifie concrtement le fait quune quantit
soit modlise par une variable alatoire dont lesprance nest pas dfinie : dans la
plupart des situations relles, les quantits que lon considre sont en ralit bornes,
mme si les bornes correspondantes peuvent prendre des valeurs extrmement leves,
si bien que lesprance devrait toujours tre dfinie. Disons, sans donner beaucoup
plus de prcision, quen pratique, lamplitude des fluctuations des variables alatoires
que lon ajoute peut tre si importante que lon ne peut pas sattendre observer
un comportement du type dcrit par la loi des grands nombres lorsque lon considre
des sommes dun nombre raisonnable de telles variables alatoires. Cette question (
partir de quelle valeur de N peut-on, dans un contexte donn, considrer que la loi
Loi des grands nombres 329
contexte est que, si les frquences limites avec lesquelles apparaissent les lments de
N sont donnes par PN , la frquence limite avec laquelle on observe des squences
de N expriences vrifiant N1 (X1 + + XN ) E(X) tend vers zro lorsque
N tend vers linfini, pour tout > 0 fix (ceci pouvant ventuellement tre quantifi
au moyen dingalits de dviation).
En pratique cependant, cest rarement ainsi que lon applique la loi des grands
nombres : on considre gnralement une seule rptition de N expriences, et lon
considre comme plausible le fait que
1
(X1 + + XN ) E(X) <
N
si
N
1
P (X1 + + XN ) E(X)
N
est suffisament petit, cest--dire lorsque N est suffisament grand (ceci pouvant ven-
tuellement tre quantifi au moyen dingalits de dviation). Autrement dit, une
telle application de la loi des grands nombres suppose que lon interprte les fr-
quences de long terme (relatives de nombreuses rptitions de squences de N ex-
priences) comme des mesures de plausibilits individuelles attaches aux diffrents
tirages dune telle squence. Soulignons que le caractre rationnel et la pertinence de
cette interprtation ne sont pas forcment assurs.
A ce stade, largument que nous venons dexposer peut sembler sans objet. En
effet, nous sommes partis de lhypothse selon laquelle, lorsque lon rpte un grand
nombre de fois (dans des conditions contrles) une srie de rptitions de N exp-
riences, dcrite par N , la frquence de long terme des lments de N est dcrite par
PN . Mais ceci entrane automatiquement que, lors de la rptition (dans les mmes
conditions contrles) dun grand nombre dexpriences dcrites par (et non plus
dune srie de N telles expriences), la frquence de long terme avec laquelle un
lment apparat doit tre donne par P(). Nul besoin de loi des grands
nombres pour parvenir ce rsultat : cest une simple consquence de notre hypo-
thse concernant linterprtation frquentielle de la probabilit. Quapporte alors la
loi des grands nombres ? Selon nous, une rponse possible est que la loi des grands
nombres fait entrer ltude des sries de N expriences dans le cadre de la
modlisation probabiliste, et peut ainsi non seulement confirmer le fait que la r-
ptition de N expriences doit conduire, lorsque N est grand, des frquences limites
donnes par P, mais fournir des mesures quantitatives de la plausibilit dun cart
donn par rapport une telle frquence limite, par exemple au moyen dingalits
de dviation.
Dans linterprtation de la probabilit comme mesure de plausibilit attache
aux vnements, la loi des grands nombres stipule simplement que, si lon considre
Loi des grands nombres 331
une rptition de situations que lon envisage comme indpendantes vis--vis des
plausibilits qui en caractrisent les issues, chaque situation tant dcrite par la mme
affectation de plausibilit aux diffrentes issues, on doit considrer comme fortement
plausible, lorsque lon effectue un grand nombre de rptitions, que la frquence avec
laquelle un vnement se produit soit voisine de la plausibilit quon lui attribue.
La porte de ce rsultat dpend naturellement de la pertinence des affectations des
plausibilits aux diffrentes issues.
Voici pour finir une petite liste commente dides, vraies ou fausses, au sujet de
la loi des grands nombres.
La loi des grands nombres est un thorme de mathmatiques. Cest vrai.
Telle que nous lavons nonce, la loi des grands nombres est une proprit
de certains objets mathmatiques, les rptitions indpendantes de modles
probabilistes, et nous en avons donn une preuve (moyennant lhypothse sim-
plificatrice que les variables alatoires considres ont une variance dfinie).
La loi des grands nombres est une loi de la Nature affirmant que, lors dex-
priences rptes, la frquence avec laquelle un vnement se produit tend
vers une valeur limite. Cest faux dans le contexte qui est le ntre ici : la
loi des grands nombres est un rsultat mathmatique portant sur des modles
mathmatiques de situations relles, et non pas une loi au sens dune loi de la
Nature. Lapplication une situation relle de la loi des grands nombres que
nous avons prouve suppose que le modle mathmatique dont elle est dduite
donne une description correcte de la situation considre. Ceci suppose une
interprtation concrte de la notion de probabilit, qui, la plupart du temps,
contient dj le fait que les frquences limites se stabilisent, et na donc pas
de rapport direct avec la loi des grands nombres que nous avons prouve, et
doit tre tablie sur dautres bases. Cependant, on utilise parfois le terme de
loi des grands nombres pour dsigner cette proprit de stabilisation des
frquences. Rappelons que cette proprit de stabilit des frquences lors dun
grand nombre de rptitions nest en aucun cas une loi gnrale, et dpend du
contexte et de la manire dont sont rptes les expriences.
La loi des grands nombres est un thorme qui prouve que, lors dexpriences
rptes, la frquence avec laquelle un vnement se produit tend vers une va-
leur limite. Daprs ce que nous avons dit auparavant, certainement pas. Tout
dpend de la validit du modle dont est dduite la loi des grands nombres, et
la validit de ce modle suppose en gnral dj que les frquences se stabilisent
autour dune valeur limite.
La loi des grands nombres est une vidence. Non, ou alors peut-tre pour
vous seul, car il a fallu les efforts de nombreux mathmaticiens pour en apporter
des preuves gnrales satisfaisantes. Considrer ce rsultat comme vident peut
rsulter dune confusion entre le contenu rel de la loi des grands nombres (un
332
3.3 Applications
Dans cette partie, nous prsentons quelques applications concrtes de la loi des
grands nombres, quil sagisse exactement de celle que nous avons nonce, ou plus
largement de rsultats entrant dans la mme catgorie.
Loi des grands nombres 333
5 50
P(X = 15000) = , P(X = 1000) = ,
1000 1000
150 795
P(X = 200) = , P(X = 0) = ,
1000 1000
dont lesprance est gale :
5 50 150 795
E(X) = 15000 + 1000 + 200 + 0 = 155,
1000 1000 1000 1000
et possde donc une valeur nettement plus faible que la plupart des pertes possibles.
Cependant, un individu isol nest confront qu une seule ralisation de la
variable alatoire X, relative son propre vhicule, et la valeur moyenne de X na que
peu de sens pour cet individu pris isolment : avec une probabilit faible, mais non-
ngligeable, il doit accepter dtre confront lventualit dune perte considrable,
bien suprieure 155 euros, que rien ne viendra compenser. Il est ainsi soumis un
risque individuel, alatoire, et potentiellement important.
Le principe de lassurance consiste mutualiser les risques attachs un grand
nombre dindividus diffrents, de faon liminer compltement le risque alatoire
individuel, moyennant le versement dune prime fixe lavance. Le montant total
des pertes subies par N individus est gal :
M = X1 + + XN ,
En admettant que les pertes des diffrents individus sont indpendantes, la loi
des grands nombres entrane alors que, si N est suffisamment grand, le montant total
M de la perte est infrieur au total des primes collectes : avec une probabilit trs
proche de 1,
1
(X1 + + XN ) 155 < 5,
N
do le fait que :
M < 160 N
avec une trs forte probabilit. Par consquent, largent collect auprs des N indi-
vidus permet de compenser intgralement la perte alatoire subie par chacun des N
individus, et le risque individuel est ainsi annul. Cest le principe de la mutualisation
du risque : la somme des risques individuels associs chaque individu donnant lieu
une valeur totale quasiment certaine, celle-ci peut donc tre value lavance, et
chaque individu na qu payer de faon certaine une somme lgrement suprieure
au risque moyen, pour tre compltement couvert avec une quasi-certitude. (Bien
entendu, les choses sont moins simples en pratique. Par exemple , il peut exister
plusieurs types diffrents de couverture, les assurs peuvent tre rpartis en catgo-
ries correspondant diffrents niveaux de risque, la question de lala moral et des
franchises appliquer doit entrer en ligne de compte, ainsi que des considrations
commerciales,..., mais le principe de base est bien celui de la loi des grands nombres.)
Lvaluation du risque moyen (cest entre autres le mtier des actuaires) est donc
fondamentale pour les compagnies dassurances, et fait galement appel la loi des
grands nombres : en tudiant le montant total des pertes subies par un grand nombre
dindividus, on peut valuer prcisment la valeur moyenne de la perte. La diffrence
entre la prime verse et le risque moyen sexplique au moins par deux contributions
distinctes : la ncessit de garantir que les pertes subies ne dpasseront le montant
des primes collectes quavec une probabilit extrmement faible (il sagit donc de
prciser le et le ), et, dautre part, les frais de fonctionnement, salaires, provisions,
etc... la charge de la compagnie dassurance (sans oublier les bnfices sil ne sagit
pas dune mutuelle). Evaluer correctement les provisions ncessaires pour rendre suf-
fisament faible le risque dinsolvabilit de la compagnie dassurance est bien entendu
une question importante en pratique !
Par ailleurs, il est clair que tous les risques ne se prtent pas une mutualisation
de ce type : des phnomnes exceptionnels (tels que catastrophes naturelles, guerres,
grandes crises conomiques, pidmies,...), qui affectent simultanment un trs grand
nombre de personnes, voire la totalit dune population, nentreront pas forcment
correctement dans le cadre dcrit ci-dessus (des risques limpact suffisament limit
et affectant suffisament peu de personnes en mme temps).
Loi des grands nombres 335
3.3.2 Sondages
Lorsque lon dcrit une exprience effectivement susceptible dtre rpte ind-
pendamment un grand nombre de fois, la loi des grands nombres fait apparatre la
probabilit comme un caractre physique de lexprience, susceptible dtre mesur :
il suffit de rpter N fois lexprience et de compter le nombre de fois o lvnement
sest ralis pour valuer sa probabilit, cette valuation tant dautant plus prcise
que N est grand. Cest le principe de base des sondages, qui reposent sur le fait
quil suffit de sonder un chantillon de la population suffisament grand (mais trs
petit par rapport la population totale, par exemple : 10 000 personnes pour une
population de 60 millions dindividus) pour valuer les proportions relles au sein de
la population totale.
Le problme de la percolation
Evaluer un volume
Dterminer le volume de A nest pas a priori une tche aise, mais, en revanche, il
est trs facile de tester lappartenance dun point de coordonnes (x, y, x) A, en
vrifiant si oui ou non le triplet (x, y, z) vrifie les conditions qui dfinissent A. Pour
valuer le volume de A, une premire tape consiste discrtiser le cube [1, 1]3 dans
lequel A est inscrit en petites cellules, par exemple 1015 cellules cubiques, notes
Ci , de ct 2/100000. Une approximation du volume de A est alors fournie par la
somme des volumes des cellules dont le centre se trouve dans A. En notant gA (Ci ) la
fonction qui vaut 1 lorsque le centre de Ci se trouve dans A, et 0 sinon, on a donc :
101
X5
V ol(A) V ol(Ci )gA (Ci ).
i=1
Bien entendu, il est hors de question deffectuer le calcul complet de cette somme,
pour des raisons de temps dexcution. Lutilisation de la mthode de Monte-Carlo
repose sur le fait que lgalit prcdente peut se rcrire :
101 1
X5 10
X5
15
V ol(A) 10 gA (Ci ) = P(C = Ci )gA (Ci ) = E(gA (C)),
i=1 i=1
o C dsigne une variable alatoire dont la loi est la loi uniforme sur lensemble des
cellules Ci , chacune des 101 5 cellules ayant la mme probabilit dtre choisie. On
peut alors, daprs la loi des grands nombres, valuer le volume de A en gnrant
un grand nombre de ralisations indpendantes de C, C1 , . . . , CN , et en calculant la
moyenne empirique de gA :
N
1 X
vol(A) E(gA (C)) gA (Cj ).
N
j=1
Cette mthode sapplique galement pour calculer une intgrale multiple dans
le cas gnral, son principal intrt par rapport aux autres procds dintgration
338
approche tant quelle conserve la mme forme quelle que soit la dimension de lin-
tgrale valuer, et que son application ne ncessite pas dhypothse sur la rgularit
(continuit, drivabilit,...) de la fonction intgrer. Les deux exemples dutilisation
de la mthode de Monte-Carlo que nous venons de prsenter sont assez rudimentaires,
mais illustrent le principe de base selon lequel une esprance est value exprimen-
talement laide de la loi des grands nombres. Des raffinements considrables ont t
apports cette mthode, visant notamment en amliorer la prcision et la vitesse
de convergence, ainsi qu mieux estimer le temps de calcul ncessaire, la mthode
ne fournissant pas a priori de critre darrt.
De la sociologie suicidaire ?
Enfin, la loi des grands nombres est parfois employe des fins explicatives dans
ltude des phnomnes sociaux, avec tout ce que la modlisation peut avoir de
problmatique dans ce contexte. Elle explique pourquoi des quantits a priori ala-
toires, et qui, dans le cadre dune modlisation probabiliste, apparaissent comme
des frquences de ralisation dun certain vnement au cours dun grand nombre
dexpriences indpendantes, prsentent une valeur approximativement constante.
Par exemple, pourquoi le taux de suicide dans une rgion donne reste-t-il peu
prs fixe dans le temps, alors quil semble impossible dadmettre que les individus se
concertent pour maintenir ce taux une valeur constante ? La loi des grands nombres
fournit une explication de ce phnomne qui a beaucoup intrigu les sociologues de
la fin du XIXme sicle : en admettant que chaque individu a une probabilit fixe
de se suicider, indpendamment des autres, la loi des grands nombres entrane que
le taux de suicide au sein dune population nombreuse est une variable alatoire ap-
proximativement constante. La somme des hasards individuels conduit un rsultat
quasiment certain, du fait du grand nombre dindividus en prsence.
3.6 Auto-valuation
noncez prcisment les deux versions de la loi des grands nombres (hypo-
thses, et conclusion).
En quoi la deuxime version entrane-t-elle la premire ?
Quel lien la loi des grands nombres tablit-elle entre loi et loi empirique ? Et
entre moyenne thorique (esprance) et moyenne empirique ?
En quoi la loi des grands nombres nonce-t-elle un comportement typique ?
Quelle diffrence y a-t-il avec un comportement moyen ?
En quoi la loi des grands nombres prouve-t-elle quune certaine quantit ala-
toire est en fait essentiellement constante ?
3.7 Exercices
Exercice 154 H. est passionn par la bourse, et consacre une grande partie de son
temps acheter et vendre des actions sur internet. Tous les mois, le montant de
ses actifs se trouve multipli par un coefficient alatoire. On suppose que les coef-
ficients associs aux mois successifs correspondent des rptitions indpendantes
dune mme variable alatoire , dont la loi est la suivante :
Exercice 155 Chez Jojo, dans le tiroir de la commode, se trouvent trois pices de
monnaie. Jojo se livre lexprience suivante : il ouvre le tiroir, choisit au hasard
lune des trois pices, et effectue 10000 lancers. Il remet ensuite la pice dans le ti-
roir, aprs avoir soigneusement not la proportion de face obtenue. Il recommence
lexprience le lendemain, et obtient une valeur compltement diffrente pour la pro-
portion de face. Ces expriences contredisent-elles la loi des grands nombres ?
Exercice 156 M. C., marabout de son tat, propose ses clients de dterminer le
sexe de leur enfant natre ds sa conception. Pour gage de son talent, il propose
mme de rembourser les honoraires perus, au cas o il se tromperait. Cette propo-
sition engage-t-elle rellement la fiabilit de ses prdictions ? Justifiez.
Exercice 157 Toutes les dix secondes, Jojo peut (ou non) penser envoyer un cour-
rier lectronique son amie Hildegarde, de son lieu de travail. Celle-ci est extrme-
ment jalouse, et Jojo sait bien que si, par malheur, il scoulait une journe sans
quil lui ft parvenir le moindre message, les consquences en seraient incalculables...
340
Sachant que les journes de travail de Jojo durent huit heures, et que, au cours des
trente derniers jours, Jojo a envoy en moyenne 2,3 messages par jour son amie,
pouvez-vous estimer la probabilit pour que lirrparable se produise aujourdhui ? Et
au cours des trois prochains jours ?
Exercice 160 Prouvez, partir de la loi des grands nombres que nous avons non-
ce (pour des variables alatoires valeurs dans R) un rsultat analogue pour des
variables alatoires valeurs dans Rd .
Exercice 161 On considre une variable alatoire X prenant la valeur N avec une
probabilit de 1/N , et la valeur 0 avec probabilit 1 1/N . Quelle est lesprance de
X ? Considrons X1 , . . . , XN des ralisations indpendantes de X. Est-il raisonnable
de considrer la variable alatoire N1 (X1 + + XN ) comme typiquement proche de
cette esprance lorsque N est grand ?
Chapitre 4
La courbe en cloche
4.1 Introduction
Ce chapitre est consacr ltude des lois de probabilit gaussiennes. Lintrt de
cette tude est tout sauf purement thorique, car les lois gaussiennes interviennent
dans de trs nombreux de modles de situations concrtes.
Aprs avoir prsent les principales caractristiques de cette famille de distribu-
tions, nous prsenterons une classe de situations dune importance fondamentale, et
dans lesquelles les lois gaussiennes apparaissent de manire quasiment universelle,
savoir la description des fluctuations des sommes dun grand nombre de variables
alatoires indpendantes.
Diverses illustrations et applications suivent, avant daborder la question plus
complexe, mais trs importante galement, des lois gaussiennes mutli-dimensionnelles.
(x m)2
1
m,v (x) = exp ,
2v 2v
Cette galit se ramne lautre, bien connue (voir votre cours danalyse de premier
cycle) : Z +
2
ex /2 dx = 2,
qui nest autre que la condition de normalisation pour la gaussienne 0,1 . Moyennant
un changement de variables dcrit un peu plus loin, on peut en dduire la condition
de normalisation pour toute gaussienne m,v ( vous de faire la vrification !)
La courbe reprsentative dune telle fonction prsente effectivement laspect dune
cloche (en gros !), et les deux paramtres m et v dterminent prcisment la forme de
la cloche. On vrifie facilement que le point m est celui o m,v prend son maximum,
le sommet de la cloche : cest celui o (x m)2 est minimal, car gal 0. Qui plus
est, on note que la cloche est symtrique par rapport laxe x = m, ce que lon
vrifie rigoureusement en tablissant la relation (immdiate au vu de la dfinition de
m,v ) : pour tout y R,
Si lon prend comme rfrence la courbe 0,1 , que lon appelle gaussienne stan-
dard la courbe 0,v sen dduit donc par une dilatation de coefficient v sur lchelle
horizontale, suivie dune dilatation dun facteur 1/ v sur lchelle verticale. Ainsi,
La courbe en cloche 343
plus v est grand, plus la cloche est plate et tale, plus v est petit, plus la cloche est
haute et resserre.
Z +
m,v (u)du = 1
impose ncessairement que la cloche ne puisse pas diminuer de hauteur sans slargir,
ou augmenter de hauteur sans devenir plus troite.
0.3
0.2
0.1
0.0
4 2 0 2 4
x
344
0.3
0.2
0.1
0.0
4 2 0 2 4
0.3
0.2
0.1
0.0
4 2 0 2 4
x
La courbe en cloche 345
0.3
0.2
0.1
0.0
4 2 0 2 4
aX + b
X m
v
E(X) = m, V(X) = v.
Pour prouver ces deux galits, on utilise la formule donnant lesprance dune va-
346
et Z +
(y m)2 m,v (y)dy = v.
En termes de variables alatoires, ceci signifie quune variable alatoire X qui suit
une loi gaussienne standard vrifie :
Par consquent, avec une probabilit suprieure 95%, une variable alatoire
suivant une loi gaussienne prend une valeur qui scarte de son esprance de moins
de deux carts-types.
linverse, en utilisant lingalit :
Z 1
0,1 (u)du . 0, 7,
1
on obtient que
P(X
/ [1, 1]) & 0, 3
et que
P(Y [m v, m + v]) . 0, 7.
Ainsi, avec une probabilit suprieure 30%, une variable alatoire suivant une
loi gaussienne prend une valeur qui scarte de son esprance de plus dun cart-type.
Ces deux ingalits ne sont donns qu titre dexemples, et parce quelles sont
faciles retenir, on peut en obtenir autant que lon veut, pour trois carts-types, un
demi cart-type, etc...
Il est noter quil nexiste pas de formule explicite en termes de fonctions l-
mentaires permettant de calculer, en fonction de a et b, les intgrales dfinissant
Z b
P(X [a, b]) = m,v (u)du.
a
SN E(SN )
p
V(SN )
o 0,1 est la densit de la loi gaussienne centre rduite, soit 0,1 (u) = (2)1/2 exp(x2 /2).
Par un calcul dj effectu au chapitre prcdent, on vrifie que
(
E(SN ) = N E(X)
V(SN ) = N V(X)
SN E(SN )
N = p .
V(SN )
Avant tout commentaire, nous donnons dans ce qui suit quelques illustrations
graphiques de ce rsultat.
Nous prsentons dans ce qui suit quatre exemples classiques (loi de Bernoulli, loi
de Poisson, loi exponentielle, carr de gaussienne) pour lesquels un tel calcul explicite
est possible. Notons que dans le cas trivial o la loi de X est elle-mme gaussienne,
on vrifie immdiatement que la limite dans lnonc du thorme est en fait une
galit, valable pour tout N .
!
N X1 + + XN N E(X)
x 7 P p x
N V(X)
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
352
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
354
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
356
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
centrale, ainsi que le fait que la rapidit de celle-ci dpend manifestement de la loi
de X.
3 2 1 0 1 2 3
358
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 359
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 361
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
362
3 2 1 0 1 2 3
La courbe en cloche 363
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
364
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Les quatre graphiques suivants illustrent les cas o N est successivement gal
5, 10, 40 et 400.
La courbe en cloche 365
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
366
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 367
Lorsque la loi de X1 + +XN nest pas connue de manire explicite, on peut par
exemple y avoir accs par simulation, en effectuant un grand nombre de simulations
consistant chacune tirer N variables alatoires indpendantes X1 , . . . , XN de mme
loi que X. On peut alors comparer la loi empirique de X1 ++X N N E(X) la loi
N V(X)
limite gaussienne nonce par le thorme de la limite centrale.
3 2 1 0 1 2 3
368
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 369
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
trale lorsque lon considre une valeur dfinie de N et non pas seulement une limite
lorsque N tend vers linfini. Ce point sera rediscut dans les paragraphes Attention
lchelle et Quantification de la convergence.
Une second erreur consiste interprter le rsultat fourni par le thorme de la
limite centrale comme signifiant que, avec une probabilit gale 1, on a
SN E(SN )
lim p = G, (4.1)
N + V(SN )
G tant une variable alatoire de loi gaussienne centre rduite. Une telle proprit
nest pas a priori en contradiction avec le thorme de la limite centrale, mais elle est
N E(SN )
nanmoins totalement fausse, car la suite de variables alatoires S na pas
V(SN )
de limite lorsque N tend vers linfini. Avant dexpliquer ce point, vous pouver noter
lanalogie existant entre les noncs du thorme de la limite centrale et de la loi
faible des grands nombres : ils noncent tous les deux une proprit de la loi jointe
de (X1 , . . . , XN ) lorsque N tend vers linfini, tandis que lnonc de la loi forte des
grands nombres et lnonc (4.1) faux, rptons-le, dans notre contexte se rfrent
la loi de toute la suite infinie (X1 , X2 , . . .) (qui ne peut dailleurs pas vraiment tre
dfinie dans le cadre des espaces de probabilit discrets, comme nous lavons dj
not au chapitre prcdent).
i E(Si )
Tout dabord, voici quelques simulations reprsentant i = S en fonction
V(Si )
de i. Le moins que lon puisse dire est quelles ne suggrent pas quil y ait conver-
gence vers une valeur dtermine lorsque i tend vers linfini. Les graphiques suivant
correspondent la situation o X suit une loi de Bernoulli de paramtre 1/2.
Les trois premiers montrent des simulations pour i variant de 1 10000, les trois
suivants pour i variant de 1 100000.
1
0
gamma(i)
1
2
i
La courbe en cloche 371
0.5
0.0
0.5
gamma(i)
1.0
1.5
2.0
i
1.0
0.5
0.0
gamma(i)
0.5
1.0
1.5
i
372
2
1
gamma(i)
0
1
i
1.5
1.0
0.5
gamma(i)
0.0
0.5
1.0
1.5
i
La courbe en cloche 373
2
1
gamma(i)
0
1
Il est galement facile de comprendre en thorie pourquoi un nonc tel que (4.1)
ne peut pas tre valable, au moyen du raisonnement suivant (que nous prsentons de
manire informelle, mais quil est possible de rendre parfaitement rigoureux). Si (4.1)
tait valable, on devrait avoir le fait que SmmE(Sm ) G pour toute valeur de m
mV(X)
suffisament grande. Par consquent, en choisissant N suffisament grand, on devrait
avoir le fait que
S2N 2N E(X) SN N E(X)
p p . (4.2)
2N V(X) N V(X)
En crivant le fait que S2N = S2N SN + SN , on en dduirait, aprs un petit calcul
(faites-le !) que
SN N E(X)
Daprs le thorme de la limite centrale, la loi de est approximativement
N V(X)
une loi gaussienne centre rduite. Dautre part, en notant que S2N SN est ga-
lement une somme de N variables alatoires indpendantes et de mme loi que X,
SN N E(X)
le thorme de la limite centrale entrane que la loi de S2N est aussi ap-
N V(X)
N N E(X) S2N SN N E(X)
proximativement une loi gaussienne centre rduite. Or S et
N V(X) N V(X)
sont deux variables alatoires indpendantes (la premire sexprime en fonction de
XN +1 , . . . , X2N , et la deuxime en fonction de X1 , . . . , XN ). Ceci est clairement en
contradiction avec la relation (4.3), qui exprime ( une approximation prs) ces deux
variables en fonction lune de lautre (deux variables alatoires indpendantes ne
peuvent sexprimer en fonction lune de lautre, sauf tre constantes, ce qui nest
374
pas le cas ici puisque les variables alatoires considres possdent des lois approxi-
mativement gaussiennes).
SN N E(X)
N = .
N
On voit ainsi, en reprenant les notations de la partie prcdentes, que
r
V(X)
N = N .
N
Le thorme de la limite centrale affirme donc que la variable alatoire
s
N
N
V(X)
est, lorsque N est grand, approximativement distribue selon une loi gaussienne
centre rduite i.e. de paramtres m = 0 et v = 1. En un sens un peu vague, on peut
affirmer que les valeurs de N restent, lorsque N est grand, de lordre de lunit :
quoiqualatoires, ces valeurs sont approximativement distribues suivant une loi de
probabilit qui ne dpend ni de N , ni de la loi de X. Toujours en restant assez vague,
on peut donc affirmer que lordre de grandeur des valeurs prises par N lorsque
La courbe en cloche 375
q
N est grand est V(X) N . Le terme en N au dnominateur quantifie linfluence de
N sur la dispersion autour de zro des valeurs que peut prendre N lorsque N est
grand. Toujours de manire vague, on peut donc dire que, vis--vis de N , la vitesse
de convergence dans la loi des grands nombres est de lordre de 1N . (Et lon peut
noter au passage quune telle vitesse de convergence est habituellement considre
comme mdiocre dans un contexte numrique o lon souhaite, autant que possible,
avoir une vitesse de convergence au moins exponentielle en le nombre ditrations
p
effectues). Le terme en V(X) illustre, quant lui, le fait que la convergence dans
la loi des grands nombres a lieu dautant plus lentement que les fluctuations de X,
telles que mesures par sa variance, sont importantes, ce que nous avions dj observ
empiriquement dans les simulations effectues au chapitre prcdent. q
Insistons bien sur le fait que, mme si nous avons utilis lidentit N = V(X)
N N
pour affirmer que lordre de grandeur des valeurs prises par N sont de lordre de
q
V(X)
N , les valeurs de N sont alatoires, et peuvent parfois sloigner considrable-
ment de 1 (en valeur absolue),q si bien que N peut tre en ralit beaucoup plus
V(X)
grand, en valeur absolue, que N , mais elles ne peuvent le faire quavec une
faible probabilit, car la loi de N est approximativement une loi gaussienne centre
rduite.
Par exemple, lorsque N est suffisament grand, la probabilit pour que N soit
compris entre 2 et 2 est denviron 95%, denviron 97,5 % pour que N soit compris
entre 3 et 3, denviron 68% pour que N soit compris entre 1 et 1.
Voici, pour fixer les ides, dix valeurs simules (tronques 8 dcimales) dune
variable alatoire gaussienne centre rduite, cest--dire, dans notre contexte, dix va-
leurs que lon pourrait obtenir pour N lorsque N est grand : 0,15452532 ; 1,41194894 ;
0,08843478 ; -1,24517492 ; -0,07274697 ; 1,41970892 ; -0,60299238 ; -1,09537318 ; 0,70421432 ;
0,04185794.
Illustrons notre propos par un exemple simul, en simulant, par exemple, 1000
variables alatoires indpendantes X1 , . . . , X1000 de loi de Poisson de paramtre =
2. Rappelons que lon a alors E(X) = V(X) = = 2.
Exprience 1 : on trouve S1000 = X1 + . . . + X1000 = 2042. On a donc
2042
1000 = 2 = 0, 042 , 1000 0, 94.
1000
Exprience 2 : on trouve cette fois S1000 = X1 + . . . + X1000 = 1936. On a donc
1936
1000 = 2 = 0, 064 , 1000 1, 43.
1000
Exprience 3 : on trouve cette fois X1 + . . . + X1000 = 2075. On a donc
2075
1000 = 2 = 0, 075 , 1000 1, 68.
1000
376
Reprenons lexprience, mais avec cette fois une somme de 100000 variables ala-
toires au lieu de 1000.
Exprience 4 : on trouve S10000 = X1 + . . . + X100000 = 200972. On a donc
200972
100000 = 2 = 0, 00972 , 10000 1, 69.
100000
200645
100000 = 2 = 0, 00645 , 100000 0, 46.
100000
199551
100000 = 2 = 0, 00449 , 100000 0, 31.
100000
On constate que, dans ces six expriences, la valeur absolue de N est relativement
petite. Conformment la loi des grands nombres, dans chacune des expriences
X1 + + XN
E(X) = 2,
N
4 2 0 2 4
4 2 0 2 4
378
4 2 0 2 4
Remarque 15 En fait, il nest pas vident a priori que lopration consistant cen-
trer puis rduire SN ramne celle-ci sur une chelle naturelle pour tudier sa loi,
cest--dire la transforme en une variable alatoire dont la dispersion est de lordre
de lunit. Si lcart-type de SN donnait une indication compltement errone de
lordre de grandeur des valeurs de SN E(SN ), ou encore, si E(SN ) donnait une
indication totalement errone de la localisation des valeurs de SN , et nous savons,
La courbe en cloche 379
daprs le chapitre Variables alatoires que ceci peut se produire dans certains cas
SN E(SN )
considrer naurait en fait rien de pertinent. (Nous vous invitons de plus
N V(X)
consulter ce sujet le paragraphe consacre la non-robustesse du thorme de la
limite centrale lorsque les variables alatoires considres ne possdent plus de va-
riance.) Une consquence importante du thorme de la limite centrale est justement
que ces deux indicateurs : E(SN ) et V(SN ) fournissent des indications fiables, au
moins dans la limite o N tend vers linfini, lorsque SN est une somme de variables
alatoires indpendantes et de mme loi (pour laquelle esprance et variance sont
dfinies).
Le thorme de la limite centrale affirme donc que, SN , une fois ramene son
chelle naturelle, suit approximativement une loi gaussienne centre rduite lorsque
N est grand. Le caractre gaussien de la loi dune variable alatoire tant conserv
par changement dchelle affine, on pourrait donc sattendre ce que SN , observe sur
nimporte quelle chelle, possde une loi approximativement gaussienne. Cependant,
SN E(SN )
le fait que la loi de ne soit quapproximativement gaussienne pour de
N V(X)
grandes valeurs de N , et non pas exactement (mme si cette approximation est
dautant meilleure que N est grand) limite fortement la porte de cette remarque.
Illustrons ceci dans la situation o X suit une loi de Bernoulli de paramtre
p = 1/2, et donc o SN suit la loi binomiale de paramtres N et 1/2. Le thorme
de la limite centrale nous permet de nous attendre ce que, par exemple, la loi
de 10000 = S10000505000 soit approximativement une loi gaussienne centre rduite.
Numriquement, on peut par exemple calculer que
Z 1,5
10000
P [0, 5 10000 1, 5] 0, 247 tandis que 0,1 (u)du 0, 242,
0,5
ou
Z 0,5
P10000 [0, 9 10000 0, 5] 0, 131 tandis que 0,1 (u)du 0, 124,
0,9
ou encore
Z 1,2
10000
P [10000 1, 2] 0, 117 tandis que 0,1 (u)du 0, 115.
ou
Z 0,5
10000
P [0, 9 100 10000 0, 5] = 0 tandis que 0,100 (u)du 0, 0016,
0,9
ou encore
Z 1,2
10000
P [100 10000 1, 2] 0, 496 tandis que 0,100 (u)du 0, 495.
Les probabilits calcules pour la loi exacte de 100 10000 et pour une loi gaus-
sienne de paramtres m = 0 et v = 1002 = 10000 sont certes voisines, mais on
constate que, dans les deux premiers cas, il serait catastrophique dutiliser lapproxi-
mation par une loi gaussienne comme une estimation fiable de lordre de grandeur
des probabilits auxquelles on sintresse : elles valent exactement 0, et non pas 0,004
ou 0,0016. Tout simplement, dans notre exemple, le changement dchelle effectu
fait apparatre le caractre discret de la variable alatoire SN , qui ne peut prendre
que des valeurs entires. A une chelle o ce caractre discret est visible, il est clai-
rement absurde dassimiler la loi de SN une loi continue gaussienne. Si lon en
revient la variable alatoire 10000 , les probabilits que nous venons de calculer se
rcrivent : P10000 [0, 005 10000 0, 015], P10000 [0, 009 10000 0, 005], et
enfin P10000 [10000 0, 012]. Les deux premires probabilits correspondent des
intervalles de trs petite taille, et font donc intervenir la loi de 10000 une chelle
trop fine pour que lapproximation par une loi gaussienne centre rduite produise
des rsultats fiables (par exemple au sens dune faible erreur relative sur le calcul des
probabilits de la forme PN (N I)).
Bien entendu, le thorme de la limite centrale, qui est un rsultat asymptotique,
nonce le fait que, pour tout intervalle I R, on a
Z
N
lim P [N I] = 0,1 (u)du,
N + I
sans faire aucune diffrence entre un intervalle tel que [0, 5; 1, 5] et [0, 005; 0, 0015].
Le calcul ci-dessus suggre simplement que, si lon cherche extrapoler des va-
leurs grandes mais finies de N le rsultat asymptotique valable lorsque N +
nonc par le thorme de la limite centrale, lapproximation par une loi gaussienne
peut ncessiter, pour tre fiable, des valeurs de N plus importantes pour des in-
tervalles de petite taille que pour des intervalles dont la largeur est de lordre de
lunit. On peut chercher rendre compte de ce fait dans un cadre asymptotique
en tudiant le comportement lorsque N tend vers linfini de probabilits de la forme
PN [N IN ], o la taille de lintervalle IN peut donc varier avec N . Pour syst-
matiser lexemple prcdent, dans lequel X suit une loi de Bernoulli de paramtre
p = 1/2, on voit facilement que lintervalle IN = [0, 2 (N/2)1/2 ; 0, 4 (N/2)1/2 ]
est tel que PN [N IN ] = 0 du fait que SN ne peut prendre que des valeurs
La courbe en cloche 381
entires, tandis que IN 0,1 (u)du = (N 1/2 ). La meilleure manire daborder cor-
R
Rx
de N ncessaires lobtention dune approximation donne de 0,1 (u)du par
PN (N x), et, qui plus est, pour des valeurs de x demeurant de lordre de lunit,
cette borne fournit en gnral le bon ordre de grandeur. De nombreuses amliora-
tions
de cette borne existent, incluant
des dveloppements asymptotiques prcis de
N Rx
P (N < x) 0,1 (u)du par rapport x et N , mais il sagit de questions
trop avances pour que nous les abordions ici. Nous vous renvoyons, par exemple,
louvrage de Feller (Tome 2) cit dans la bibliographie, pour en apprendre davantage
ce sujet. Nous vons invitons galement traiter lexercice 168.
Nous reprendrons ici les trois (plus une normale) pices obstines du chapitre
prcdent. Pour viter de pnibles renvois au chapitre prcdent, et quitte nous
rpter, nous reprenons en dtail les descriptions de chacune des pices considres.
A titre de comparaison pour la suite, voici ce que lon obtient avec une pice
normale, dont les lancers sont indpendants et suivent une loi de Bernoulli de
paramtre 1/2 : P(Xi = F) = 1/2. La nombre total de F obtenu au cours des N
premiers lancers peut scrire
SN = f (X1 ) + + f (XN ),
3 2 1 0 1 2 3
384
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 385
On suppose que lon a affaire une pice de monnaie obstine possdant la pro-
prit suivante : une fois la pice sortie de sa bote, le premier lancer est effectivement
alatoire, pouvant donner pile ou face avec une probabilit gale 1/2, mais, au cours
de tous les lancers suivants, la pice se souvient du rsultat de son premier lancer, et
sarrange toujours pour retomber exactement du mme ct. Si lon note X1 , . . . , XN
les rsultats des N premiers lancers de la pice, on se trouve ici dans un cas extrme
de non-indpendance : la valeur de Xi+1 est toujours gale la valeur de Xi . En
revanche, les lancers sont tous dcrits individuellement par une loi de Bernoulli de
paramtre 1/2 : P(Xi = P) = P(Xi = F) = 1/2. La nombre total de F obtenu au
cours des N premiers lancers peut scrire
SN = f (X1 ) + + f (XN ),
en posant f (F) = 1 et f (P) = 0. Pas plus que la loi des grands nombres, le thorme
de la limite centrale ne peut sappliquer SN , qui prend la valeur 0 avec probabilit
1/2, et N avec probabilit 1/2. Par exemple, le graphique ci-dessous reprsente la
fonction de rpartition de la loi empirique de lchantillon obtenu en effectuant 1000
simulations de S10000 , centre et rduite. En pointills, la fonction de rpartition de
la loi gaussienne standard.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
386
On peut par ailleurs facilement vrifier que, pris de manire individuelle, les
lancers sont dcrits par une loi de Bernoulli de paramtre 1/2 : P(Xi = P) = P(Xi =
F) = 1/2.
Il se trouve que, quelle que soit la valeur de p ]0, 1[ dans ce modle, le thorme
de la limite centrale est effectivement vrifi par le nombre de P obtenu aprs N
lancers, que nous notons SN comme dans le paragraphe prcdent.
Pour lillustrer, nous prsentons des graphiques reprsentant pour diverses va-
leurs de p et de N la fonction de rpartition de la loi empirique de lchantillon
obtenu en effectuant 1000 simulations de SN , centre et rduite. En pointills, la
fonction de rpartition de la loi gaussienne standard.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Puis p = 0, 7 et N = 1000.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
388
Et enfin p = 0, 7 et N = 10000.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Puis p = 0, 95 et N = 1000.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
390
Et enfin p = 0, 95 et N = 10000.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
A prsent p = 0, 2 et N = 100.
La courbe en cloche 391
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Puis p = 0, 2 et N = 1000.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
392
Et enfin p = 0, 2 et N = 10000.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Considrons prsent une pice dont les lancers successifs sont relies de la
manire suivante. Une fois la pice sortie de sa bote, le premier lancer effectu
est alatoire, donnant pile ou face avec une probabilit gale 1/2. Ensuite, pour
tout i 1, tant donns les rsultats des i premier lancers, le i + 1me lancer se
droule de la faon suivante : la pice accorde P une probabilit proportionnelle
1 + Ni (P ) et F une probabilit proportionnelle 1 + Ni (F ), Ni (P ) et Ni (F )
dsignant respectivement les nombres de fois o P et F sont sortis au cours des
i premiers lancers, et > 0 dsignant un paramtre. En dautres termes, chaque
nouveau lancer donnant lieu un F renforce dune valeur gale le poids accord
F dans les futurs lancers, et il en va de mme pour P. On peut vrifier facilement
que, pris de manire individuelle, les lancers sont dcrits par une loi de Bernoulli de
paramtre 1/2 : P(Xi = P) = P(Xi = F) = 1/2.
Comme prcdemment nous prsentons des graphiques reprsentant pour di-
verses valeurs de et de N la fonction de rpartition de la loi empirique de
lchantillon obtenu en effectuant 1000 simulations de SN , centre et rduite. En
pointills, la fonction de rpartition de la loi gaussienne standard.
Voici quelques exemples de simulations effectues avec = 2.
La courbe en cloche 393
Pour N = 100.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Pour N = 1000.
394
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Pour N = 10000.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
La courbe en cloche 395
Voici prsent des simulations effectues avec = 0, 2, soit une dpendance plus
faible des lancers vis--vis des rsultats des lancers prcdents. La diffrence avec une
loi gaussienne, quoique relle, tant plus difficile observer, nous simulons cette fois
des chantillons de taille 50000 plutt que de taille 1000.
Pour N = 100.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Pour N = 1000.
396
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Pour N = 10000.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
La courbe en cloche 397
Lexistence de la variance
Dans les trois exemples prcdents, nous avons considr des sommes de variables
alatoires, certes dpendantes entre elles, mais ne pouvant prendre que les valeurs
0 et 1, et en fait toutes de loi de Bernoulli de paramtre 1/2, ce qui assurait bien
entendu lexistence de lesprance et de la variance.
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 399
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
On constate que les lois obtenues ne correspondent manifestement pas des lois
400
4. Par exemple ses proprits de maximisation dentropie, ou disotropie spatiale, voir les exer-
cices 166 et 167. Ou encore, la possibilit quelle offre de mener explicitement un certain nombre
de calculs, ce qui, avant lavnement des ordinateurs modernes et de leurs puissantes capacits de
calcul, la rendaient parfois la seule utilisable en pratique.
402
saborde normalement dans le cadre mthodologique des tests statistiques, qui sera
dcrit dans le chapitre Statistique. Vous pouvez galement consulter avec profit
le paragraphe traitant du thorme de Glivenko-Cantelli dans le chapitre prcdent.
Nous nous contenterons, titre dillustration, de comparer succintement et graphi-
quement les carts observs entre les lois empiriques associes aux donnes et la loi
gaussienne, des carts observs entre les lois empiriques associes des chan-
tillons de mme taille que les chantillons de donnes, mais constitus de simulations
de variables alatoires indpendantes et de loi gaussienne.
la vitesse de la lumire !
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
406
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Ces trois graphiques sont bien entendu diffrents les uns des autres, ce qui illustre
les variations de la loi empirique lorsque lon considre des chantillons de taille mo-
dre. Cependant, chacun de ces graphiques semble plus proche des deux autres quil
ne lest de celui associ aux donnes mesures, ce qui peut amener douter du fait
que celles-ci puissent tre exactement modlises au moyen dune loi gaussienne. Pour
bien faire, il faudrait naturellement simuler un grand nombre de tels graphiques,
afin de vrifier si le graphique obtenu avec nos donnes mesures est rellement aty-
pique par rapport lensemble de ceux-ci, alors que nous nous sommes contents de
trois exemples. Cest exactement le principe des tests statistiques, qui ncessite bien
entendu une dfinition plus prcise et quantitative de lcart que le simple fait que
nos yeux (et notre cerveau) nous suggrent une diffrence. Nous nous restreindrons
cependant ici ces trois exemples, en renvoyant au chapitre Statistique pour un
traitement plus abouti de ce type de question.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
408
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
qui ressemblent beaucoup plus que les trois graphiques prcdents au graphique
obtenu avec les valeurs mesures 6 .
Nous verrons, dans le chapitre Statistique, des moyens systmatiques de tester
ladquation entre des valeurs mesures et un modle en tenant compte des variations
possibles de la loi empirique rsultant de lchantillonnage. Nous nous sommes ici
contents dun traitement on ne peut plus informel de cette question. Par ailleurs,
cet exemple fait apparatre le caractre crucial de la qualit des donnes (et, en
particulier, du traitement quelles peuvent avoir subi).
Des Indiennes
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Ici encore, les donnes ont manifestement t arrondies, car les 287 mesures sont
toutes des nombres entiers ( deux chiffres), dont 273 sont des nombres pairs. Le
mme type de remarque que prcdemment sapplique donc. Voici les six graphiques
correspondants : les trois premiers associes des chantillons de 287 variables ala-
toires gaussiennes simules, les trois suivants des chantillons de 287 variables
alatoires gaussiennes simules et convenablement arrondies.
410
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 411
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
412
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 413
Des crabes
3 2 1 0 1 2 3
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 415
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
416
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 417
Nous donnons dans ce qui suit des exemples de donnes dans lesquelles la loi
empirique des donnes diffre grossirement dune gaussienne.
Une loi de probabilit peut diffrer dune loi gaussienne de bien des manires, mais
il nest pas inutile de caractriser, mme grossirement, le type de proprit dune loi
gaussienne qui nest pas satisfaite par les donnes. Trois proprits fondamentales de
la loi gaussienne sont par exemple : son caractre unimodal, son caractre symtrique,
et, si les deux prcdentes proprits sont vrifies, la forme prcise de la fonction
qui dlimite la cloche.
Un geyser fidle
Cet exemple est constitu par une liste de mesures des dures inter-ruptions (en
minutes) du geyser dnomm The Old Faithful dans le parc du Yellowstone aux
tats-Unis, ralises en continu pendant deux semaines au mois daot 1985. Cette
liste comporte 272 mesures.
(Ces donnes proviennent dun article de W. Hrdle repris dans la base de donnes
MASS du logiciel R).
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Cette fois, mme en tenant compte du fait que les donnes ont manifestement t
arrondies (les dures en minutes sont toutes des nombres entiers), il ne semble pas
que lcart observ entre la fonction de rpartition gaussienne et celle des donnes
puisse tre mis sur le compte de fluctuations de la loi empirique associe un chan-
tillonnage de taille finie. Une mthode pour quantifier ce fait de manire correcte et
prcise serait deffectuer un test statistique, mais nous nous contenterons ici, comme
dans les exemples prcdents, de comparer avec trois graphiques correspondant
272 variables alatoires gaussiennes simules et arrondies dune manire comparable.
Les donnes prsentes tant structures, il semble malgr tout moins pertinent que
dans les exemples prcdents de simplement comparer nos donnes avec des chan-
tillons de simulations indpendantes de variables alatoires gaussiennes. Tenter de
tenir compte correctement du caractre structur des donnes, et de son ventuelle
influence, pour aborder cette question dpasse de loin le niveau de ce que nous sou-
haitons prsenter ici, mais il nest certainement pas inutile de mentionner ce point,
afin au moins de souligner que, de manire gnrale, des mthodes gnrales et stan-
dardises ignorant une partie de la structure sous-jacentes un phnomne que lon
tudie, ne sont pas forcment les plus pertinentes.
La courbe en cloche 419
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
420
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
40 50 60 70 80 90 100
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
des sries chronologiques sujet fort intressant mais qui dpasse le niveau de ce
cours.
Voici, juste pour le plaisir, le trac des dures inter-ruptions dans lordre de
leur succession (les valeurs successives ont t relies entre elles par des segments de
droite).
90
80
70
60
50
Analyses durine
(Ces donnes proviennent dun article de S. Prosser repris dans la base de donnes
MASS du logiciel R).
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 425
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
GAG
100
80
60
Effectif
40
20
0
0 10 20 30 40 50 60
Notons que, dans cet exemple, nous disposons de la donne de lge des enfants,
en plus de la valeur mesure de la concentration de GAG, et il existe clairement une
forte association entre ces deux quantits, comme le montre le graphique suivant, qui
reprsente les 314 paires (ge en annes, concentration en GAG).
La courbe en cloche 427
50
40
30
GAG
20
10
0
0 5 10 15
Age
Si lon se restreint, par exemple, aux 132 mesures de GAG effectues sur des
enfants de strictement plus de 5 ans, pour lesquels une certaine homognit dans la
distribution de la concentration en GAG est suggre par le graphique ci-dessus, on
obtient le graphique suivant :
428
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
4.4.3 Phynances !
Nous nous attaquons maintenant une liste de 2780 donnes correspondant aux
variations quotidiennes de lindice Standard and Poors 500 au cours des annes 1990
1999 (restreintes au jours douverture des marchs).
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
3
3
2
2
1
1
0
0
1
1
2
2
3
3
La courbe en cloche 431
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Ici encore, du fait que les donnes sont structures en temps, la comparaison avec
des gaussiennes simules indpendantes perd bien entendu un peu de sa pertinence.
SP500
600
400
Effectif
200
0
8 6 4 2 0 2 4
dies suivent exactement une loi gaussienne, notre but tant plutt dutiliser cette
loi comme une bonne approximation pour valuer les quantits (typiquement, des
probabilits) dintrt. Par consquent, un cart rel entre la loi gaussienne et les
variables tudies ne signifie pas forcment quil faut renoncer utiliser la loi gaus-
sienne pour dcrire celles-ci. Simplement, il faut sassurer que lcart est suffisament
faible pour que les quantits auxquelles on sintresse nen soient pas significative-
ment affectes. Bien entendu, aucun ncart nest faible ou important dans labsolu :
tout dpend des quantits que lon cherche calculer partir dune approximation
par une loi gaussienne. Nous vous renvoyons galement la discussion donne dans
la partie Attention lchelle.
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
Nous ne rsistons pas au plaisir dajouter un trac des donnes dans lordre de
leur succession (les valeurs successives ont t relies entre elles par des segments de
droite).
434
SP500
4
2
0
2
4
6
(Au passage, vous pouvez comparer cette incertitude, invitable du fait du prin-
cipe mme du sondage, avec lamplitude des variations qui sont systmatiquement
commentes et interprtes par les mdias, dans les sondages dopinion).
Plusieurs remarques :
4.7 Exercices
Exercice 162 (Marche au hasard)
Un ivrogne se promne en titubant dans une ruelle troite...
1) On modlise ses dplacements de la manire suivante : chaque pas est effectu vers
lavant avec probabilit 1/2, vers larrire avec probabilit 1/2, indpendamment des
autres pas, et lon suppose que la taille des pas est constante (par exemple 80cm).
Que pouvez vous dire de la position de livrogne aprs un grand nombre de pas ?
quelle distance se trouve-t-il de son point de dpart ?
2) On suppose prsent quun vent violent balaye la rue, soufflant toujours dans
la mme direction, ce qui fait que la probabilit deffectuer un pas contre le vent
est maintenant de 0, 4, et celle deffectuer un pas dans le sens du vent est de 0, 6.
Comment le rsultat prcdent est-il modifi ?
Exercice 163 La compagnie arienne Air-Jojo pratique, comme nombre de ses concur-
rentes, la surrservation, cest--dire que, pour un vol donn, le nombre de places ven-
dues est suprieur au nombre total de places disponibles dans lavion, la compagnie
comptant sur le fait quun certain nombre de passagers annulent finalement leur d-
part, et souhaitant remplir au maximum ses avions. En supposant par exemple quun
vol dispose de 300 places, et que chaque passager a, indpendamment des autres, une
probabilit de 0, 1 dannuler son dpart, pouvez-vous estimer le nombre maximum K
de places que la compagnie peut vendre pour que le nombre de passagers prsents au
dpart de lavion soit infrieur ou gal au nombre total de places disponibles avec une
probabilit de plus de 90%. Quelle est alors la probabilit que plus de 10 passagers ne
puissent pas monter dans lavion ?
La courbe en cloche 437
Exercice 164 Des bits dinformation sont transmis le long dune ligne tlphonique,
chaque bit ayant une (faible) probabilit p dtre mal transmis et invers, indpen-
dament des autres. Si le nombre total de bits transmis est N , quelle est la loi de la
variable alatoire X comptant le nombre de bits mal transmis ? Que peut-on dire de
la loi de X lorsque N est grand ? Quen est-il dans les exemples suivants :
N = 106 et p = 1/10 ;
N = 107 et p = 1/100 ;
N = 106 et p = 106 ;
N = 106 et p = 107 ;
N = 10 et p = 1/10 ;
N = 10 et p = 106 ;
N = 100 et p = 1/10.
Exercice 165 On effectue des lancers avec une pice de monnaie, suppose honnte.
Appelons X le nombre de face obtenu aprs 1000 lancers. Quelle doit tre approxi-
mativement la valeur de X/1000. quel cart par rapport cette valeur peut-on
sattendre ?
Exercice 168 Supposons que X suive une loi de Bernoulli de paramtre p = 1/2,
et X1 , . . . , XN des variables alatoires indpendantes de mme loi que X. Pour N
fix, que pouvez-vous dire du comportement de PN (N ) lorsque tend vers
zro. Mme question avec PN (N ) ? Pouvez-vous donner une borne infrieure
R
sur PN (N ) 0,1 (u)du ? Comparez celle-ci avec la borne suprieure
fournie par lingalit de Berry-Essen.
Exercice 169 Montrez sans calcul, mais en vous appuyant sur le thorme de la
limite centrale, que la somme de deux variables alatoires indpendantes et suivant
chacune une loi gaussienne, possde elle-mme une loi gaussienne.
438
Exercice 170 (La taille de lempereur de Chine) Il tait une fois... un tailleur ayant
eu lhonneur dtre choisi pour confectionner un habit destin lempereur de Chine.
Seul problme : pour des raisons dtiquette, il tait absolument impossible que lem-
pereur se laisse mesurer par quiconque, et encore moins par un tailleur. La solution
choisie fut la suivante : plutt que de mesurer directement lempereur, on demanda
un grand nombre de ses sujets quelle tait la taille quils estimaient tre celle de
lempereur, et lon prit la moyenne des rponses obtenues. Un modle simple et clas-
sique (signal + bruit gaussien centr) pourrait tre le suivant : la taille de lempereur
estime par une personne donne est gale la vritable taille de lempereur, plus
une erreur dont la loi est suppose gaussienne, desprance nulle, et de variance v
inconnue.
p
En supposant que (v) = 10cm et que lon interroge 100 millions de personnes,
quelle est la prcision avec laquelle on peut connatre la taille de lempereur ?
Ce rsultat vous semble-t-il pertinent ?
Bibliographie
Cette bibliographie compte plusieurs types dentres : les ouvrages dont la lecture
est recommande pour travailler ce cours (ouvrages dintroduction et/ou de vulga-
risation), les ouvrages ou articles de rfrence, plus spcialiss, cits sur des points
prcis en rapport avec le cours, et/ou pouvant tre utiliss pour un vaste approfon-
dissement, et enfin les ouvrages nappartenant pas aux deux catgories prcdentes,
mais nanmoins utiliss pour laborer le cours.
Nous citons entre autres parmi les rfrences quelques bons ouvrages dintroduc-
tion la thorie mathmatique des probabilits, sans prtention lexhaustivit.