Anda di halaman 1dari 442

Introduction aux probabilits

et la statistique

Jean Brard
2

Avertissement
Ces notes sont en cours dlaboration. Il se peut donc quy subsistent un certain
nombre derreurs, dincohrences, et/ou de passages inachevs.
Table des matires

Introduction 7

1 Le modle probabiliste 13
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Le point de vue formel . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Mais que reprsente exactement ce formalisme ? . . . . . . . . . . . . 16
1.3.1 Espace des possibles et choix du niveau de description . . . . 16
1.3.2 Sens concret sens formel . . . . . . . . . . . . . . . . . . . . 19
1.3.3 Signification concrte de la probabilit . . . . . . . . . . . . . 23
1.4 Probabilit et vnements . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4.1 Probabilit dun vnement . . . . . . . . . . . . . . . . . . . 30
1.4.2 Probabilit et oprations sur les vnements . . . . . . . . . . 32
1.4.3 Quelques exemples de modles probabilistes . . . . . . . . . . 35
1.5 Probabilits conditionnelles . . . . . . . . . . . . . . . . . . . . . . . 40
1.5.1 Notions de dpendance et dindpendance entre vnements . 46
1.5.2 Effet de loupe et biais de slection . . . . . . . . . . . . . . . 54
1.5.3 Reprsentation en arbre des modles probabilistes . . . . . . . 60
1.6 Construire un modle appropri . . . . . . . . . . . . . . . . . . . . . 70
1.6.1 Quelques pistes . . . . . . . . . . . . . . . . . . . . . . . . . . 70
1.6.2 Compatibilit de deux modles . . . . . . . . . . . . . . . . . 72
1.6.3 De limportance de dcrire explicitement le modle . . . . . . 73
1.7 Un exemple fondamental : la succession dpreuves indpendantes . . 74
1.7.1 Une histoire de singe . . . . . . . . . . . . . . . . . . . . . . . 83
1.7.2 Tout rsultat est exceptionnel ! . . . . . . . . . . . . . . . . . 86
1.7.3 Succession indpendante ? . . . . . . . . . . . . . . . . . . . . 87
1.8 Concidences troublantes . . . . . . . . . . . . . . . . . . . . . . . . . 89
1.8.1 Cest vraiment incroyable ! . . . . . . . . . . . . . . . . . . . . 89
1.8.2 Ce que lon observe est presque toujours improbable . . . . . 90
1.8.3 Des cocidences surprenantes doivent se produire . . . . . . . 90
1.8.4 Attention linterprtation . . . . . . . . . . . . . . . . . . . 91
4

1.8.5 Quand stonner ? . . . . . . . . . . . . . . . . . . . . . . . . 91


1.8.6 Un magicien dou . . . . . . . . . . . . . . . . . . . . . . . . 93
1.9 Auto-valuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
1.10 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

2 Variables alatoires 121


2.1 Introduction et dfinition . . . . . . . . . . . . . . . . . . . . . . . . 121
2.2 Loi dune variable alatoire . . . . . . . . . . . . . . . . . . . . . . . 125
2.2.1 Le point de vue formel pour les variables alatoires discrtes . 125
2.2.2 La loi dans linterprtation frquentielle de la probabilit
notion de loi empirique . . . . . . . . . . . . . . . . . . . . . . 128
2.2.3 Fonction de rpartition dune loi discrte . . . . . . . . . . . . 131
2.2.4 Reprsentations graphiques . . . . . . . . . . . . . . . . . . . 131
2.2.5 Quelques lois discrtes classiques . . . . . . . . . . . . . . . . 145
2.2.6 Variables alatoires et lois continues . . . . . . . . . . . . . . 153
2.2.7 Exemples de lois continues . . . . . . . . . . . . . . . . . . . . 166
2.3 Loi jointe de plusieurs variables alatoires, vecteurs alatoires . . . . 170
2.3.1 Indpendance de variables alatoires, cas discret . . . . . . . . 171
2.3.2 Vecteur alatoire continu . . . . . . . . . . . . . . . . . . . . . 172
2.3.3 Somme de variables alatoires indpendantes . . . . . . . . . 172
2.4 Oprations sur les lois de probabilit . . . . . . . . . . . . . . . . . . 175
2.5 Loi dune fonction dune variable alatoire . . . . . . . . . . . . . . . 176
2.6 Esprance et variance . . . . . . . . . . . . . . . . . . . . . . . . . . 177
2.6.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
2.6.2 Esprance et moyenne, loi empirique . . . . . . . . . . . . . . 180
2.6.3 Le raisonnement de Huygens * . . . . . . . . . . . . . . . . . 181
2.6.4 Lutilit espre * . . . . . . . . . . . . . . . . . . . . . . . . . 181
2.6.5 Lesprance comme indicateur de position . . . . . . . . . . . 182
2.6.6 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
2.6.7 Lingalit de Markov . . . . . . . . . . . . . . . . . . . . . . 197
2.6.8 Oprations algbriques : linarit de lesprance . . . . . . . . 200
2.6.9 Oprations algbriques : esprance dun produit . . . . . . . . 204
2.6.10 Esprance et variance des lois usuelles . . . . . . . . . . . . . 210
2.6.11 Rgression linaire . . . . . . . . . . . . . . . . . . . . . . . . 215
2.7 Probabilit, loi et esprance conditionnelles . . . . . . . . . . . . . . 226
2.8 Conditionnement par une variable alatoire de loi continue . . . . . . 229
2.9 Transformes de Laplace et de Fourier dune loi de probabilit * . . . 230
2.9.1 Fonction gnratrice . . . . . . . . . . . . . . . . . . . . . . . 230
2.9.2 Transforme de Laplace . . . . . . . . . . . . . . . . . . . . . 231
2.9.3 Transforme de Fourier . . . . . . . . . . . . . . . . . . . . . 232
5

2.9.4 Transformes des lois classiques . . . . . . . . . . . . . . . . . 232


2.10 Quelques mots de thorie de linformation * . . . . . . . . . . . . . . 233
2.10.1 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
2.10.2 Questionnaires . . . . . . . . . . . . . . . . . . . . . . . . . . 234
2.11 Quelques mots sur le hasard simul . . . . . . . . . . . . . . . . . . . 241
2.12 Les lois de Benford et de Zipf . . . . . . . . . . . . . . . . . . . . . . 241
2.12.1 La loi de Benford . . . . . . . . . . . . . . . . . . . . . . . . . 241
2.12.2 Lois de Zipf-Mandelbrot et de Pareto . . . . . . . . . . . . . . 241
2.13 Auto-valuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
2.14 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244

3 Loi des grands nombres 285


3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
3.2 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . 285
3.2.1 Cadre et hypothses . . . . . . . . . . . . . . . . . . . . . . . 285
3.2.2 Enonc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
3.2.3 Preuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
3.2.4 Quest-ce quun grand nombre ? . . . . . . . . . . . . . . . . . 288
3.2.5 Attention lapproximation . . . . . . . . . . . . . . . . . . . 295
3.2.6 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . 295
3.2.7 Robustesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
3.2.8 Lhypothse de rptition indpendante . . . . . . . . . . . . 304
3.2.9 Lexistence de lesprance . . . . . . . . . . . . . . . . . . . . 324
3.2.10 Position de la loi des grands nombres . . . . . . . . . . . . . . 329
3.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
3.3.1 Lassurance et la mutualisation du risque . . . . . . . . . . . 333
3.3.2 Sondages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
3.3.3 Mcanique statistique . . . . . . . . . . . . . . . . . . . . . . 335
3.3.4 Mthodes de Monte-Carlo . . . . . . . . . . . . . . . . . . . . 336
3.4 Ingalits de dviation . . . . . . . . . . . . . . . . . . . . . . . . . . 338
3.5 Convergence de la loi empirique . . . . . . . . . . . . . . . . . . . . . 338
3.5.1 Convergence des histogrammes . . . . . . . . . . . . . . . . . 338
3.5.2 Le thorme de Glivenko-Cantelli . . . . . . . . . . . . . . . . 338
3.6 Auto-valuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
3.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339

4 La courbe en cloche 341


4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
4.2 Les lois gaussiennes unidimensionnelles . . . . . . . . . . . . . . . . . 341
4.3 Le thorme de la limite centrale . . . . . . . . . . . . . . . . . . . . 348
6

4.3.1 Cadre et nonc . . . . . . . . . . . . . . . . . . . . . . . . . 348


4.3.2 Des illustrations lorsque la loi de X1 + + XN est connue
explicitement . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
4.3.3 Des illustrations lorsque la loi de X1 + +XN nest pas connue
explicitement . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
4.3.4 Deux erreurs frquentes . . . . . . . . . . . . . . . . . . . . . 369
4.3.5 Preuve du thorme de la limite centrale . . . . . . . . . . . . 374
4.3.6 Le thorme de la limite centrale et la loi des grands nombres 374
4.3.7 Attention lchelle . . . . . . . . . . . . . . . . . . . . . . . 378
4.3.8 Quantification de la convergence dans le thorme de la limite
centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
4.3.9 Robustesse du thorme de la limite centrale . . . . . . . . . 382
4.3.10 Le thorme de la limite centrale et le caractre universel ( ?)
de la loi gaussienne . . . . . . . . . . . . . . . . . . . . . . . . 400
4.4 Des exemples concrets . . . . . . . . . . . . . . . . . . . . . . . . . . 402
4.4.1 Des exemples approximativement gaussiens . . . . . . . . . . 403
4.4.2 Des exemples non gaussiens, mme approximativement . . . . 417
4.4.3 Phynances ! . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
4.5 Quelques applications du TCL . . . . . . . . . . . . . . . . . . . . . 434
4.5.1 Sondages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
4.5.2 Mthodes de Monte-Carlo . . . . . . . . . . . . . . . . . . . . 436
4.6 Lois gaussiennes multidimensionnelles Vecteurs alatoires gaussiens 436
4.6.1 Vecteurs gaussiens et rgression linaire . . . . . . . . . . . . 436
4.6.2 Le principe du test du chi-deux . . . . . . . . . . . . . . . . . 436
4.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436

5 Bibliographie 439
5.1 Ouvrages recommands pour travailler ce cours. . . . . . . . . . . . . 439
5.2 Ouvrages et articles de rfrence. . . . . . . . . . . . . . . . . . . . . 440
Introduction

La thorie des probabilits constitue un cadre mathmatique pour la description


du hasard et de la variabilit, ainsi que pour le raisonnement en univers incertain. Elle
forme un tout cohrent dont les concepts, les mthodes et les rsultats interviennent
dans de trs nombreux domaines des sciences et des technologies, parfois de manire
fondamentale. En voici, titre de motivation pour ce cours, une petite liste non-
exhaustive.
En physique, la description de la nature lchelle microscopique, donne par
la mcanique quantique, est de nature probabiliste : seule la probabilit pour une
particule de se trouver dans tel ou tel tat est accessible la thorie. En physique
encore, la description des systmes constitus dun trs grand nombre de particules
(ce qui est le cas de tous les systmes physiques macroscopiques) sappuie gnrale-
ment sur une modlisation probabiliste du comportement individuel des particules
(mcanique statistique). En biologie, dans le domaine mdical ou environnemental, la
prise en compte de la variabilit naturelle des phnomnes tudis ncessite souvent,
et toute sorte de niveaux, le recours la modlisation probabiliste (il peut aussi
bien sagir dtudier des mcanismes molculaires comme la rplication de lADN,
le dveloppement morphologique dun organisme, sa rponse un traitement mdi-
cal, ou encore la propagation des pidmies ou des feux de fort, la croissance et les
migrations de populations animales, la diffusion de polluants dans un sol, les ph-
nomnes de crue, etc...). La modlisation probabiliste sapplique aussi au traitement
des donnes et des signaux (codage, compression, dbruitage), ou lanalyse des er-
reurs de mesure. Elle intervient galement dans le domaine conomique et industriel
(fiabilit et performance des systmes et des procds, dont le comportement comme
lenvironnement de fonctionnement sont variables, gestion des approvisionnements
et des stocks, politiques dassurance, prvisions conomiques, dcisions dinvestisse-
ment, et plus gnralement valuation et gestion du risque). Lintelligence artificielle,
et notamment les techniques dapprentissage automatis et dextraction de donnes
(reconnaissance de formes, traitement dimage, systmes experts, fouille de donnes,
rseaux neuronaux...) reposent galement, pour une part sur une modlisation pro-
babiliste de linformation quils traitent. Mentionnons enfin lutilisation devenue in-
8

contournable du hasard simul par ordinateur, quil sagisse dtudier in silico


le comportement dun systme rel que lon a modlis, demployer un algorithme
randomis (doptimisation, de tri, de vrification,... ), ou de rsoudre un problme
numrique laide dune mthode de Monte-Carlo.

Un point de vocabulaire

Bien que les frontires dlimitant les deux domaines ne puissent pas toujours tre
trs prcisment traces, on distingue en gnral la thorie des probabilits et la
statistique, en disant que la premire a pour objet principal de dfinir des modles
mathmatiques du hasard et de lincertitude, et dtudier leurs proprits, tandis
que la seconde a notamment pour but de confronter ces modles mathmatiques
la ralit, en particulier lexprience et aux donnes observes, afin de choisir,
dajuster et de valider les modles, et de les exploiter pour effectuer des prvisions,
tester des hypothses, prendre des dcisions.

Objectifs du cours

Tous les exemples cits ci-dessus sont dun niveau assez (voire trs) lev, et se
rattachent des domaines scientifiques spcialiss quil est bien entendu impossible
daborder ou mme de rsumer dans un cours de base comme celui-ci. Lobjectif
principal de ce cours, qui requiert idalement une premire familiarisation, un
niveau intuitif avec les notions probabilistes, est de vous fournir des bases solides
et correctement formalises en probabilits. Il sagira essentiellement dassimiler les
principaux outils conceptuels permettant daborder la modlisation mathmatique
de lincertitude, du hasard et de la variabilit, ainsi quun certain nombre de tech-
niques qui sy rapportent. Aprs ce cours, vous devriez tre en mesure de comprendre
comment sarticulent les diffrents aspects (formalisation, intgration des donnes,
rsolution mathmatique et/ou simulation, validation, exploitation, apprciation des
limites de validit) de la modlisation de situations simples. Quelques objectifs plus
spcifiques :
dpasser le stade des raisonnements approximatifs et parfois douteux auxquels
les tudiants sont bien souvent habitus quand il sagit de probabilits ;
aller au-del des conclusions parfois insuffisantes ou mme incohrentes que le
simple bon sens permet de tirer ;
tre laise vis--vis de lutilisation des probabilits dans des domaines plus
spcialiss, lorsque vous les rencontrerez.
Fournir des bases, notamment destines permettre un approfondissement et
une spcialisation ultrieurs nexclut pas, bien entendu, de prsenter des exemples
simples illustrant les applications potentielles dans quelques-uns des domaines plus
avancs voqus prcdemment. Dautre part, possder une connaissance correcte
Introduction 9

des notions abordes dans ce cours prsente galement un intrt du point de vue
de la la formation des citoyens, lheure o les arguments fonds sur des modles
et des statistiques de toute nature (conomique, sociale, mdicale, environnemen-
tale,...) sont au cur des dbats, bien que trop peu dindividus possdent un bagage
conceptuel suffisant pour soumettre ces arguments une analyse critique informe
et raisonne.
Le niveau mathmatique assez modeste dont nous nous contenterons ne doit pas
masquer la vritable difficult celle sur laquelle leffort doit porter principalement
que reprsente la comprhension en profondeur des notions abordes. Ce cours est
entre autres un cours de mathmatiques, o simposent donc des normes leves de
prcision et de rigueur, mais les objets mathmatiques qui y sont manipuls sont
destins modliser certains aspects de la ralit. Ainsi, toutes les notions abordes
prsentent un double aspect, formel et concret, ce qui rend leur matrise difficile
acqurir.
De nombreux exemples serviront illustrer le propos, mais il est indispensable
de dpasser le stade de la simple comprhension des exemples pour pouvoir utiliser
efficacement les notions abordes dans des situations nouvelles.

Ds, cartes, et pices de monnaie

Les cours de probabilits auxquels vous avez pu tre confronts font souvent la part
belle aux exemples issus des jeux de hasard, tirages de carte, roulette, loteries et
autres jeux de pile ou face. Quoique ltude des jeux de hasard ait t lune des
motivations initiales du dveloppement de la thorie des probabilits (principale-
ment partir du dix-septime sicle), il ne sagit plus gure aujourdhui que dun
domaine dapplication anecdotique. Les exemples qui sont prsents dans ce cadre ne
prsentent que peu dintrt en tant quapplications relles, mais ils permettent faci-
lement dillustrer des notions ayant une porte beaucoup plus vaste, et peuvent donc
servir de reprsentations conceptuelles simples des situations relles complexes.
Cest dans cet tat desprit quil est souhaitable daborder ltude de ces exemples,
ainsi que des exercices dans lesquelles des hypothses trs simplificatrices sont poses.

Comment travailler ce cours

Le volume de ce document vous affole peut-tre... Pas de panique ! Ces notes


forment en effet un ensemble dune longueur certaine, mais le style est gnrale-
ment peu dense, et une lecture un rythme soutenu est (en principe) possible. Les
dfinitions et rsultats importants sont gnralement mis en caractres gras. Des as-
trisques signalent les parties plus spcialises et dont la lecture peut tre omise sans
compromettre srieusement la comprhension de lensemble.
10

Ces notes sont en principe destines tre lues au moins une fois dans leur plus
grande partie ; elles servent de rfrence vis--vis du cours magistral, et apportent de
nombreux dtails et approfondissements par rapport ce qui est prsent lors des
sances de cours. la fin de chaque chapitre, avant les exercices, se trouvent des
questions dauto-valuation auxquelles vous devez imprativement savoir rpondre,
car elles portent sur les notions fondamentales du cours. Si la rponse lune de ces
questions vous chappe, il est indispensable de relire et de retravailler le chapitre
correspondant.
Quant aux nombreux exercices, dont la difficult est trs variable, il est indispen-
sable, pour en tirer profit, den chercher dabord la solution de manire autonome.
Une partie importante dentre eux est destine tre traite lors des sances de tra-
vaux dirigs. Des commentaires sur les exercices sont galement proposs. Rappelons
toutes fins utiles que la solution dun exercice doit tre relue en grand dtail de
faon vous assurer que vous en maitrisez toutes les tapes, et que vous en avez as-
simil les ides globales. Seul ce travail de fond pourra vous assurer tant lacquisition
durable de connaissances et de mthodes que le succs lexamen !
Il est important de ne pas vous laisser abuser par le cadre, parfois artificiel ou
trivial en apparence, dans lequel certains exercices sont proposs ; il sagit le plus
souvent dillustrer une question rellement importante, tout en essayant de ne pas
vous noyer sous la complexit quappelle invitablement la modlisation de situations
plus ralistes.
Par ailleurs, un certain nombre de questions poses ont un caractre ouvert :
on ne vous demande pas simplement de prouver tel ou tel rsultat, mais de donner
un sens prcis une question formule de manire un peu vague, et de tenter dy
rpondre laide dun modle que vous aurez vous-mme labor et justifi. Le but
de ces questions nest pas de vous dcontenancer (encore que...) : tout en restant
dans un cadre assez simple, elles font bien davantage appel aux capacits dinitia-
tive, dautonomie et desprit critique dont vous aurez faire preuve dans votre vie
professionnelle, et que votre formation est cense vous permettre de dvelopper, que
ne le font les questions de type plus traditionnel, et auxquelles vous pouvez tre da-
vantage habitus. Elles sont loccasion de mettre lpreuve votre capacit utiliser
vos connaissances, et vous guident galement vers une comprhension approfondie
des notions et des mthodes abordes.
La manire dexposer les diffrentes notions et rsultats retenue dans ce cours
repose, invitablement, sur un certain nombre de partis pris pdagogiques. Des va-
riations, lgres ou plus significatives, par rapport dautres cours ou des ouvrages
cits dans la bibliographie, peuvent donc apparatre, tout--fait normalement (le
souci de simplicit nous ayant en particulier conduit ne pas traiter dans toute leur
gnralit un certain nombre de notions, et insister sur certains modes de prsenta-
tion au dtriment dautres, plus classiques). La cohrence avec la plupart des autres
Introduction 11

exposs du mme sujet est cependant assure, moyennant ventuellement un petit


effort (toujours fructueux) dadaptation.
Les chapitres 1 et 2 prsentent les bases du formalisme de la thorie des probabi-
lits et de sa mise en uvre pratique, et introduisent lessentiel des notions utilises
dans la suite. Les chapitres 3 et 4 prsentent les deux grandes lois du hasard que
sont la loi des grands nombres et le thorme de la limite centrale.
Chapitre 1

Le modle probabiliste

1.1 Introduction
La vie quotidienne, comme la pratique des sciences et des techniques, abondent
en situations prsentant plusieurs alternatives entre lesquelles il nest pas possible de
trancher a priori avec certitude, que cette incertitude soit attribue au hasard ou la
chance, au manque dinformations ou de moyens de prvision, ou encore une varia-
bilit inhrente la situation considre. Se borner constater une telle incapacit
connatre ou prvoir avec certitude ne mne pas trs loin, et, fort heureusement,
un vaste ensemble de situations peuvent tre efficacement dcrites laide dobjets
mathmatiques appels modles probabilistes, qui permettent de raisonner de
manire cohrente, rigoureuse, et quantitative sur le hasard, la variabilit
et lincertitude. Le but principal de ce cours est de vous apprendre construire,
manipuler et exploiter ces objets dans des situations simples. Nous aurons ainsi
accomplir plusieurs tches distinctes :
1. prsenter le formalisme mathmatique des modles probabilistes (ou, comme
on disait autrefois, du calcul des probabilits), avec les dfinitions, rgles et
proprits importantes qui sy rattachent ;
2. expliquer le lien entre ce formalisme abstrait et la ralit modlise ;
3. expliquer comment construire des modles probabilistes satisfaisants dune si-
tuation donne ;
4. expliquer comment exploiter les modles probabilistes une fois ceux-ci construits.
Concernant le point 1, nous procderons par tapes, afin de ne pas vous noyer
sous les dfinitions. Nous dfinirons dans ce chapitre le cadre mathmatique gnral
des modles probabilistes (espace des possibles, vnements, probabilits), puis les
notions fondamentales de probabilit conditionnelle et de dpendance probabiliste.
La notion de variable alatoire, sera aborde dans le chapitre 2, les chapitres 3 et 4
14

traitant de deux proprits fondamentales des preuves alatoires rptes que sont
la loi des grands nombres et le thorme de la limite centrale. Soulignons que le point
1 se situe entirement dans le champ des mathmatiques : on sy occupe uniquement
de dfinir un formalisme mathmatique gnral pour la modlisation probabiliste,
et de dmontrer rigoureusement certaines proprits possdes par les entits qui y
interviennent.
Le point 2 se situe, quant lui, hors du champ exclusif des mathmatiques,
puisquil touche la ralit concrte : il sagit de prciser la contrepartie concrte
des notions abstraites introduites dans le point 1. La question sera aborde au fur et
mesure que les notions mathmatiques abstraites ncessitant des explications seront
introduites. Nous verrons que la traduction concrte de la notion de probabilit est
bien plus dlicate dfinir que ce que pourrait laisser supposer le caractre courant
de lutilisation du mot probabilit. Nous aurons galement loccasion de justifier
(par opposition au fait de dmontrer) par des arguments concrets la pertinence des
rgles abstraites du calcul des probabilits.
Le point 3 est probablement le plus difficile. Il pose le problme central de la mod-
lisation : comment, partir des connaissances et des donnes disponibles, construire
un modle appropri la description dune situation relle ? Comment juger de la
validit dun modle ? Il sagit en gnral de questions difficiles et complexes, au
cur de la pratique scientifique, et qui nadmettent ni solution systmatique ni re-
cette miracle. Nous verrons cependant quune bonne comprhension des points 1 et 2,
ainsi quun minimum de pratique, permettent daborder le problme avec un certain
succs dans des cas simples.
Le point 4 est pertinent lorsque la complexit des modles utiliss fait que leur
exploitation ne se rsume pas un calcul lmentaire, ce qui ne sera que rarement
le cas dans notre contexte. Nous le mentionnons surtout pour souligner la distinc-
tion existant entre le fait de construire un modle dune situation donne, et le fait
dexploiter ce modle. Bien entendu, la construction dun modle est souvent, pour
partie, oriente par lexploitation que lon compte faire de celui-ci.
La sparation entre les points 1 4 peut paratre quelque peu artificielle, compte-
tenu des nombreux liens qui les unissent. Nous pensons toutefois quil nest pas
inutile, afin de bien structurer vos connaissances, de garder systmatiquement en
tte cette distinction.

Avertissement terminologique

Nous ne chercherons pas, dans ce cours, dfinir de manire systmatique si


tant est que cela soit possible les notions de hasard, dala(toire), de variabilit, ou
encore dincertitude. Il nous arrivera souvent dutiliser ces termes, qui ne sont pour-
tant pas synonymes, de manire interchangeable, comme des raccourcis de langage
Le modle probabiliste 15

commode qui qualifient simplement le fait que, dune manire gnrale, le fait que
les situations que lon tudie peuvent se raliser de plusieurs manires. Dautres fois
en revanche, nous les utiliserons en prenant en compte les nuances existant entre eux.
De manire trs schmatique (voir galement la discussion sur la traduction concrte
de la notion de probabilit dans ce chapitre), on qualifie gnralement dalatoire
ou de produite par le hasard une situation combinant imprvisibilit des situations
individuelles, et rgularits statistiques lorsque lon considre des situations rptes
un grand nombre de fois (archtype : le lancer dune pice de monnaie) ; le terme
de variabilit insiste plutt sur la pluralit des modalits ou des valeurs que peuvent
prendre, dune situation lautre, les caractristiques auxquelles on sintresse (ar-
chtype : la taille au sein de la population), tandis que lincertitude dsigne, plus
gnralement, notre incapacit connatre exactement (archtype : le rsultat dune
rencontre sportive avant que celle-ci ait eu lieu). Notons que tous ces termes (et par-
ticulirement celui de hasard) trouvent galement dautres emplois et significations,
que nous ne chercherons pas aborder au risque de nous perdre dans des discussions
philosophiques qui ne sont certainement pas lobjet de ce cours !

1.2 Le point de vue formel

Compte tenu du caractre central de la notion de modle probabiliste dans tout


ce qui va suivre, il nous semble prfrable den donner ds le dbut une dfinition
exacte, prcise et... formelle.
Si vous navez jamais rencontr ce formalisme auparavant, tout cela vous pa-
ratra probablement un peu abstrait. Lobjet de ce chapitre (et plus globalement
lun des objectifs de ce cours) est dexpliquer la signification de ce formalisme, la
faon dont on le met en uvre dans les situations concrtes, ainsi que son utilit.
Nous adopterons systmatiquement ce mode de prsentation, consistant donner
dabord la dfinition mathmatique des objets rencontrs (point 1), puis tudier
leur signification concrte (point 2).
Au sens formel, donc, un modle probabiliste (aussi appel espace probabilis,
ou encore espace de probabilit) est la donne dun couple (, P) constitu :
dun ensemble fini ou dnombrable 1 , appel espace des possibles, ou
encore univers,
dune application P : [0, 1], appele probabilit sur , et qui vrifie la

1. Il est possible de donner une dfinition plus gnrale pouvant faire intervenir des ensembles
infinis non-dnombrables. Quoique prsentant un grand intrt, cette gnralisation fait appel des
notions mathmatiques dont la difficult dpasse le cadre de ce cours. Nous nous restreignons ici
ce que lon appelle les modles probabilistes discrets.
16

condition suivante, dite de normalisation :


X
P() = 1.

Les lments de lensemble sont appels des ventualits lmentaires, et


reprsentent les diffrentes alternatives possibles, ou encore les issues, de la situation
tudie. La valeur P() est appele probabilit de lventualit lmentaire ,
ou encore probabilit de .
En termes imags, la ralisation du hasard est reprsente, dans un tel modle,
par le choix dune unique ventualit lmentaire dans , qui dtermine lalterna-
tive effectivement ralise : parmi les diffrentes issues possibles, le hasard choisit
den raliser une et une seule, chaque issue tant affecte dune certaine probabilit.
On appellera vnement (au sens formel) tout sous-ensemble (ou encore toute
partie) de . On dira quun vnement A au sens prcdent est ralis lorsque lven-
tualit lmentaire correspondant lalternative effectivement ralise est un l-
ment de A, cest--dire lorsque A. La probabilit dun vnement A est dfinie
par : X
P(A) = P().
A
Notez bien quil sagit, dans ce cadre abstrait, dune dfinition, et non pas dune
proprit que lon tablirait laide dune dmonstration mathmatique. Elle permet
dtendre la fonction P(), initialement dfinie sur lensemble , lensemble des
vnements, cest--dire lensemble des parties de .

Remarque 1 lorsque est un ensemble fini, cest--dire quil ny a quun nombre


P P
fini dventualits lmentaires, la dfinition des sommes P() ou A P()
apparaissant ci-dessus ne prsente aucune difficult. Lorsque est un ensemble in-
fini, nous supposerons toujours que est dnombrable, cest--dire o lon peut faire
la liste de ses lments sous la forme : = {un : n N}, et les sommes ci-dessus
seront comprises comme des sries termes positifs.

1.3 Mais que reprsente exactement ce formalisme ?


1.3.1 Espace des possibles et choix du niveau de description
La caractristique premire des situations que nous cherchons tudier tant
quil en existe plusieurs issues possibles, la modlisation dune telle situation passe
videmment par ltablissement dune liste de ces diffrentes issues. Comme nous
lavons dit plus haut, les issues possibles sont reprsentes par les lments de , et
lensemble proprement dit reprsente donc la liste de toutes les issues possibles.
Etant donne une telle liste, chaque ralisation possible de la situation
Le modle probabiliste 17

tudie doit donc pouvoir tre rattache une et une seule issue figurant
dans la liste. Ainsi, lespace des possibles doit, dune part, contenir suffisament
dlments pour que chaque ralisation possible de la situation puisse se voir rattache
lun dentre eux, et, dautre part, au plus un lment de lespace des possibles doit
tre susceptible de correspondre une ralisation donne.
Cette brve description ne suffit malheureusement pas dterminer de manire
unique lespace des possibles pouvant tre utilis pour dcrire une situation donne.
En effet, selon le degr de prcision que lon adopte dans la description de la situation,
la notion dissue peut varier du tout au tout, et, pour une mme situation, il ny
a donc pas un seul, mais une multitude densembles susceptibles de la dcrire, si
bien quil serait plus correct de dire que lensemble reprsente la liste des issues
possibles au niveau de description adopt. Par exemple, pour dcrire la descente
dune piste de ski par un skieur, on peut se contenter dun ensemble ne comportant
que deux issues :
1 = {chute, pas de chute},

selon que le skieur est tomb ou non. Cet ensemble dcrit bien toutes les issues
possibles, au sens o, lors dune descente, le skieur peut soit tomber, soit ne pas
tomber, sans autre alternative possible : la ralisation de lexprience correspond au
choix dun et un seul lment de .
Mais on peut galement adopter une description plus prcise, en prenant pour
espace des possibles lensemble :

2 = {pas de chute, une chute, deux chutes , trois chutes , . . .},

qui fait correspondre chaque nombre de chutes une issue diffrente. Cet ensemble
dcrit galement toutes les issues possibles (un skieur peut soit faire zro, soit une,
soit deux, etc... chutes, sans autre alternative possible), mais avec un niveau de
prcision plus grand : un lment de 2 comprend plus dinformation sur le droule-
ment de la descente quun lment de 1 . On notera que lensemble 2 contient des
lments qui ne correspondent pas des issues effectivement ralisables, telles que,
par exemple : 2150 chutes . Cela nest pas gnant, mais signifie simplement que
certaines issues thoriquement prsentes dans la liste que constitue nappara-
tront jamais. On peut ainsi sans dommage (et cela simplifie souvent la description de
celui-ci) inclure dans lespace des possibles davantage de possibilits quil nen existe
rellement. Celles-ci se verront simplement affectes dune probabilit nulle ou tota-
lement ngligeable en pratique. En revanche, les lments de doivent absolument
rendre compte (au niveau de description adopt) de toutes les possibilits relles,
sans en omettre aucune.
Pour dcrire encore plus prcisment la descente, on peut par exemple ajouter
18

des informations relatives au nombre de sauts de bosses :

3 = N N = {(i, j) : i N, j N}.

Un lment de 3 est ici un couple de deux nombres entiers, le premier indiquant le


nombre de chutes, et le deuxime le nombre de bosses sautes par le skieur. Et lon
peut bien entendu continuer linfini en ajoutant des informations sur la vitesse de
la descente, la forme de la trajectoire, la couleur de la tenue, le nombre de surfeurs
croiss, le temps quil fait, etc..., en obtenant chaque fois une description plus
prcise de la descente effectue. Chacun des ensembles que lon obtient dcrit les
diffrentes issues du phnomne (la descente de la piste), mais avec un degr de
prcision et selon une grille de lecture qui lui est propre. Il y a donc une infinit de
choix envisageables pour lespace des possibles , suivant la prcision que lon adopte
dans la description du phnomne. Comme il est bien entendu impossible de tenir
compte de tous les facteurs susceptibles de varier dune ralisation du phnomne
une autre, il est ncessaire den slectionner un certain nombre, qui figureront
dans , les autres ntant pas pris en considration explicitement. En gnral, la
dtermination du niveau de description appropri pour une situation donne est une
question difficile, sur laquelle nous aurons loccasion de revenir, et il nexiste pas de
mthode systmatique quil suffirait dappliquer pour la traiter en toute gnralit.
Mentionnons simplement que le choix de repose en gnral sur un compromis entre
la nature des informations dont on peut disposer, les lments quil semble pertinent
de prendre en compte pour dcrire la situation, la complexit du modle obtenu, et
lusage que lon compte en faire.
Soulignons ds maintenant quil sagit l dune problmatique gnrale en sciences :
la mcanique newtonienne dcrit la ralit physique en termes de points matriels,
de forces, de vitesses ; la biologie, elle, donne de la ralit quelle tudie une des-
cription en termes dorganismes, de cellules, dinteractions biochimiques (et non pas
datomes ou dinteractions physiques fondamentales) ; lconomie de son ct, dcrit
des agents, qui produisent et changent des biens et des services (et non pas de gi-
gantesques assemblages de molcules biologiques) ; on dcrit le fonctionnement des
logiciels informatiques en termes dinstructions excutes et de tches accomplies, et
pas (en gnral) en termes dimpulsions lectriques dans les matriaux qui consti-
tuent le support physique de lordinateur... Chaque science donne de la ralit quelle
tudie une description fonde sur une grille de lecture qui lui est propre, prenant en
compte un certain niveau de dtails, en ignorant dautres et qui rend cette ralit
intelligible. Prciser est donc la premire tape de la modlisation probabiliste
dune situation, puisque cet ensemble indique le niveau de dtail choisi pour aborder
ltude de celle-ci.
On retient de cette discussion que lespace des possibles reprsente
lensemble des issues possibles au niveau de description choisi : lespace
Le modle probabiliste 19

des possibles nest pas dtermin uniquement par le phnomne que lon
tudie, mais de manire essentielle par le choix que nous faisons du degr
de finesse avec lequel le phnomne doit tre dcrit.

1.3.2 Sens concret sens formel


De manire concrte, il est ncessaire, en plus de lensemble , de fournir un dic-
tionnaire permettant de dterminer la signification concrte de ses lments dans le
contexte tudi, car apparat souvent comme un codage du phnomne considr,
et non pas comme une description du phnomne lui-mme. Selon le contexte, un
mme ensemble, par exemple lensemble N N des couples dentiers pourra reprsen-
ter les coordonnes dun point mobile sur une surface, les tempratures minimale et
maximale au cours dune saison, lge du capitaine et celui de sa femme, ou encore le
nombre de chutes et le nombre de bosses sautes, comme dans lexemple prcdent.
Lensemble est donc souvent un ensemble abstrait, dont la forme exacte des l-
ments na aucune importance, pourvu que la manire dont ceux-ci reprsentent des
ralisations concrtes de la situation tudie soit prcise. De la mme faon, pour
modliser le rsultat du lancer dune pice de monnaie, en ne tenant compte que du
rsultat final, on pourra aussi bien utiliser :

= {pile , face},

que
= {P , F}, = {bouc , chvre}, = {campanule, myosotis},

du moment que la signification de chacun des lments de est prcise (mais cette
prcision est indispensable, sans quoi il est en gnral impossible de comprendre ce
que reprsentent les lments de ).
Cest dans ce contexte que la notion dvnement formel, dfini comme partie
de , trouve sa signification. En franais, un vnement dsigne quelque chose
qui peut ou non se produire, en rapport avec la situation considre. De manire
gnrale, tout vnement concret, dfini en franais, par sa relation au
phnomne considr, nous associerons le sous-ensemble de (vnement
formel) constitu par les ventualits lmentaires dcrivant les issues
pour lesquelles cet vnement est effectivement ralis. Ainsi, le choix par
le hasard dune ventualit lmentaire ralisant un vnement (au sens formel)
signifie que lvnement (au sens concret) correspondant est ralis.
Pour reprendre lexemple du skieur, A =le skieur tombe au moins deux fois, et
B = le skieur ne saute aucune bosse, constituent des vnements (au sens concret
du terme). Lorsque lespace des possibles est lensemble 3 = N N, lvnement
concret A est associ lvnement formel (sous-ensemble de 3 , quavec un abus de
20

notation courant, on notera galement A)


A = {(i, j) N N : i 2},
et, de mme,
B = {(i, j) N N : j = 0}.
Premire remarque : selon lespace des possibles choisi, la traduction formelle dun
vnement concret varie. Ainsi, dans 2 , A est associ lvnement formel
A = { 2 chutes , 3 chutes , . . .},
qui ne correspond en aucun cas lvnement formel de 3 pourtant associ au mme
vnement concret. (Lorsque lespace des possibles peut varier, vous remarquerez
quil nest pas trs raisonnable de noter de la mme manire un vnement concret,
qui reste fix, et sa traduction formelle, qui varie en fonction de lespace des possibles.
Attention !)
Deuxime remarque : la finesse avec laquelle lensemble dcrit les ralisations
du phnomne doit tre compatible avec la dfinition en franais pour que celle-ci
dfinisse effectivement un vnement au sens formel du terme. Par exemple, lv-
nement B ci-dessus, qui a un sens (concret) parfaitement dfini relativement lex-
prience, ne dfinit pas un vnement au sens formel si lon adopte lensemble 2
pour dcrire le phnomne, car la description par 2 des ralisations de lexprience
ne contient aucune information relative au nombre de bosses. : cet vnment na
pas de sens dans la description donne par 2 . Cest en ce sens que les lments
de lespace des possibles choisi constituent des ventualits lmentaires : aucune
information sur la manire dont le phnomne se ralise, plus fine que celle contenue
dans les lments de , na de sens dans le cadre du modle, et tout vnement
ayant un sens dans le cadre du modle (cest--dire tout sous-ensemble de lespace
des possibles) est constitu par un assemblage dventualits lmentaires. Celles-ci
constituent donc, en quelque sorte, les atomes de la description du phnomne par
le modle. Bien entendu, il ne sagit dventualits lmentaires que relativement au
modle choisi, et, par exemple, lvnement le skieur chute, qui constitue une ven-
tualit lmentaire dans la description par 1 , apparat comme constitu de plusieurs
ventualits lmentaires dans la description par 2 ou 3 . En revanche, et ceci peut
constituer un premier guide pour choisir lespace des possibles, nous constatons que
lensemble doit dcrire le phnomne dune faon suffisament fine pour
que les vnements (au sens concret) auxquels on sintresse aient un sens
dans le cadre du modle.
De manire gnrale, on dira quun espace des possibles a est plus fin quun
autre espace des possibles b dcrivant la mme situation lorsque, pour toute ven-
tualit lmentaire de b , lvnement concret qui lui est associ possde une tra-
duction formelle (au moyen dune ou plusieurs ventualits lmentaires) dans b .
Le modle probabiliste 21

Notons que les oprations logiques usuelles sur les vnements concrets
(conjonction, disjonction, ngation), correspondent des oprations ensem-
blistes (intersection, union, complmentaire) sur les vnements formels (sous-
ensembles de ) qui leur sont associs.
Partant de deux vnements A et B (on notera de la mme faon les vnements
dcrits en franais et les sous-ensembles de qui leur correspondent, ce petit abus
de notation ne soulevant pas dambiguit lorsque est fix), on peut en particulier
considrer :
lvnement dfini (en franais) par A ou B, qui correspond dans la
runion de A et B, note A B, et qui dsigne lensemble des ventualits
lmentaires qui ralisent A ou B (ventuellement les deux la fois),
lvnement dfini (en franais) par A et B, qui correspond dans l
intersection de A et B, note A B, qui dsigne lensemble des ventualits
lmentaires qui ralisent A et B.
lvnement dfini (en franais) par A na pas lieu, qui correspond dans au
complmentaire de A, not Ac ou A, et qui dsigne lensemble des ventualits
lmentaires qui ne ralisent pas A.

Mise en garde 1 par convention, le ou que nous utilisons est toujours inclusif,
cest--dire quil nexclut pas la ralisation simultane des deux vnements. Cest le
ou de la petite annonce : secrtaire parlant allemand ou anglais (ventuellement
les deux la fois). Lorsque nous considrerons le ou exclusif (celui du menu :
fromage ou dessert), qui correspond la ralisation de lune ou lautre des deux
ventualits, mais pas des deux la fois, nous le spcifierons en utilisant lexpression
ou bien.

Deux vnements A et B sont dits incompatibles sils ne peuvent se raliser


simultanment, ou, autrement dit, si aucune ventualit lmentaire ne peut raliser
la fois A et B, ou encore, si AB = . On notera que deux ventualits lmentaires
distinctes sont toujours incompatibles, ce qui correspond au fait que la ralisation du
hasard correspond au choix dune unique ventualit lmentaire parmi les lments
de .
Par ailleurs, on dira quun vnement A implique, ou entrane un vnement
B, lorsque A est inclus dans B (notation A B), autrement dit, lorsque toute
ventualit lmentaire qui ralise A ralise galement B (ainsi, on est certain que
lorsque A est ralis, B lest galement). Dans ce cas, la ralisation de A saccompagne
automatiquement de celle de B.
22

Exemples :

Commenons par un exemple trs simple, qui peut, par exemple, servir pour
modliser le rsultat de deux lancers successifs dun d six faces.

= {1, . . . , 6} {1, . . . , 6},

A = {(1, 2); (2, 3); (5, 4)} , B = {(2, 3); (2, 6)}

A B = {(1, 2); (2, 3); (2, 6); (5, 4)} et A B = {(2, 3)}.

Revenons lexemple du skieur, avec 3 = N N, et dfinissons trois vnements


concrets : A =le skieur saute moins de trois bosses, B =le skieur tombe 4 fois ou
plus et C =le skieur saute 5 ou 6 bosses. Avec 3 pour espace des possibles, on
a, au sens formel :
A = {(i, j) N N : j 3},

B = {(i, j) N N : i 4},

C = {(i, j) N N : j {5, 6}}.

Lvnement A et B signifie concrtement que le skieur saute au moins trois


bosses et tombe 4 fois ou plus, et scrit formellement :

A B = {(i, j) N N : i 4, j 3},

ou encore :
A B = {4, 5, . . .} {3, 4, . . .}.

Lvnement B ou C signifie que le skieur tombe 4 fois ou plus ou saute 5 ou


6 bosses (ventuellement les deux la fois), et correspond lensemble

{(i, 5) : i 4} {(i, 6) : i 4}.

On note que A et C sont incompatibles , car, au sens concret , le skieur ne, peut
bien entendu pas sauter la fois moins de trois bosses et cinq ou six bosses, et, au
sens formel, on observe bien que A C est lensemble vide.
Rappelons rapidement quelques proprits lmentaires satisfaites par les opra-
tions sur les ensembles. tant donns trois sous-ensembles A, B et C dun ensemble
, (ou encore trois vnements dun espace des possibles) les proprits suivantes
sont vrifies :
A B = B A (commutativit de la runion)
A B = B A (commutativit de lintersection)
A (B C) = (A B) C (associativit de la runion)
A (B C) = (A B) C (associativit de lintersection)
Le modle probabiliste 23

A (B C) = (A B) (A C) (distributivit de lintersection par rapport


la runion)
A (B C) = (A B) (A C) (distributivit de la runion par rapport
lintersection)
(A B)c = Ac B c
(A B)c = Ac B c
On dfinit galement deux vnements particuliers : lvnement certain, qui est
formellement associ tout entier. quelle que soit lventualit lmentaire choisie
par le hasard, celle-ci ralise toujours lvnement (le hasard choisit toujours un
lment de ) ; et lvnement impossible, associ lensemble vide . Comme aucune
ventualit lmentaire nappartient jamais , cet vnement ne se produit jamais.

1.3.3 Signification concrte de la probabilit


La donne de lespace des possibles ne suffit pas, elle seule, dcrire de
manire satisfaisante une situation incorporant de lincertitude, puisquelle indique
simplement un certain niveau de dtail avec lequel on choisit de dcrire les diff-
rentes issues de cette situation. La probabilit P sur constitue le second ingrdient
fondamental dun modle probabiliste, et contient les informations quantitatives sus-
ceptibles dtre exploites concrtement. Du point de vue formel, une probabilit est
simplement une application qui associe chaque lment de lespace des possibles un
nombre compris entre 0 et 1, de telle faon que la somme des probabilits de toutes
les ventualits lmentaires soit gale 1. Nimporte quelle application vrifiant
cette proprit est une probabilit sur , et il existe donc une infinit de probabilits
diffrentes pour un mme espace des possibles. Dterminer, parmi toutes ces proba-
bilits, laquelle (ou lesquelles) sont susceptibles de dcrire de manire satisfaisante
une situation donne est, avec la dtermination de lespace des possibles, le problme
principal de la modlisation probabiliste (point 3). Avant de pouvoir aborder celui-ci,
il nous faut dabord nous interroger sur ce que reprsente concrtement la probabilit,
dans le cadre de situations relles (point 2).
Voici donc quelques exemples daffirmations probabilistes ( replacer dans leur
contexte). Avant de lire la discussion qui suit, nous vous invitons rflchir par
vous-mme la signification concrte du terme probabilit dans chacun des cas.
1. La probabilit pour que le candidat A soit lu lors de la prochaine lection
prsidentielle est de 60%.
2. La probabilit pour que la pice de monnaie tombe sur face est de 50%.
3. La probabilit pour que lquipe de football du Brsil lemporte demain face
lAllemagne est de 1/4.
4. La probabilit pour quil pleuve demain Lyon est de 1/3.
24

5. La probabilit pour quil ait plu il y a exactement 3000 ans sur le site aujour-
dhui occup par Lyon est de 1/3.
6. La probabilit pour quune mtorite de plus de 500m de diamtre de cir-
confrence percute la terre au cours du prochain millnaire est de moins de
2%.
7. La probabilit pour que la fuse explose au dcollage est de moins de 2%.
8. La probabilit, pour un individu n en France en 1920, de vivre plus de 80
ans est de 75%.
9. La probabilit pour un individu n en France en 1954, de vivre plus de 80 ans
est de 85%.
10. La probabilit pour un individu n en France en 1954 de possder un chien
est de 60%.
11. La probabilit pour que D*** (qui est n en France en 1954) possde un chien
est de 70%.
12. La probabilit pour quun atome de carbone 14 subisse une dsintgration au
cours des 5730 prochaines annes est de 50%.
13. La probabilit pour quun photon incident mis par la source S soit absorb
par le dtecteur D est de 1/3.
14. La probabilit pour que lpidmie se propage est de 5%.
15. La probabilit pour quun paquet de donnes mette plus de 0,1 seconde pour
tre transmis dans le rseau est de 10%.
16. La probabilit pour que lenfant natre soit une petite fille est de 1/2.
17. La probabilit pour que la croissance du PIB soit cette anne suprieure
2%, est de 70%.

La probabilit comme frquence

Un premier lien, fondamental, entre la notion abstraite de probabilit et la ralit


concrte, est linterprtation de la probabilit dun vnement comme la frquence
avec laquelle cet vnement se produit au cours de longues sries dexpriences.
Dans lexemple 13, lorsque lon affirme que la probabilit pour un photon mis dtre
absorb est de 1/3, cela signifie simplement que lon sattend ce que, systmatique-
ment, sur un grand nombre de photons mis par la source S, la proportion de ceux qui
sont absorbs par le dtecteur soit de lordre de 1/3, et dautant plus proche de cette
valeur que le nombre de photons tudis est grand. Cette attente se fonde notamment
sur lexprience passe, qui a pu par exemple tablir que, chaque fois que lon tudie
labsorption des photons issus dune source de mme type que S par un dtecteur
du mme type que D, la proportion de photons absorbs est systmatiquement de
Le modle probabiliste 25

lordre de 1/3, quand on prend en compte un grand nombre de photons successifs 2 .


La probabilit apparat ainsi comme une caractristique physique objective des pho-
tons et du dispositif utilis, susceptible dtre mesure exprimentalement. Quoique
le comportement individuel (absorption ou non) des photons paraisse imprvisible,
on observe une rgularit statistique long terme dans les rsultats des expriences.
Lexemple 12 relve a priori du mme type dinterprtation de la probabilit : sur
un grand nombre datomes de C14, on sattend toujours ce quenviron la moiti
dentre eux subissent une dsintgration au cours des 5730 prochaines annes. On
notera cependant que, dans ce cas, ce nest pas lobservation directe qui permet
dtablir la valeur et le caractre reproductible de cette proportion, mais ncessaire-
ment un raisonnement sappuyant sur un certain nombre de donnes et dhypothses
relatives au phnomne considr (en extrapolant le comportement observ du C14
sur des priodes brves son comportement sur plusieurs milliers dannes). Dfinir
et valuer la probabilit ne sont pas une seule et mme chose !
Lexemple 2 parat encore se rattacher ce type de dfinition : au cours dune
longue srie de lancers, on sattend ce que la pice tombe sur face dans environ la
moiti des cas, soit que lon ait dj men des expriences de lancer avec cette pice
ayant permis dobserver ce comportement, soit que lon raisonne sur la symtrie de
la pice, rien ne semblant a priori favoriser davantage une retombe sur pile quune
retombe sur face. Ce dernier cas illustre, peut-tre plus clairement que les deux
prcdents, un certain nombre de difficults en rapport avec linterprtation de la
probabilit comme frquence. Tout dabord, on ne peut pas dfinir ainsi la valeur
exacte dune probabilit : dune longue srie dexpriences lautre, la frquence de
pile et de face va lgrement varier, laissant planer une certaine incertitude quant
la valeur exacte attribuer la probabilit, et ce nest que dans lidalisation dune
srie infinie dexpriences (et rien de tel nexiste concrtement) que lon pourrait
esprer dterminer une valeur unique pour celle-ci. Cette situation nest en tout cas
pas propre la probabilit, et, de fait, la plupart des grandeurs physiques (la masse
ou la longueur dun objet, par exemple) ne sont pas vritablement dfinies mieux
quune certaine incertitude prs. Un modle abstrait nentend de toute faon jamais
dcrire la ralit mieux qu une certaine approximation prs et dans la limite dun
certain domaine de validit. Une difficult plus srieuse est de dterminer prcisment
comment sont rptes les expriences auxquelles on se rfre : en effet, si lon rpte
des lancers dans des conditions exactement identiques, on obtiendra en principe des
rsultats exactement identiques, et non pas une alternance imprvisible de pile et de
face. Par ailleurs, avec de lentranement et un peu dhabilet, il est possible deffec-

2. On peut galement imaginer que lon sattend observer ce rsultat simplement parce quil
est une consquence de la description que fait la mcanique quantique de lexprience mene, la
thorie quantique tant lheure actuelle accepte comme une description correcte et amplement
vrifie exprimentalement de ce type de phnomnes.
26

tuer le lancer de manire faire retomber la pice du ct que lon souhaite. Ainsi, le
caractre stable de la frquence au cours dun grand nombre dexpriences rptes
nest en aucun cas automatique, et dpend crucialement de la manire dont les exp-
riences sont effectues. Dans le cas de lancers honntes 3 dune pice symtrique,
cest lextrme sensibilit du rsultat dun lancer de trs faibles variations invi-
tables et imprvisibles des conditions dans lesquelles celui-ci est effectu, qui est
lorigine de cette proprit (et cest linterprtation que lon peut donner au raison-
nement a priori sur la symtrie de la pice pour valuer les probabilits). (Pour une
tude approfondie des lancers rpts de pices de monnaie, vous pouvez consulter les
deux articles sur le sujet cits dans la bibliographie.) Formaliser prcisment ce type
dide, afin dexpliquer comment des systmes entirement dterministes peuvent
produire des comportements en apparence alatoires, mais prsentant des rgularits
statistiques, est lun des buts de la branche de la thorie des systmes dynamiques
appele thorie ergodique. En pratique, il est difficile de sassurer que les conditions
dans lesquelles on effectue une exprience garantissent la stabilit des frquences
long terme lorsque celle-ci est rpte dans des conditions comparables (il faudrait
prciser exactement quelles conditions exprimentales sont fixes dune rptition
lautre, et sassurer que la variation dune exprience lautre des conditions expri-
mentales qui ne sont pas fixes a bien toujours pour effet de stabiliser les frquences
autour dune mme valeur), et lon doit se contenter darguments et dindications
partiels allant dans ce sens, dont des vrifications exprimentales de la stabilit des
frquences sont lun des lments.
Lexemple 8 semble poser bien moins de problmes : au sens courant, la pro-
babilit reprsente simplement la proportion des individus ns en France en 1920
ayant survcu au moins jusqu la fin de lanne 2000, et lexamen des registres de
ltat-civil doit permettre de dterminer cette proportion avec une prcision satisfai-
sante : la probabilit est dfinie de manire objective, et peut tre value de manire
non moins objective, sans hypothses supplmentaires compliques sur la nature des
phnomnes mis en jeu. Lexemple 10 est totalement similaire.
Lexemple 9 est dj moins vident : la proportion dindividus ns en France
en 1954 et qui vivront au-del de lge de 80 ans est, certes, une quantit dfinie
objectivement, qui permet donc de donner un sens objectif la probabilit dans ce
contexte ; cependant, il nest pas possible lheure actuelle (en 2005) de dterminer
quelle sera en dfinitive la valeur de cette proportion. Par consquent, comme dans
le cas de lexemple 12, nous ne pouvons en proposer que des estimations, en nous
basant sur un raisonnement plus ou moins labor, incluant donnes (par exemple
sur ce qui est connu lheure actuelle de ltat de sant de la population des individus
3. Les tirages au sort effectus par jet de pice de monnaie lors de rencontres sportives sont
parfois rglements : on y impose par exemple une hauteur minimale laquelle la pice doit slever
avant de retomber.
Le modle probabiliste 27

ns en 1954), et hypothses diverses. Encore une fois, dfinir et valuer sont deux
choses bien distinctes.
Dans la mesure o la probabilit y est dfinie comme une proportion au sein
dune population, ces trois derniers exemples prsentent une analogie formelle avec
les trois tudis plus haut, o la probabilit apparat comme une frquence au cours
de sries dexpriences. Il y a plus : on interprtera souvent la probabilit, disons de
lexemple 8, comme la probabilit quune personne prise au hasard dans la liste des
individus ns en France en 1920 ait vcu au moins jusqu la fin de lanne 2000.
Dans ce cas, on fait rfrence, non plus seulement une population dindividus au
sein de laquelle on calcule une proportion, mais une exprience de tirage. Au cours
dune longue srie de tirages, on sattend ce que la proportion observe dindividus
ayant vcu au moins jusqu la fin de lanne 2000 soit voisine de la proportion que
reprsentent ces individus dans la population. En termes des exemples prcdents,
on suppose premirement que le processus de tirage donne lieu des frquences
stables lors de tirages rpts, et que de plus ces frquences sont donnes par les
proportions correspondantes dans la population. Cest le principe mme du sondage.
Comme prcdemment, on notera quil est difficile de garantir absolument que ces
deux proprits ont bien lieu.

La probabilit comme mesure raisonnable de plausibilit

Les exemples 1 et 11 font rfrence des situations uniques (lection prsiden-


tielle, match de football), qui ne peuvent tre replacs de manire vidente dans
un contexte dexpriences rptes. La probabilit y apparait comme une mesure de
plausibilit attache aux vnements, ou encore comme un degr de confiance dans
la ralisation de ceux-ci.
Plus la valeur que nous attribuons la probabilit dun vnement est leve
(cest--dire proche de 1), plus nous serions surpris de ne pas voir lvnement en
question se raliser ; inversement, plus cette valeur est faible (proche de 0), plus nous
serions surpris de voir lvnement ne pas se raliser ; enfin, une plausibilit de 50%
signifie au contraire que nous sommes galement indcis vis--vis de la ralisation de
lvnement et de sa non-ralisation.
De manire gnrale, la dfinition et lestimation de la probabilit se fondent
dans ce type de situations sur ce que nous appellerons un raisonnement en situation
dincertitude, dont ce cours illustrera un certain nombre de principes gnraux. Par
exemple, dans le cas de llection prsidentielle, on sappuiera sur des considrations
concernant lconomie, ltat de lopinion, les relations internationales, les alliances
lectorales, etc... en prenant en compte des lments plus ou moins objectifs. La ques-
tion qui se pose alors est bien videmment : comment intgrer de manire cohrente
informations, hypothses, voire opinions, dans un raisonnement, de faon en d-
28

duire une valuation de la probabilit ? Il faut noter en tout cas que, dans ce type de
situations, la probabilit napparat que comme le reflet du raisonnement et
des hypothses, informations et opinions, sur lesquelles celui-ci est bas.
Mme une fois leve lincertitude concernant lissue de la situation (par exemple,
aprs que llection a eu lieu), on ne dispose pas dun moyen dfinitif de confirmer ou
dinfirmer telle ou telle valeur initialement propose de la probabilit (si le candidat
A est lu, quelle tait a priori la bonne estimation de probabilit initiale : 65%, 70%,
80% ?). Et, bien entendu, des raisonnements diffrents donnent lieu en gnral des
estimations diffrentes de la probabilit dun mme vnement... La probabilit perd
donc, dans ce contexte, le caractre objectif quelle possdait, en tant que frquence,
dans les exemples du paragraphe prcdent ; dans ce genre de situations, on peut
simplement tenter dvaluer la pertinence des arguments employs pour estimer la
probabilit, la lueur des connaissances et des donnes disponibles. Notons que la
simple exigence de cohrence dans le raisonnement impose, comme nous le verrons
plus loin, un certain nombre de rgles, qui font que lon ne peut pas manipuler les
plausibilits de manire totalement arbitraire. On peut ainsi sattendre ce que,
dans une certaine mesure, des individus rationnels aboutissent des estimations de
probabilit comparables sils sappuient sur des informations, hypothses et opinions
comparables.
Les relations entre la probabilit frquentielle du paragraphe prcdent et la
probabilit plausible tudie ici sont dune importance fondamentale. Dans les
situations tudies dans les exemples 2, 12 et 13, et en labsence dinformations sup-
plmentaires, il est naturel dinterprter la frquence de long terme avec laquelle
un vnement se produit comme une mesure de sa plausibilit : on attribuera par
exemple une plausibilit de 1/2 au fait que la pice retombe ct face lors du prochain
lancer. En revanche, en prsence dinformations par exemple, de donnes cinma-
tiques prcises sur la pice de monnaie quelques instants aprs le lancer portant
sur les conditions exprimentales non-spcifies dans la dfinition de la frquence,
la prise en compte de ces informations peut conduire une estimation diffrente
de la probabilit, mme entendue en un sens purement frquentiel, comme nous le
verrons plus loin. De manire gnrale, lorsque les informations dont nous disposons
sur une situation unique nous permettent seulement de replacer celle-ci au sein dune
certaine collection (population, ou ensemble dexpriences rptes), sans pouvoir la
situer plus prcisment, il parat raisonnable dvaluer la plausibilit des vnements
relatifs cette situation partir des frquences calcules au sein de cette collection,
lorsque celles-ci sont accessibles.
Par exemple, on pourrait valuer la plausibilit du fait que D*** possde un
chien en dterminant la proportion de possesseurs de chiens parmi les individus ns
en France en 1954. Si lon ignorait lanne de naissance de D***, on pourrait valuer
cette plausibilit en comptant la proportion de possesseurs de chiens dans la popula-
Le modle probabiliste 29

tion totale. A linverse, si lon savait quen plus dtre n en 1954, D*** vit en zone
rurale, on choisirait de considrer la proportion de propritaires de chiens parmi les
individus ns en France en 1954 vivant en zone rurale. Notre degr dinformation
sur D*** dtermine ainsi une collection dindividus, dautant plus restreinte que ce
degr dinformation est lev, et grce laquelle on peut tenter dvaluer la plausi-
bilit dun vnement relatif D*** et nos informations son sujet, en mesurant
la frquence dapparition de lvnement dans la collection.
La mise en uvre de cette ide se heurte cependant toutes sortes de difficults.
Trs souvent, lensemble des informations dont on dispose sur une situation dter-
minent compltement celle-ci (par exemple, lorsque lon connat exactement lidentit
de D***, sans pour autant savoir sil ou elle possde un chien), et lon ne peut donc
inscrire de manire naturelle cette situation dans une collection plus vaste, sans n-
gliger un certain nombre dinformations pourtant disponibles en ne conservant que
celles qui semblent pertinentes. Un dlicat problme de choix apparat donc : com-
ment replacer de manire pertinente une situation unique dans une collection plus
vaste de situations partir des informations disponibles ? Qui plus est, mme en
ne conservant que les informations qui semblent pertinentes vis--vis de la situation
tudie, on peut tre conduit des collections de situations pour lesquelles on ne
dispose pas de donnes suffisantes relatives aux frquences. Bien souvent, on devra
faire appel simultanment plusieurs collections, correspondant chacune une partie
des informations disponibles (par exemple, relative chacune tel ou tel lment par-
ticulier de la situation considre), pour tenter dvaluer les plausibilits intervenant
dans le raisonnement. Dans ce contexte, le recours des hypothses ou des estima-
tions subjectives peut savrer incontournable afin dintgrer les diffrentes donnes
disponibles et de parvenir un rsultat. Bien entendu, plus les informations et les
donnes dont on dispose sont prcises et nombreuses, plus on peut sattendre obte-
nir une estimation de plausibilit satisfaisante. Inversement, notre ignorance quant
une situation peut tre telle quil savre impossible de proposer une estimation
pertinente de la plausibilit dun vnement. Il faut alors reconnatre les limites de
notre capacit modliser la situation. Eventuellement, des approches alternatives
ou complmentaires la modlisation probabiliste classique (telles que logique floue,
fonctions de croyance, etc...) peuvent tre envisages.
La plupart du temps, le raisonnement probabiliste mle entre eux les diffrents
aspects (frquence et plausibilit) de la notion de probabilit. Nous vous laissons,
titre dexercice (Exercice 3), le soin de rflchir la signification de la probabilit
dans les exemples dont nous navons pas trait.
Les rgles abstraites du calcul des probabilits sappliquent, quant elles, ind-
pendamment de la signification concrte des quantits manipules, et nous tenterons
dans la suite de justifier leur utilisation partir des diffrents points de vue. Nous
retiendrons notamment de la discussion prcdente que la signification concrte de
30

la notion de probabilit peut varier considrablement dune situation lautre, que


celle-ci dpend trs souvent des informations, hypothses, ou opinions dont nous dis-
posons sur la situation tudie, et quil est peu prs dpourvu de sens de parler de
LA probabilit de tel ou tel vnement concret, sans prciser le contexte dans lequel
celle-ci intervient et peut tre value. Lors de llaboration ou de lexploitation dun
modle probabiliste, il est donc indispensable de prciser systmatiquement, face
une probabilit, le sens que possde celle-ci et le contexte dans lequelle elle peut tre
value, car le sens et donc la validit des hypothses que lon peut formuler, ou des
conclusions que lon peut tirer, sont conditionnes par la signification des probabilits
utilises.
Bien comprendre le sens concret de la notion de probabilit nest pas (qu) une
tche philosophique : cest une tape indispensable (point 2) pour crer ou exploiter
une modlisation probabiliste dune situation donne, et en saisir correctement la
porte.
Notons que le problme de linterprtation concrte de la notion de probabi-
lit est, aujourdhui encore, lobjet de controverses et de recherches, souvent, mais
pas toujours, davantage de la part de philosophes que de mathmaticiens ou de
physiciens. Pour en apprendre davantage sur cette question (en particulier, sur son
histoire, sur les descriptions prcises des diffrentes interprtations possibles, ainsi
que sur les interprtations alternatives que nous navons pas prsentes, vous pou-
vez par exemple consulter louvrage de Ian Hacking et Michel Dufour cit dans la
bibliographie, ainsi que la bibliographie de cet ouvrage.) Enfin, une question diff-
rente, fort intressante, mais trop loigne du sujet de ces notes pour que nous
ltudiions de manire systmatique est celle de la perception psychologique de la
probabilit, et des nombreux biais qui affectent celles-ci. Notons simplement que,
dans de nombreuses situations, cette perception a tendance ne pas concider avec
les estimations auxquelles conduit une valuation rationnelle et scientifique de la pro-
babilit. Quelques exemples de telles situations sont donns dans les exercices. Pour
un expos systmatique de ces questions, nous vous invitons consulter les ouvrages
de Kahneman et Tversky cits dans la bibliographie.

1.4 Probabilit et vnements

1.4.1 Probabilit dun vnement

Nous avons, au dbut de ce chapitre, dfini la probabilit dun vnement for-


mel comme la somme des probabilits des ventualits lmentaires qui le consti-
tuent, seules les ventualits lmentaires, qui correspondent aux diffrentes issues,
Le modle probabiliste 31

se voyant attribuer une probabilit, do la formule :


X
P(A) = P().
A

Cette dfinition ne vous surprend vraisemblablement pas, si vous avez dj un tant


soit peu manipul ce formalisme auparavant. Cependant, il importe de garder les-
prit quil ne sagit l que dune dfinition, formule dans le cadre abstrait des modles
probabilistes (au passage, notez bien que la probabilit dun mme vnement varie
lorsque la probabilit sur lespace des possibles change : la probabilit dun sous-
ensemble A de ne sera en gnral pas la mme dans le modle (, P1 ) et dans le
modle (, P2 )). A dfaut de la dmontrer (une fois encore, il sagit dune dfini-
tion, il ny a rien dmontrer), notons tout de mme que lon peut (et doit, dans la
mesure o un modle probabiliste nest pas destin rester un objet mathmatique
abstrait, mais modliser des situations relles) justifier la cohrence de cette d-
finition abstraite vis--vis des diffrentes interprtations possibles de la probabilit.
Lorsque la probabilit correspond un comptage, quil sagisse dune proportion au
sein dune population, ou dune frquence observe au cours dun (grand) nombre
dexpriences, cette dfinition est tout--fait naturelle, car elle traduit une proprit
trs simple dadditivit du comptage. Illustrons ceci sur un exemple : pour tudier les
diffrents objets issus dun chapeau de magicien, on fait appel lespace des possibles
suivant

:= {foulard bleu, foulard vert, foulard rouge, lapin, colombe, bouquet, alligator}.

Si la probabilit P que lon choisit de dfinir sur reprsente, par exemple, la fr-
quence relative avec laquelle chacun des objets est sorti au cours des N premiers
tours de magie effectus avec le chapeau, on a, en utilisant la notation

N () = nombre de fois o lobjet est sorti lors des N premiers tours,


N ()
P() = ,
N
pour tout . Considrons prsent lvnement (concret) cest un foulard qui
sort, qui correspond lvnement (formel)

{foulard bleu, foulard vert, foulard rouge} .

Il est bien vident que le nombre de fois au cours des N tours o un foulard sort est la
somme des nombres de fois o un foulard bleu, un foulard vert, ou un foulard rouge
sort (nous ne considrons que des foulards unis). Si la probabilit de lvnement
formel {foulard bleu, foulard vert, foulard rouge} doit reprsenter la frquence avec
laquelle un foulard est sorti, on a donc videmment galit entre

P({foulard bleu, foulard vert, foulard rouge})


32

et
P(foulard bleu) + P(foulard vert) + P(foulard rouge),

ce qui justifie la formule gnrale dfinissant la probabilit dun vnement comme


somme des probabilits des ventualits lmentaires qui le constituent :
X
P(A) = P().
A

Cette discussion est gnrale, la seule proprit que nous ayons utilise tant qu
un lment compt (un objet issu du chapeau) correspond un et un seul lment de
, ce quimpose naturellement la dfinition de comme liste des issues possibles, au
niveau de description adopt, toute issue tant associe un et un seul lment de .
Dans le cas o la probabilit est plutt considre comme une mesure de plausibilit,
construite partir de jugements et dinformations partielles, il est encore possible
de justifier cette dfinition additive de la probabilit, en montrant quelle est en un
certain sens la seule cohrente du point de vue du raisonnement en univers incertain
(ceci fait partie de ce que lon appelle le thorme de Cox, voir par exemple lou-
vrage de Howson et Urbach, ou larticle de Van Horn cits dans la bibliographie). A
notre modeste niveau, disons simplement quil ne semble pas draisonnable dajouter
entre elles les plausibilits des diffrentes ventualits incompatibles produisant un
vnement pour estimer la plausibilit de cet vnement.
Au passage, remarquons que la condition de normalisation
X
P() = 1,

rsulte essentiellement dune convention, qui consiste attribuer lvnement cer-


tain une probabilit de 1. Du point de vue des frquences (ou du comptage), cette
condition revient simplement exprimer les frquences relativement leffectif total
(par exemple en pourcentages) plutt quen termes absolus, ce qui rend leurs valeurs
beaucoup plus faciles interprter et comparer. Du point de vue des plausibilits,
seul compte le rapport entre deux probabilits : le fait que telle ventualit soit deux
fois plus probable que telle autre, par exemple, et il ny a donc aucun inconvnient
supposer que la somme totale soit gale 1, quitte multiplier toutes les probabilits
par un mme nombre positif, ce qui ne change pas leurs rapports.

1.4.2 Probabilit et oprations sur les vnements


Nous avons vu que les oprations logiques (et, ou, non) portant sur les vne-
ments concrets, taient associes, du point de vue formel, aux oprations ensemblistes
(union, intersection, complmentaire). Une question lgitime est donc : comment la
Le modle probabiliste 33

probabilit se comporte-t-elle vis--vis de ces oprations ? Toutes les rponses gn-


rales (cest--dire, sans formuler dhypothse supplmentaire) que lon peut donner
ces questions rsultent directement de la dfinition
X
P(A) = P(),
A

et leur preuve est laisse en exercice (essentiellement, il suffit de faire une figure). En
fait, nous vous invitons systmatiquement reprsenter par une figure lespace et
les vnements que vous tudiez, ce qui rend videntes la plupart des formules ci-
dessous, inutile leur mmorisation, et bien plus claire lutilisation quil convient den
faire dans votre contexte. Bien entendu, les ides que ces formules vhiculent sont
importantes et il est ncessaire de les retenir ; nous aurons loccasion de les utiliser
abondamment dans la suite.
Tout dabord, si A et B sont deux vnements,

A B entrane que P(A) P(B).

Cette proprit est trs importante, et lon sen servira, par exemple, pour montrer
que la probabilit dun vnement A est petite en la comparant celle dun vnement
B dont la probabilit est elle-mme petite, et plus facile calculer que celle de A.
Dautre part, on a lgalit

P(A B) = P(A) + P(B) P(A B).

Nous utiliserons rarement cette proprit telle quelle. Notez bien quen gnral,

P(A B) 6= P(A) + P(B),

mais que lon a toujours lingalit :

P(A B) P(A) + P(B).

Lorsque A et B sont incompatibles, cest--dire lorsque A B = , P(A B) = 0 et


lon a galit dans lingalit prcdente. On dduit de ceci, par exemple, que

P(Ac ) = 1 P(A).

Plus gnralement, si A1 . . . , An est une famille dvnements deux--deux incompa-


tibles, cest--dire que, pour tout 1 i 6= j n, Ai Aj = , on a :

P(A1 . . . An ) = P(A1 ) + + P(An ). (1.1)

Sans aucune hypothse sur les Ai , on a simplement lingalit suivante (borne de la


runion) :
P(A1 . . . An ) P(A1 ) + + P(An ).
34

Rappelons, toutes fins utiles, que le fait que les vnements A1 , . . . , An soient
deux--deux incompatibles ne se rsume pas la condition : A1 . . . An = .
On utilisera souvent lgalit 1.1 ci-dessus pour valuer la probabilit dun v-
nement en termes de son dcoupage par une famille dautres vnements : si
A1 . . . , An est une famille dvnements deux--deux incompatibles recouvrant B,
cest--dire, si B A1 . . . An , alors

P(B) = P(B A1 ) + + P(B An ).

On dfinit galement la notion de systme complet dvnement (que nous uti-


liserons peu en tant que telle dans ce cours) : une famille dvnements A1 , . . . , An
forme un systme complet dvnements (ou encore une partition de ) si les
deux conditions suivantes sont vrifies :
1. A1 . . . , An est une famille dvnements deux--deux incompatibles ;
2. la famille A1 . . . , An recouvre , autrement dit = A1 An .
Daprs ce qui prcde, la probabilit de tout vnement B peut alors scrire

P(B) = P(B A1 ) + + P(B An ).

Dans le cas dune famille dvnements quelconques, la borne de la runion peut


tre raffine en ingalits plus compliques (mais en gnral plus prcises), ou en
galit (principe dinclusion-exclusion). Prcisment, en posant, pour 1 k n,
X
Ck = P(Ai1 . . . Aik ),
i1 <<ik

on a
m
X
P(A1 . . . An ) (1)k1 Ck
k=1
lorsque m est impair,
m
X
P(A1 . . . An ) (1)k1 Ck
k=1

lorsque m est pair, et


n
X
P(A1 . . . An ) = (1)k1 Ck .
k=1

La preuve de ces rsultats constitue lexercice 10


En passant, rappelons que les vnements qui apparaissent dans les expressions ci-
dessus sont implicitement supposs former des sous-ensembles dun mme espace des
possibles . Des oprations ensemblistes pratiques sur des sous-ensembles despaces
des possibles diffrents nont pas de sens !
Le modle probabiliste 35

1.4.3 Quelques exemples de modles probabilistes


Un exemple horticole :

= {chou, carotte, navet, potiron, courge, cerfeuil, fenouil},

P(chou) = 2/157, P(carotte) = 30/157, P(navet) = 24/157, P(potiron) = 53/157,

P(courge) = 21/157, P(cerfeuil) = 8/157, P(fenouil) = 9/157.

Un exemple brassicole :

= {Heineken, Kronembourg, Stella, Mtzig, Guiness, Jenlain, Duvel},

P(Heineken) = 2/28, P(Kronembourg) = 1/28, P(Stella) = 1/28, P(Mtzig) = 6/28,

P(Guiness) = 5/28, P(Jenlain) = 7/28, P(Duvel) = 6/28.

Ces deux exemples un peu farfelus dont destins illustrer le fait quun modle
probabiliste abstrait (un modle probabiliste vu simplement comme un objet math-
matique) peut prendre absolument nimporte quelle forme, et que la seule contrainte
est que la somme des probabilits de toutes les ventualits lmentaires soit gale
1. Bien entendu, sans dictionnaire permettant de relier ces modles abstraits avec une
quelconque ralit, ils restent totalement... abstraits. On peut nanmoins sintresser
ltude de leurs proprits mathmatiques.

Un exemple paramtrique :

La figure ci-dessous est le schma dun rseau lectronique de communication


reliant un point source (S) un point but (B), et comportant un certain nombre de
noeuds intermdiaires relis entre eux par des connexions. A un instant donn, chaque
connexion peut ventuellement se trouver coupe, la suite dincidents techniques.

(S)
(B)
36

Nous dcrirons le fonctionnement en termes de fonctionnement/panne de chacune


des connexions. Une issue de lexprience est donc la donne, pour chacune des
connexions, du fait quelle fonctionne ou non. Numrotant les connexions de 1 16,
nous prendrons donc pour espace des possibles lensemble
= {0, 1}16 = {(x1 , . . . , x16 ) : xi {0, 1}},
avec la convention que xi = 1 traduit le fait que la connexion numro i fonctionne,
et que xi = 0 traduit une panne de la connexion numro i. Notons que cette mo-
dlisation est beaucoup plus riche que celle qui consisterait simplement coder la
circulation ou la non-circulation de linformation de (S) (B). Nous dfinirons la
probabilit P sur par :
16
Y
P [(x1 , . . . , x16 )] = pxi (1 p)1xi ,
i=1

o p [0, 1] est un paramtre. (Il faudra vrifier que la formule ci-dessus dfinit bien
une probabilit, cest--dire quelle donne toujours lieu des nombres compris entre 0
et 1 et dont la somme sur tous les lments de est gale 1 : Exercice 5 !) Autrement
dit, la probabilit dune configuration de fonctionnement/panne des connexions est
obtenue en effectuant le produit de 16 facteurs, un par connexion, gal p lorsque
la connexion correspondante fonctionne, et (1 p) lorsque celle-ci est coupe. La
forme de P est donc fixe (un produit de 16 facteurs), et seule manque la valeur du
paramtre p, quil faudrait pouvoir valuer, pour dterminer les valeurs numriques
de P. En fonction de p, on peut notamment calculer la valeur de la quantit qui nous
intresse, cest--dire la probabilit de lvnement A =linformation circule entre
(S) et (B). Par dfinition, X
P(A) = P(),
A
et, par dfinition, A si et seulement sil existe une suite de connexions en fonc-
tionnement reliant (S) (B). Il suffit donc, pour calculer P(A), de dresser la liste de
toutes les configurations fonctionnement/panne telles que (S) et (B) communiquent,
puis de calculer la somme ci-dessus, portant sur toutes les configurations de cette
liste, en prenant garde au fait que la valeur de P() nest pas la mme suivant les
configurations. Nous retrouverons souvent cette situation o P possde une forme
fixe et sexprime en fonction dun petit nombre de paramtres. Notez bien quil ne
sagit ici que dun exemple, et que cette probabilit na aucune raison a priori de
convenir la description du rseau tudi.

Un exemple important : la probabilit uniforme

Si lespace des possibles est un ensemble fini, on peut dfinir une probabilit qui
attribue chaque ventualit lmentaire la mme probabilit, appele probabilit
Le modle probabiliste 37

uniforme. Notons || le cardinal de , cest--dire le nombre dlments de . Pour


P
satisfaire la condition de normalisation P() = 1, on voit que la valeur de P()
doit ncessairement satisfaire lgalit
1
P() = .
||
Le plus souvent, ce sont des considrations de symtrie (nous en reparlerons plus
bas) qui amnent attacher a priori la probabilit uniforme : si les diffrentes
issues prsentent une certaine symtrie, de telle sorte quaucune ne semble favorise
par rapport une autre, ce choix simpose comme une premire suggestion, qui doit
naturellement tre valide, par lexprience et/ou par dautres arguments, suivant le
contexte. Attention : ce nest que dans le cas trs particulier de la probabilit
uniforme que lon peut appliquer la clbre formule :
nombre de cas favorables
P(A) = .
nombre de cas total
Celle-ci nest donc pas une rgle gnrale, mais simplement une consquence de
lhypothse de modlisation qui affirme que toutes les ventualits lmentaires sont
galement probables.
En effet, si est muni de la probabilit uniforme, la probabilit dun vnement
A est gale :
X X 1 |A|
P(A) = P() = = .
|| ||
A A
Le nombre de cas favorables la ralisation de A dsigne simplement le nombre
dventualits lmentaires qui ralisent A, et le nombre de cas total le nombre
total dventualits lmentaires prsentes dans . Dans les exemples prcdents, on
voit bien que cette formule ne sapplique absolument pas : le nombre de cas favorable
lvnement chou ou carotte est de 2, mais sa probabilit est gale

P({chou, carotte}) = P(chou) + P(carotte) = 32/157,

qui diffre sensiblement de la valeur 2/7 que donnerait la formule nombre de cas
favorables/ nombre de cas total.
Pour vous convaincre encore davantage, voici un exemple historique destin
vous mettre en garde contre lutilisation incontrle de cette formule, et justifier
lutilisation dun formalisme prcis.

Exemple : le problme du Chevalier de Mr

Le Chevalier de Mr soumit, dit-on, la sagacit de Pascal 4 le paradoxe suivant :


on constate en pratique que lon obtient plus souvent 11 que 12 en lanant trois ds
4. Blaise Pascal, 16231662.
38

et en effectuant la somme de leurs chiffres. Pourtant, le nombre de combinaisons dont


la somme fait 12 est le mme que le nombre de combinaisons dont la somme fait 11...
En effet, les combinaisons donnant lieu un total de 11 sont les suivantes :

{1; 4; 6}, {1; 5; 5}, {2; 3; 6}, {2; 4; 5}, {3; 3; 5}, {3; 4; 4}

tandis que les combinaisons donnant lieu un total de 12 sont les suivantes :

{1; 5; 6}, {2; 4; 6}, {2; 5; 5}, {3; 3; 6}, {3; 4; 5}, {4; 4; 4}

soit six combinaisons dans les deux cas. La solution de ce paradoxe apparent rside
dans une description prcise du modle probabiliste de lexprience consistant lan-
cer trois ds. On peut notamment envisager deux espaces des possibles pour dcrire
lexprience. Le premier, 1 , dans lequel on attribue chacun des trois ds un nu-
mro, et qui exprime le rsultat du lancer sous la forme dun triplet ordonn (a, b, c)
donnant, dans lordre, le rsultat du d numrot 1, le rsultat du d numrot 2, et
le rsultat du d numrot 3. Comme la seule quantit laquelle nous nous intres-
sons est la valeur de la somme des trois chiffres obtenus, il nest pas indispensable
dordonner les rsultats des ds, et il suffit de dcrire lexprience en donnant les
trois chiffres obtenus sans prciser leur ordre dapparition, sous la forme dun tri-
plet non-ordonn {a, b, c}, dont lensemble forme lespace des possibles 2 . Dans le
premier cas, des considrations classiques de modlisation des lancers (sur lesquelles
nous reviendrons : indpendance des lancers successifs, et description du rsultat de
chaque lancer par la probabilit uniforme) suggrent que tous les triplets ordonns
(a, b, c) devraient tre supposs quiprobables, et que lexprience doit donc tre d-
crite, au moins en premire approximation, par la probabilit uniforme P1 sur 1 ,
chacun des 216 triplets ordonns ayant donc une probabilit de 1/216. Au contraire,
sur 2 , les mmes considrations de modlisation entranent que tous les triplets
non-ordonns ne devraient pas tre quiprobables, et donc que ce nest pas la pro-
babilit uniforme P2 sur 2 qui dcrit convenablement lexprience. Par exemple,
le triplet non-ordonn {2; 5; 5}, correspond, dans la description obtenue laide de
1 , la runion des trois triplets (2; 5; 5), (5; 2; 5) , (5; 5; 2), et on doit donc, pour
tre cohrent avec la description prcdente, lui attribuer la probabilit 3 1/216.
Au contraire, le triplet non-ordonn {2; 4; 6} correspond la runion des six triplets
(2; 4; 6), (2; 6; 4) , (4; 2; 6), (4; 6; 2), (6; 2; 4) , (6; 4; 2), et on doit donc lui attribuer la
probabilit 6 1/216. La probabilit sur 2 ntant pas uniforme, le raisonnement
qui consiste compter le nombre de cas favorables pour calculer la probabilit dun
vnement nest pas valable, puisque les diffrents cas favorables nont pas tous
la mme probabilit, ce qui lve le paradoxe. On vrifie que la probabilit dobtenir
11 est de 27/216 tandis que la probabilit dobtenir 12 est de 25/216, ce qui rend
compte de la diffrence observe dans les frquences dapparition. Il ny a donc pas
Le modle probabiliste 39

compatibilit entre la description de lexprience par le modle (1 , P1 ) et sa des-


cription par le modle (2 , P2 ), et, en loccurrence, lexprience courante ainsi que
des considrations classiques de modlisation conduisent choisir le premier modle
plutt que le second. Nous reviendrons sur la notion de compatibilit entre plusieurs
modles pour dcrire le mme phnomne. Retenons au passage que, mme dans des
cas extrmement simples, o lon ne sattend pas rencontrer la moindre difficult, il
est indispensable de bien prciser le modle utilis et les hypothses que lon formule
son sujet.

Le prestige de luniforme

Nous sommes demeurs quelque peu vagues sur les considrations de modlisation
justifiant lutilisation de la loi uniforme dans ce problme. De fait, suivant linterpr-
tation concrte que lon donne la notion de probabilit dans le contexte envisag, la
nature des arguments susceptibles de justifier raisonnablement la description dune
situation au moyen dun espace des possibles muni de la probabilit uniforme tout
au moins en premire approximation , varie considrablement.
Le principe de raison insuffisante , ainsi quil est parfois appel, stipule que la
probabilit uniforme doit tre employe ds lors que lensemble des informations dont
on dispose sur la situation tudie sont symtriques vis--vis des diffrentes ventua-
lits lmentaires, cest--dire ntablissent pas de diffrence entre elles. Lutilisation
de ce principe appelle au moins trois prcautions importantes. Dune part, il nest
quasiment jamais vrai que la totalit des informations disponibles soient totalement
symtriques vis--vis des diffrentes ventualits lmentaires. En gnral, on li-
mine un certain nombre dinformations dont limportance est juge ngligeable, et
lon saccomode dune symtrie approximative.
Dautre part, ce principe est ncessairement cantonn lutilisation de la pro-
babilit comme mesure de plausibilit au vu des informations disponibles, et ne
saurait certainement pas sappliquer la probabilit entendue comme frquence, ou
comme proportion, sans quoi, nous serions en train de dduire de notre propre igno-
rance au sujet dune situation des affirmations objectives quant celle-ci, ce qui est
fortement draisonnable ! Il faut garder ceci en tte lorsque lon utilise cet argument
pour attribuer a priori des probabilits.
Enfin, lutilisation de ce principe suppose que lon souhaite effectivement attri-
buer des probabilits aux diffrentes ventualits lmentaires. Si lon dispose dun
ensemble dinformations trop limit, on peut dcider de ne pas affecter de proba-
bilits, soit quon les laisse inattribues (sous la forme de paramtres) dans le rai-
sonnement, soit mme que lon renonce dcrire la situation dans le cadre de la
modlisation probabiliste si lon juge que lon dispose vraiment de trop peu dinfor-
mation et quune telle description ne peut tre mene bien. Quoiquil en soit, la
40

pertinence de lattribution des probabilits par le principe de raison insuffisante


est clairement conditionne par la quantit et la qualit des informations dont on
dispose (une chose est de poser des probabilits gales entre plusieurs alternatives
car on estime ne possder aucune information autre que lexistence de ces diffrentes
alternatives, une autre est de vrifier quun vaste ensemble dinformations relatives
cette situation ne fait apparatre aucune diffrence entre ces alternatives). Des g-
nralisations de ce principe des situations plus complexes (maximum dentropie
conditionnelle aux informations disponibles) existent et jouent un rle important
dans les mthodes baysiennes, voir par exemple louvrage de Howson et Urbach cit
dans la bibliographie.
Bien entendu, les arguments de symtrie peuvent galement tre appels jouer
un rle dans le cadre des autres interprtations de la probabilit. Par exemple, dans
le cas du problme du Chevalier de Mr, le caractre symtrique des ds employs,
joint des hypothses supplmentaires sur le processus produisant les lancers (voir
par exemple les articles sur les lancers de pice de monnaie cits dans la bibliographie,
et les rfrences qui sy trouvent), pourra conduire supposer que les probabilits,
entendues au sens frquentiel, doivent tre les mmes pour chacun des rsultats
possibles des lancers (tels que dcrits par 1 ). Mais il sagit alors dun rle explicatif
positif, qui ne se rsume pas constater que les informations dont nous disposons ne
font pas apparatre de diffrence entre les diffrentes issues possibles. Insistons sur le
fait quil est de toute faon indispensable dexprimenter pour valider un tel modle :
on ne peut modliser exclusivement partir darguments thoriques a priori, et une
confrontation la ralit modlise est indispensable. Dans ce contexte, disposer
de longues listes de rsultats exprimentaux sur les lancers de ds ne faisant pas
apparatre de diffrences significatives entre les divers rsultats possibles (tels que
dcrits par 1 ), constitue une information symtrique vis--vis des lments de 1 ,
et joue un rle explicatif positif dans le choix dune probabilit (au sens frquentiel)
uniforme sur 1 pour dcrire la situation.

1.5 Probabilits conditionnelles

La notion de probabilit conditionnelle est peu prs aussi fondamentale, dans


le cadre de la modlisation probabiliste, que la notion de probabilit elle-mme.
Dailleurs, en un certain sens, toute probabilit est une probabilit conditionnelle
qui signore, et il est indispensable de bien matriser cette notion, qui sera pour nous
lune des briques de base dans la construction de modles probabilistes.
Le modle probabiliste 41

Le point de vue formel

Commenons par donner une dfinition formelle. Etant donn un espace de pro-
babilit (, P) et un vnement A de probabilit non-nulle (P(A) > 0), on appelle
probabilit P conditionnelle A (ou encore probabilit P conditionne par la
ralisation de A, probabilit P sachant A) la probabilit dfinie sur par :
P()
P(|A) = P(A) si A,

P(|A) = 0 si
/ A.

Avant tout commentaire, vrifions que la dfinition ci-dessus donne effectivement


lieu une probabilit sur . Pour toute ventualit lmentaire lment de ,
P(|A) est bien un nombre positif ou nul car il est gal, soit zro, soit au quotient
dun nombre positif ou nul par un nombre positif. Il reste vrifier la condition de
normalisation, autrement dit, vrifier que
X
P(|A) = 1.

Pour cela, dcomposons cette somme en deux parties :


X X X
P(|A) = P(|A) + P(|A).
A A
/

Lorsque nest pas dans A, P(|A) est nul, et la somme la plus droite dans lgalit
ci-dessus est donc gale zro. On obtient donc que :
X X X P() 1 X 1
P(|A) = P(|A) = = P() = P(A) = 1,
P(A) P(A) P(A)
A A A

et la condition de normalisation est donc bien vrifie. La probabilit P condition-


nelle un vnement est donc une probabilit sur lespace des possibles , au mme
titre que la probabilit initiale P partir de laquelle elle est dfinie. En par-
ticulier, on peut parler de la probabilit conditionnelle dun vnement : si A est
un vnement de probabilit non-nulle sur lespace de probabilit (, P), et B un
vnement, la probabilit de B vis--vis de la probabilit P sachant A est donne,
daprs la dfinition de P(|A), par :
X
P(B|A) = P(|A),
B

conformment la dfinition de la probabilit dun vnement comme somme des


probabilits des ventualits lmentaires qui le constituent. Insistons lourdement :
P(B|A) reprsente la probabilit de lvnement B, calcule par rapport une pro-
babilit dfinie sur , mais diffrente de P, savoir P(|A). Il ne sagit pas de la
42

probabilit sous P dun hypothtique vnement B sachant A. Lusage, un peu


ambigu cet gard, est de lire P(B| A) comme P de B sachant A, ou, lorsque lon
omet la rfrence (pourtant importante !) P, probabilit de B sachant A.
En tenant compte du fait que, pour tout dans B, P(|A) est nul si nest pas
lment de A, et P(|A) = P()/P(A) si est lment de A, on peut rarranger
lexpression ci-dessus :
X P() 1 X P(B A)
P(B|A) = = P() = .
P(A) P(A) P(A)
AB AB

On retient le rsultat de cette suite dgalits, connu sous le nom de formule de


Bayes 5 :
P(B A)
P(B|A) = .
P(A)
Une consquence immdiate est ce que lon dsigne parfois sous le nom de for-
mule des probabilits totales : si A1 , . . . , An forme un systme complet dvne-
ments, la probabilit de tout vnement B scrit :

P(B) = P(B|A1 ) P(A1 ) + + P(B|An ) P(An ).

Contexte

La notion de probabilit conditionnelle un vnement trouve une interprta-


tion concrte qui varie selon le sens donn la probabilit dans le modle auquel on
se rfre. Commenons par discuter le cas de la probabilit vue comme mesure de
plausibilit en situation dincertitude. Dans ce contexte, les probabilits condi-
tionnelles telles que nous les avons dfinies indiquent de quelle manire
modifier le modle probabiliste initial pour tenir compte dun apport din-
formation relatif la ralisation de la situation considre. La notion dinfor-
mation sentend ici dans un sens bien prcis : il sagit du fait quun certain vnement
A est ralis. A priori, la multiplicit des lments de traduit notre ignorance
de la manire exacte dont lexprience va effectivement se raliser ; parmi toutes les
ventualits lmentaires prsentes dans notre modlisation, une seule correspond
ralisation effective de la situation, mais nous ne savons pas laquelle. Le fait de
savoir que lvnement A est ralis nous permet de rduire notre ignorance en re-
streignant la liste des ventualits lmentaires qui sont effectivement susceptibles
de se raliser (celles qui correspondent la ralisation de A sont encore possibles, les
autres sont limines). Le principe de lutilisation des probabilits conditionnelles,
que nous devrons justifier, est alors le suivant : si lon dcrit a priori (cest--dire,
avant dincorporer linformation selon laquelle A sest ralis) la situation laide
5. Thomas Bayes, 17021761.
Le modle probabiliste 43

du modle (, P), il est indispensable, pour tenir compte du fait que A est ralis,
de remplacer le modle (, P) par le modle (, P(|A)) dans la description de la
situation tudie. Dans le cadre de linterprtation frquentielle de la probabilit
(qui, rappelons-le, est trs souvent utilis de pair avec linterprtation en termes de
plausibilit), la probabilit conditionnelle apparat lorsque lon cherche dcrire, non
pas la population (resp. la srie dexpriences) dorigine, dcrite par le modle (, P),
mais la sous-population (resp. la sous-srie dexpriences) obtenue en slectionnant
les lments de la population (resp. les expriences) conduisant la ralisation de
lvnement A. Le principe de lutilisation des probabilits conditionnelles est alors le
suivant : si la population (resp. la srie dexpriences) dorigine est dcrite
par (, P), la sous-population (resp. la sous-srie dexpriences) forme en
slectionnant les lments de la population (resp. la srie dexpriences)
pour lesquels A est ralis est dcrite par le modle (, P(|A)).
Insistons bien sur le point suivant : quel que soit le contexte retenu pour linterpr-
tation de la probabilit, il est indispensable, dans les situations dcrites ci-dessus,
de remplacer le modle dorigine (, P) par le modle modifi (, P( |A)). Sinon, on
est conduit raisonner de manire incohrente (dans linterprtation plausible) ou
valuer des frquences de manire erronne (dans linterprtation frquentielle).
Commenons par prciser ceci sur deux exemples.
Dans ce premier exemple, nous discuterons de linterprtation de la probabilit
en termes de plausibilit (mais linterprtation frquentielle aurait galement toute
sa place ici). Intressons-nous donc la composition en filles et garons des familles
de deux enfants, en choisissant pour espace des possibles :

= {GG, FG, GF, FF},

o G reprsente une fille, F un garon, la premire lettre codant pour lan, la


seconde pour le cadet.
Une manire trs simple, et grossirement en accord avec les donnes dmogra-
phiques, est de munir de la probabilit uniforme :

P(GG) = P(FG) = P(GF) = P(FF) = 1/4.

La probabilit quune famille soit forme de deux filles est donc, dans cette des-
cription, gale 1/4. Supposons maintenant que lon sache quune famille donne
comporte au moins une fille, sans connatre pour autant le dtail de sa composition.
Comment la probabilit que la famille soit constitue de deux filles est-elle modifie
par cette information supplmentaire ? Intuitivement, il semble clair que le fait de
savoir que la famille comporte dj une fille doit accrotre la probabilit pour quelle
en comporte deux, puisque lon sait dj quune partie de lvnement avoir deux
filles est effectivement ralise. Examinons lespace des possibles. Linformation dont
44

nous disposons nous permet daffirmer que lventualit lmentaire GG (deux gar-
ons) nest pas ralise, et est mme quivalente cette affirmation. Rien ne nous
permet en effet de trancher plus particulirement en faveur de lune ou lautre des
trois ventalits lmentaires restantes FG,GF et FF, qui avaient a priori ( cause
du choix initial de la probabilit uniforme pour dcrire lexprience) des probabi-
lits gales de se raliser. Le seul choix de probabilit cohrent avec linformation
supplmentaire dont nous disposons est donc :

P(FG) = P(GF) = P(FF) = 1/3 , et P(GG) = 0,

et il concide bien avec la dfinition gnrale de la probabilit conditionnelle que


nous avons donne. Notez, au passage que lon nobtient pas la mme probabilit
conditionnelle en supposant que, par exemple, lan des deux enfant est une fille :
dans notre modle, la probabilit que le deuxime enfant soit une fille sachant que
le premier lest est gale 1/2. En revanche, savoir que lun des deux enfants est
une fille sans pour autant savoir sil sagit de lane ou de la cadette nous conduit
une probabilit conditionnelle de 1/3 : ces deux informations ne donnent pas lieu
la mme localisation de dans . Quoiquil en soit, nous avons vu comment un
apport dinformation nous conduit ncessairement modifier la probabilit sur les-
pace des possibles. Pour des raisons videntes de clart, il est prfrable de nommer
diffremment la probabilit conditionnelle un vnement obtenue partir de P et
la probabilit initiale P, pour marquer le fait quil sagit dune nouvelle probabilit,
conditionnelle une information supplmentaire, qui rsulte dune modification de
la probabilit initiale dfinie sur .
Dans le second exemple, nous discuterons de linterprtation frquentielle de la
probabilit (mais linterprtation en termes de plausibilit aurait galement toute sa
place ici). Intressons-nous donc lincidence de la consommation de tabac sur la
survenue ventuelle dun cancer. Un modle probabiliste trs simple utilisera lespace
des possibles :
= {FS ; FC ; NS ; NC},

o F dsigne le fait dtre un gros fumeur, N celui de ne pas ltre, C le fait dtre
atteint un jour par un cancer et S le fait de ne pas ltre (S pour sain), et la probabilit
comme la proportion de chacune des quatre ventualits (FS, FC, NS, NC) au sein
de la population (bien entendu, il conviendrait de prciser exactement ce que lon
entend par gros fumeur, quel instant on considre la population, etc..., mais nous
nous affranchirons de ces dtails pour conserver notre exemple sa simplicit). Notez
bien quil faut attendre la fin de la vie dun individu pour savoir sil va ou non
dvelopper un cancer, tandis que le fait dtre un gros fumeur ou non est observable
bien avant, et que lon est typiquement dans le cas o une observation partielle de
est possible. En dsignant par N la taille de la population, et par N () le nombre
Le modle probabiliste 45

dindividus correspondant lventualit lmentaire , on a, avec notre choix de


dfinir les probabilits comme des proportions :

N (FS) N (FC) N (NS) N (NC)


P(FS) = , P(FC) = , P(NS) = , P(NC) = .
N N N N
Toujours dans lide de dfinir les probabilits comme proportion au sein dune po-
pulation, la probabilit de dvelopper un cancer sachant que lon est fumeur doit
donc tre dfinie comme la proportion dindividus amens dvelopper un cancer
parmi la population de fumeurs, et non pas parmi la population totale soit :

N (FC)
,
N (fumeur)

o N (fumeur) dsigne le nombre de (gros) fumeurs parmi la population totale. En


notant que :

N (FC) N (FC)/N P(FC)


= = ,
N (fumeur) N (fumeur)/N P(fumeur)

on constate que cette dfinition concide avec la dfinition gnrale des probabilits
conditionnelles que nous avons donne.
Les raisonnements construits dans le cadre des deux exemples prcdents stendent
facilement pour justifier la dfinition gnrale des probabilits conditionnelles, dans
linterprtation frquentielle comme dans linterprtation en termes de plausibilit.
Du point de vue des plausibilits, la question est de dterminer comment la
plausibilit attribue chaque ventualit lmentaire doit tre modifie en tenant
compte de linformation nouvelle que A sest ralis, dune manire cohrente avec
lattribution initiale des plausibilits aux diffrents lments de . Si nest pas un
lment de A, autrement dit, si la ralisation de nest pas compatible avec celle de
A, nous sommes naturellement conduits attribuer une plausibilit nulle, puisque
nous somme certains que nest pas ralis, la ralisation de A excluant celle de .
Par ailleurs, le fait de savoir que A est ralis ne nous apporte pas dinformation
particulire sur la faon dont A sest ralis, cest--dire sur celle des ventualits
lmentaires ralisant A qui est effectivement choisie par le hasard. Autrement dit,
si nous estimions, avant de savoir que A tait ralis, quune ventualit lmentaire
1 ralisant A tait deux fois plus plausible quune autre ventualit lmentaire 2
ralisant galement A (autrement dit P(1 ) = 2 P(2 )), le simple fait de savoir que
A sest ralis ne fournit aucune raison de modifier cette estimation, et la probabilit
conditionnelle doit donc vrifier : P(1 |A) = 2 P(2 |A). Cependant, nous ne pou-
vons pas directement poser, comme il serait tentant de le faire, P(|A) = P() pour
dans A, car, tant donn le fait que nous devons ncessairement poser P(|A) = 0
pour tout qui ne ralise pas A, cette dfinition ne conduirait pas une probabilit,
46

la condition de normalisation ntant pas satisfaite. Il est facile de voir que la condi-
tion selon laquelle les rapports entre les plausibilits des lments de A doivent tre
conservs nous oblige poser P(|A) = c P() pour tout dans A (et toujours
P(|A) = 0 pour tout qui ne ralise pas A), o c est une constante. Il existe alors
un unique choix de c qui garantit le fait que P( |A) dfinisse bien une probabilit
sur , savoir c = 1/P(A), comme le montre le calcul effectu plus haut. De ce point
de vue, la dfinition que nous avons donne dune probabilit conditionnelle est donc
la seule cohrente (pour une justification base sur des considrations qualitatives
beaucoup plus gnrales, voir louvrage de Howson et Urbach, ou larticle de Van
Horn cits dans la bibliographie).
Du point de vue des frquences, il suffit de raisonner exactement comme dans
le cas du deuxime exemple : quil sagisse de proportion au sein dune population
ou de frquence observe au cours dune longue srie dexpriences rptes, cette
manire de dfinir la probabilit conduit automatiquement la dfinition que nous
avons donne dune probabilit conditionnelle.

Mise en garde 2 Il est important de ne pas confondre la probabilit dun vnement


A sachant quun vnement B est ralis, et la probabilit de survenue de lvne-
ment A et B. Dans le cas de lexemple prcdent, la probabilit de dvelopper un
cancer sachant que lon est fumeur, que lon pourrait encore baptiser probabilit de
dvelopper un cancer si lon fume, et la probabilit de dvelopper un cancer et dtre
fumeur sont deux probabilits dfinies de manire compltement diffrente. Dans les
deux cas, on sintresse au nombre de fumeurs qui seront atteints dun cancer, mais,
dans le premier cas, ce nombre est rapport au nombre de fumeurs, tandis que dans le
deuxime cas, il est rapport leffectif total de la population. Dans lautre exemple,
la probabilit davoir deux filles sachant que lon en a au moins une tait gale 1/3,
tandis que la probabilit davoir deux filles et den avoir au moins une est simplement
la probabilit davoir deux filles, et se trouve, dans le modle prcdent, gale 1/4.

1.5.1 Notions de dpendance et dindpendance entre vnements


Le point de vue formel

Etant donns un modle probabiliste (, P) et deux vnements A et B tels que


P(A) > 0, nous dirons que :
A favorise la survenue de B si P(B|A) > P(B) ;
A dfavorise la survenue de B si P(B|A) < P(B) ;
A ninflue pas sur la survenue de B si P(B|A) = P(B).
La dfinition ci-dessus ne fait pas jouer un rle symtrique aux vnements A
et B. On vrifie pourtant facilement en appliquant cette mme dfinition que, pour
des vnements A et B tels que P(A) > 0 et P(B) > 0, le fait que A favorise (resp.
Le modle probabiliste 47

dfavorise, resp. ninflue pas sur) la survenue de B est quivalent au fait que B favorise
(resp. dfavorise, resp. ninflue pas sur) la survenue de A, qui est encore quivalent
au fait que P(A B) soit suprieur (resp. infrieur, resp. gal) P(A) P(B). On
peut donc donner une forme symtrique la dfinition prcdente (qui a galement
lavantage de sappliquer des vnements de probabilit nulle), et lon prfrera
utiliser une terminologie galement symtrique vis--vis de A et de B. Ainsi, plutt
que de dire que A favorise B ou que B favorise A, on dira simplement que A et B
sont positivement associs. De la mme faon, on dfinira lassociation ngative de
A et de B, et lindpendance de A et de B.
Prcisment, la dfinition que nous utiliserons est la suivante :
A et B sont positivement associs si P(A B) > P(A) P(B) ;
A et B sont ngativement associs si P(A B) < P(A) P(B) ;
A et B sont indpendants si P(A B) = P(A) P(B).
Dans les exemples prcdents, lvnement avoir au moins une fille favorise
lvnement avoir deux filles, car la probabilit (inconditionnelle) davoir deux filles
est de 1/4, tandis que la probabilit davoir deux filles sachant que lon en a au moins
une est gale 1/3. En revanche, toujours dans notre modle, le fait que le second
enfant soit une fille est indpendant du fait que le premier le soit : la probabilit que
le second enfant soit une fille est de 1/2, et la probabilit que le second enfant soit
une fille sachant que le premier enfant est une fille est galement de 1/2. Dans le cas
de la relation tabac/cancer, les valuations statistiques des probabilits du modle
montrent que la consommation de tabac favorise la survenue dun cancer au sens
prcdent (on notera que le problme de lvaluation des probabilits telles que nous
les avons dfinies nest pas si vident, puisquil nest pas possible de dterminer pour
les individus vivant actuellement sils vont ou non dvelopper plus tard un cancer :
une extrapolation partir des donnes disponibles actuellement est incontournable).
Mme si la notion de dpendance de deux vnements entre eux est symtrique, on
prsente souvent les choses sous forme dissymtrique en comparant P(B|A) P(B),
ou P(A|B) P(A), ce qui ne pose aucun problme dans labsolu, mais donne souvent
lieu des confusions : on a vite fait de comparer P(A|B) P(B) ou P(B|A) P(A),
ce qui perd toute signification. Par exemple, pour tudier lincidence du tabagisme
sur la sant, il est loisible de comparer la probabilit pour un fumeur dtre atteint
dun cancer la probabilit dtre atteint dun cancer tout court, ou, inversement,
de comparer la probabilit pour un individu atteint dun cancer dtre fumeur la
probabilit dtre fumeur. Dans un registre plus polmique, on pourra stonner que la
probabilit pour un enfant douvrier dentrer lEcole Polytechnique soit de moins de
un sur mille alors que les enfants douvriers reprsentent plus de 10% de la population.
Pourtant, on compare ici ce qui nest pas comparable : il faudrait, pour se faire une
ide du rle jou par lorigine sociale dans la poursuite dtudes prestigieuses, soit
comparer la probabilit pour un enfant douvrier dentrer lEcole Polytechnique la
48

probabilit pour un individu quelconque de devenir polytechnicien, soit la probabilit


pour un polytechnicien davoir des parents ouvriers (actuellement, moins de 2%) au
poids dmographique des enfants douvriers (plus de 10%). Dans un cas, on compare
deux probabilits de lordre de quelques millimes, dans lautre cas, deux probabilits
de lordre du dixime, et changer les quantits que lon doit comparer ne conduit
qu une remarque vide de signification. Petit exercice (Exercice 16) : prs de soixante
pour cent des accidents de voiture graves impliquant de jeunes enfants se produisent
dans des vhicules o les enfants ne sont pas correctement attachs (source : la
brochure dinformation de ma mutuelle). Soixante pour cent, cela fait beaucoup... A
quoi faudrait-il comparer ce chiffre ?

Mise en garde 3 Soulignons que la notion dindpendance de deux vnements d-


pend de la probabilit associe au modle, et non pas simplement de la dfinition des
vnements considrs, qui, elle, ne se rfre qu lespace des possibles . Cela na
rien dtonnant, puisque ne fait que reprsenter le degr de prcision choisi pour
dcrire la situation tudie, tout le reste de linformation sur la situation accessible
au modle tant contenue dans la probabilit P. Lanons deux ds, et considrons les
deux vnements A =la somme des deux chiffres obtenus est paire et B =le 1
ou le 2 sort au moins une fois. Les vnements A et B sont-ils indpendants ? La
question na pas de sens indpendamment des probabilits dcrivant lexprience. Si
lon munit lespace des possibles

= {1; 2; 3; 4; 5; 6} {1; 2; 3; 4; 5; 6}

de la probabilit uniforme, cest effectivement le cas : A et B sont indpendants. Si la


probabilit nest pas uniforme, ce nest plus ncessairement le cas. Voir lexercice 12
Lindpendance de deux vnements dpend de la probabilit sur lespace
des possibles qui dcrit lexprience.

Mise en garde 4 Il importe de ne pas confondre la notion dvnements indpen-


dants avec celle dvnements incompatibles. Ces deux notions nont rien voir.
Rappelons que deux vnements A et B sont incompatibles sils ne peuvent se ra-
liser en mme temps, autrement dit, si A B = . Deux vnements incompatibles
peuvent-ils tre indpendants ? Si ctait le cas, on aurait, par indpendance,

0 = P(A B) = P(A) P(B),

et donc lun des deux vnements au moins devrait avoir une probabilit nulle. Dans
tous les autres cas, deux vnements ne peuvent pas tre la fois incompatibles et
indpendants, ce qui est galement vident intuitivement : si A et B sont incom-
patibles, le fait de savoir que A est ralis entrane automatiquement que B nest
Le modle probabiliste 49

pas ralis, autrement dit, apporte une information importante sur B. En particu-
lier, le fait que A et B soient indpendants nentrane en aucune manire le fait que
P(A B) = P(A) + P(B).

Dpendance et causalit

Comme vous lavez certainement remarqu, un modle probabiliste dune situa-


tion se contente de dresser une liste des diffrentes issues possibles dune situation,
et dattribuer chacune dentre elles une probabilit. De manire gnrale, il niden-
tifie pas, ni ne cherche dcrire, un quelconque mcanisme causal sous-jacent cette
situation, qui expliquerait comment seffectue le choix de lissue qui est effectivement
ralise parmi lensemble des ventualits lmentaires possibles. Bien souvent, cest
justement parce quun tel mcanisme est inconnu, ou trop complexe, ou impossible
dcrire avec suffisament de prcision, que lon a recours une modlisation de type
probabiliste. Quoiquil en soit, la notion de mcanisme causal, ou de relation de cause
effet, qui est au centre des modles dterministes en sciences (telle cause produit
telle consquence, qui son tour devient la cause dune autre consquence, etc...),
est en grande partie remplace, dans le contexte des modles probabilistes, par la
notion de dpendance dfinie ci-dessus. Malgr les apparences, la notion de dpen-
dance probabiliste est tout fait distincte de la notion de relation de cause effet,
et nous allons chercher, dans cette partie, en dlimiter un certain nombre de points
communs et de diffrences. Indiquons ds maintenant que confondre dpendance
probabiliste et relation de cause effet constitue une trs grave erreur de
raisonnement, que cette erreur est malheureusement trs rpandue, et que lon est
trs facilement conduit la commettre.
Notons dabord que la notion de causalit est elle-mme fort complexe et dlicate,
et lon se heurte rapidement des questions philosophiques si on cherche lanalyser
avec un minimum de dtail, ce dont nous nous garderons bien. Trs grossirement,
on peut tenter de dfinir lexistence dun lien de cause effet entre un vnement A
et un vnement B lorsque la ralisation de B suit celle de A et lorsque, en labsence
de A, mais toutes choses gales dailleurs, on peut conclure que B ne se serait pas
ralis.
Remarquons, cette esquisse de dfinition tant pose, que de nombreuses expli-
cations a posteriori, proposes par des experts ou des profanes pour rendre compte
des phnomnes les plus varis (par exemple, le prix de tel type de bien, le taux de
chmage, les chiffres de la dlinquance,...), prtendent distinguer des causes en se
basant simplement sur le fait que tel facteur tait prsent avant leffet constat, sans
jamais faire allusion ce qui se serait pass en labsence de ce facteur (aurait-on
ou non observ leffet en question ?). En fonction de ses prjugs ou de ses intrts,
chacun pourra donc invoquer sa guise lexplication qui lui sied le mieux, sans tenir
50

compte de la possibilit que plusieurs facteurs entrent en cause simultanment, ou


que le facteur prsent comme la cause nait peut-tre eu aucun effet rel. Erreur
grossire de logique, mais tellement rpandue, qui porte le doux nom de cum hoc
ergo propter hoc...
Dans un contexte statistique, nous ne nous laisserons bien entendu jamais aller
commettre une telle erreur, et nous aurons toujours, au moins schmatiquement,
comparaison entre une population tmoin, dans laquelle le facteur causal prsum
est absent, et une population test dans laquelle celui-ci est prsent.
Voici quelques exemples concrets de dpendances (ou encore, dassociations) ob-
serves (provenant de divers pays) dans un tel contexte. Voir lexercice 29.
en Italie, on a constat que les rgions dans lesquelles les taux dachat dordi-
nateur personnels sont les plus importants sont galement celles o les taux de
divorce sont les plus levs ;
une tude japonaise portant sur 40000 quadragnaires montre que ceux qui
se brossent les dents aprs chaque repas parviennent mieux que les autres
garder la ligne ;
il existe une association positive entre utilisation de crme solaire et cancer de
la peau ;
le nombre de noyades est positivement associ la consommation de crmes
glaces ;
le prix des cigarettes est ngativement associ au nombre des agriculteurs en
Lozre ;
en Ecosse, les achats de whisky sont positivement associs au montant des dons
reus par les glises ;
la carte du vote Le Pen lors des lections prsidentielles de 2002 se superpose
avec celle de lirradiation due au nuage de Tchernobyl ;
dans les communes qui abritent des cigognes, la natalit est plus leve que
dans le reste du pays ;
la confiance des investisseurs est positivement associe la croissance cono-
mique ;
la consommation rgulire dalcool pendant la grossesse est corrle des re-
tards de QI et des difficults dapprentissage chez les enfants ;
la hausse des recettes publiques allemandes est positivement associe la
hausse des dpenses des mnages espagnols ;
la proportion de fonctionnaires dans une ville est ngativement associe au
dynamisme conomique ;
les enfants P*** acceptent plus volontiers les repas lorsquils sont prpars par
leur pre que par leur mre ;
la prsence dun mdecin obsttricien lors dun accouchement accrot la pro-
babilit de complications ;
Le modle probabiliste 51

le fait davoir recours la pridurale diminue la mortalit lors des accouche-


ments ;
le nombre dcoles maternelles dans une ville est positivement associ au nombre
de crimes et dlits ;
les entreprises ralisant le plus de bnfices sont celles qui ont les budgets
publicitaires les plus importants ;
un viticulteur diffuse de la musique classique dans son vignoble, et lon constate
que le vin obtenu est meilleur que celui produit par ses voisins, qui disposent
pourtant de parcelles comparables pour lensoleillement et la nature du sol ;
une faible cholstrolmie favorise lapparition du cancer ;
le fait de consommer rgulirement des moules accrot le risque dattraper la
grippe.
Certains exemples ci-dessus paraissent loufoques, dautres plus recevables. Il est
important de comprendre quaucune des associations mentionnes ci-dessus ne consti-
tue un argument suffisant ou mme srieux pour affirmer lexistence dune relation de
cause effet entre les variables qui sont mentionnes. Bien entendu, dans le cas des
exemples franchement loufoques, personne ne peut srieusement penser quil existe
une telle relation. Cependant, les exemples dapparence plus srieuse sont de mme
nature, mme sil est beaucoup plus difficile dans leur cas de se dfendre contre
le penchant naturel consistant interprter une dpendance comme un rapport de
cause effet entre vnements, par exemple, parce que nous sommes dj convaincus
de lexistence dun tel rapport, et que nous sommes tents de voir dans lassociation
observe une confirmation exprimentale de notre opinion, en omettant denvisager
srieusement les autres explications possibles.
Cependant, on peut envisager plusieurs types dexplications une association
observe entre deux vnements, et lexistence dun lien de cause effet ne constitue
que lune de ces explications. Mentionnons donc :
un vritable lien de cause effet, ventuellement complexe, entre vnements :
quand on tourne la cl de contact, le moteur se met en marche (du moins en
labsence de panne) ; les dpenses de publicit dune entreprise jouent certaine-
ment un rle sur ses bnfices, mais ses bnfices jouent certainement galement
un rle sur ses dpenses de publicit ;
un facteur dit de confusion, prsentant une dpendance vis--vis de lun des
deux vnements, mais sans lien de cause effet avec celui-ci, et prsentant
en revanche un lien causal avec lautre : le pre des enfants P*** leur propose
systmatiquement des ptes, tandis que leur mre leur propose souvent des
lgumes (les pinards, beurk !).
une cause commune aux deux vnements, mais cache lorsque lon fait tat
de lassociation observe : la consommation de crmes glaces et le nombre de
noyades augmentent avec la temprature extrieure ;
52

une concidence fortuite (celles-ci tant normalement bannies par la prise en


compte dchantillons de donnes de taille suffisante, plus ce sujet dans le
chapitre Statistique).
Dans la plupart des exemples ci-dessus, on peut facilement imaginer que des
causes caches ou des facteurs de confusion sont lorigine des associations mention-
nes.
Par exemple, les rgions dItalie dans lesquelles les achats dordinateurs person-
nels sont les plus levs sont davantage les rgions du nord, lconomie prospre
et au mode de vie moderne, que les rgions du sud, moins dveloppes conomique-
ment, et o la tradition catholique est plus prsente. Le mode de vie semble donc
une cause susceptible dexpliquer la diffrence des taux de divorce, naturellement lie
aux achats dquipement informatique. Quoiquil en soit, on ne peut pas dduire de
cette dpendance que lutilisation intensive de lordinateur a tendance isoler les
poux et dtruit les couples.
De mme, on peut facilement imaginer quune bonne hygine de vie saccompagne
la fois dun brossage de dents rguliers et dune absence de surcharge pondrale.
Le simple fait de se brosser les dents nest probablement pas lui seul responsable
du maintien de la ligne !
Attention : nous navons pas prouv que, dans ces deux exemples, lassociation
observe ntait pas due un lien de cause effet. Simplement, dautres explica-
tions sont galement possibles, et rien ne permet au vu de ce qui est mentionn,
de privilgier lune des explications plutt que lautre. Plus gnralement, nous ne
sommes certainement pas en train dexpliquer quune corrlation observe nest ja-
mais le signe dune relation de cause effet entre vnements. Par exemple, dans le
cas dune consommation dalcool au cours dune grossesse, le risque li de manire
causale lalcool est considr par les mdecins comme parfaitement tabli. Sim-
plement, la mention de la dpendance statistique entre vnements ne suffit pas
prouver lexistence dun rapport de cause effet, et ne constitue pas un argument
solide pour ltablir, mme si elle peut en constituer un indice. Dans lexemple de
lalcool, on peut galement imaginer quun facteur de confusion peut jouer un rle,
par exemple, le fait que la consommation rgulire dalcool chez les futures mres
soit lie des difficults sociales ou relationnelles, qui, leur tour, peuvent retentir
sur les performances scolaires de lenfant.
On voit ainsi comment des informations stastistiques parfaitement cor-
rectes peuvent conduire des interprtations qui semble simposer natu-
rellement, mais qui sont en ralit totalement infondes. 6 .

6. Ceci est bien connu des dbatteurs qui, face un adversaire qui conteste leur argumentation,
lancent le classique et intimidant Contestez-vous ces chiffres ?. Penaud, ladversaire est en gnral
oblig dadmettre quil est daccord avec les chiffres avancs, si bien que ce qui aurait d tre le
point central de la discussion, savoir que ce ne sont pas les chiffres qui sont contests, mais la
Le modle probabiliste 53

Deux questions au moins se posent alors. Premirement, comment peut-on faire


la diffrence entre une dpendance traduisant rellement une relation de cause effet,
et une dpendance due une cause commune cache ou un facteur de confusion ?
Deuximement, si lon ne peut faire cette diffrence, le constat dune dpendance
peut-il nanmoins servir quelque chose ?
Concernant la premire question, notons quil est en principe possible dvaluer
le rle dune possible cause cache ou dun facteur de confusion ventuel en vrifiant
si la dpendance observe entre vnements continue dexister lorsque lon fixe la
cause ou le facteur en question.
Tout dabord, face une dpendance constate entre vnements, il est nces-
saire denvisager les causes caches ou les facteurs de confusion pouvant, de manire
plausible, expliquer cette dpendance. Si lon parvient une suggestion raisonnable
de cause cache ou de facteur de confusion, on peut tenter dvaluer le rle de cette
cause possible ou de ce facteur en vrifiant si la dpendance persiste lorsque lon
tient compte explicitement de la cause cache ou du facteur de confusion suggr en
fixant Pour reprendre lun des exemples prcdents : les enfants P*** acceptent-ils
toujours plus facilement de manger les repas prpars par leur pre plutt que par
leur mre lorsque lon se restreint aux situations ou le type de nourriture propos
par les parents est fix (tous les deux des ptes, ou tous les deux des pinards) ?
Si cest le cas, on ne peut mettre la dpendance observe seulement sur le compte
de la cause ou du facteur envisag. Dans les faits, la situation nest pas si simple,
car on ne dispose pas toujours des informations qui seraient ncessaires pour effec-
tuer une telle vrification. Dautre part, il peut se rvler impossible en pratique
de prendre en compte simultanment non pas une cause ou un facteur, mais un
ensemble de causes et de facteurs susceptibles dintervenir simultanment (ce qui
supposerait, par exemple, de sparer les individus dune population en groupes din-
dividus de mme sexe, mme ge, mme type de lieu de rsidence, mme catgorie
socio-professionnelle, mmes antcdents de sant, etc...), car on ne disposera pas
forcment des informations ncessaires ou de donnes en quantit suffisante ; des ap-
proches statistiques plus sophistiques ont t dveloppes pour tenter de traiter ce
type de problme, gnralement au prix dhypothses de modlisation supplmen-
taires, mais leur prsentation dpasserait largement le cadre de ce cours. Enfin, on
ne peut de cette manire tenir compte que des causes ou des facteurs explicitement
suggrs ; or, notre perspicacit, ou notre comprhension du problme, peut parfai-
tement savrer insuffisante pour que nous puissions proposer une explication fonde
sur une cause cache ou un facteur de confusion, mme si une telle explication existe.
Une solution lgante ce problme, qui nest pas toujours praticable (par exemple,
sil sagit de juger du caractre nocif dun certain comportement, par exemple, on

manire de les interprter, a de bonnes chance dtre totalement occult.


54

ne peut videmment pas forcer des individus adopter ce comportement) est de


pratiquer une exprimentation contrle randomise (voir exercice 31).
Pour une introduction plus dtaille, mais non-technique, ces questions, illus-
tre dexemples issus du domaine mdical, nous vous recommandons la lecture de
lexcellent ouvrage de Schwartz cit dans la bibliographie.
Concernant la deuxime question, une dpendance probabiliste avre constitue
une information utile, quelle rsulte ou non dun lien de cause effet, car elle suffit
dfinir ce que lon nomme en pidmiologie des facteurs de risque, et peut ainsi
servir de base des dcisions rationnelles lchelle de populations. Par exemple,
mme si aucun lien de cause effet nest mis en vidence entre le fait pour un individu
davoir sjourn dans le pays U et de dvelopper ultrieurement la maladie V, mais
quune association positive est mise en vidence, on considrera le sjour dans le
pays U comme un facteur de risque pour la maladie V, et, par exemple, on choisira
dadministrer plus systmatiquement un traitement prventif de la maladie V aux
individus ayant sjourn dans le pays U, ou, tout au moins, ce facteur de risque
interviendra de manire importante dans le calcul cot/bnfice attendu dun tel
traitement. De plus, lobservation dune telle association peut tre lindice dun lien
de cause effet li, au moins en partie, au fait de sjourner dans le pays U, et conduira
a rechercher systmatiquement lorigine de cette association, et ventuellement la
dcouverte dune cause de la maladie V.
Une dernire remarque : nous avons discut ci-dessus le fait quune dpendance
entre vnements pouvait ou non traduire une relation de cause effet, mais il ne faut
pas pour autant croire quune indpendance entre vnements soit automatiquement
le signe dun rapport de cause effet.

1.5.2 Effet de loupe et biais de slection


On parle parfois deffet de loupe probabiliste, pour insister sur le fait
que le conditionnement par un vnement A nous fait observer la loupe cet
vnement (en particulier si celui-ci est de faible probabilit), puisque lon ramne
1 la probabilit de celui-ci en grossissant proportionnellement les probabilits des
ventualits lmentaires qui le constituent, si bien que A joue en quelque sorte
le rle despace des possibles lui tout seul. Il se peut donc que P(|A) se rvle
trs diffrente de P, au moins pour le calcul de la probabilit dun certain nombre
dvnements.
Cet effet est connu en statistique sous le nom de biais de slection. Il se manifeste
par exemple lorsque lon cherche construire un modle (, P) dcrivant une cer-
taine population, mais que la population rellement atteinte par notre tude est une
sous-population de P obtenue par une certaine forme de slection, si bien que celle-ci
serait adquatement dcrite par le modle (, P(|A)) et non pas (, P). Si lon nest
Le modle probabiliste 55

pas conscient de cette diffrence entre la population que lon cherche tudier et
celle que lon tudie rellement, on sera amen attribuer P des proprits qui sont
en fait celles de P(|A), ce qui nest pas vraiment souhaitable, en particulier si ces
probabilits sont fortement distinctes ! Un exemple trs simple de ce phnomne est
constitu par les enqutes statistiques dont les rponses sont obtenues sur la base
du volontariat. Par exemple, un magazine adresse ses lecteurs un questionnaire,
mais seuls rpondent ceux qui le souhaitent. Dans ce cas, la population rellement
touche par ltude est constitue par les individus ayant souhait et trouv le temps
dy rpondre, et, dans certains cas, il est parfaitement possible quil existe une d-
pendance entre les rponses aux questions poses et le fait de souhaiter et davoir
le temps de rpondre au questionnaire (par exemple, seuls les lecteurs se sentant
particulirement concerns par les questions poses rpondront, et la rpartition de
leurs rponses peut donc diffrer de celle des rponses que fourniraient lensemble des
lecteurs du magazine). De la mme manire, la population des lecteurs du magazine
forme une sous-population bien particulire de la population totale sont distinctes, et
extrapoler les rponses de celle-ci celle-l revient ignorer la prsence de la slec-
tion. Un exemple historique de biais de slection est le sondage du magazine Literary
Digest qui, loccasion de llection prsidentielle amricaine de 1936, avait prvu la
victoire du candidat rpublicain (Landon) contre le candidat dmocrate (Roosevelt),
sur la base dune enqute postale portant sur plus de deux millions de personnes.
Cest en fait Roosevelt qui fut lu. Pour ce qui nous intresse de cette histoire, il faut
noter que la liste des personnes sondes par le magazine avait t tablie partir
dune liste de ses lecteurs, de dtenteurs dautomobiles, et dusagers du tlphone,
ce qui, lpoque, reprsentait une forte slection en faveur des couches aises de la
population, do videmment un biais de slection. Avec la confusion entre dpen-
dance et causalit, la non-prise en compte dun possible biais de slection dans un
argument statistique constitue lune des pires erreurs qui se puissent commettre. La
prsence dun biais de ce type nest cependant pas toujours facile dceler, celui-ci
pouvant se manifester en amont (par exemple au moment de la collecte des donnes),
ou en aval (aprs que celles-ci ont t collectes). Voir ce sujet lexercice 30.
Dans ce qui suit, nous donnons plusieurs exemples simples deffet de loupe pro-
babiliste.

Exemple : pourquoi votre alarme anti-intrusion se dclenche-t-elle la plu-


part du temps pour rien ?

Dcrivons la situation laide de lespace des possibles suivant :

= {CA, CN, TA, TN},


56

o A signifie que lalarme sest dclenche au moins une fois pendant vos vacances
estivales, N quelle ne sest pas dclenche, C que des cambrioleurs ont effectivement
tent de sintroduire dans votre domicile, et T que personne na rien tent de sem-
blable (T pour tranquillit). Choisissons les probabilits de la faon suivante : la
probabilit dtre victime dun cambriolage pendant vos vacances est de 1% (nous
ngligerons la possibilit que deux cambriolages puissent se produire), la probabilit
pour que lalarme se dclenche sachant que des cambrioleurs sont prsents (sensibi-
lit) est de 99%, et la probabilit pour que lalarme ne se dclenche pas en labsence de
cambrioleurs sans raison (spcificit) est de 95%. Ces informations nous permettent
de spcifier compltement les probabilits affectes chaque ventualit lmentaire,
grce la formule de Bayes. Ainsi, la probabilit P(CA) nest autre que la proba-
bilit de lintersection des deux vnements A : lalarme se dclenche et C : les
cambrioleurs sont l, qui, daprs la formule de Bayes, est gale :

P(A C) = P(A|C) P(C) = 0, 99 0, 01 = 0, 0099.

De mme,

P(CN) = P(A C) = P(A|C) P(C) = (1 P(A|C)) P(C) = 0, 01 0, 01 = 0, 0001,

P(TA) = P(A C) = P(A|C) P(C) = P(A|C) (1 P(C)) = 0, 05 0, 99 = 0, 0495,


P(TN) = P(AC) = P(A|C)P(C) = (1P(A|C))(1P(C)) = 0, 950, 99 = 0, 9505.
Votre alarme se dclenche... Quelle est la probabilit que ce soit pour rien ? Au-
trement dit, quelle est la probabilit conditionnelle de lvnement C sachant A ?
Rponse :
P(C A) P(TA) 0, 0495
P(C|A) = = = .
P(A) P(A) P(A)
Or A est la runion des deux ventualits lmentaires TA et CA, do :

P(A) = P(TA) + P(CA) = 0, 0495 + 0, 0099 = 0, 0594.

Do :
0, 0495
P(C|A) = = 0, 8333...
0, 0594
Ainsi, avec une probabilit suprieure 80%, un dclenchement de lalarme ne cor-
respond pas une intrusion de cambrioleurs. La fiabilit du systme dalarme nest
pourtant pas en cause : malgr les apparences, qui pourraient nous faire conclure
sa pitre qualit, il fonctionne avec une probabilit de 99% en prsence de cambrio-
leurs, et les dclenchements errons ne surviennent quavec une probabilit de 5%
en labsence de cambrioleurs. Cest en fait la probabilit relativement faible, 1%, de
subir un cambriolage, qui est responsable de la surreprsentation des fausses alarmes
parmi les situations o lalarme se dclenche.
Le modle probabiliste 57

On note leffet de loupe : en conditionnant par le fait que lalarme se dclenche,


la probabilit dun fonctionnement incorrect du systme est fortement accrue par
rapport ce quelle est dans labsolu (probabilit dune fausse alarme ou dun non-
dclenchement en prsence de cambrioleurs).

Exemple : pourquoi la file dattente dans laquelle vous vous trouvez au


supermarch avance-t-elle trs souvent plus lentement que la file voisine ?

Construisons encore un modle probabiliste trs simple, dont lespace des pos-
sibles est
= { S , L } { V , N } { S2 , L2 },
o S signifie que la file dans laquelle vous vous trouvez avance vitesse satisfaisante,
L quelle avance anormalement lentement (parce quun article a t mal tiquet,
parce que limprimante tickets de caisse tombe en panne...), V signifie que vous
vrifiez la vitesse de la file voisine pour confirmer votre infortune, N que vous ne vous
intressez pas la file voisine, S2 que ladite file voisine avance une vitesse que vous
jugez satisfaisante, et R2 que celle-ci avance anormalement lentement. Choisissons les
probabilits de la faon suivante : la probabilit pour que votre file avance lentement
est gale 20% ; si votre file avance rapidement, la probabilit pour que vous vous
intressiez la vitesse de la file voisine est de 4% (vous navez aucune raison de vous y
intresser, et, en plus, vous nen avez pas le temps car votre file avance rapidement...),
mais elle est de 95% si votre file avance lentement (vous avez le temps de regarder
autour de vous, et, en plus, vous cherchez une preuve du fait que, dcidment, le
sort sacharne sur vous...). Par ailleurs, supposons que, sachant que votre file avance
rapidement, ou pas, et que vous vous intressiez la file voisine, ou pas, la probabilit
que la file voisine avance lentement est, indiffremment, gale 20%, comme pour la
vtre. La question que nous posons est la suivante : sachant que vous observez la file
voisine, quelle est la probabilit que celle-ci avance rapidement et la vtre lentement ?
Ici encore, nous pourrions facilement calculer les probabilits associes chacune
des ventualits lmentaires. Nous nen avons cependant pas besoin pour rpondre
la question que nous nous posons. Appelons V lvnement vous observez la
file voisine, L lvnement votre file avance lentement et S2 lvnement la file
voisine avance rapidement. Daprs la formule de Bayes,
P(L S2 V )
P(L S2|V ) = .
P(V )
Daprs la formule de Bayes toujours,
P(L S2 V ) = P(S2|L V ) P(L V ) = P(S2|L V ) P(V |L) P(L).
Do, avec nos choix de probabilit :
P(L S2 V ) = 0, 8 0, 95 0, 2 = 0, 152.
58

Dautre part, en constatant que lvnement V scrit comme la runion disjointe des
deux vnements V L et V L, nous obtenons que :

P(V ) = P(V L) + P(V L) = P(V |L) P(L) + P(V |L) P(L).

Avec nos choix de probabilit :

P(V ) = 0, 95 0, 2 + 0, 04 0, 8 = 0, 222.

Finalement, la probabilit conditionnelle recherche P(L S2|V ) est gale :


0, 152
P(L S2|V ) = = 0, 684...
0, 222
Autrement dit, avec une probabilit de prs de 70%, lorsque vous observez la file
voisine, cest pour constater (avec rage) quelle avance nettement plus vite que la
vtre. Ce rsultat est mettre au compte du fait que lon se retourne trs rarement
quand sa file avance normalement, et trs souvent quand ce nest pas le cas. Les
observations sont ici biaises en faveur dun mauvais fonctionnement des caisses, et
lon ne peut sappuyer sur elles pour affirmer le mauvais fonctionnement global du
systme : encore un exemple de leffet de loupe.

Exemple : pourquoi faut-il prendre avec prcaution les rsultats de tests


de dpistage alarmants ?

Pour dpister une maladie, on effectue un test sanguin. Si le patient est effecti-
vement atteint, le test donne un rsultat positif avec une probabilit de 99% (sen-
sibilit). Si le patient est sain, le test donne un rsultat ngatif (spcificit) avec
une probabilit de 98%, mais peut donc malheureusement donner un rsultat positif
avec une probabilit de 2%. Nous supposerons que la probabilit dtre frapp par la
maladie est de 0,1% pour un patient se prsentant au dpistage (on peut imaginer
quil sagit dun dpistage assez systmatique, touchant une large fraction de la po-
pulation). Sachant que le test donne un rsultat positif, quelle est la probabilit que
le patient soit effectivement malade ?
Comme prcdemment, on construit un modle probabiliste dont lespace des
possibles est
= {MP, MN, SP, SN},
o M dsigne le fait que le patient soit malade, S le fait quil ne le soit pas, N le
fait que le test soit ngatif et P le fait quil soit positif. Appelons M lvnement le
patient est malade et P lvnement le test est positif. Nous cherchons donc la
probabilit conditionnelle P(M |P ). Grce la formule de Bayes, on a :
P(M P ) P(P |M ) P(M ) 0, 02 0, 999
P(M |P ) = = = .
P(P ) P(P ) P(P )
Le modle probabiliste 59

En notant que P est la runion des deux vnements disjoints P M et P M , on


obtient que :
P(P ) = P(P M ) + P(P M ).
Do, grce la formule de Bayes :

P(P ) = P(P |M )P(M )+P(P |M )P(M ) = 0, 990, 001+0, 020, 999 = 0, 02097.

Finalement, la probabilit conditionnelle recherche est gale :


0, 02 0, 999
P(M |P ) = = 0, 95278...
0, 02097
Autrement dit, lorsque le test donne lieu un rsultat positif, il sagit dun faux
positif avec une probabilit suprieure 95%... L encore, cest la trs faible inci-
dence de la maladie dans la population subissant le dpistage qui fait que, malgr les
performances apparemment honorables du test, celui-ci se rvle en pratique dune
fiabilit extrmement rduite... Si seuls se prsentaient au dpistage des patients
probablement atteints de la maladie (par exemple, sil sagissait dun test servant
surtout confirmer des soupons bien tays), la situation serait toute autre... On
note que les faux positifs demeurent fort rares dans labsolu (cest--dire, non rap-
ports au nombre de positifs, vrais ou faux, mais la totalit des tests effectus) :
la plupart du temps, le test est ngatif. De plus, lorsquil lest, cest la plupart du
temps juste titre, car la probabilit pour que le patient soit malade si le rsultat
du test est ngatif, cest--dire P(N |M ) est de lordre de 105 .
Leffet de loupe entrane encore ici une modification de la probabilit de fonc-
tionnement correct du test.

Raisonnement baysien

Les exemples prcdents illustrent dans des situations trs simples ce que lon
appelle communment le raisonnement baysien, dans lequel on cherche valuer
les probabilits dvnements pouvant apparatre comme des causes (la prsence de
cambrioleurs, le fait dtre malade) partir de lobservation dvnements pouvant
apparatre comme des effets (dclenchement de lalarme, test positif). Il sagit dune
dmarche courante dans la pratique scientifique : valuer partir dobservations les
probabilits de diffrentes hypothses pouvant expliquer celles-ci. On notera quil
est dans ce contexte ncessaire de disposer destimations a priori des probabilits
relatives aux causes (frquence des cambriolages, incidence de la maladie) et des
probabilits des effets conditionnellement aux causes, sans quoi, le modle ne peut
tre compltement spcifi, et lon ne peut mener bien ce type de raisonnement. On
retient la dmarche qui consiste considrer un modle gnral (quil est possible,
dans nos exemples, de formuler facilement) puis le conditionner par les vnements
60

observs, afin dvaluer les probabilits recherches, qui sont donc des probabilits
conditionnelles, plutt que de chercher valuer directement celles-ci. Pour en ap-
prendre beaucoup plus sur le raisonnement baysien, vous pouvez consulter louvrage
de Howson et Urbach cit dans la bibliographie.

1.5.3 Reprsentation en arbre des modles probabilistes

Dans cette partie, nous dcrivons la struture commune tous les modles pro-
babilistes qui apparaissent dans le cadre de ce cours, et qui est, en fait, commune
la plupart des modles probabilistes discrets effectivement employs. Les probabili-
ts conditionnelles y jouent un rle fondamental, et il est indispensable de matriser
compltement cette notion, ainsi que ce qui suit.
Les trois exemples (alarme, caisse, dpistage) qui prcdent illustrent lutilisa-
tion des probabilits conditionnelles de deux manires au moins : dabord pour tirer
des conclusions dans le cadre dun modle probabiliste dj construit, en tenant
compte dune information sur le droulement de lexprience, mais galement, et de
faon fondamentale, pour construire les modles probabilistes employs. En effet,
la plupart des modles probabilistes (pour ne pas dire tous) que nous considre-
rons font intervenir, et de faon prpondrante, les probabilits conditionnelles dans
leur construction, et les exemples qui prcdent illustrent cette rgle : relisez-les, et
vous constaterez quils sont entirement formuls en termes de probabilits condi-
tionnelles. Les quantits pertinentes (probabilit pour que lalarme se dclenche en
prsence dun cambrioleur, probabilit pour que le test de dpistage choue sur un
individu malade,...) qui nous apparaissent naturellement comme les paramtres du
modle, susceptibles dtre valus exprimentalement, sont des probabilits condi-
tionnelles, et cest elles qui nous permettent de dfinir la probabilit sur ! En fait,
tous les modles probabilistes que nous considrerons sont construits partir dune
structure squentielle de choix (explicitement prsente dans la situation considre,
ou pose par le modlisateur), qui sous-tend la reprsentation de la situation par les
lments de . Sur cette structure squentielle se greffent les probabilits condition-
nelles qui permettent la spcification de la probabilit P. Nous sommes ainsi amens
naturellement reprsenter laide dun arbre, dont les feuilles correspondent aux
lments de , et aux artes duquel sont attaches des probabilits conditionnelles
permettant dobtenir la probabilit de nimporte quelle feuille en effectuant le pro-
duit des probabilits conditionnelles le long de la branche de larbre menant cette
feuille. Cest en particulier le cas des trois exemples donns prcdemment (relisez-
les !), comme lillustre pour le premier exemple le schma ci-dessous, et nous allons
dans ce qui suit donner une version gnrale de cette construction.
Le modle probabiliste 61

CA P(CA)=1%*99%
P(CA|C)=99%

P(C)=1%
P(CN|C)=1%
CN P(CN)=1%*1%

TA P(TA)=99%*5%
P(TA|T)=5%
P(T)=99%

P(TN|T)=95%
TN P(TN)=99%*95%

Notez que, dans notre traitement de cet exemple dans un prcdent paragraphe,
nous avons donn une description exhaustive de , en fournissant simplement la liste
de ses lments :
= {CA, CN, TA, TN},
ce que lon aurait pu crire de manire quivalente

= {C, T} {A, N}.

Une autre possibilit aurait t de reprsenter sous forme dun tableau double
entre (en utilisant quil ny a en prsence que deux lments variables pris en compte
dans le modle : dclenchement ou non-dclenchement de sonnerie, prsence ou ab-
sence de cambrioleurs), comme suit, chaque case du tableau reprsentant une ven-
tualit lmentaire.
C T
A
N
Ces deux possibilits de reprsentation prsentent un certain intrt, mais nous leur
prfrerons souvent la reprsentation en arbre, qui simpose naturellement dans de
nombreuses situations.
De manire gnrale, lorsquune situation est dcrite en termes de choix successifs
qui dterminent progressivement lissue ralise (chaque choix comportant un nombre
62

fini ou dnombrable de possibilits), il est naturel de reprsenter laide dun arbre


enracin. Le premier choix effectuer donne lieu une premire ramification au
niveau de la racine, et chaque nouveau choix effectuer donne lieu une ramification
supplmentaire se greffant sur les prcdentes. Chaque ramification comporte autant
dartes quil y a de possibilits diffrentes pour le choix correspondant, si bien que
chaque arte de larbre sidentifie la spcification dun choix. Les k premires artes
dun chemin dterminent les dcisions prises lors des k premiers choix, et un chemin
complet menant de la racine une feuille correspond une spcification complte
des diffrents choix, autrement dit, une ventualit lmentaire du modle.
Par commodit, on choisira souvent de reprer les nuds dun arbre par des suites
de symboles (par exemple des entiers). Chaque sommet du kme niveau de larbre
(cest--dire distance k de la racine) sera numrot par une suite de k nombres
entiers permettant de la reprer, comme dcrit sur la figure ci-dessous (la racine de
larbre est note r, et reprsente le niveau 0 de larbre).

111

11

1 112

12

21

22

2 231

23

232

Les lments de , cest--dire les ventualits lmentaires, sidentifient aux


feuilles de larbre (les sommets terminaux), ou, de manire quivalente, aux rayons re-
liant la racine aux feuilles. Chaque sommet intermdiaire (cest--dire non-terminal)
sidentifie lvnement form par toutes les ventualits lmentaires qui en des-
cendent, ou encore au sous-arbre form par ses descendants. Concrtement, sil sagit
dun sommet situ au kme niveau, cet vnement sidentifie la spcification de
Le modle probabiliste 63

linformation relative la ralisation des k premires tapes de la squence des choix


par laquelle on dcrit le phnomne. En dautres termes, un sommet de larbre
est associ le sous-arbre form par ses descendants, et lensemble des feuilles de ce
constitue lvnement associ ce sommet. On notera que, si tout sommet de larbre
dfinit ainsi un vnement (la racine tant, avec notre reprsentation, associe
tout entier), tous les vnements ne sont pas ncessairement associs un sommet.
Par exemple, larbre ci-dessus pourra reprsenter lespace des possibles associ
la description des activits de vacances dun individu, structur de la manire
suivante : on peut avoir choisi soit la mer (1), soit la montagne. Si la mer a t
choisie, on peut soit faire de la voile (11), soit passer son temps bronzer sur la
plage (12). Si lon choisit la voile, on peut soit faire de la voile plusieurs (111) soit
en solitaire (112). Si lon a plutt choisi la montagne (1), on peut, soit faire du ski
alpin (21), soit du snowboard (22), soit du ski de randonne (23). Si lon choisit de
faire du ski de randonne, on peut soit partir en randonne seul (231), soit partir
plusieurs (232).
Solitaire 111

Voile 11

Plusieurs 112
Mer 1

Bronzage 12

Ski alpin 21

Snow-board 22
Montagne 2
Solitaire 231

Ski rando. 23

Groupe 232

Au niveau de description que nous avons choisi (et qui nest bien entendu pas
le seul possible, il ne sagit ici que dun exemple assez rudimentaire, et pas n-
64

cessairement pertinent), les ventualits lmentaires sont 111,112,12,21,22,231,232.


Dans notre description, 2 nest pas une ventualit lmentaire, mais un vnement :
avoir choisi la montagne, qui correspond formellement toutes les ventualits
lmentaires qui en descendent, soit 231 et 232. Bien entendu, des vnements tels
que {112, 231} (voile en solitaire ou randonne en solitaire) ne sont pas dfinis
simplement par un sommet.
Abordons prsent la manire de spcifier la probabilit pour un modle repr-
sent par un arbre. Nous associerons chaque arte a1 . . . ak1 a1 . . . ak1 ak la
probabilit conditionnelle
P(a1 . . . ak |a1 . . . ak1 ).

(Si lvnement a1 . . . ak1 est de probabilit nulle, on peut tout aussi bien lliminer
du modle, cest--dire supprimer le sommet qui lui correspond ainsi que tous ses
descendants. Aussi, nous supposerons que les vnements associs aux diffrents som-
met de larbre sont tous de probabilit non-nulle.) La connaissance de ces probabilits
conditionnelles permet de calculer la probabilit de nimporte quelle ventualit l-
mentaire (cest--dire de nimporte quelle feuille de larbre), en effectuant le produit
des probabilits conditionnelles associes aux artes du chemin menant de la racine
la feuille en question. Plus formellement, ceci sexprime laide de lgalit :

P(a1 . . . ak ) = P(a1 . . . ak |a1 . . . ak1 )P(a1 . . . ak1 |a1 . . . ak2 ) P(a1 a2 |a1 )P(a1 ).

Avant tout commentaire, donnons la preuve (facile) de cette galit : on vrifie


tout dabord que lintersection de lvnement reprsent par (a1 . . . ak1 ) et de
lvnement reprsent par (a1 . . . ak1 ak ) est gale lvnement reprsent par
(a1 . . . ak1 ak ) (ou, autrement dit, lvnement reprsent par (a1 . . . ak1 ak ) est in-
clus dans lvnement reprsent par (a1 . . . ak1 ak )). Ensuite, on se contente dap-
pliquer la dfinition des probabilits conditionnelles en tenant compte de la remarque
que nous venons de faire : le produit ci-dessus se rcrit sous la forme

P(a1 . . . ak1 ak ) P(a1 . . . ak1 ) P(a1 a2 )


P(a1 ),
P(a1 . . . ak1 ) P(a1 . . . ak2 ) P(a1 )

et tous les termes se simplifient deux--deux sauf le premier, do lgalit souhaite.


Conclusion : pour dfinir la probabilit P sur un espace des possibles reprsent
par un arbre, on peut soit donner la liste des probabilits associes chacune des
feuilles de larbre, soit donner, pour chaque arte de larbre, la probabilit condi-
tionnelle qui lui est associe comme nous lavons indiqu prcdemment. Ces deux
descriptions sont formellement quivalentes, mais le grand intrt de la seconde r-
side dans le fait que les probabilits conditionnelles en question apparaissent souvent
comme des quantits pertinentes, ayant un sens en tant que telles dans ltude du
phnomne que lon cherche modliser, et que lon peut facilement spcifier, au
Le modle probabiliste 65

contraire des probabilits finales associes directement aux lments de . Plutt que
de spcifier directement la valeur de P pour chacune des ventualits lmentaires,
on spcifiera donc plutt, pour chaque arte de larbre, la probabilit conditionnelle
qui lui est associe, la probabilit dune ventualit lmentaire se dduisant de ces
probabilits conditionnelles par produit le long des branches de larbre, de la racine
lextrmit reprsentant lventualit lmentaire en question. Les probabilits condi-
tionnelles de la forme P(a1 . . . a` |a1 . . . ak ), pour ` k, sexpriment galement trs
facilement sous forme de produit des probabilits conditionnelles le long de la por-
tion de chemin reliant dans larbre le sommet a1 . . . ak au sommet a1 . . . a` . Plus
exactement, la relation suivante est vrifie, pour k ` :

P(a1 . . . a` |a1 . . . ak ) =
P(a1 . . . ak+1 |a1 . . . ak ) P(a1 . . . ak+2 |a1 . . . ak+1 ) P(a1 . . . a` |a1 . . . a`1 ),

ce que lon vrifie aisment. De manire plus image, conditionner par un vne-
ment de la forme a1 . . . ak revient considrer le modle form par le sous-arbre issu
de a1 . . . ak et dont les probabilits conditionnelles associes aux artes sont celles du
modle initial.

Les trois exemples prsents dans la section prcdente sinsrent naturellement


dans ce cadre. Pour larbre que nous avons dcrit ci-dessus, on pourrait par exemple
spcifier la probabilit sur de la faon suivante : on a une chance sur deux de
choisir la mer, une chance sur deux de choisir la montagne. Si lon a choisi la mer,
on a deux chances sur cinq de choisir la voile, et trois chances sur cinq de choisir
le bronzage. Si lon choisit la voile, on a alors deux chances sur trois daller en soli-
taire, et une chance sur trois daller en groupe. Si cest la montagne qui est choisie,
on a alors une chance sur quatre de choisir le ski alpin, deux chances sur quatre
de choisir le snow-board, et une chance sur quatre de choisir le ski de randonne.
Enfin, si le ski de randonne est choisi, on a une chance sur trois de randonner en
solitaire, et deux chances sur trois de le faire accompagn. En reprsentant les pro-
babilits conditionnelles associes chaque arte, on obtiendrait le schma suivant :
66

111
1/3
11

2/5 2/3
1 112

1/2
3/5
12

21

1/2 1/4

2/4 22

2 231
1/3
1/4
23

2/3 232

Pour calculer la probabilit dune ventualit lmentaire, qui est donc reprsente
par un sommet terminal, il suffit de calculer le produit des probabilits condition-
nelles associes aux artes reliant la racine ce sommet. Par exemple, P(111) =
1/2 2/5 1/3, P(231) = 1/2 1/4 1/3, P(12) = 1/2 3/5. La probabilit
dun vnement peut ensuite tre obtenue, conformment la dfinition gnrale, en
effectuant la somme des probabilits des ventualits lmentaires qui le constituent.

De manire image, cette manire de dcrire un modle probabiliste revient le


fabriquer en attachant chaque sommet non-terminal a = (a1 . . . ak ) de larbre (y
compris la racine) un modle probabiliste (a , Pa ), dont les lments correspondent
aux sommets de larbre issus de a, la probabilit Pa associe chaque lment de a
donnant la probabilit conditionnelle sachant a des diffrentes sommets issus de a :

Pa1 ...ak (ak+1 ) = P(a1 . . . ak ak+1 |a1 . . . ak ).

Nous disposons ainsi dun moyen dassembler entre eux des modles probabilistes
simples (par exemple, un tirage uniforme parmi un nombre fini dlments) pour en
fabriquer de plus labors, et cest toujours ainsi que nous fabriquerons nos modles.
Ainsi, on peut voir lexemple de modle dcrit ci-dessus comme lassemblage des
Le modle probabiliste 67

modles suivants :


r = {1, 2}, Pr (1) = 1/2, Pr (2) = 1/2
1 = {1, 2}, P1 (1) = 2/5, P1 (2) = 3/5



2 = {1, 2, 3}, P2 (1) = 1/4, P2 (2) = 2/4, P2 (3) = 1/4




11 = {1, 2}, P11 (1) = 1/3, P11 (2) = 2/3
23 = {1, 2}, P23 (1) = 1/3, P11 (2) = 2/3

Bien entendu, rien ne nous oblige dfinir les a laide dentiers : nous ne les
avons prsents ainsi que pour tre disposer dune indexation des sommets de larbre
par des suites dentiers a1 . . . ak . On pourrait aussi bien avoir, par exemple (et de
manire plus explicite)

r = {mer,montagne}, Pr (mer) = 1/2, Pr (montagne) = 1/2,


mer = {voile,bronzage}, Pmer (voile) = 2/5, Pmer (bronzage) = 3/5,

montagne = {ski alpin, snow-board, ski rando.},

Pmontagne (ski alpin) = 1/4, Pmontagne (snowboard) = 2/4, Pmontagne (ski rando.) = 1/4,
mer voile = {solitaire, plusieurs}, Pmer voile (solitaire) = 1/3, Pmer voile (plusieurs) = 2/3,

montagne ski rando. = {solitaire, groupe},

Pmontagne ski rando. (solitaire) = 1/3, Pmontagne ski rando. (groupe) = 2/3,

Ainsi, un sommet de larbre situ la profondeur k pourra tre repr par une
suite de symboles de la forme b1 . . . bk , chaque lment bi tant un lment de lespace
des possibles b1 ...bi1 associ au sommet b1 . . . bi1 (avec toujours la convention selon
laquelle b1 . . . bi1 dsigne la racine r lorsque i = 1).

Reprsentation en arbre et systmes complets dvnements

Nous aurons parfois considrer des systmes complets dvnements qui sont
naturellement associs la reprsentation en arbre des modles probabilistes : ceux
constitus par des vnements associs des nuds de larbre ou encore aux sous-
arbres issus de ces nuds. Pour un tel systme dvnements, chaque rayon issu de
la racine de larbre rencontre ncessairement un et un seul des sommets associs au
systme complet.
Donnons maintenant quelques exemples simples de modles en arbre.

Exemple : rptitions indpendantes dun tirage uniforme

Considrons un modle probabiliste dcrivant le tirage uniforme dun objet parmi


m:
1 = {h1 , . . . , hm }, P1 (h1 ) = P1 (hm ) = 1/m,
chaque objet a la mme probabilit 1/m dtre choisi. On fabrique un modle pro-
babiliste (n1 , Pn
1 ) dcrivant la rptition indpendante de n tirages uniformes en
68

associant la racine, selon le procd que nous venons de dcrire, un exemplaire du


modle (1 , P1 ), puis, rcursivement, en associant chaque sommet de niveau k un
nouvel exemplaire du modle (1 , P1 ). Autrement dit, pour chaque sommet a1 . . . ak ,
a1 ...ak1 = , et les probabilits conditionnelles sur les artes sont dfinies par

Pn n
1 (a1 . . . ak |a1 . . . ak1 ) = P1 (ak ) = 1/n,

moyennant lidentification des lments h1 , . . . , hn de aux sommets de larbre issus


de a1 . . . ak1 . On obtient ainsi un arbre rgulier maire de profondeur n, dont
toutes les feuilles possdent la mme probabilit 1/mn , cest--dire que Pn 1 est la
n n
probabilit uniforme sur 1 : chaque nuplet de tirages (z1 , . . . , zn ) a la mme
probabilit dtre obtenu.
Ce modle rend bien compte dune succession indpendante de tirages, car on le
dfinit en posant que, conditionnellement aux rsultats des k premiers tirages (cest-
-dire conditionnellement a1 . . . ak ), la probabilit dobtenir lun quelconque des
lments de au k + 1me tirage est encore uniforme. Attention : il ne sagit pas
de rpter n fois le mme tirage, au sens o lon obtiendrait n fois le mme objet.
Ce que lon rpte, cest lexprience consistant effectuer le tirage, et lon obtient
en gnral des rsultats diffrents dun tirage lautre.
Bien entendu, cette construction ne se limite pas au cas dun tirage uniforme,
et nimporte quel modle probabiliste (, P) pourrait tre rpt de la sorte. Il
nest mme pas ncessaire que ce soit le mme modle qui apparaisse chaque ti-
rage, et nous dfinirons la notion de succession indpendante dexpriences alatoires
dcrites par des modles distincts (1 , P1 ), . . . , (n , Pn ). Cette notion de succession
indpendante dexpriences alatoires est si importante que nous y reviendrons en
grand dtail ultrieurement, et en particulier sur le sens prcis quil faut donner
lindpendance des n expriences dcrites par le modle. Au passage, notez que,
mme si le modle (n , Pn ) rend compte de la rptition de n tirages, il y a dans
larbre 1 + m + + mn1 , et non pas n exemplaires du modle (, P).

Exemple : tirages uniformes successifs sans remise

On peut galement modliser par un arbre des tirages successifs mais non-indpendants
cette fois. Un exemple simple est la situation o chaque tirage supprime lobjet qui
vient dtre tir des possibilits de tirages ultrieurs (do le nom), chaque objet
tant tir uniformment parmi les objets restants. Cette fois, larbre dfinissant
est un chouia plus difficile dcrire que dans le cas prcdent. Numrotons les objets
susceptibles dtres tirs par les entiers de 1 m. On fabrique le modle probabiliste
(nsr , Pnsr ) dcrivant m tirages uniformes sans remises successifs (n m) en asso-
ciant dabord la racine le modle r = {1, . . . , n} muni de la probabilit uniforme
Pr , chaque entier 1, . . . , n reprsentant le numro de lobjet choisi, puis, rcursi-
Le modle probabiliste 69

vement, en associant chaque sommet numrot a1 . . . ak de niveau k le modle


a1 ...ak = {1, . . . , n} {a1 , . . . , ak } muni de la probabilit uniforme : ce modle re-
pose sur lhypothse selon laquelle, une fois les k premiers objets tirs, lobjet choisi
au k + 1me tirage est tir uniformment parmi les objets restant. Lespace a1 ...ak
comporte n k lments, et, finalement, en effectuant le produit des probabilits
conditionnelles le long des branches de larbre, on constate que feuille de larbre se
voit attribuer une probabilit gale

1 1 1
.
m m1 mn+1

Comme dans le modle prcdent, la probabilit sur nsr est donc la probabilit
uniforme, le nombre dlments de lespace des possibles tant cette fois gal m(m
1) (m n + 1). Ici encore, la spcification de la probabilit laide de la
structure darbre est trs naturelle : conditionnellement la liste dobjets dj tirs, la
probabilit de tirer lun quelconque des objets restants est uniforme parmi lensemble
des objets restants.
Une proprit intressante de ce modle est son changeabilit. Celle-ci signi-
fie que, si est une permutation quelconque des entiers de 1 n, larbre obtenu
en indiquant au ime niveau le tirage du (i)me objet (dans la prsentation
ci-dessus, nous avions (i) = i car le i-me niveau de larbre reprsentait le ime
tirage), est le mme que celui dcrit ci-dessus, avec les mmes ramifications et, sur-
tout, les mmes probabilits conditionnelles associes aux artes. Voir lexercice 74.
Une telle proprit est galement valable pour le modle de tirages uniformes rpts
indpendamment, dcrit prcdemment (voir plus bas la discussion sur la succession
dpreuves indpendantes).

Retour sur un exemple prcdent

Nous avons dcrit plus haut lexemple :

= {0, 1}16 = {(x1 , . . . , x16 ) : xi {0, 1}},

la probabilit P sur tant dfinie par :

16
Y
P [(x1 , . . . , x16 )] = pxi (1 p)1xi ,
i=1

o p [0, 1] est un paramtre. Celui-ci peut naturellement se rcrire comme un


modle en arbre fabriqu partir de copies du modle

= {0, 1}, P (1) = p, P (0) = 1 p.


70

A la racine, on associe le modle ( , P ), et, rcursivement, tout sommet non-


terminal a1 . . . ak on associe encore le modle ( , P ). On vrifie bien que la pro-
babilit P sur dfinie plus haut concide avec celle que lon obtient en effectuant
les produits de probabilits conditionnelles le long des artes. Nous verrons un peu
plus bas que ce modle traduit lhypothse selon laquelle les vnements correspon-
dant au fonctionnement des diffrentes connexions sont globalement indpendants,
ou, en termes plus imags, selon laquelle les diffrentes connexions fonctionnent (ou
tombent en panne) indpendamment les unes des autres, et ont individuellement
chacune une probabilit p de fonctionner.

1.6 Construire un modle appropri


1.6.1 Quelques pistes
La modlisation est, en gnral, un processus volutif, rsultant dun dialogue
complexe entre connaissances acquises, donnes recueillies, et hypothses plus ou
moins bien tayes. Notre discussion prcdente sur la traduction concrte de la pro-
babilit devrait vous permettre de saisir, en gros, ce que signifie pour une situation le
fait dtre dcrite de manire satisfaisante par un modle probabiliste donn. Rappe-
lons seulement que lutilisation de la notion de probabilit ne va pas sans de multiples
hypothses, souvent implicites, sur la nature de la situation considre et le contexte
dans lequel elle se situe, et que le sens que prend la notion de probabilit dans un
modle affecte les conclusions qui en sont tires.
De manire gnrale, le choix dun modle probabiliste pour dcrire une situation
doit au moins obir aux deux contraintes antagonistes suivantes :
lespace des possibles doit donner du phnomne une description suffisa-
ment fine pour que les vnements concrets intressants correspondent des
vnements formels du modle,
il doit tre possible didentifier P, et dvaluer la probabilit des vnements
intressants (et par consquent lespace des possibles ne doit pas tre trop
complexe),
mais cela ne suffit pas en gnral dterminer (, P) de manire unique, loin de
l. Dans la plupart des exemples que nous envisagerons, cependant, la structure des
phnomnes abords sera assez simple, et fera assez clairement apparatre la fois
les quantits pertinentes dans la description du phnomne, et les hypothses de mo-
dlisation quil est raisonnable de formuler, en premire approximation. Mme dans
ce cadre limit, il nest pas toujours vident de dterminer (, P), et les remarques
qui suivent ont pour but de vous guider dans cette direction. La reprsentation en
arbre fait apparatre le problme de la dtermination du modle sous une forme assez
satisfaisante conceptuellement :
Le modle probabiliste 71

la dtermination des lments de variabilit pertinents, ceux que lon choisit


de dcrire explicitement dans le modle, aindi que dun ordre de succession
de ces lments, fournit la structure de larbre ; chaque lment de variabilit
explicitement pris en compte dans le modle donne lieu des ramifications
correspondant aux diffrentes valeurs quil peut prendre,
la structure de larbre tant fixe, il faut dterminer les probabilits condition-
nelles spcifiant P, la plupart du temps en mettant des hypothses simplifi-
catrices (indpendance, ou forme simple de dpendance), qui dterminent la
forme de P.
Enfin, et nous naborderons pas cet aspect en dtail pour linstant, quoiquil soit
absolument crucial, il est ncessaire dvaluer les diffrents paramtres (la plupart
du temps au moyen de donnes exprimentales, ou, en leur absence, en formulant
(encore) des hypothses plausibles leur sujet), et de tester la validit du modle et
des hypothses sur lesquelles il repose, en le confrontant des donnes exprimentales
ou toute information dont on dispose sur la situation tudie. Notons que lon
cherchera systmatiquement limiter le nombre de paramtres mis en jeu dans le
modle, afin de lui conserver une certaine simplicit, mais surtout pour nous donner
la possibilit dvaluer correctement ces paramtres sur la base des donnes dont
nous disposerons.
Donnons maintenant une recommandation gnrale concernant le choix de (que
nous reprsenterons toujours sous forme darbre) : les hypothses que lon formule
sur le modle doivent permettre la dtermination directe des probabilits condi-
tionnelles associes aux artes de larbre. Si larbre que vous choisissez pour dcrire
lespace des possibles ne fait pas apparatre explicitement les lments de variabilit
de la situation relativement auxquels les hypothses de modlisation sont formules,
la dtermination de P risque de se transformer en un exercice long et prilleux. En
ce sens, il est difficile de dissocier compltement la dtermination de de celle de P,
puisquil doivent tous deux reflter les hypothses que nous souhaitons formuler.
Par exemple, pour aborder la modlisation du fonctionnement du rseau de com-
munication que nous avons dcrit plus haut, il serait a priori tout aussi pertinent,
puisque tout ce qui nous intresse en dfinitive est le fait que linformation puisse
circuler de (S) vers (B), demployer lespace des possibles deux lments

1 = {linformation circule entre (S) et (B), linformation ne circule pas entre (S) et (B)},

plutt que lespace des possibles

2 = {0, 1}16 = {(x1 , . . . , x16 ) : xi {0, 1}},

que nous avons dj dcrit. Cependant, puisque nous connaissons la structure du


rseau, il semble plus efficace de dcrire le fonctionnement du rseau en termes du
72

fonctionnement de chacune des 16 connexions, ce qui nous permet de formuler lhy-


pothse selon laquelle les diffrentes connexions fonctionnent (ou tombent en panne)
indpendamment les unes des autres et ont individuellement chacune une probabilit
p de fonctionner, et de dduire directement la forme dj indique pour P2 :
16
Y
P [(x1 , . . . , x16 )] = pxi (1 p)1xi .
i=1

Si cette hypothse est vrifie, (il sagira alors dune information !) et si nous pou-
vons valuer p (par exemple, laide de donnes concernant dautres connexions du
mme type), nous pourrons dduire de (2 , P2 ) la probabilit de fonctionnement du
systme, cest--dire la probabilit pour que linformation puisse circuler de (S) vers
(B). En revanche, 1 ne permet pas directement dutiliser ces informations pour cal-
culer la probabilit P1 , et le dtour par (2 , P2 ), mme implicite, est indispensable.
Notre recommandation est alors de choisir directement et sans hsiter (2 , P2 ).

1.6.2 Compatibilit de deux modles


Si vous tes abm de perplexit lide que le choix de (, P) nest pas auto-
matique, et rong dinquitude en pensant que vous ne parviendrez pas trouver le
bon modle (, P), il ny a cependant pas lieu de vous inquiter : cette recom-
mandation est simplement destine vous guider, et son intrt est dautoriser la
dtermination directe de , de forcer les hypothses de modlisation apparatre
explicitement (ce qui permet souvent de constater que certaines dentre elles sont
incorrectes, et de les corriger), et donc de minimiser les risques derreur lors de
cette tape fondamentale quest la dtermination du modle (et qui prcde son ex-
ploitation). Plusieurs modles diffrents peuvent parfaitement rsulter des mmes
hypothses de modlisation, et donner lieu (heureusement) aux mmes conclusions
concernant les vnements intressants.
Dune manire gnrale, nous dfinirons la compatibilit entre deux modles pro-
babilistes dune mme situation de la faon suivante : (1 , P1 ) et (2 , P2 ) sont compa-
tibles lorsque, pour tout vnement concret A associ dans chacun des deux modles
un vnement formel, disons A1 1 et A2 2 , on a P1 (A1 ) = P2 (A2 ).
Bien entendu, en gnral, un vnement concret A peut ne pas dfinir dv-
nement formel dans lun ou lautre des modles, voire dans les deux, sils ne sont
pas dune finesse suffisante. Cependant, si, comme il est videmment ncessaire, les
vnements intressants relatifs au phnomne tudi correspondent toujours des
vnements formels (sinon, quoi le modle sert-il ?), la compatibilit de deux mo-
dles dune mme situation entrane le fait quils attribuent la mme probabilit aux
vnements intressants 7 .
7. Notre dfinition de la compatibilit entre modles nest pas la seule possible. En effet, un
Le modle probabiliste 73

Notre recommandation conduit souvent choisir un modle probabiliste plus


fin quil nest a priori ncessaire pour que les vnements auxquels on sintresse
apparaissent formellement dans le modle, en contrepartie des multiples avantages
que nous avons cits.
Souvent, pour une mme situation, nous serons en prsence dun modle de rf-
rence (1 , P1 ), correspondant la traduction directe des hypothses formules sur le
modle, mais nous serons amens raisonner de manire ponctuelle sur un modle
(2 , P2 ) compatible avec (1 , P1 ) et dans lequel 2 est moins fin que 1 , nous per-
mettant de nous concentrer sur un aspect spcifique de la situation considre, et/ou
de mener les calculs de manire plus simple et plus directe que ne le permettrait
lutilisation de (1 , P1 ).
Dans le cas des modles dcrits par des arbres, une manire naturelle de procder
est dlaguer larbre en liminant tous les descendants dun sommet donn, ce sommet
devenant alors une feuille de larbre lagu, ou, en dautres termes, une ventualit
lmentaire dun nouveau modle. Si lon conserve les mme probabilits le long des
artes, on obtient un modle moins fin et compatible avec le prcdent.

1.6.3 De limportance de dcrire explicitement le modle


Lun des objectifs principaux de ce cours est de vous rendre entirement naturelle
la dmarche consistant, face une situation incorporant de lincertitude, tenter de
laborder systmatiquement au moyen dune modlisation probabiliste. Dans le cadre
limit de ce cours, cet objectif se traduira par le fait que la premire tape de labord
dun problme consistera toujours prciser la forme de lespace des possibles et
de la probabilit P sur . Afin de dissiper les derniers doutes qui pourraient subsister
quant la pertinence de cette dmarche, qui peut souvent apparatre, au premier
abord, comme inutilement lourde et contraignante, en particulier au vu de la relative
simplicit des exemples traits, voici une petite liste darguments (solidement) tays
en sa faveur.
La dmarche que nous vous proposons dadopter a lavantage dtre systma-
tique, et de sadapter aussi bien des situations simples qu dautres plus com-
plexes, dont le bon sens seul ne suffit pas pour apprhender correctement la struc-
ture. Mme dans le cas des exemples relativement simples abords en TD, les limites
dune approche intuitive et non-formalise des problmes apparaissent. Lapproche
systmatique des problmes, que nous vous incitons pratiquer, permet de prciser
clairement les donnes objectives relatives au phnomne considr, les hypothses
modle probabiliste ne permet pas seulement de calculer les probabilits des vnements ayant
une traduction formelle dans le modle, mais peut galement fournir des ingalits portant sur des
vnements concrets qui, sans possder de traduction dans le modle, impliquent, ou sont impliqus
par, de tels vnements concrets. Tenir compte de ce fait conduit par exemple donner une dfinition
diffrente de la compatibilit entre modles, que nous naurons pas loccasion dutiliser.
74

de modlisation quil est possible ou souhaitable de formuler, la nature des questions


quil est possible daborder dans le cadre de cette modlisation ainsi que la manire
de les rsoudre. Il devient ainsi possible de critiquer la modlisation effectue et de
mieux en cerner la porte et les limites de validit.
Lexigence de prcision que suppose une telle dmarche, outre le fait quelle
est indispensable pour garantir la validit de votre approche, permet galement de
la communiquer dautres, et elle peut ainsi tre value, critique, confronte
dautres approches et finalement exploite. Lidal vers lequel il faut tendre dans la
prsentation de la modlisation dun phnomne alatoire est rapprocher dun code
informatique correct, comment et document. Lexpression sy plie une norme
stricte, les diffrents lments qui interviennent sont explicitement dfinis, chaque
tape est justifie, et le fonctionnement global est galement dcrit. Dailleurs, nous
verrons ultrieurement quun modle convenablement dcrit doit permettre, au moins
en principe, une transcription facile sous forme de code informatique permettant de le
simuler. Comme un code informatique, la description dun modle ou son utilisation
peut tre entache dincohrences (erreurs de syntaxe, qui, dans notre contexte, ne
peuvent malheureusement pas tre dbusques par le compilateur), et un modle
formellement correct peut fournir des rsultats errons sil se fonde sur une analyse
incorrecte de la situation (un programme qui sxcute ne fait malheureusement pas
toujours ce que le cahier des charges lui imposait de faire, si des erreurs de conception
ou dimplmentation ont t commises.) Bien entendu, toute analogie a ses limites...
Enfin, satisfaire ces (multiples) exigences ne demandera pas, la plupart du temps,
un effort surhumain de votre part, car la plupart des modles que nous utiliserons
seront construits de manire presque automatique partir dhypothses standards
sur les situations modlises.

1.7 Un exemple fondamental : la succession dpreuves


indpendantes
La reprsentation en arbre nous permet facilement dassembler entre eux des mo-
dles probabilistes simples pour en fabriquer de plus complexes. Nous allons tudier
plus en dtail lune des manires dassembler entre eux des modles, qui prsente
une importance fondamentale dans le cadre de la modlisation, et dont nous avons
dj rencontr quelques exemples auparavant : la succession dpreuves indpen-
dantes. La problmatique est la suivante : nous disposons de n modles probabilistes
(i , Pi ), i = 1, . . . , n, chacun dcrivant un phnomne (une preuve) particulire,
et nous souhaitons fabriquer un modle probabiliste rendant compte de la succession
indpendante des preuves dcrites par chacun des modles (i , Pi ). Notez bien
quil peut sagir dune succession au sens chronologique du terme, chaque preuve
Le modle probabiliste 75

ayant concrtement lieu lune aprs lautre, que dune succession aussi bien que dune
succession suppose, les preuves pouvant aussi bien avoir lieu simultanment que
dans un ordre chronologique compltement diffrent de celui suggr par la numro-
tation 1, . . . , n.
Comme nous lavons dj suggr sur des exemples dans les parties prcdentes,
on peut dcrire cette succession laide du modle en arbre suivant, dfini rcur-
sivement : la racine, on associe le modle (1 , P1 ), et, rcursivement, au sommet
(a1 . . . ak ), k n 1 , on associe le modle (k , Pk ). Autrement dit, les probabilits
conditionnelles sont dfinies par :

P(a1 . . . ak+1 |a1 . . . ak ) = Pk (ak ).

Dans lgalit ci-dessus, ak+1 reprsente une issue de lpreuve numro k + 1, cest--
dire un lment de k+1 , et la dnomination de succession indpendante est justi-
fie par le fait que, conditionnellement aux ralisations des k premires expriences
(reprsentes par (a1 . . . ak )), la probabilit dobtenir ak+1 lors de la k + 1me ex-
prience est gale Pk+1 (ak+1 ), cest--dire la probabilit dobtenir ak+1 dans le
modle (k+1 , Pk+1 ) qui dcrit individuellement lpreuve numro k + 1. Autrement
dit, la connaissance des ralisations des k premires preuves ne modifie pas la proba-
bilit Pk+1 dcrivant individuellement la ralisation de la k + 1me. Notez que cette
dfinition des probabilits conditionnelles est la seule possible si lon veut traduire
lindpendance des expriences les unes vis--vis des autres. Nous allons prsent
dcrire quelques proprits de ce modle, qui, quoiquassez videntes intuitivement,
mritent tout de mme dtre formules prcisment et prouves. Nous pourrons ainsi
prciser la notion dindpdance mutuelle sous-jacente au modle (et ce sera gale-
ment loccasion de nous entraner un peu la manipulation de ce type de modle en
arbre).
On note tout dabord que, pour utiliser la notation mathmatique courante, les-
pace des possibles dfini prcdemment par sa reprsentation en arbre sidentifie au
produit cartsien :
1 n .
De plus, la probabilit sur dfinie par la rprsentation en arbre ci-dessus, que
nous noterons P1 Pn , peut sexprimer explicitement sous la forme (qui justifie
la notation) :

P1 Pn (a1 . . . an ) = P1 (a1 ) Pn (an ),

a1 . . . an correspondant lventualit lmentaire de 1 n dans laquelle


lissue de lexprience numro i est donne par ai , pour tout i = 1, . . . n.
Lorsque tous les (i , Pi ) sont gaux un seul et mme (1 , P1 ), on note

n1 = 1 1
76

et
Pn1 = P1 P1 ,

et lon parle de rptition indpendante plutt que de succession.


Au passage, notez que lordre (rel ou suppos) dans lequel la succession des
preuves a lieu ninflue pas sur les consquences concrtes que lon tire du modle :
si lon permutait lordre dans lequel les expriences sont indexes, pour fabriquer le
modle dcrivant la succession indpendante des mmes preuves, mais dans un ordre
diffrent, on aboutirait, pour un mme vnement concret, la mme probabilit dans
chacun deux modles. On retrouve une proprit dchangeabilit comparable celle
dj mentionne pour le modle de tirages uniformes successifs sans remise.
Lidentit crite ci-dessus pour P1 Pn est encore valable pour des vnements
dont la dfinition comporte des jokers, du type :

a1 a3 a4 a8 a9 . . . an ,

ou, plus gnralement :

ai1 ai2 aip ,

correspondant au fait que lissue de lpreuve numro i1 est donne par ai1 , celle de
lpreuve numro i2 par ai2 ,..., celle de lpreuve numro ip par aip , les issues des
autres preuves ntant pas spcifies. Plus prcisment, en notant (pour conomiser
un peu de place) := 1 n et P := P1 Pn , on a :

P( ai1 ai2 aip ) = Pi1 (ai1 ) Pi2 (ai2 ) Pip (aip ).

Vrifions cette proprit.Notons A lvnement ai1 ai2 aip .


Par dfinition de la probabilit dun vnement comme somme des probabilits des
ventualits lmentaires qui le constituent et par dfinition de P partir des Pi , on
a:
X
P(A) = P(d1 , . . . , dn )
(d1 ,...,dn )A
X
= P(d1 , . . . , dn )
(d1 ,...,dn ) : di1 =ai1 ,...,dip =aip
X
= P1 (d1 ) Pn (dn ).
(d1 ,...,dn )n : di1 =ai1 ,...,dip =aip

Dfinissons J = {1, . . . , n} {i1 , . . . , ip }, et notons j1 , . . . , jnp les lments de


Le modle probabiliste 77

J. Daprs ce qui prcde,


X
P(A) = Pj1 (dj1 ) Pjnp (djnp ) Pi1 (ai1 ) Pip (aip )
(dj1 ,...,djnp )j1 jnp

X
= Pi1 (ai1 ) Pip (aip ) Pj1 (dj1 ) Pjnp (djnp )
(dj1 ,...,djnp )j1 jnp

 X X
= Pi1 (ai1 ) Pip (aip ) Pj1 (dj1 ) Pjnp (djnp ) .
dj1 j1 djnp jnp

En notant que chacune des sommes du type


X
Pjk (djk )
djk jk

est en fait la somme sur toutes les ventualits lmentaires de lespace jk des
valeurs de la probabilit Pjk , on constate que toutes ces sommes sont en fait gales
1, do finalement lgalit recherche :

P( ai1 ai2 aip ) = Pi1 (ai1 ) Pi2 (ai2 ) Pip (aip ).

Vous observerez que seules les notations sont impressionnantes, la dmonstration


elle-mme ntant quune petite manipulation sur les produits de sommes par-
tir de la dfinition de P. Cette remarque vaut pour toutes les dmonstrations qui
suivent, et le premier qui a peur des notations a perdu ! Il est galement possible de
prouver ce rsultat en utilisant judicieusement une reprsentation arborescente. Voir
lexercice 62.
Posons-nous prsent la question suivante : que signifie pour un vnement A
le fait de sexprimer seulement en termes des rsultats des expriences numrotes
i1 , . . . , ip et pas des autres ? Quelques instants de rflexion nous conduisent la
rponse suivante : si A se met sous la forme :

A = {(d1 , . . . , dn ) 1 n : (di1 , . . . , dip ) Ai1 ,...,ip },

o Ai1 ,...,ip est un sous-ensemble de i1 ip . En effet, lexpression ci-dessus


traduit bien le fait que, pour une ventualit lmentaire (a1 , . . . an ), le fait dtre
un lment de A ne donne lieu aucune condition sur al si l / {i1 , . . . , ip }, mais
simplement une condition (sous la forme la plus gnrale possible) sur ai1 , . . . , aip .
Une autre manire de prsenter les choses est de dire que A scrit comme une runion
dvnements deux--deux disjoints du type :

ai1 ai2 aip .


78

En effet, crire A sous la forme

A = {(d1 , . . . , dn ) 1 n : (di1 , . . . , dip ) Ai1 ,...,ip },

revient lcrire :
[
A= ai1 ai2 aip ,
(ai1 ,...,aip )Ai1 ,...,ip

les vnements apparaissant dans la runion ci-dessus tant par ailleurs deux--deux
disjoints car, si (ai1 , . . . , aip ) 6= (a0i1 , . . . , a0ip ), il existe au moins un indice il tel que
ail 6= a0il , et les vnements

a i1 a i2 a ip

et
a0i1 a0i2 a0ip

sont donc incompatibles (ils imposent deux valeurs diffrentes pour la mme coor-
donne il ).
Nous pouvons maintenant noncer la proprit connue sous le nom de tho-
rme des coalitions : si la dfinition de A ne fait intervenir que les rsultats des
expriences numrotes i1 , . . . , ip et si la dfinition de B ne fait intervenir que les
rsultats des expriences numrotes j1 , . . . , jq , et si les deux ensembles dindices
I = {i1 , . . . , ip } et J = {j1 , . . . , jq } sont disjoints, alors A et B sont indpendants.
Avant tout commentaire, prouvons cette proprit. Tout dabord, notons que, si
les deux ensembles dindices I = {i1 , . . . , ip } et J = {j1 , . . . , jq } sont disjoints, un
vnement de la forme A = ai1 ai2 aip et un vnement de la
forme B = bj1 bj2 bjq sont toujours indpendants. En effet,
leur intersection scrit :

A B = ck1 ck2 ckp+q ,

o
{k1 , . . . , kp+q } = {i1 , . . . , ip } {j1 , . . . , jq },

et o cki = aki si ki I et cki = bki si ki J. (comme I et J sont disjoints, I J


comporte |I| + |J| = p + q lments.) Par consquent :

P(A B) = Pk1 (ck1 ) Pkp+q (ckp+q )


= Pi1 (ai1 ) Pip (aip ) Pj1 (bj1 ) Pjq (bjq )
= P(A) P(B),
Le modle probabiliste 79

le passage de la premire la deuxime ligne utilisant le fait que I et J sont disjoints.


Le thorme des coalitions, que nous souhaitons dmontrer, affirme plus gnralement
que lon a indpendance entre A et B lorsque A est de la forme :

A = {(d1 , . . . , dn ) 1 n : (di1 , . . . , dip ) Ai1 ,...,ip },

et B de la forme

B = {(d1 , . . . , dn ) 1 n : (dj1 , . . . , djq ) Bj1 ,...,jq },

o Ai1 ,...,ip est un sous-ensemble de i1 ip , et Bj1 ,...,jq est un sous-ensemble


de j1 jq .
Pour deux tels vnements A et B, crivant A sous la forme dune runion dv-
nements deux--deux disjoints :
[
A= ai1 ai2 aip
(ai1 ,...,aip )Ai1 ,...,ip

et B sous la forme dune runion dvnements deux--deux disjoints :


[
B= bj1 bj2 bjq ,
(bj1 ,...,bjq )Bj1 ,...,jq

on en dduit que
X
Pn ( ai1 ai2 aip )
 
P(A) =
(ai1 ,...,aip )Ai1 ,...,ip

et que X
Pn ( bj1 bj2 bjq ) .
 
P(B) =
(bj1 ,...,bjq )Bj1 ,...,jq

Dautre part, on obtient, en distribuant lintersection par rapport aux runions,


que : lvnement A B se rcrit sous la forme
[ [
( ai1 ai2 aip )( bj1 bj2 bjq ).
(ai1 ,...,aip )Ai1 ,...,ip (bj1 ,...,bjq )Bj1 ,...,jq

Les vnements

ai1 ai2 aip , (ai1 , . . . , aip ) Ai1 ,...,ip

tant deux--deux disjoints, de mme que les vnements

bj1 bj2 bjq , (bj1 , . . . , bjq ) Bj1 ,...,jq ,


80

cest galement le cas des vnements

( ai1 ai2 aip ) ( bj1 bj2 bjq ),

o (ai1 , . . . , aip ) dcrit Ai1 ,...,ip et o (bj1 , . . . , bjq ) dcrit Bj1 ,...,jq . (petit exercice ne
prsentant aucune difficult, chercher vous-mme.) Par consquent, P(A B) est
gale (les sont remplacs par des pour limiter la taille des formules) :
XX  
P ( ai1 ai2 aip ) ( bj1 bj2 bjq )
XX    
= P ( ai1 ai2 aip ) P ( bj1 bj2 bjq ) ,
PP
o la notation dsigne la sommation
X X
,
(ai1 ,...,aip )Ai1 ,...,ip (bj1 ,...,bjq )Bj1 ,...,jq

daprs le rsultat prcdent selon lequel, I et J tant disjoints, un vnement de


la forme ai1 ai2 aip et un vnement de la forme bj1
bj2 bjq sont toujours indpendants. On en dduit que P(A B) est
gal

X   X  
P ( ai1 ai2 aip ) P ( bj1 bj2 bjq ) ,
(ai1 ,...,aip )Ai1 ,...,ip (bj1 ,...,bjq )Bj1 ,...,jq

do finalement, daprs les expressions prcdentes de P(A) et P(B), le fait que

P(A B) = P(A) P(B).

Il est galement possible de prouver ce rsultat en utilisant judicieusement une


reprsentation arborescente. Voir lexercice 62.
Ouf ! Ce rsultat est important car on lutilise souvent en pratique pour va-
luer la probabilit de divers vnements dans le cadre dune succession indpendante
dpreuves. Nous le retiendrons sous la forme suivante, qui en justifie le nom : dans
le cadre dune succession indpendante dpreuves, deux vnements dont les dfini-
tions font intervenir des coalitions disjointes dpreuves sont indpendants. Peut-tre
estimez-vous que ce rsultat est vident et ne ncessite donc pas de dmonstration.
Il tait cependant indispensable den fournir une afin dillustrer la cohrence de la
dfinition formelle dune succession indpendante dpreuves et lide intuitive que
nous pouvons nous faire des proprits dune telle succession. Ce rsultat nous per-
met galement de formaliser la notion, dlicate, dindpendance mutuelle, ou encore
globale, dune famille dvnements A1 , . . . , An .
Commenons avec trois vnements. Partant de la dfinition de lindpendance
de deux vnements A et B exprime sous la forme P(A B) = P(A) P(B), il serait
Le modle probabiliste 81

tentant dessayer de dfinir lindpendance de trois vnements A, B, C par le fait


que P(A B C) = P(A) P(B) P(C).
Une telle dfinition nest cependant pas raisonnable, car, en prenant C = , on
constate quelle est vrifie pour tout couple dvnements A et B, indpendants ou
non. Or il semble raisonnable de demander que trois vnements indpendants dans
leur ensemble le soient au moins deux--deux.
Cela suffit-il ? Etudions un petit exemple.

Exemple :

La duchesse dAquitaine et la duchesse de Bourgogne attendent chacune lhritier


de leur duch. On dcrit la situation laide du modle probabiliste suivant :

= {GG,GF,FG,FF},

o la premire lettre indique le sexe de lhritier dAquitaine, et la seconde celui de


lhritier de Bourgogne, et la probabilit sur est la probabilit uniforme. Consid-
rons les trois vnements :
A = lhritier dAquitaine est un garon,
B = lhritier de Bourgogne est une fille,
C = les deux hritiers sont de sexe oppos.
On vrifie facilement que A = {GG, GF}, B = {GF, FF}, C = {GF, FG},
A B = {GF}, A C = {GF}, B C = {GF}. Par consquent :
P(A B) = 1/4 = P(A) P(B),
P(A C) = 1/4 = P(A) P(C),
P(B C) = 1/4 = P(B) P(C),
et les trois vnements A, B, C forment donc une famille dvnements indpendants
deux--deux. En revanche, la ralisation de A et de B entrane automatiquement
celle de C, et donc,
P(C|A B) = 1 6= P(C).

En ce sens, C nest pas indpendant de A et B puisque quune information portant


sur A et B (en loccurrence, leur ralisation simultane), modifie la probabilit de
ralisation de C. On ne peut donc pas raisonnablement dire que A,B et C sont glo-
balement indpendants entre eux. Lindpendance deux--deux est donc insuffisante.
Pour dfinir lindpendance mutuelle dune famille dvnements A = (A1 , . . . , An )
dun modle probabiliste (, P), dfinissons dabord un autre modle probabiliste
(A , PA ), compatible avec (, P) mais moins fin, qui ne rend compte que de la ra-
lisation (ou de la non-ralisation) de chacun des vnements Ai :

A = {A1 , Ac1 } {An , Acn }.


82

Pour que la probabilit PA rende (A , PA ) compatible avec (, P), on doit naturel-


lement avoir :
h i h i
PA Af11 , Af22 , . . . , Afnn = P Af11 Af22 Afnn ,

o les fi peuvent prendre la valeur c , Afi i dsignant alors Aci , ou la valeur (blanc), Afi i
dsignant alors tout simplement Ai . Nous dirons alors que les vnements (A1 , . . . , An )
sont mutuellement, ou encore globalement indpendants, lorsque le modle (A , PA )
concide avec le modle form par la succession indpendante des modles (i , Pi )
dfinis par :

i = {Ai , Aci }, Pi (Ai ) = P(Ai ), Pi (Aci ) = 1 P(Ai ).

En termes plus prosaques, nous pouvons dfinir lindpendance mutuelle des


vnements A1 , . . . , An de la faon suivante : pour toute famille f1 , . . . , fn dindices
telle que fi { ,c }, on a lgalit :
h i h i h i
P Af11 Af22 Afnn = P Af11 P Afnn .

Les deux dfinitions sont quivalentes, mais la premire, quoiquun peu plus abs-
traite au premier abord, a lavantage de bien expliquer la seconde. De plus, nous
pouvons (en vertu de la premire dfinition) utiliser le thorme des coalitions dans
notre contexte : si A1 , . . . , An sont des vnements mutuellement indpendants, et
si I = {i1 , . . . , ip } et J = {j1 , . . . , jq } sont deux familles dindices disjoints de
{1, . . . , n}, un vnement dfini seulement partir des vnements Ai1 , . . . , Aip et un
vnement dfini seulement partir des vnements Aj1 , . . . , Ajq sont indpendants.
Nous voyons donc apparatre ce qui constitue le cur de la notion dindpendance
globale dune famille dvnements : non seulement les couples dvnements de cette
famille doivent tre indpendants, mais galement les couples de coalitions dv-
nements de cette famille se rapportant deux groupes dvnements spars. Par
exemple les vnements A1 se produit et A4 ne se produit pas et A2 , A3 ou A5
se produit.
Comment utiliser cette notion ? La plupart du temps, nous lutiliserons sous la
forme suivante : nous saurons a priori que les vnements A1 , . . . , An sont mutuelle-
ment indpendants, et nous utiliserons ce fait pour calculer les probabilits du type
h i
P Af11 Af22 Afnn ,

qui seront donc gales h i h i


P Af11 P Afnn .
Le problme sera donc la plupart du temps le suivant : comment tablir quune
famille dvnements A1 , . . . , An est bien une famille dvnements mutuellement
Le modle probabiliste 83

indpendants ? Sans surprise, nous rencontrerons la plupart du temps les familles


dvnements indpendants dans le cadre des successions indpendantes dpreuves.
Plus prcisment, nous allons prouver la proposition suivante : dans un modle
(, P) dcrivant une succession indpendante de N preuves, une famille A1 , . . . , An
dvnements dont les dfinitions se rfrent des ensembles dindices deux--deux
disjoints, est une famille dvnements mutuellement indpendants. Autrement dit,
si, pour tout i, la dfinition de lvnement Ai ne se rfre quaux preuves dont les
numros figurent dans lensemble dindices Ii {1, . . . , n}, et si, pour tout 1 i 6=
j n, Ii Ij = , alors les vnements A1 , . . . , An sont mutuellement indpendants.
La preuve de ce rsultat repose sur une application itre du thorme des coa-
litions : en effet, considrons des vnements A1 , . . . , An satisfaisant les hypothses
ci-dessus, et cherchons calculer la probabilit dun vnement du type :

A1f1 Af22 Afnn .

On constate que, daprs nos hypothses, les deux vnements Afnn , dune part, et
f
Af11 Af22 An1
n1

dautre part, se rfrent deux groupes dpreuves disjoints, donc le thorme des
coalitions entrane que ces deux vnements sont indpendants, et, par consquent,
que : h i h i
fn1
P Af11 Af22 Afnn = P Af11 Af22 An1 P(Afnn ).
En itrant largument, on vrifie bien que lon a finalement :
h i h i h i
P Af11 Af22 Afnn = P Af11 P Afnn .

1.7.1 Une histoire de singe


Dcrivons prsent, pour nous distraire un peu avant la fin de ce chapitre et
nous rcompenser des efforts accomplis jusquici, lhistoire du singe dactylographe.
La voici : un singe est plac devant un ordinateur (dans les versions plus anciennes,
il sagissait dune machine crire...) et pianote alatoirement sur le clavier. Pour
simplifier, nous supposerons que le clavier ne comporte que deux touches, P et F, ce
qui fait que le singe saisit directement en binaire, et que la succession des touches
frappes par le singe peut tre modlise par une succession dexpriences indpen-
dantes consistant choisir lune des deux touches, chacune ayant une probabilit de
1/2 dtre choisie. Posons-nous alors la question : quelle est la probabilit pour que
le singe, une fois plac devant lordinateur, saisisse directement (cod en binaire ca-
ractre par caractre, laide de P et de F) le texte du Discours de la mthode de
Descartes ? Extrmement faible, voire nulle, rpondrez-vous, et ce avec quelque raison
puisque, en estimant que le texte contient environ 130000 caractres alphabtiques et
84

signes typographiques, et requiert donc environ lutilisation de 6 130000 = 780000


caractres binaires, on obtient une probabilit de 2780000 , et cet vnement semble
donc pratiquement impossible. En revanche, la probabilit pour que le singe crive
compltement le texte du Discours de la mthode au bout dun certain temps
devient, si lon sautorise attendre suffisament longtemps, extrmement proche
de 1 ! Prcisons ceci. Appelons N le nombre total de touches que lon autorise le
singe frapper avant darrter lexprience, et considrons la suite (a1 , a2 , . . . , aL )
(L 780000) forme par le codage binaire du texte de Descartes. Lvnement A1
correspondant au fait que le singe saisisse immdiatement (cest--dire partir de la
premire touche frappe) le codage binaire du Discours de la mthode, scrit tout
simplement, avec nos notations, sous la forme :

A1 = a1 a2 . . . aL ,
| {z }
longueur totale N

et lon a, dans notre modle,


PN (A1 ) = 2L .

Dfinissons plus gnralement, pour 1 i N L + 1, lvnement Ai :

Ai =
| {z
} a1 a2 . . . aL | {z
} ,
i1 jokers N L+1i jokers

qui correspond au fait que le texte du Discours de la mthode est saisi partir du
ime caractre frapp par le singe (comme on arrte lexprience aprs la N me
touche frappe, on doit ncessairement avoir i N L+1, sans quoi le texte naurait
pas la possibilit dtre saisi compltement.) Chaque vnement Ai a galement une
probabilit gale 2L dans notre modle. Lvnement
N L+1
[
BN = Ai ,
i=1

correspond, par dfinition, au fait que, au bout dun certain temps, le singe sai-
sit entirement le texte du Discours de la mthode, et nous allons montrer que,
lorsque N tend vers linfini (cest--dire, lorsque lon poursuit lexprience pendant
un nombre de touches frappes qui tend vers linfini), la probabilit PN (BN ) tend
vers 1, ou, autrement dit, que lvnement BN devient trs probable lorsque N tend
vers linfini.
On ne peut pas calculer la probabilit de BN en utilisant une relation du type :
L+1
NX
N
P (BN ) = PN (Ai ),
i=1
Le modle probabiliste 85

car les vnements Ai ne sont pas en gnral deux--deux disjoints (si N est assez
grand, on pourrait trs bien avoir plusieurs versions du Discours de la mthode
figurant la suite dans le texte saisi par le singe). (Les guillemets sont l pour
rappeler aux amateurs de lecture en diagonale que lgalit nest pas valable.)
Pour montrer que la probabilit de BN est proche de 1 lorsque N tend vers linfini,
nous allons plutt tenter de montrer que la probabilit de son complmentaire, BN c

tend vers zro lorsque N tend vers linfini. Le complmentaire dune runion tant
lintersection des complmentaires, on a :
N L+1
\
c
BN = Aci ,
i=1

Chaque vnement Ai ayant une probabilit gale 2L de se produire, les vne-


ments Aci ont chacun une probabilit gale 12L de se produire. Si les vnements
Ai formaient une famille dvnements mutuellement indpendants, la probabilit de
B c serait simplement donne par :
N L+1
Y
PN (BN
c
)= (1 P(Ai )).
i=1

Malheureusement, ce nest pas le cas, car, par exemple, la ralisation de Ai est


incompatible avec celle de Ai+1 (pourquoi ?). En revanche, A1 est indpendant de
AL+1 car ces deux vnements font rfrence deux groupes disjoints dexpriences :
A1 ne se rfre quaux rsultats des L premires frappes, alors que AL+1 ne se rfre
quaux rsultats des expriences numrotes de L + 1 2L.
Plus gnralement, les vnements A1 , AL+1 , A2L+1 , . . . , ..., AkL+1 sont mutuel-
lement indpendants car ils se rapportent des groupes dexpriences deux--deux
disjoints, (k devant bien sr vrifier lingalit (k + 1)L N , autrement dit, k
bN/Lc1, buc dsignant la partie entire de u). Puisque nous souhaitons simplement
obtenir une minoration de la probabilit de lvnement BN (nous voulons montrer
que celle-ci est proche de 1 lorsque N est assez grand), il nous suffit de majorer la
probabilit de lvnement BN c , et il nest pas ncessaire de la calculer exactement.

Or lvnement BN c correspond la ralisation simultane des N L + 1 vnements

Ac1 , Ac2 ,...,AcN L+1 , et par consquent :


N L+1 bN/Lc1
\ \
c
BN = Aci AckL+1 .
i=1 k=0

Ce dernier vnement tant, daprs ce qui prcde, une intersection dvnements


mutuellement indpendants, sa probabilit peut tre facilement calcule :

bN/Lc1 bN/Lc1
N
\ Y bN/Lc
P c
AkL+1 = P(AckL+1 ) = 1 2L .
k=0 k=0
86

On en dduit finalement que :


bN/Lc
PN (BN
c
) 1 2L .

Lorsque N tend vers linfini, bN/Lc tend galement vers linfini (L est fix, L
bN/Lc
780000). Comme (1 2L ) < 1, 1 2L tend vers zro lorsque N tend vers
linfini, et cest galement le cas de la probabilit PN (BNc ). Do en dfinitive le fait

que la probabilit de BN tend effectivement vers 1 lorsque N tend vers linfini.


Autrement dit, pourvu que N soit assez grand, la probabilit pour que le texte
du Discours de la mthode figure quelque part dans le texte saisi par le singe
peut tre rendue arbitrairement proche de 1, et, pour de grandes valeurs de N , la
ralisation de cet vnement est quasiment certaine. Ceci tant, les valeurs de N
ncessaires pour que la probabilit de A soit effectivement proche de 1 sont extr-
mement grandes, N devant au moins tre de lordre de 2780000 . En admettant que
le singe frappe une touche par seconde, le temps ncessaire pour que la probabilit
dobserver effectivement A dpasse la valeur 103 , par exemple, est trs largement
suprieur lge estim de lunivers...
Cette petite anecdote illustre le rle important jou par les ordres de grandeurs :
suivant le nombre de rptitions de lexprience que lon ralise, le mme vnement
pourra apparatre comme pratiquement impossible ou au contraire pratiquement
certain.

1.7.2 Tout rsultat est exceptionnel !


Comme vous naurez pas manqu de le noter, lexemple prcdent correspond un
modle de type pile ou face, dans lequel des preuves binaires ( deux issues) sont
rptes. En dpit de sa simplicit, et pour toutes sortes de raisons, dont quelques
unes apparatront dans la suite, ce modle joue un rle important dans la thorie des
probabilits, ce qui justifie que nous nous attardions quelque peu sur son tude.
Lexprience alatoire consiste lancer une pice de monnaie et noter le rsulat :
pile (P), ou face (F) (on suppose que la pice ne reste jamais sur la tranche). Le
modle probabiliste qui dcrit une preuve est donc = {P,F}, la probabilit sur
tant dfinie par (
P(P) = p
P(F) = 1 p

o p [0, 1] nest pas ncessairement gal 1/2. Le modle probabiliste correspon-


dant N successions indpendantes de lancers fait appel lespace des possibles
N = {P,F}N constitu de toutes les suites de P et de F de longueur N , et la
probabilit PN est dfinie par : PN (1 , . . . , N ) = P(1 ) P(N ), chaque
i pouvant prendre lune des deux valeurs P ou F. On peut galement reprsenter
Le modle probabiliste 87

N par un arbre binaire rgulier de profondeur N , chaque sommet non-terminal


tant associe une copie du modle (, P). En examinant de plus prs lexpression de
PN , on constate que la probabilit dune suite donne de P et de F (1 , . . . , N ) ne
dpend que du nombre total de P et de F, et non pas de lordre dans lequel ceux-ci
surviennent. Ainsi, si S(1 , . . . , N ) dsigne le nombre total de P prsents dans la
suite (1 , . . . , N ), la probabilit PN se met sous la forme :
PN (1 , . . . , N ) = pS(1 ,...,N ) (1 p)N S(1 ,...,N ) ,
(le nombre de F prsents dans (1 , . . . , N ) tant gal N S(1 , . . . , N )).
Lorsque p = 1/2, on a p = 1 p, et lexpression se simplifie :
PN (1 , . . . , N ) = (1/2)S(1 ,...,N ) (1/2)N S(1 ,...,N ) = (1/2)N ,
autrement dit, la probabilit PN (1 , . . . , N ) ne dpend pas de (1 , . . . , N ), et il
sagit donc de la probabilit uniforme sur N , conformment une remarque prc-
dente : lorsque p = 1/2, lespace probabilis dcrivant lexprience dun seul lancer
est muni de la probabilit uniforme, et, par consquent, la probabilit sur (N , PN )
dcrivant la succession indpendante de N lancers est la probabilit uniforme sur
N .
Quelle est la suite de P et de F la plus probable dans le modle prcdent ? Si
p = 1/2, nous venons de voir que la probabilit est uniforme et que, par consquent,
aucune suite nest plus probable quune autre. Si p > 1/2, au contraire, la suite la
plus probable est celle qui ne comporte que des P (et inversement, si p < 1/2, cest
celle qui ne comporte que des F). Dans tous les cas, la suite de P et de F la plus
probable a une probabilit de la forme hN o 0 < h < 1, et donc, mme la probabilit
de la suite la plus probable tend extrmement rapidement vers zro lorsque N tend
vers linfini. Ainsi, lorsque N est grand, quelle que soit la suite de P et de F que nous
observions effectivement, celle-ci navait de toute faon a priori quune probabilit
extraordinairement petite de survenir. En ce sens, nimporte quel rsultat des N
lancers est exceptionnel !

1.7.3 Succession indpendante ?


Afin de parfaire votre comprhension de la notion de succession indpendante
dexpriences, et de vous armer face quelques difficults conceptuelles qui appa-
raissent frquemment lorsque lon aborde lestimation statistique, nous vous invitons
rflchir la question suivante. On effectue 101 lancers dune pice de monnaie,
que lon modlise par une succession indpendantes de lancers, modliss chacun
individuellement par lespace de probabilit = {P,F}, la probabilit sur tant
dfinie par (
P(P) = p
,
P(F) = 1 p
88

la valeur du paramtre p nous tant inconnue. Imaginons quaprs 100 lancers, on


constate que lon a obtenu 80 fois pile, et seulement 20 fois face. Il semble alors
raisonnable (nous reviendrons plus en dtail sur ce point aux chapitres suivants)
destimer la valeur de p environ 80/100 = 0, 8, et donc daffirmer que le 101-me
lancer a environ 80 pour cent de chances de donner pile. Si lon avait obtenu 50 pile
(et donc 50 face), on aurait de mme estim p environ 50/100 = 0, 5, et estim que
le 101-me lancer a environ une chance sur deux de donner pile. Il semble donc que
les rsultats des 100 premiers lancers influent sur le rsultat du 101-me, puisquils
nous permettent de dterminer (en gros) la probabilit pour que celui-ci donne pile.
Le modle (101 , P101 ) est pourtant tel que, quels que soient les rsultats des 100
premiers lancers, la probabilit (conditionnelle) dobtenir pile lors du 101-me lancer
sachant ces rsultats est toujours la mme, savoir p, ce qui est la dfinition mme
de lindpendance. Il ny a l quun paradoxe apparent li notre ignorance de la
valeur de p : linformation que nous fournissent les rsultats des 100 premiers
lancers sur la valeur de p nest pas de la mme nature que linformation fournie sur
le droulement dune exprience alatoire par la ralisation dun certain vnement.
Dans ce modle, on considre que la valeur de p est fixe (elle correspond une
caractristique de la pice et de la manire dont les lancers sont rpts), mme si
nous ne la connaissons pas, et quelle na aucun caractre alatoire sur la probabilit
duquel la ralisation des 100 premiers lancers serait susceptible de nous renseigner.
En revanche, si lon imaginait (on aura alors affaire un second modle) que lon
procde 101 lancers indpendants successifs dune pice de monnaie, aprs avoir
choisi la pice en question au hasard parmi trois pices prsentant des caractristiques
diffrentes, la probabilit p associe la pice utilise apparatrait comme alatoire,
et linformation fournie par les rsultats des 100 premiers lancers nous fournirait une
information (au sens des probabilits conditionnelles) sur la pice qui a t choisie. En
revanche, sachant celle des pices qui a t slectionne, la succession des lancers est
une succession dexpriences indpendantes. En ce sens, et mme si lon ne se trouve
pas dans un cadre o p est lui-mme lobjet dun choix alatoire, on dira parfois
que le premier modle est tel que conditionnellement la valeur p, la succession des
tirages est indpendante. Bien entendu, la succession indpendante dexpriences ne
constitue quun modle dune situation relle, et pas la ralit elle-mme. Mme aprs
avoir observ pour les 100 premiers lancers 80 piles et 20 face, le modle de succession
indpendante avec p = 1/2 prvoit une probabilit exactement gale 1/2 pour pile
et 1/2 pour face lors du 101-me lancer. Dans ce cas, le modle est compltement
discrdit par les donnes observes, et, moins davoir de trs bonnes raisons de
croire par ailleurs sa validit dans cette situation, il est sans doute plus raisonnable
de le jeter aux orties.
Le modle probabiliste 89

1.8 Concidences troublantes

1.8.1 Cest vraiment incroyable !

Commenons par citer trois exemples documents de concidences troublantes.


(Source : http://www.csj.org/infoserv_articles/astop_unlikely_events.htm)
La romancire britannique Rebecca West tait en train dcrire un rcit dans
lequel une petite fille trouvait un hrisson dans son jardin. Aussitt le passage crit,
les domestiques linterrompirent dans son travail pour lui signaler quils venaient de
trouver un hrisson dans son jardin.
Lcrivain amricain Norman Mailer navait pas initialement prvu, lorsquil en-
tama la rdaction de son roman Barbary Shore, dy inclure un espion russe comme
personnage. Il le fit pourtant et, au cours de lcriture du livre, ce personnage passa
progressivement dun rle secondaire celui de personnage principal du roman. Aprs
que la rdaction fut acheve, les services amricains de limmigration arrtrent le
voisin du dessus de Norman Mailer, que lon prsenta comme lun des principaux
espions russes en activit aux Etats-Unis lpoque.
Plusieurs noms de code utlra-secrets furent utilises par les forces Allies dans
la prparation du dbarquement du 6 juin 1944 en Normandie, parmi eux : Utah,
Omaha (dsignant les plages o le dbarquement devait avoir lieu), Mulberry (pour
dsigner le port artificiel qui devait tre install une fois le dbarquement entam),
Neptune (pour dsigner le plan des oprations navales), et Overlord (dsignant la
totalit de lopration). Le 3 mai 1944, le mot Utah apparut comme lune des rponses
dans le problme de mots croiss du London Daily Telegraph ; le 23 mai, ce fut
au tour dOmaha ; le 31 mai, celui de Mulberry ; et enfin, le 2 juin, Neptune et
Overlord firent leur apparition dans le mme contexte ! Aprs une enqute pousse
des services de renseignement britanniques, lauteur des problmes de mots croiss
apparut comme totalement innocent, sans aucune ide du projet de dbarquement,
et ayant apparemment choisi au hasard les mots employs.
Plus loufoque : en 1981, le prince Charles sest mari, Liverpool a t champion
dEurope, et le Pape est dcd. En 2005, galement le prince Charles sest mari,
Liverpool a t champion dEurope, et le Pape est dcd.
Vous avez certainement connaissance dune foule dautres anecdotes de ce genre,
peut-tre issues de votre exprience personnelle (Je pensais justement hier soir
mon ami Jojo que je navais pas vu depuis deux ans et... chose incroyable, il mappelle
au tlphone ce matin. En visitant le chteau de Blois lors des dernires vacances,
cest incroyable, je tombe sur mon collgue T*** au beau milieu de la cour., Cest
vraiment surprenant que tu voques ce sujet, car justement, nous en parlions hier ma
femme et moi.,...), et les exemples les plus frappants sont parfois rapports dans les
journaux. En rdigeant ce passage, jai appris quun collgue mavait aperu la veille
90

(un dimanche) un page autoroutier, o nous nous trouvions donc simultanment


lui et moi.
On justifie souvent son propre tonnement devant ce genre de concidence par des
arguments bass sur la probabilit extrmement faible de lvnement en question.
Il parat en effet assez raisonnable, dans les exemples voqus plus haut, de
nattribuer quune probabilit assez faible aux concidences dont il est question. Mais
pourquoi au juste devrait-on stonner de les avoir observes ?

1.8.2 Ce que lon observe est presque toujours improbable


Prenons lexemple le plus simple de modle probabiliste, cest--dire une succes-
sion indpendante de lancers de pile ou face. Lanons une pice dix fois de suite, et
notons la suite de rsultats obtenus : P pour pile et F pour face. Nous obtenons donc
une suite de P et de F de longueur 10, telle que PPFPFFPPFP. Quelle probabilit
une suite (x1 , . . . , x10 ) {P,F}10 a-t-elle de sortir dans notre modle ? Rponse :
1/210 quelle que soit la suite, soit moins dune chance sur 1000. Autrement dit, quel
que soit le rsultat produit par nos lancers, nous constaterons toujours quil navait
quune trs faible probabilit de survenir. Cette constatation ne vaut pas seulement
pour ce cas particulier, mais pour la plupart des modles probabilistes et des situa-
tions concrtes, ds que lon cherche les dcrire autrement que par un trs petit
nombre dalternatives diffrentes. De ce point de vue, tout ce que lon observe, dcrit
avec suffisament de dtail, possde une probabilit extrmement faible pour la plu-
part des dfinitions raisonnables de la probabilit. La probabilit pour que vous vous
trouviez exactement l o vous vous trouvez, et non pas quelques centimtres plus
loin, que vous ayez exactement la position que vous avez, que vous ayez rencontr
aujourdhui les personnes que vous avez rencontres, linstant exact o vous les
avez rencontres, est vraisemblablement trs faible. De ce point de vue, il ny a pas
lieu de stonner de la faible probabilit de lvnement que lon vient dobserver.

1.8.3 Des cocidences surprenantes doivent se produire


Une autre manire de raisonner sur les concidences frappantes, consiste les
replacer dans un cadre plus gnral, dans lequel on prend en compte lensemble des
circonstances susceptibles de nous apparatre comme des concidences surprenantes
dans un contexte donn (au cours dune priode de temps donne, parmi un groupe
dindividus donns, etc...). Mme si chacune de ces concidences possde individuelle-
ment une trs faible probabilit de survenir, le grand nombre dvnements que nous
sommes susceptibles dinterprter comme des concidences tonnantes peut rendre
extrmement probable le fait que nous observions rgulirement et donc relevions
un certain nombre dentre elles.
Le modle probabiliste 91

1.8.4 Attention linterprtation

Le plus souvent cependant, les concidences que nous relevons ne nous frappent
pas seulement en raison de leur faible probabilit (la plupart du temps bien relle,
comme nous venons de lexpliquer), mais parce quelles semblent suggrer une inter-
prtation qui dfie le sens commun un destin mystrieux conduit des amis stant
perdus de vue depuis longtemps se retrouver par hasard lors dun voyage ltran-
ger, un trange don de prmonition vous a fait deviner les trois premiers chiffres du
tirage du loto de ce soir, ou penser un cousin loign juste avant que celui-ci ne
vous appelle au tlphone, etc...
Lattitude rationnelle face ces concidences consiste bien entendu tester dabord
de manire systmatique les conclusions que leur interprtation suggre, avant de
gloser plus avant. Par exemple, le fait de penser une personne accrot-il rellement la
probabilit que celle-ci vous appelle peu aprs ? Pour en juger, il est ncessaire den-
registrer systmatiquement les occasions o il vous arrive dvoquer une personne de
connaissance en pense, et de mesurer la frquence avec laquelle ces penses sont sui-
vies dun appel de la personne en question dans un dlai raisonnablement bref. Ainsi,
on vite le biais de slection (ici, dorigine psychologique), consistant stonner,
et donc retenir, les cas o la personne laquelle vous venez de penser vous appelle,
tout en oubliant de remarquer, et donc en ngligeant, tous les cas o lon pense
une personne sans que celle-ci nappelle dans les minutes qui suivent, et le problme
plus vident, mais parfois ignor, de loubli de variabilit qui consisterait tirer des
conclusions partir de lobservation dune unique concidence.
Il parat vraisemblable quen procdant de cette manire, aucun accroissement
significatif de la probabilit dtre appel ne sera mis en vidence. Toutefois, cela peut
parfaitement tre le cas sans que cela soit pour autant le signe que vous possdez
un don particulier, tout simplement parce quil peut tre plus probable dvoquer
en pense des personnes auxquelles on a eu affaire dernirement, en particulier ses
proches, et qui sont par consquent plus susceptibles de vous appeler que dautres.

1.8.5 Quand stonner ?

Les observations prcdentes sont destines vous mettre en garde contre un


tonnement infond ou, pire une interprtation erronne, face des concidences
observes, ou rapportes ( ce propos, se pose toujours le problme de la fiabilit des
sources).
Pourtant, si un modle dune situation prdit quun certain vnement ne doit
survenir quavec une faible probabilit, ny a-t-il jamais lieu dtre surpris, cest--
dire de mettre en doute le modle, si lon observe cet vnement ? La rponse est
positive, mais cela nest pas incompatible avec les remarques prcdentes.
92

A priori et a posteriori

Dans ce qui prcde, nous avons constat que, la plupart du temps, on pouvait
rtrospectivement attribuer une trs faible probabilit la manire particulire
selon laquelle une situation stait ralise. Il est bien vident que, dans ce cas,
lvnement dont on examine la probabilit dpend de la manire dont la situation
sest ralise (cest compltement vident dans lexemple des lancers de pile ou face).
En revanche, lorsque lvnement de faible probabilit auquel on sintresse est fix
indpendamment par exemple lavance de la ralisation de lexprience, il y
a tout lieu dtre surpris si celui-ci se produit, et cela doit inciter, sinon rejeter
le modle, du moins rexaminer les arguments en faveur de celui-ci (de manire
systmatique, naturellement !).
Quant savoir partir de quel niveau de probabilit il convient de stonner,
tout dpend du contexte, et il nest pas forcment de bonne politique de fixer une
limite a priori en-de de laquelle les vnement sont considrs comme improbables,
et au-dessus de laquelle leur apparition doit tre considre comme non-surprenante.
Dautre part, en pratique, il nest bien entendu pas toujours vident de sassurer
quil y a bien indpendance entre lvnement considr et la ralisation de lexp-
rience (voir la section Hypothses suggres par les donnes).

Familles dvnements

La seconde remarque concernant les vnements de faible probabilit consistait


noter quun trs grand nombre dvnements de faible probabilit susceptibles de
survenir seraient remarqus comme des concidences, et quil tait donc plus pertinent
de considrer la probabilit de la runion de la totalit de ces vnements, plutt
que la probabilit de lun dentre eux (celui qui justement sest produit) isolment.
(On vite ainsi de faire dpendre lvnement que lon considre de la manire dont
lexprience sest ralise.) Dans le cas o lvnement que lon considre ne dpend
pas de la ralisation de lexprience, il ny a pas lieu de dresser une telle liste !

Probabilit dune runion

Rappelons que, de manire gnrale, on ne peut pas dduire la probabilit dune


runion P(A1 An ) des probabilits individuelles, P(Ai ), et lon dispose seulement
dingalits, telle que la borne de la runion :
n
X
P(A1 An ) P(Ai ),
i=1
que lon peut utiliser en toute gnralit, et qui est une galit lorsque les vnements
Ai sont deux--deux disjoints ; on dispose galement, dans le cas gnral toujours,
des ingalits et des galits provenant du principe dinclusion-exclusion.
Le modle probabiliste 93

On voit ainsi que, en toute gnralit, si lon dispose de n vnements dont toutes
les probabilits sont infrieures une valeur , tout ce que lon peut en dduire en
gnral est le fait que P(A1 . . . An ) n, et lon ne peut ainsi affirmer que la
runion de tous ces vnements est improbable du fait que chacun des vnements
lest, que lorsque n << 1. Bien entendu, rien ne prouve, et il nest pas vrai en
gnral, que n soit le bon ordre de grandeur pour cette probabilit. Dans le cas
particulier dvnements indpendants, on peut nanmoins crire que
n
Y
P(A1 . . . An ) = 1 (1 P(Ai )).
k=1

En admettant que tous les vnements aient pour probabilit exactement , on en


dduit que P(A1 . . . An ) = 1 (1 )n . On en dduit alors facilement que cette
probabilit est voisine de 1 lorsque n >> 1.

1.8.6 Un magicien dou


Voici un petit exemple imaginaire destin illustrer quelques unes des observa-
tions prcdentes.
Ce soir, au cours dune mission de tlvision succs, une exprience de para-
psychologie de grande ampleur est en train davoir lieu. M. M***, magicien de son
tat, prtend pouvoir, par la seule force de son esprit, tre capable de faire griller les
ampoules lectriques chez les tlspectateurs. Ceux-ci ont donc t invits allumer
chez eux diverses lampes lectriques, et, aprs plusieurs minutes de concentration
intense de la part de M. M***, des tlspectateurs appellent par dizaines le stan-
dard de lmission pour tmoigner queffectivement, une, et mme dans certains cas
plusieurs ampoules lectriques ont rendu lme pendant que M. M*** se concentrait.
En admettant que lmission en question soit regarde par plusieurs millions de
foyers, et que la probabilit pour une ampoule lectrique de griller au cours dune
minute dutilisation soit denviron 1/60000 (ce qui correspond une dure de vie
moyenne denviron mille heures), on sattend ce quil y ait plusieurs milliers de
tlspectateurs chez qui des ampoules grillent au cours de lmission, et, par voie de
consquence (que feriez-vous leur place, hein ?), contactent le standard de lmis-
sion.
Pris individuellement, le fait quune ampoule grille au moment prcis ou M. M***
se concentre semble trs surprenant, car trs improbable sous lhypothse que M.
M*** ne dtient aucun pouvoir particulier : environ une chance sur 60000. Pourtant,
si notre estimation de 1/60000 est correcte, ainsi que celle de plusieurs millions de
tlspectateurs, ainsi que lhypothse dune certaine indpendance entre le grillage
des ampoules chez les diffrents tlspectateurs, ce qui serait surprenant serait plutt
que personne nappelle pour faire part de sa surprise. Replacs parmi lensemble des
94

grillages dampoules susceptibles de survenir chez les tlspectateurs, la multitude


dappels constate na donc rien de surprenant. Bien entendu, les tlspectateurs
chez qui rien de particulier nest survenu, qui forment pourtant lcrasante majorit
(sans doute plus de 99,9%) ne se prcipitent pas forcment sur leur combin pour
composer le numro (peut-tre surtax) permettant dappeler lmission, car ils ne
pensent pas avoir observ quoique ce soit de remarquable. Si lon ne se fie quaux
appels passs pour estimer la probabilit de succs de M. M***, on commet tout
simplement un (atroce) biais de slection.
Intressons-nous maintenant la manire dont peut raisonner un tlspectateur
sceptique chez qui une ampoule lectrique vient pourtant de rendre lme. Naccor-
dant aucun crdit M. M***, il cherche pourtant examiner les faits objectivement,
et ne peut que constater le succs de M. M*** en ce qui le concerne. Lvnement qui
vient dtre observ est trs improbable sous lhypothse que M. M*** ne possde
aucun don, et cet vnement a bien t dfini indpendamment du rsultat de lex-
prience, avant que celle-ci nait lieu (ou du moins, cest ainsi que M. D*** voit les
choses individuellement, nous savons quil nen est rien puisque nous nous intressons
M. D*** justement cause du rsultat de lexprience survenu chez lui). M. D***
devrait donc tre amen remettre en question la validit de son hypothse selon
laquelle M. M*** nest quun charlatan ? Eh bien oui ! Cependant, M.D*** doit tenir
compte de lensemble des lments dont il dispose, qui, vraisemblablement, lincitent
trs fortement douter de la ralit des pouvoirs de M. M***, et le rsultat de
lmission ne constitue donc pas ncessairement un argument trs fort en faveur des
pouvoirs parapsychologiques. (Le raisonnement baysien fournirait par exemple un
cadre pour quantifier ceci de manire prcise.)
Si M. D*** cherche aborder les choses de manire systmatique, il tentera
nouveau lexprience (en admettant que M. M*** rapparaisse plusieurs fois la
tlvision, ou que M. D*** va jusqu inviter M. M*** chez lui pour en avoir le cur
net), pour constater que M. M*** ne russit presque jamais. Ou encore, il sinformera
des rsultats constats chez un grand nombre de personnes (pas seulement chez
celles ayant contact lmission, sous peine de biais de slection, mais au sein dun
chantillon reprsentatif), pour constater que M. M*** na russi chez quasiment
aucune dentre elles. Cette situation est bien entendu un peu caricaturale, car peu de
gens prennent au srieux les parapsychologues et autres tordeurs de petites cuillres,
mais le mme genre de phnomne peut apparatre dans bien dautres contextes.
Imaginons par exemple que 50 quipes scientifiques tudient sparment limpact
dun nouveau produit, disons la vitamine X, sur la gurison dune maladie, par
exemple le cancer. Chaque quipe conduit son tude dans les rgles (essais randomiss
en double aveugle, chantillons reprsentatifs de la population traiter, constitution
de groupes tmoins et utilisation de placebos). Sur les 50 quipes, 49 observent des
rsultats non-concluants quant lefficacit du mdicament. En revanche lune des
Le modle probabiliste 95

quipes observe un taux de gurison si lev chez les patients traits laide de la
vitamine X, que, sous lhypothse que la vitamine X est sans effet sur le cancer, on ne
puisse esprer observer un tel taux quavec une probabilit denviron 2%. Lquipe
en question, qui travaille seule, estimera avoir de bonnes raisons de penser que la
vitamine X possde un effet rel sur le cancer !

1.9 Auto-valuation
Quest-ce quun modle probabiliste (en tant quobjet mathmatique) ?
Que reprsente concrtement lespace des possibles ?
Quelles sont les diffrentes traductions concrtes de la notion de probabilit ?
Donnez au moins trois sens nettement diffrents de la notion de probabilit,
assortis dexemples dans chacun des cas.
Tout ce qui est a priori susceptible de varier dans une exprience alatoire
figure-t-il explicitement dans le modle ?
Quest-ce quun vnement formel dans le cadre dun modle probabiliste ?
Quel lien y a-t-il entre vnement concret et vnement formel ?
Un vnement concret est-il toujours associ un vnement formel ?
Comment dfinit-on la probabilit dun vnement partir de la probabilit
associe aux lments de lespace des possibles ?
Y a-t-il en gnral un ou plusieurs modles probabilistes susceptibles de dcrire
la mme situation ? Quelles peuvent tre les diffrences ? Que reprsentent-
elles ?
Que signifie la compatibilit de deux modles ?
Y a-t-il toujours compatibilit entre un modle plus fin et un modle moins fin
dune mme situation ?
Quest-ce quun modle plus fin quun autre ?
A-t-on toujours lgalit P(A B) = P(A) + P(B) (faire un dessin) ? Sinon,
quelle est la relation qui a lieu en gnral entre ces deux quantits ? Quen est-il
avec n vnements A1 , . . . , An au lieu de deux ?
Comment est dfinie (formellement) la probabilit conditionnelle ?
Que reprsente-t-elle concrtement ?
Comment calcule-t-on la probabilit dun vnement conditionnellement un
autre ?
Quest-ce que leffet de loupe probabiliste (donnez au moins un exemple) ?
Que signifie la dpendance de deux vnements ?
Que signifie lindpendance de deux vnements ?
Diffrence(s) entre relation de cause effet et dpendance probabiliste entre
vnements ?
Dans un modle en arbre, que reprsentent les feuilles de larbre ?
96

Dans un modle en arbre, que reprsentent les ramifications de larbre ?


Dans un modle en arbre, que reprsentent les nombres associs aux artes ?
Dans un modle en arbre, comment dfinit-on la probabilit sur ? Comment
se calcule-t-elle ?
Comment modlise-t-on une succession indpendante dpreuves ?
Quest-ce que le thorme des coalitions ?
Que sont n vnements mutuellement indpendants ?
Doit-on tre surpris si lissue effectivement ralise dune exprience est trs
improbable dans le modle dont on dispose ? Devons-nous alors modifier le
modle ?

1.10 Exercices
Exercice 1 Chaque matin, au rveil, Jojo peut se livrer (ou non) chacune des
activits suivantes :
se laver
se brosser les dents
boire un caf
couter la radio
se raser
Dcrire un espace des possibles permettant de modliser les activits matinales de
Jojo.
Appelons A lvnement Jojo se rase, B lvnement Jojo se brosse les dents,
C lvnement Jojo coute la radio. Dcrire les vnements formels correspondants
ces vnements dans lespace des possibles que vous avez choisi.
Exprimer laide des vnements A, B, C les vnements suivants :
ce matin, Jojo se brosse les dents mais ncoute pas la radio
ce matin, Jojo ncoute pas la radio mais se brosse les dents
ce matin, Jojo boit un caf ou se rase, mais ncoute pas la radio
ce matin, Jojo, ou bien se rase, ou bien se brosse les dents, et dans tous les cas
coute la radio
ce matin, Jojo, ou bien se rase, ou bien se brosse les dents et coute la radio
ce matin, Jojo, ou bien se rase et ncoute pas la radio, ou bien se brosse les
dents et coute la radio
ce matin, Jojo ne se rase pas, ou ne se brosse pas les dents ni ncoute la radio
ce matin, Jojo se rase ou se brosse les dents ou coute la radio
ce matin, Jojo ne se rase pas, ou bien il coute la radio et se brosse les dents
ce matin, Jojo ne se rase pas, ou bien il se rase et coute la radio
Le modle probabiliste 97

Exercice 2 Dans un espace de probabilit (, P), soient deux vnements A, B tels


que A B. Prouvez que P(B \ A) = P(B) P(A).
Quen est-il si lon ne suppose plus que A B ?

Exercice 3 Pour chacun des exemples ci-dessous, expliquer comment on doit, selon-
vous, interprter la probabilit qui y apparat, et comment (trs grossirement) on
pourrait tenter dvaluer celle-ci (et donc confirmer ou infirmer les valeurs propo-
ses).
La probabilit pour que le candidat A soit lu lors de la prochaine lection
prsidentielle est de 60%.
La probabilit pour que la pice de monnaie tombe sur face est de 50%.
La probabilit pour que lquipe de football du Brsil lemporte demain face
lAllemagne est de 1/4.
La probabilit pour quil pleuve demain Lyon est de 1/3.
La probabilit pour quil ait plu il y a exactement 3000 ans sur le site aujour-
dhui occup par Lyon est de 1/3.
La probabilit pour quune mtorite de plus de 500m de diamtre de circon-
frence percute la terre au cours du prochain millnaire est de moins de 2%.
La probabilit pour que la fuse explose au dcollage est de moins de 2%.
La probabilit, pour un individu n en France en 1920, de vivre plus de 80 ans
est de 75%.
La probabilit pour un individu n en France en 1954, de vivre plus de 80 ans
est de 85%.
La probabilit pour un individu n en France en 1954 de possder un chien
est de 60%.
La probabilit pour que D*** (qui est n en France en 1954) possde un chien
est de 70%.
La probabilit pour quun atome de carbone 14 subisse une dsintgration au
cours des 5730 prochaines annes est de 50%.
La probabilit pour quun photon incident mis par la source S soit absorb
par le dtecteur D est de 1/3.
La probabilit pour que lpidmie se propage est de 5%.
La probabilit pour quun paquet de donnes mette plus de 0,1 seconde pour
tre transmis dans le rseau est de 10%.
La probabilit pour que lenfant natre soit une petite fille est de 1/2.
La probabilit pour que la croissance du PIB soit cette anne suprieure 2%,
est de 70%.

Exercice 4 Trois candidats, appelons-les A, B et C, se prsentent llection pr-


sidentielle du Jojostan. A lissue du premier tour, le candidat obtenant le moins de
98

voix sera limin, et le candidat prsent au second tour obtenant le plus de voix (et
donc la majorit) sera lu prsident. Un institut de sondage a ralis une enqute
sur ltat de lopinion publique au Jojostan en demandant 10 000 personnes de
classer par ordre de prfrence dcroissant les trois candidats. Les rponses obtenues
(en pourcentages) se rpartissent de la faon suivante :

ABC ACB CAB CBA BAC BCA


19% 16% 25% 8% 10% 22%

Quel est le pourcentage dindividus qui prfrent A B ? B C ? A C ? En


supposant que le sondage reflte fidlement les intentions de vote des lecteurs, quel
candidat obtiendra le plus de voix lissue du premier tour ? Quel sera le candidat
limin au premier tour ? Quel sera le candidat finalement lu ?
Fabriquez vous-mme un exemple de rpartition des prfrences pour lequel le
pourcentage dindividus qui prfrent B A dpasse 50%, le pourcentage dindividus
qui prfrent B C dpasse 50%, mais pour lequel le candidat finalement lu nest
pas B.

Exercice 5 Vrifiez que la probabilit P dfinie sur

= {0, 1}16 = {(x1 , . . . , x16 ) : xi {0, 1}},

par :
16
Y
P [(x1 , . . . , x16 )] = pxi (1 p)1xi ,
i=1

en est bien une. Montrez que ce modle apparat comme une succession dpreuves
indpendantes.

Exercice 6 Pour prvoir le temps quil fera demain, Alfred se base en partie sur
les mouvements de sa grenouille. Batrice, elle, se fie plutt aux prvisions de la
mtorologie nationale. Finalement, Alfred utilise le modle suivant pour dcrire le
temps :
A = {Haut, Milieu, Bas} {Beau, Maussade, Pluvieux},

avec la probabilit PA dfinie par :

Haut Milieu Bas


Beau 1/30 2/30 7/30
Maussade 2/30 6/30 2/30
Pluvieux 7/30 2/30 1/30
Le modle probabiliste 99

Batrice, elle, utilise le modle :

B = {Beau prvu, Maussade prvu, Pluvieux prvu}{Beau, Maussade, Pluvieux},

avec la probabilit PB dfinie par :

Beau prvu Maussade prvu Pluvieux prvu


Beau 3/15 1/15 1/15
Maussade 1/15 3/15 1/15
Pluvieux 1/15 1/15 3/15
Enfin, Csar se contente du modle plus simple dfini par

C = {Beau, Maussade, Pluvieux},

avec
PC (Beau) = 1/4, PC (Maussade) = 1/2, PC (Pluvieux) = 1/4.
Expliquez comment Alfred et Batrice peuvent exploiter leurs modles respectifs
pour estimer les probabilits relatives au temps quil fera demain partir des in-
formations fournies par la grenouille et la mto nationale respectivement. Donnez
des reprsentations en arbre des modles (A , PA ), (B , PB ), (C , PC ). Ces modles
sont-ils compatibles ?

Exercice 7 Considrons un modle probabiliste (, P) et deux vnements A et B


tels que A B soit de probabilit non-nulle. Notons PA la probabilit P(|A), et PB
la probabilit P(|B). Montrez que

PA (|B) = PB (|A) = P(|A B).

Que signifie ce rsultat ?

Exercice 8 Jojo fait du ski la station Valles blanches. Il est en haut du tlski
des cailloux, et a le choix entre les pistes de Tout-Plat (une bleue), Les-Bosses (une
rouge) et Rase-Mottes (une noire). Il va choisir entre ces trois pistes au hasard, de
telle faon quil choisisse la bleue ou la noire avec probabilit 1/4, et la rouge, quil
prfre, avec probabilit 1/2. Il descend ensuite la piste choisie. Jojo nest pas encore
trs laise cette saison, et il tombe avec une probabilit de 0,1 sur la piste bleue, de
0,15 sur la piste rouge, et de 0,4 sur la piste noire.
1) Soit A lvnement Jojo tombe en descendant la piste quil a choisie. Calculer
P(A).
2) Bernard, qui attend Jojo en bas des pistes, la terrasse dun caf, voit arriver
Jojo couvert de neige : il est donc tomb. Sachant cela, quelle est la probabilit quil
ait emprunt la piste noire ?
100

Exercice 9 Dans le film Willow (Ron Howard, 1988), un sorcier met lpreuve
trois jeunes gens pour dcider lequel sera son apprenti. Lun aprs lautre, chacun
des trois candidats doit dsigner (en public) un doigt de la main du sorcier comme
tant le principal dans lexercice de la magie. Le premier donner la bonne rponse
sera choisi comme apprenti, le ou les suivants tant limins, et, si aucun ne fournit
la rponse correcte, le sorcier ne prendra aucun apprenti (cest dailleurs ce qui se
produit dans le film). Dcrire (et justifier) un modle probabiliste de cette situation,
puis proposer une rponse la question : quel candidat, du premier, du deuxime ou
du troisime, a le plus de chances dtre choisi ?

Exercice 10 Considrons n vnements A1 , . . . , An dun modle probabiliste (, P).


Pour 1 k n, posons
X
Ck = P(Ai1 . . . Aik ).
i1 <<ik

Prouvez les relations suivantes :


m
X
P(A1 . . . An ) (1)k1 Ck
k=1

lorsque m est impair,


m
X
P(A1 . . . An ) (1)k1 Ck
k=1

lorsque m est pair, et


n
X
P(A1 . . . An ) = (1)k1 Ck .
k=1

Exercice 11 Des amis de Jojo lui proposent de participer au jeu suivant : on dis-
pose de trois cartes dont lune a deux faces blanches, lautre deux faces rouges, et la
troisime une face blanche et une face rouge. Une carte est choisie au hasard parmi
les trois et seule lune des faces, choisie au hasard elle aussi, est expose au public.
Il sagit de parier sur la couleur de la face cache. Aprs quelques secondes de r-
flexion, Jojo se dit que, si la face expose est, par exemple, rouge, la carte tire peut
tre soit celle dont les deux faces sont rouges, soit celle dont une face est rouge et
lautre blanche, et quil y a donc une chance sur deux pour que la face cache soit
rouge, et une chance sur deux pour quelle soit blanche. De mme lorsque la face
expose est blanche... Il dcide donc de rpondre de manire alatoire rouge ou
blanc avec probabilit 1/2 pour chaque rponse. Son raisonnement et sa mthode
vous semblent-ils judicieux ? Faites lexprience par vous-mme, en comparant par
exemple la stratgie de Jojo la stratgie qui consiste parier systmatiquement sur
la mme couleur que celle qui figure sur la face visible de la carte. A vos jeux !
Le modle probabiliste 101

Exercice 12 Lanons deux ds six faces, et considrons les deux vnements A =


la somme des deux chiffres obtenus est paire et B = le 1 ou le 2 sort au moins
une fois. Si lon munit lespace des possibles

= {1; 2; 3; 4; 5; 6} {1; 2; 3; 4; 5; 6}

de la probabilit uniforme, montrez que A et B sont indpendants. Si, au contraire,


la probabilit sur est donne par le tableau suivant :

1 2 3 4 5 6
1 2/46 1/46 2/46 1/46 2/46 1/46
2 1/46 2/46 1/46 2/46 1/46 2/46
3 2/46 1/46 1/46 1/46 1/46 1/46
4 1/46 2/46 1/46 1/46 1/46 1/46
5 2/46 1/46 1/46 1/46 1/46 1/46
6 1/46 2/46 1/46 1/46 1/46 1/46

montrer que ces mmes vnements A et B ne sont pas indpendants.

Exercice 13 Un assassinat vient dtre commis, et les suspects se limitent un en-


semble de n personnes. Initialement, chaque suspect possde a priori une probabilit
de 1/n dtre le coupable. Lenquteur affirme : au vu des circonstances, il semble
clair que lassassin doit tre gaucher. Aprs rflexion, il prcise sa pense en affir-
mant : la probabilit que lassassin soit gaucher est de 80%. Construire un modle
probabiliste de la situation et traduire ces affirmations.

Exercice 14 Un magasin dquipement de la personne vend (entre autres choses)


des lunettes de soleil et des parapluies. Une tude statistique mene sur plusieurs
annes concernant les ventes de ces deux produits a rvl que, lors de la saison
printemps-t, on peut rsumer les rsultats des ventes journalires par le modle
probabiliste suivant :

moins de 5 paires de lunettes entre 5 et 10 paires plus de 10 paires


moins de 7 parapluies 9/40 9/40 18/40
plus de 7 parapluies 1/40 1/40 2/40

Lors de la saison automne-hiver, en revanche, on peut dcrire les rsultats des


ventes journalires par le modle probabiliste suivant :

moins de 5 paires de lunettes entre 5 et 10 paires plus de 10 paires


moins de 7 parapluies 3/20 1/20 1/20
plus de 7 parapluies 9/20 3/20 3/20
102

En admettant que le nombre de jours douverture du magasin est le mme pour les
deux saisons, quel serait le modle probabiliste permettant de dcrire les ventes pour
toute lanne ? Les ventes de lunettes et de parapluies y apparaissent-elles comme
indpendantes ? Quen est-il pour chacun des deux modles pris sparment ? Quen
conclure ?

Exercice 15 Pour dpister une maladie, on effectue un test sanguin. Si le patient


est effectivement atteint, le test donne un rsultat positif avec une probabilit de 99%.
Si le patient est sain, le test peut malheureusement donner un rsultat positif avec une
probabilit de 2%. Nous supposerons que la probabilit dtre frapp par la maladie
est de x% pour un patient se prsentant au dpistage. Sachant que le test donne un
rsultat positif, comment se comporte la probabilit que le patient soit effectivement
malade en fonction de x ?

Exercice 16 Prs de soixante pour cent des accidents de voiture graves impliquant
de jeunes enfants se produisent dans des vhicules o les enfants ne sont pas correc-
tement attachs. Soixante pour cent, cela fait beaucoup... A quoi faudrait-il comparer
ce chiffre ?

Exercice 17 Construisez un exemple de modle probabiliste pour vous convaincre


quen gnral
P(A|B c ) 6= 1 P(A|B).
P(A|B) + P(A|B c ) 6= P(A)
Expliquez pourquoi ces ingalits sont en gnral vrifies.

Exercice 18 Blanche-Neige passe la serpillire quand la mchante reine se prsente,


grime en pauvre vieille, pour lui offrir un panier de cinq pommes bien rouges, dont
une empoisonne et deux vreuses. Blanche-Neige prend les pommes une par une
pour les croquer. Si elle tombe sur une pomme vreuse, elle jette le reste des pommes
au cochon, sinon elle continue. Evaluer la probabilit pour que :
a) le porc trpasse
b) Blanche-Neige mange toutes les bonnes pommes.

Exercice 19 Environ 10% des ouvrages publis par un diteur parisien, dont nous
tairons le nom, sont des succs de librairie. Afin destimer avant sa parution le succs
dun livre, lditeur a pour habitude de consulter deux experts diffrents. Consult sur
un nouvel ouvrage, le premier expert prdit un brillant succs, tandis que le second
rend un avis plutt ngatif, et annonce un chec probable.
On affirme couramment que le jugement du premier expert est fiable prs de
90%, tandis que le jugement du second ne le serait qu prs de 70%.
Comment de telles affirmations pourraient-elles tre traduites, et exploites pour
valuer la probabilit que le nouvel ouvrage soit un succs ?
Le modle probabiliste 103

Lditeur dispose en fait, pour une centaine douvrages quil a publis au cours
des annes prcdentes, des avis mis lpoque par les deux experts, ainsi que des
chiffres de vente des ouvrages correspondants.
Que feriez-vous, par exemple, de linformation selon laquelle le premier expert a
vu son pronostic confirm dans 80% des cas, tandis que le second na eu raison que
dans 60% des cas ?
Et si lon prcise que le premier expert a vu son pronostic confirm dans 70%
des cas lorsquil prdisait un succs, et le second galement dans 70% des cas, mais
lorsquil prdisait un chec ?
Quelles autres informations relatives aux prdictions des experts pourrait-on cher-
cher exploiter en se basant sur les donnes de lditeur, et de quelle manire ?

Exercice 20 Jojo participe un jeu tlvis fond sur le principe suivant. Derrire
trois portes fermes se trouvent respectivement une peluche, une barre chocolate, et
un chque de 5000 euros. Jojo (qui prfre gagner le chque) doit, pour commencer,
dsigner lune des trois portes. Cette porte dsigne, le prsentateur (qui sait, quant
lui, quels lots se trouvent derrire quelles portes) ouvre lune des deux autres portes,
rvlant ainsi le lot qui se trouve derrire. Jojo peut alors choisir, soit de prendre
le lot en question, soit de tenter nouveau sa chance en demandant louverture de
lune des deux portes restantes et gagner le lot situ derrire ladite porte. Sil choisit
de retenter sa chance, Jojo est donc plac devant lalternative suivante : demander
louverture de la porte quil avait initialement dsigne, ou de lautre porte demeurant
ferme (quil navait pas dsigne initialement, et que le prsentateur na pas ouverte).
Il se dit que face deux portes que rien ne semble distinguer, il a une chance sur
deux de trouver le chque derrire la porte quil avait initialement choisie, et une
chance sur deux de le trouver derrire lautre porte. Afin de ne pas regretter davoir
modifi un choix initial potentiellement gagnant (ce que Jojo estime pire que de perdre
en demeurant fidle sa premire impulsion), Jojo projette donc de maintenir son
premier choix. Que pensez-vous du raisonnement de Jojo ?

Exercice 21 La duchesse dAquitaine et la duchesse de Bourgogne attendent cha-


cune lhritier de leur duch. On dcrit la situation laide du modle probabiliste
suivant :
= {GG,GF,FG,FF},
o la premire lettre indique le sexe de lhritier dAquitaine, et la seconde celui de
lhritier de Bourgogne, et la probabilit sur est la probabilit uniforme. Consid-
rons les trois vnements :
A = lhritier dAquitaine est un garon,
B = lhritier de Bourgogne est une fille,
C = les deux hritiers sont de sexe oppos.
104

Les vnements A et C sont-ils indpendants ? Et B et C ? et A et C ? Et A B


et C ? Est-ce surprenant ?

Exercice 22 Au casino de Jojo-les-bains, les machines sous sont scandaleusement


truques. En effet, le mcanisme qui gouverne le fonctionnement des trois rouleaux
(comportant chacun 30 signes diffrents) est le suivant : la position sur laquelle sar-
rte le rouleau le plus gauche est effectivement choisie au hasard, mais le second
rouleau et le troisime sarrtent automatiquement sur des positions qui prsentent
un dcalage fix (par exemple 3 positions en plus dans le sens de rotation des rou-
leaux pour le rouleau du milieu, et 7 pour le rouleau de droite) par rapport au premier
rouleau, ce qui fait que personne ne gagne jamais. A la suite de nombreuses plaintes
des clients, le patron du casino organise une srie dexpriences publiques desquelles
il ressort que chaque signe de chacun des trois rouleaux sort approximativement une
fois sur 30. Aucun signe nest donc favoris par rapport un autre. Que pensez-vous
de cet argument ?

Exercice 23 Jojo a mis au point un algorithme randomis pour tester si un entier


est premier. Lalgorithme prend en entre un entier, effectue au cours de son excu-
tion un certain nombre de tirages alatoires, et donne en sortie une rponse binaire :
premier ou compos. Lorsque lentier test est effectivement premier, lalgo-
rithme rpond toujours premier. En revanche, lorsque celui-ci est compos, lalgo-
rithme rpond compos avec une probabilit variable, comprise entre 20% et 100%
(pour des exemples de tels algorithmes, par exemple le test de Miller-Rabin, voir par
exemple louvrage de Motwani et Raghavan cit dans la bibliographie. Mentionnons
simplement ici lide gnrale consistant exploiter la proprit dite dabondance
de tmoins 8 ).
Comment faire pour dterminer avec un minimum de confiance si un entier est
premier en utilisant lalgorithme de Jojo ?
Gg, moins ingnieux que Jojo, a mis au point un algorithme qui donne une
rponse correcte avec une probabilit dau moins 81% lorsque p est premier, et dau
moins 20% lorsque p est compos. Mme question avec lalgorithme de Gg.
Plus gnralement, reprendre la question en supposant que lon sait que la pro-
babilit de donner une rponse correcte lorsque p est premier est comprise dans une
8. Plus prcisment, on supposera dfinis, pour tout n, un ensemble fini An et une application
P : An {0, 1} tels que, si pour un i An , P (n, i) = 1, on peut tre certain que n est compos :
on dit alors que i tmoigne du fait que n est compos. Lide est que, pour certains choix judicieux
des ensembles An et de la proprit P , on peut prouver que, pour tout nombre compos n, la
proportion dlments de An qui sont des tmoins du fait que n est compos, dpasse une limite
infrieure fixe (par exemple 20%). Il suffit alors deffectuer un tirage alatoire selon la probabilit
uniforme dans An pour pouvoir dtecter le fait que n est compos avec une probabilit suprieure
cette limite.
Le modle probabiliste 105

certaine fourchette [1 , 2 ] et que la probabilit de donner une rponse correcte lorsque


p est compos est comprise dans une certaine fourchette [1 , 2 ].

Exercice 24 Ce soir, Jojo doit se rendre une soire trs chic, et il hsite quant
la faon de shabiller. Il a le choix entre le traditionnel smoking (passe-partout, mais
qui ne lenthousiasme gure), son costume hyper-branch franges luminescentes (qui
lamuse beaucoup plus), et sa tenue de tous les jours (tout de mme beaucoup plus
confortable, mais pas trs prsentable). Il sera refoul lentre avec probabilit 0,1
sil porte le smoking, 0,3 avec son costume branch, et 0,7 avec sa tenue ordinaire.
Ne parvenant pas choisir, il dcide de sen remettre au hasard en lanant deux ds
quilibrs six faces. Si le maximum des deux ds est gal 6, il mettra son costume
de tous les jours. Sil est gal 4 ou 5, il mettra son costume branch, et son smoking
dans tous les autres cas.
Les heures passent, et les amis de Jojo, qui lattendent dans la salle o la soire
se droule, ne le voient pas arriver : il a donc malheureusement t refoul len-
tre. Comment, dans ces conditions, valuer la probabilit pour que Jojo ait mis son
costume branch ? Mme question avec la probabilit pour que lun des deux ds ait
donn un 3 ?

Exercice 25 Un revendeur dinformatique lyonnais reoit une livraison dcrans. Le


lot peut soit provenir dun fournisseur japonais, qui produit en moyenne une pice
dfectueuse sur 1000, soit dun fournisseur malais, qui produit en moyenne une pice
dfectueuse sur 200. Le fournisseur teste soigneusement lun des crans du lot, et ne
constate aucun dfaut. Comment valuer la probabilit pour que le lot provienne du
fournisseur malais ? Comment valuer la probabilit pour que le second cran test
ne prsente pas non plus de dfaut ? Y a-t-il indpendance entre le fait que le premier
cran soit dfecteux et le fait que le deuxime le soit ?

Exercice 26 M. D***, particulirement inquiet des risques dattentat la bombe


lors de ses nombreux voyages en avion, a adopt pour se rassurer la solution suivante :
il emporte toujours avec lui dans ses bagages une bombe (indtectable). Selon lui, la
probabilit pour que deux bombes se trouvent bord dun mme avion est absolument
ngligeable. Que pensez-vous de ce raisonnement ? (Justifiez).

Exercice 27 Les 52 cartes dun jeu (sans joker) sont rparties au hasard en tas de 4
cartes, sur 13 emplacements numrots laide des indices 2, 3 ,..., 10, Valet, Dame,
Roi, 1. La rpartition effectue, on procde aux oprations suivantes.
1. initialisation : indice-tas-courant 1 ;
2. si le tas numrot par indice-tas-courant nest pas vide, enlever du jeu la carte
situe au sommet de ce tas, sinon STOP ;
106

3. indice-tas-courant figure indique sur la carte que lon vient denlever ;


4. retourner en 2.
Dcrivez un modle probabiliste simple de la situation, et calculez dans ce modle
la probabilit pour que lon ne sarrte quune fois que toutes les cartes du jeu ont
t examines.

Exercice 28 Prenez une grande respiration et... crivez rapidement le rsultat dune
suite de 200 rptitions (imaginaires) de lancers de pile/face indpendants et non-
biaiss. Etes-vous satisfait du rsultat ?

Exercice 29 Pour chacune des affirmations suivantes, commencez par indiquer quelle
peuvent tre la population tmoin et la population test, ainsi quune dfinition prcise
possible de la dpendance qui est mentionne. Discutez ensuite la prsence possible
de liens de cause effet, de causes caches et de facteurs de confusion dans chacun
des cas.
en Italie, on a constat que les rgions dans lesquelles les taux dachat dordi-
nateur personnels sont les plus importants sont galement celles o les taux de
divorce sont les plus levs ;
une tude japonaise portant sur 40000 quadragnaires montre que ceux qui se
brossent les dents aprs chaque repas parviennent mieux que les autres garder
la ligne ;
il existe une association positive entre utilisation de crme solaire et cancer de
la peau ;
on constate quau cours dune anne, un nombre lev de noyades enregistres
est positivement associ une consommation leve de crmes glaces ;
sur une longue priode, on constate une association ngative entre un prix lev
des cigarettes et un nombre lev dagriculteurs en Lozre ;
en Ecosse, des achats importants de whisky sont positivement associs la
rception de dons importants par les glises ;
la carte du vote Le Pen lors des lections prsidentielles de 2002 se superpose
avec celle de lirradiation due au nuage de Tchernobyl ;
dans les communes qui abritent des cigognes, la natalit est plus leve que
dans le reste du pays ;
une confiance leve des investisseurs est positivement associe une forte
croissance conomique ;
sur une vaste population, on constate que la consommation rgulire dalcool
pendant la grossesse est associe des retards de QI et des difficults dappren-
tissage chez les enfants ;
au cours du temps, un volume lev des recettes publiques allemandes est posi-
tivement associ un volume lev de dpenses des mnages espagnols ;
Le modle probabiliste 107

sur un ensemble de villes franaises, on constate quune proportion leve de


fonctionnaires est ngativement associe une conomie locale dynamique ;
les enfants P*** acceptent plus volontiers les repas lorsquils sont prpars par
leur pre que par leur mre ;
la prsence dun mdecin obsttricien lors dun accouchement accrot la proba-
bilit de complications ;
le fait davoir recours la pridurale diminue la mortalit lors des accouche-
ments ;
un nombre lev dcoles maternelles dans une ville est positivement associ
un nombre lev de crimes et dlits ;
les entreprises ralisant le plus de bnfices sont celles qui ont les budgets pu-
blicitaires les plus importants ;
un viticulteur diffuse de la musique classique dans son vignoble, et lon constate
que le vin obtenu est meilleur que celui produit par ses voisins, qui disposent
pourtant de parcelles comparables pour lensoleillement et la nature du sol ;
une faible cholstrolmie favorise lapparition du cancer ;
le fait de consommer rgulirement des moules accrot le risque dattraper la
grippe.

Exercice 30 On sintresse la modlisation dune enqute statistique effectu dans


une population (il peut sagir, par exemple, dune enqute tlphonique sur les opi-
nions politiques, ou encore dune enqute sur des traitements mdicaux mene en
milieu hospitalier, etc...).
Dans lidal, les individus constituant lchantillon sond sont choisis uniform-
ment et indpendamment au sein de la population.
1) Quentend-on selon vous lorsque lon dit quun tel chantillon est reprsentatif de
la population ?
2) Effectuez une liste des diffrentes raisons, thoriques et pratiques, qui, selon vous,
tendent faire scarter un sondage rel de la situation idale dcrite par ce modle.
Cherchez des exemples concrets pour tayer votre liste.
3) Comment obtenir en pratique des chantillons reprsentatifs ? Comment tester
la reprsentativit dun chantillon donn ? Comment corriger (ventuellement) les
rsultats obtenus partir dun chantillon non-reprsentatif ?
4) Un rseau dagences immobilires communique rgulirement la presse un indice
des prix obtenu partir des transactions ralises par les agences de ce rseau. Dans
le document dcrivant la mthodologie statistique retenue pour construire cet indice,
le nombre important de transactions utilises pour construire lindice est soulign, et
lon trouve par ailleurs une brve mention du fait que les transactions sur lesquelles
lindice est bas sont communiques par les diffrentes agences sur la base du vo-
lontariat. Dans ce exemple, le fait de dcrire prcisment la mthodologie statistique
108

retenue vous semble-t-il un gage suffisant de fiabilit des rsultats prsents ?

Exercice 31 Dans le domaine mdical, pour tester lefficacit dun traitement, on


procde idalement de la manire suivante : un chantillon reprsentatif de la popula-
tion sur laquelle on envisage dutiliser le traitement tant choisi (pour viter le biais
de slection, voir Exercice 30), on rpartit alatoirement les individus de lchantillon
entre deux groupes : un groupe dans lequel le traitement est administr, et un groupe
tmoin auquel est administr un placebo. On procde de plus, autant que possible
des essais en double aveugle, ni les cobayes, ni le personnel encadrant ltude ne
sachant qui a reu le traitement et qui a reu un placebo. Expliquez en quoi cette
mthode peut en principe liminer les dpendances dues une cause cache ou un
facteur de confusion.
Pour une introduction plus dtaille, mais non-technique, ces questions, nous
vous recommandons la lecture de lexcellent ouvrage de Schwartz cit dans la biblio-
graphie.

Exercice 32 Antoinette, trente et un ans, est une clibataire lgante qui a son
franc-parler. Ce fut une tudiante brillante. A lpoque de ses tudes, elle milita pour
le droit de vote des immigrs et prit part des manifestations en faveur de la mise en
place de crches dans les administrations. Classez les jugements suivants par ordre
de probabilit dcroissante (les ex-quo sont possibles).
Antoinette est une fministe militante.
Antoinette est caissire dans une banque.
Antoinette travaille dans une petite librairie.
Antoinette est caissire dans une banque et fministe militante.
Antoinette est caissire dans une banque, fministe militante, et pratique le
yoga.
Antoinette est une fministe militante qui travaille dans une petite librairie et
pratique le yoga.

Exercice 33 Trois amies, Alice, Bndicte, et Claire effectuent des stages dt dans
trois pays diffrents : Alice aux Etats-Unis, Bndicte au Canada, et Claire en Angle-
terre. La probabilit de subir un cambriolage lt est value 60% aux Etats-Unis,
10% au Canada, et 40% en Angleterre (ces chiffres sont totalement fictifs).
Lune des trois amies est cambriole au cours de son stage. Comment valuer la
probabilit quil sagisse de Claire ?

Exercice 34 Pour deux compagnies ariennes A et B, les tableaux suivant indiquent


les nombres totaux de vols effectus destination de Paris et de Lyon en 2004, ainsi
que le nombre de ceux qui sont arrivs sans retard.
Pour la compagnie A :
Le modle probabiliste 109

Total A lheure
Paris 600 534
Lyon 250 176

Pour la compagnie B :

Total A lheure
Paris 200 188
Lyon 900 685

Sur la base de ces donnes, quelle est la compagnie dont, en 2004, les vols
destination de Paris ont la plus forte probabilit darriver lheure ? Et pour Lyon ?
Et de manire globale ? Le rsultat est-il surprenant ?

Exercice 35 Au dtour dune conversation avec M. D***, celui-ci vous apprend


quil a deux enfants, dont au moins une fille. Comment valueriez-vous la probabilit
pour que lautre enfant soit une fille ?
Mme question si M. D*** ajoute que la fille en question se prnomme Sophie.

Exercice 36 Une (longue) liste de N enregistrements x1 , . . . , xN nous est commu-


nique en temps rel, un enregistrement aprs lautre. On souhaite en extraire une
sous-liste non-ordonne comportant n enregistrements (avec n << N ), choisie uni-
formment au hasard parmi toutes les sous-listes non-ordonnes formes de n enre-
gistrements.
a) Montrer que si lon sait rsoudre ce problme pour des sous-listes ordonnes, on
peut le rsoudre pour des sous-listes non-ordonnes.
b) Une premire solution pour y parvenir consiste simplement stocker la totalit de
la liste dans un fichier, puis extraire une sous-liste du fichier en question. Comment
peut-on procder exactement ?
c) Supposons que lon ne souhaite pas stocker la totalit de la liste, mais simplement
dcider squentiellement, lorsquun lment de la liste nous est communiqu, de lin-
clure ou non dans la sous-liste que lon cherche produire. Une approche nave consis-
terait accepter indpendamment chaque lment avec une probabilit gale n/N ,
mais cette approche choue rsoudre exactement le problme initial. Prcisez pour-
quoi. Quelles sont les probabilits dacceptation permettant de rsoudre exactement
le problme initial ? Indication : conditionnellement aux dcisions dinclusion/non-
inclusion relatives aux lments x1 , . . . , xk , comparez les probabilits dinclusion dun
lment xi avec k+1 i N . Ensuite, que pouvez-vous dire de la valeur de la somme
PN
i=k+1 1(xi est inclus ) ?
d) Dans le mme contexte que b), lorsque la taille totale N de la liste nest pas connue
lavance, montrez que lon peut procder comme suit.
110

On tient jour une liste denregistrements (y1 , . . . , yn ), qui fournit, lorsque la


totalit de la liste a t communique, la sous-liste souhaite. Lindice t dsigne le
numro de lenregistrement courant, qui varie donc de 1 N . Lalgorithme est le
suivant.
1. pour t = 1, . . . , n, affecter yt = xt ;
2. pour t = n+1, . . . , N , lorsque le tme lment de la liste, xt , est communiqu,
tirer un nombre entier Mt au hasard uniformment entre 1 et t ; si Mt n,
raffecter yMt = xt ; sinon, passer lenregistrement suivant ;

Exercice 37 Trois amies maries depuis peu, Aricie, Brunhilde et Circ, se re-
trouvent pour une soire. Au cours de leur discussion est voqu le fait quenviron
un tiers des mariages se termine par un divorce. Elles en concluent que, statisti-
quement, lune dentre elles verra son mariage se rompre. Que pensez-vous de cet
argument ? En admettant que les trois amies aient, indpendamment les unes des
autres (ce qui doit tre discut) une probabilit gale 1/3 de voir leur mariage se
rompre, quelle est la probabilit quexactement lune des trois divorce ? Quelle est la
probabilit quaucune ne divorce ?
Quelques annes plus tard, Brunhilde divorce effectivement de son mari, ce qui
correspond bien un mariage rompu sur les trois. Aricie et Circ ont-elles lieu den
tre rassures quant la longvit de leurs propres mariages ? Au fait, quoi cor-
respond exactement le chiffre de 1/3 de mariages solds par un divorce, voqu au
dbut ? Est-il pertinent de lappliquer aux trois amies ?

Exercice 38 (La fin du monde approche)


Compte-tenu des connaissances actuelles, on estime que, dans quelques milliards
dannes, la mort de notre Soleil rendra la vie impossible sur notre plante. Sauf
solution encore imaginer, on peut donc sattendre ce que lespce humaine finisse
par steindre sur notre plante, le nombre total dtres humains y ayant vcu un
moment ou un autre possdant donc une certaine valeur finie N . Dautre part,
appelons n le nombre total dtres humains ayant vcu au cours de la dcennie 1995-
2005.
Admettons pour simplifier que lon nait le choix quentre les deux hypothses
suivantes :
1. la fin de lespce humaine est pour bientt (puisement des ressources, guerres,
pollution, cataclysmes,...), et n/N est de lordre de 1/10 ;
2. la fin de lespce nest pas pour demain (des solutions aux problmes actuels
vont tre trouves, et nous avons encore de beaux jours devant nous), et n/N
est bien infrieur 1/1000 ;
et que diverses considrations scientifiques nous permettent dattribuer a priori une
probabilit de 1% lhypothse 1 et de 99% lhypothse 2 (soyons optimistes).
Le modle probabiliste 111

Nous observons aujourdhui lvnement

E = Nous sommes des humains ayant vcu au cours de la dcennie 1995-2005 ,

et lon peut valuer la probabilit conditionnelle de cet vnement relativement


chacune des deux hypothses 1 et 2 par n/N (1/10 sous lhypothse 1, moins de
1/1000 sous lhypothse 2).
Comment les probabilits des hypothses 1 et 2 sont-elles modifies par la prise
en compte de E ? Ceci dpend-il du dtail des valeurs choisies pour les diffrentes
probabilits ? Que pensez-vous de cet argument ?

Exercice 39 M. et Mme D*** ont dj six enfants, dont cinq filles et un garon.
Mme D*** est nouveau enceinte. Comment valuez-vous la probabilit que son
enfant natre soit une fille ?

Exercice 40 Aprs quinze jours de vacances bien mrites quil a choisi de passer en
famille au Jojostan, M. D*** doit rentrer en avion. Deux compagnies sont suscep-
tibles dassurer la liaison : Air-Jojo, et Pigeon-Vole, plus conomique. Cependant, un
avion de Pigeon-Vole sest cras il y a peu, si bien quau moment de faire son choix,
M. D*** est partag entre toute sorte darguments, dont voici quelques exemples.
Pigeon-Vole na eu en moyenne quun accident sur 10000 vols au cours des dix
dernires annes. Comme ils viennent den avoir un, je peux donc sereinement
choisir cette compagnie.
Avec une chance sur 10000 davoir un accident, il faudrait que je prenne 10000
fois lavion pour minquiter. Jai de la marge...
Cet accident laisse penser que Pigeon-Vole nest pas fiable. Choisir Air-Jojo
est peut-tre plus prudent.
Aprs un tel accident, Pigeon-Vole va certainement mettre le paquet sur les
contrles et la scurit pour rassurer ses clients. Aucun risque donc voyager
avec cette compagnie.
Un accident sur 10000 vols, cela reprsente tout de mme une excellente fia-
bilit. Finalement, je ne vois vraiment pas o est le risque de voyager sur
Pigeon-Vole.
Jai cru comprendre que, depuis deux ans, Pigeon-Vole avait beaucoup baiss
ses tarifs. Peut-tre est-ce en mgotant sur lentretien et le contrle des avions,
ou bien la formation et les conditions de travail du personnel ? Cest bien ce
que laisse penser cet accident...
Si je pouvais avoir la garantie que lavion dans lequel je vais voler nest pas
du mme modle que celui qui sest cras, je choisirais volontier Pigeon-Vole.
Mais comment faire si je maperois au moment dembarquer que lon ne ma
dit pas la vrit ce sujet (ce qui nest pas impossible, aprs tout, ils cherchent
112

probablement avant tout remplir leurs avions), je ne vais tout de mme pas
refuser de monter dans lavion alors que jaurai dj pris mon billet...
Pigeon-Vole a effectu 500 vols cette anne. Nous avons donc une probabilit
qui monte prsent 1/500 davoir un accident, soit une multiplication du
risque par 20 par rapport au chiffre des annes prcdentes. Il vaut peut-tre
mieux que je voyage sur Air-Jojo...
De toute faon, jai toujours eu un peu peur de lavion. Cette fois, je prendrai
le bateau.
Quels sont les modles susceptibles de traduire les arguments de M. D*** ? Ces
arguments sont-ils conciliables ? Comment pourrait-on tenter de les dpartager ?

Exercice 41 Une socit commercialise une prparation paramdicale destine lut-


ter contre le rhume, et baptise AtchoumStop. Lun des arguments publicitaires quelle
emploie est le suivant : au sein dun groupe de 100 personnes enrhumes (dont la so-
cit tient la liste disponible sur simple demande) ayant utilis le produit, 82 se sont
totalement remises de leur rhume dans les trois jours suivant leur premire prise
dAtchoumStop. Discutez en dtail les raisons qui peuvent vous amener douter de
la porte de cet argument.

Exercice 42 M. D*** fait passer des entretiens dembauche dans une entreprise.
Le nombre total de candidats auditionner est not N , et le problme qui se pose
M. D*** est quil doit indiquer aux candidats sil sont retenus immdiatement aprs
leur entretien. La stratgie adopte par M. D*** est la suivante : il choisit dabord
dauditionner, sans les recruter, un ensemble de M candidats, afin de se former
une ide du niveau de qualification auquel il peut sattendre. Il procde ensuite
laudition des N M candidats restants, et recrute le premier candidat dont il estime
que le niveau dpasse celui de lensemble des M candidats initialement auditionns.
Comment choisir M de faon maximiser les chances de recruter le meilleur des N
candidats ?
Pour une gnralisation considrable de cette question, vous pouvez consulter lar-
ticle de Thomas Bruss cit dans la bibliographie.

Exercice 43 (Paradoxe de Hempel)


Une ide de base du raisonnement inductif (par opposition au raisonnement d-
ductif ) est que plus nous observons la ralisation dune certaine proprit, plus le
degr de confiance que nous lui attribuons est leve. Par exemple : plus jobserve de
corbeaux noirs, plus mon degr de confiance dans le fait que tous les corbeaux sont
noirs est lev. A prsent, notons que le fait que tous les corbeaux soient noirs est
quivalent au fait que tout ce qui nest pas noir nest pas un corbeau. Dans la pice o
je me trouve, et qui ne contient pas de corbeau, tous les objets qui ne sont pas noirs,
effectivement, ne sont pas des corbeaux. Un raisonnement inductif me conduit alors
Le modle probabiliste 113

considrer que cette observation renforce mon degr de confiance dans la proprit
selon laquelle tout ce qui nest pas noir nest pas un corbeau, cest--dire la proprit
selon laquelle tous les corbeaux sont noirs. Comment mon degr de confiance dans une
proprit qui ne concerne que les corbeaux peut-il tre modifi par cette observation,
alors que je nai examin aucun corbeau ?
Que pourrait donner une approche baysienne du problme (en cherchant es-
timer laugmentation de probabilit de laffirmation selon laquelle tous les corbeaux
sont noirs lie une observation des objets dans la pice o je me trouve, et en la
comparant avec laugmentation que lon obtiendrait en observant des corbeaux dans
la nature) ?

Exercice 44 Voici une dfinition alternative de lindpendance de deux vnements


A et B : P(A|B) = P(A|B c ). Vrifier que cette notion est bien quivalente la notion
habituelle.

Exercice 45 Pour diverses reprsentations sous forme darbre (autres que des suc-
cessions indpendantes) de modles probabilistes rencontrs dans ce chapitre, expli-
citez les reprsentations en arbre obtenues en renversant lordre des lments de
variabilit employs pour dfinir la structure de larbre.

Exercice 46 (Le paradoxe de Berkson)


On considre un modle probabiliste (, P), et deux vnements A et B indpen-
dants dans ce modle. On suppose en outre que P(A) > 0, P(B) > 0, et P(AB) < 1.
Prouvez que, dans le modle probabiliste (, P(|A B)), les vnements A et B sont
ngativement associs.
Voici un exemple o ce rsultat devrait certainement tre pris en compte, expliquez
comment. Dans une universit amricaine (bien entendu, une telle chose est impos-
sible en Europe...), les tudiants admis dans le dpartement dingnierie peuvent ltre
pour deux raisons : leurs qualits dmontres dans les matires relies lingnierie,
ou leurs performances en base-ball. Admettons (ce qui nest pas forcment vrai !) quil
y a indpendance entre ces deux caractristiques pour la population forme par les
jeunes en ge dtudier dans ce dpartement. Un professeur du dpartement, plein
de prjugs, dcide nanmoins de dmontrer les moindres performances en ingnie-
rie des tudiants dous pour le base-ball. De fait, les chiffres sont accablants, et, en
prenant en compte lensemble des tudiants du dpartement, le professeur constate
de manire trs nette une association ngative entre les performances au base-ball et
les qualits en ingnierie...
De la mme manire, si lon tudie lensemble des patients dun hpital, on pourra
ainsi montrer un effet protecteur dune pathologie donne vis--vis de lensemble
des autres pathologies possibles alors quil y a totale indpendance...
114

Comment pourrait-on viter ce problme dans ce(s) contexte(s) ? Plus gnrale-


ment, comment viter dtre pig par ce problme lorsque lon tudie lassociation
pouvant exister entre des variables ?

Exercice 47 Au sujet du rfrendum de 2005 sur la constitution europenne, deux


semaines avant le scrutin, on pouvait lire dans un journal gratuit propos de ses
lecteurs :
- 73% des gens ont pris leur dcision qui est : oui pour 48,45% et non pour 51,55% ;
- 27% nont pas pris de dcision mais se rpartissent en trois catgories : 31% pensent
voter oui, 24% pensent voter non et 45% ne savent vraiment pas.
Prenons une personne au hasard dans la population ce moment. Quelle est selon
vous la probabilit pour quelle penche pour le oui ? Et quelle est la probabilit pour
quelle penche pour le non ?

Exercice 48 Encore propos des sondages sur la constitution europenne de 2005...


Deux semaines avant le scrutin, admettons que ltat de lopinion est le suivant (on
donne la fois les sympathies politiques des franais et leur intention de vote dans
le tableau ci-dessous). On note entre parenthse sur la premire ligne le poids relatif
de chaque parti dans lopinion.

PC (10%) PS (19%) Verts (21%) UDF (20%) UMP (22%) FN/MNR (8%)
oui 7% 54% 57% 70% 72% 12%
non 93% 46% 43% 30% 28% 88%

a) Montrer que le score p du oui est 53,73%.


b) On tire une personne au hasard dans la population. Elle dit vouloir voter oui.
Quelle est selon vous la probabilit pour quelle soit sympathisante UDF ?

Exercice 49 On dsire tudier les effets dune exposition prolonge un polluant


dorigine industrielle sur la survenue ultrieure dun cancer du poumon. Pour cela,
on effectue un suivi de la sant des employs dun secteur industriel dans lequelle
ceux-ci y sont rgulirement exposs. En dfinitive, on constate chez ces employs un
taux de cancer du poumon comparable celui de la population totale, et lon est donc
tent de conclure a labsence dinfluence de ce polluant. Cependant, on peut imaginer
que le polluant a un rel rle causal et favorise la survenue dun cancer, mais que cet
effet est compens par un autre li (par exemple, tout ceci est fictif ) aux habitudes
alimentaires plus saines des employs de ce secteur par rapport la population totale.
On ne mettrait alors pas en vidence dassociation entre exposition et cancer, bien
quil y existe un effet causal. Fabriquez un exemple chiffr dun tel phnomne.
Le modle probabiliste 115

Exercice 50 On dit quun nouveau-n terme prsente un faible poids de naissance


lorsque celui-ci est infrieur un certain seuil (par exemple 2,5 kg). Il apparat que,
chez les nouveaux-ns terme de faible poids de naissance, le taux de mortalit
est significativement plus lev que chez les nouveaux-ns prsentant un poids de
naissance normal. De manire surprenante, on a constat que, chez les nouveaux-ns
terme de faible poids de naissance, le fait que la mre soit fumeuse a tendance
rduire ce taux de mortalit. Doit-on en dduire que, dans ce cas, la consommation
de tabac par la mre a un effet protecteur sur le nouveau-n ?

Exercice 51 Luniversit de Berkeley fut poursuivie pour dicrimination lie au sexe


lorsquil fut tabli que le taux dadmission des jeunes femmes au niveau graduate
(plus ou moins quivalent ce qui est aujourdhui en France le M2) taient trs
significativement infrieur ceux des hommes. De fait, pour le semestre de printemps
de lanne 1973, les rsultats (toutes disciplines confondues) taient les suivants :

Nombre de candidats Proportion dadmis


Hommes 8442 44%
Femmes 4321 35%

En revanche, en distinguant selon les diffrents dpartements (seuls six dparte-


ments, numrots de A F, sont prsents ici) de luniversit, les rsultats taient
les suivants.

A Nombre de candidats Proportion dadmis


Hommes 825 62%
Femmes 108 82%

B Nombre de candidats Proportion dadmis


Hommes 560 63%
Femmes 25 68%

C Nombre de candidats Proportion dadmis


Hommes 325 37%
Femmes 593 34%

D Nombre de candidats Proportion dadmis


Hommes 417 33%
Femmes 375 35%

E Nombre de candidats Proportion dadmis


Hommes 191 28%
Femmes 393 24%
116

F Nombre de candidats Proportion dadmis


Hommes 272 6%
Femmes 341 7%

Comment ces donnes clairent-elles, selon vous, la question de lexistence dune


discrimination entre hommes et femmes ?

Exercice 52 Afin de tester les performances dune nouvelle mthode dapprentissage


de la lecture, on fait passer aux lves dune classe dcole primaire un test de lecture,
not sur 20. On slectionne ensuite les lves ayant obtenu moins de 7/20 (il sen
trouve 7), et on leur fait suivre pendant plusieurs mois un programme spcial inspir
par la nouvelle mthode dapprentissage. A lissue de ce programme, on fait nouveau
passer un test aux lves de la classe. Bilan : les lves nayant pas suivi le nouveau
programme obtiennent, en moyenne, des rsultats voisins, voire lgrement infrieurs
ceux quils avaient obtenu lors du premier test, tandis que les 7 lves ayant suivi
le programme spcial voient leur score progresser de plusieurs points en moyenne,
jusqu atteindre une moyenne proche de 10. Faut-il conclure la supriorit de la
nouvelle mthode sur lancienne ?

Exercice 53 Comment dfiniriez-vous la probabilit des concidences prsentes dans


les exemples de la section 1.8.1 ?

Exercice 54 Comment dfiniriez-vous prcisment un protocole permettant dtu-


dier les relations entre le fait de penser une personne et le fait que celle-ci vous
appelle peu aprs ? Comment comptez-vous procder pour distinguer un don surnatu-
rel de simples concidences ?

Exercice 55 Que penser dune thorie produisant comme rsultat le fait que la pro-
babilit dapparition de la vie sur Terre soit extrmement faible, et que notre existence
doive donc tre considrs comme le fruit dune formidable coincidence ?

Exercice 56 Au cours de dbats portant sur lutilit (ou linutilit) du redoublement


lcole, largument suivant a t employ : plusieurs tudes ont montr que, globa-
lement, les rsultats scolaires des enfants que lon fait redoubler ne samliorent pas
de manire significative lissue de ce redoublement. Cet argument vous semble-t-il
constituer, lui seul, un lment suffisant pour prner la suppression du redouble-
ment ?

Exercice 57 (Le sophisme du procureur)


Sur la foi dun test ADN, M. D*** comparat devant un tribunal dans le cadre
dune affaire criminelle, et lexpert invit la barre explique que, supposer que M.
Le modle probabiliste 117

D*** soit innocent, la probabilit pour que son ADN concide avec celui trouv sur
les lieux du crime daprs le test effectu est denviron 1/10000.
1) Doit-on en dduire quil y ait moins dune chance sur 10000 pour que M. D*** soit
innocent ? Si non, comment valuer la probabilit pour que M. D*** soit innocent ?
2) Comment selon vous peut-on parvenir des estimations comme celles proposes
par lexpert. Quelle fiabilit accorder celles-ci ? Comment les variations de cette
estimation affectent-elles lestimation de la probabilit pour que M. D*** soit cou-
pable ?
3) Deux experts diffrents proposent deux estimations diffrentes de la probabilit
de concidence de lADN de M. D*** avec celui trouv sur les lieux du crime dans
lhypoths o celui-ci est innocent, disons p1 et p2 , obtenues par deux mthodes dif-
frentes. Les propositions suivantes vous semblent-elles raisonnables ? Pour quelles
raisons ?
Utiliser comme estimation p1 +p 2
2 .
Evaluer sparment la probabilit de culpabilit de M. D*** en utilisant p1 puis
p2 , et conserver la plus petite des deux valeurs obtenues.
Rexaminer les deux mthodes employes par les experts pour parvenir leurs
estimations, et ne conserver que la valeur obtenue par la mthode qui semble
la plus pertinente.
Multiplier par 10 la plus grande des deux valeurs p1 ou p2 , multiplier par 1/10
la plus petite, calculer les estimations de la probabilit de culpabilit ainsi obte-
nues, et considrer quune valeur raisonnable doit se trouver dans la fourchette
ainsi obtenue.
Dcider que si les rsultats obtenus partir des deux mthodes pointent dans
la mme direction (culpabilit ou innocence), on se satisfait de ce rsultat.
Dcider que si les rsultats obtenus partir des deux mthodes pointent dans
deux directions diffrentes, on ne peut rien dire.
Analyser les deux mthodes employes et tenter de trouver une troisime m-
thode qui puisse remdier leurs dfauts potentiels avant de faire quoique ce
soit.
Essayer destimer, pour chaque mthode, les marges derreurs susceptibles daf-
fecter leurs rsultats, et raisonner avec des fourchettes de valeur (comment ?)
plutt quavec des valeurs fixes.
4) Vous faites partie du jury charg de statuer sur le sort de M. D***. tes-vous
plus impressionn par une valeur, tous calculs faits, de la probabilit de culpabilit
de 0,9998, que par une valeur de 0,9 ou 0,8 ? Dcideriez-vous de dclarer M. D***
coupable en fonction de ce seul calcul (sachant que vous ntes cens le faire que
lorsque sa culpabilit semble tablie au-del de tout doute raisonnable) ? Si oui, jus-
qu quelle valeur de la probabilit de culpabilit vous dcidez-vous pour la culpabilit ?
0,99 ? 0,9 ? 0,8 ? 0,55 ? 0,5000001 ? Comment jugez-vous de la fiabilit de lestima-
118

tion propose ? Une estimation 0,99999 par une mthode qui semble douteuse vous
convainc-t-elle davantage quune estimation de 0,8 par une mthode qui semble plus
fiable ?
5) M. D***, pour expliquer la similarit observe entre son propre ADN et les traces
trouves sur les lieux du crime, prtend avoir t victime dune machination, des
chantillons de ses propres tissus ayant t rcuprs sur lui son insu, puis dposs
sur place, par le meurtrier ou lun de ses complices, dans le but de le faire accuser
tort. Cette machiavlique possibilit a-t-elle t prise en compte dans les valuations
de probabilit ci-dessus ? Si oui, comment, et sinon, comment pourrait-elle ltre ?
Mme question avec la possibilit pour que de lADN de M. D*** se trouve par
hasard sur les lieux du crime (cest-a-dire, sans que celui-ci soit coupable) ?
6) Comment le principe de la prsomption dinnocence est-il, selon vous, pris en
compte, ou au contraire ignor, dans les arguments qui prcdent ?

Exercice 58 M. H*** joue au Loto, et... gagne le gros lot. Quand il tente de faire
valoir ses droits, on refuse de lui verser son gain en lui opposant largument suivant.
La probabilit de gagner sans tricher est infime, et vous venez de gagner. Le plus
probable est donc que vous ntes quun tricheur ! Estimez-vous heureux que nous ne
vous trainions pas devant les tribunaux, et ny revenez pas ! Que pensez-vous du
bien-fond de cet argument ?

Exercice 59 Voici un extrait du journal Le Monde, dat daot 2005, dans un ar-
ticle consacr la scurit arienne. (...) Dans le mme temps, les vols irrguliers
devenaient plus meurtriers : le nombre de tus voyageant sur des charters reprsen-
tait environ 20% du total des dcs dus des accidents davion la fin des annes
1980, contre 50% aujourdhui.(...) Cette phrase vous semble-t-elle convaincante ?
Pourquoi ?

Exercice 60 Une tude ralise auprs dadolescents amricains appartenant des


gangs a rvl que 40% de ceux qui se dclaraient athes avaient dj t condamns
pour des dlits accompagns dactes violents. Cette proportion est plus de cent fois
suprieure celle des personnes condamnes pour des dlits similaires au sein de la
population totale. Cette tude montre donc clairement que lathisme conduit tout
droit la violence. Que pensez-vous de cet argument ?

Exercice 61 (Laffaire Sally Clark : une chance sur 73 millions !)


En 1997, Mme Sally Clark perdit son premier enfant, alors g de 11 semaines,
et le dcs fut attribu des causes naturelles. Lanne suivante, son deuxime enfant
mourut, g de huit semaines. Mme Clark fut alors arrte et accuse du meurtre de
ses deux enfants, puis juge, reconnue coupable, et condamne en 1999 la prison
perptuit. Pourtant, les lments de preuve dordre mdical taient extrmement
Le modle probabiliste 119

tnus, voire inexistants, et rien ne laissait penser a priori que Mme Clark ait pu
tre une mre ngligente ou violente envers ses enfants. En fait, il semble bien que
la conviction du jury ait t emporte par un argument de nature statistique, version
moderne du dicton selon lequel la foudre ne frappe jamais deux fois au mme endroit,
et affirmant en substance quil faudrait une concidence vraiment extraordinaire pour
que lon observe non pas une, mais deux morts subites du nourrisson successives
au sein dune mme famille. Sir Meadow, qui tmoigna au procs en tant quexpert
mdical, affirma que la probabilit dune telle concidence (que surviennent par hasard
deux morts subites du nourrisson dans une famille comparable celle de Mme Clark)
tait denviron une chance sur 73 millions, ce qui fut apparemment interprt comme
un argument dcisif indiquant la culpabilit de Mme Clark, et prsent comme tel par
les mdias lpoque.
1) Cette estimation de probabilit vous semble-t-elle constituer un argument dcisif ?
2) Lorigine de cet estimation de probabilit partait du chiffre denviron 1/8500 pour
la probabilit dune mort subite du nourrisson au sein dune famille comparable
celle des Clark, estim daprs des donnes mdico-lgales, do une estimation de
1/8500 1/8500 1/73000000. Etes-vous convaincu par cette estimation ?
Afin de satisfaire la curiosit que na sans doute pas manqu de susciter le d-
but de cet exercice, voici quelques lments sur la suite de lhistoire. Des tudes
statistiques menes ultrieurement par le Professeur Hill, de luniversit de Salford,
conduisent proposer que la probabilit dobserver deux morts subites devrait tre
approximativement 9 fois suprieure la probabilit pour une mre de causer dlib-
rment la mort de ses deux enfants, do une estimation de la probabilit de culpabilit
denviron 1/10. Par ailleurs, au sujet de la mthode destimation dcrite la ques-
tion 2), ltude mene par le Pr Hill semble indiquer que le risque de mort subite est
entre 5 et 10 fois suprieur chez un enfant dont un frre ou une sur est lui-mme
dcd de mort subite du nourrisson.
Les Clark firent appel du jugement, sappuyant en particulier sur des avis de sta-
tisticiens dnonant ces diffrentes erreurs dargumentation. Lappel fut rejet, la
conclusion du juge tant que le point essentiel tait la raret de lapparition de deux
morts subites au sein dune mme famille, non remise en question par ces remarques.
Devant une telle incomprhension, la Socit Royale de Statistique crivit aux autori-
ts judiciaires pour enfoncer le clou. De plus, on dcouvrit que des lments mdicaux
accrditant largement lhypothse dune mort accidentelle du deuxime enfant avaient
t dissimuls lors du procs. Un second procs en appel fut alors organis, et Mme
Clark fut finalement acquitte aprs avoir pass prs de deux ans et demi en prison.
Sir Meadow a t radi en 2005 par lordre des mdecins du Royaume-Uni, pour
serious professional misconduct.
3) Daprs vous, que signifie le fait dvaluer la probabilit de mort subite du nour-
risson dans une famille comparable celle des Clark ? Quels critres peut-on ou
120

doit-on retenir pour sassurer de cette comparabilit ?


4) Pour citer la lettre de la Socit Royale de Statistique, The fact that two deaths by
SIDS [sudden infant death syndrome] is quite unlikely is, taken alone, of little value.
Two deaths by murder may well be even more unlikely. What matters is the relative
likelihood of the deaths under each explanation, not just how unlikely they are under
one explanation. Pouvez-vous traduire ceci prcisment en termes de probabilits
conditionnelles ?
5) La loi de Meadow cite par les mdias lors du procs affirmait : une mort
subite est une tragdie, deux morts subites doivent veiller les soupons, trois morts
subites : cest un meurtre. Etes-vous convaincu ? Comment traduirait-on cette loi
en termes de probabilits ?

Exercice 62 On considre n modles probabilistes (1 , P1 ), . . . , (n , Pn ), et le mo-


dle dcrivant leur succession indpendante : := 1 n , P := P1 Pn .
1) Prouvez, en vous appuyant sur la reprsentation en arbre, le fait que

P( ai1 ai2 aip ) = Pi1 (ai1 ) Pi2 (ai2 ) Pip (aip ).

2) De la mme manire, prouvez la proprit des coalitions.


Chapitre 2

Variables alatoires

2.1 Introduction et dfinition

Dans le chapitre prcdent, nous avons prsent le formalisme gnral des modles
probabilistes, qui permet de reprsenter mathmatiquement des situations incorpo-
rant incertitude, variabilit ou hasard. Ce formalisme fait intervenir un espace des
possibles , dont les lments reprsentent les ventualits lmentaires, cest--dire
les diffrentes issues possibles de la situation considre, au niveau de prcision choisi
pour la dcrire, et une probabilit P associant chaque ventualit lmentaire un
nombre reprsentant la probabilit que la situation soit ralise via cette ventualit
particulire. La ralisation de la situation considre est modlise comme le choix
de lune des ventualits lmentaires, , qui contient donc toute linformation
l encore, au niveau de prcision choisi sur la faon dont la situation sest rali-
se. Comme nous lavons vu au cours du chapitre prcdent, lespace des possibles
est gnralement construit en assemblant des morceaux dinformation portant
sur la ralisation de la situation, chacun de ces morceaux reprsentant une partie
de linformation globale contenue dans les lments de , qui permet de spcifier
compltement, au niveau de description choisi, lissue de la situation tudie. En
particulier, on reprsente souvent par un arbre, dont chaque ramification corres-
pond la spcification de lun des choix dont la liste complte permet de spcifier la
manire dont la situation sest ralise. Pourtant, mme si ce formalisme est suffisant
pour donner une description complte de lincertitude affectant la situation qui est
modlise, il nous sera souvent ncessaire dextraire du modle probabiliste (, P)
des informations de nature quantitative, qui ne figurent pas forcment explicitement,
en tant que telles, dans le modle, et permettent den rsumer numriquement cer-
tains des aspects les plus pertinents pour nous. Ceci justifie la dfinition dune notion
122

gnrale : on appelle variable alatoire toute fonction dfinie sur :



X : E,
7 X()

A chaque valeur particulire de correspond une valeur de X, X() E,


o E dsigne lensemble dans lequel la fonction E prend ses valeurs, et sera le plus
souvent une partie de R ou de Rn , mais pourra galement reprsenter la liste des
valeurs possibles dun caractre qualitatif. De manire gnrale, nous dsignerons par
SX lensemble des valeurs possibles pour X, cest--dire lensemble

SX = {X() : },

que nous appellerons lespace image de par X. En gnral, SX est strictement


inclus dans E. Lorsque est fini ou dnombrable, SX est galement un ensemble fini
ou dnombrable. On parle dans ce cas de variable alatoire discrte. Le cas des
variables alatoires continues, pour lesquelles SX est typiquement un intervalle
de R, sera trait dans un cadre spar.

Exemple

Pour dcrire le rsultat du lancer de deux ds, on peut faire appel lespace

= {1; 2; 3; 4; 5; 6}2 ,

des couples forms par les chiffres du premier et du deuxime d. Un lment de


se met donc sous la forme = (x1 , x2 ), et la fonction X dfinie sur par :

X((x1 , x2 )) = x1

est une variable alatoire, qui dcrit le rsultat du premier d. La connaissance de la


valeur de X() ne permet pas de reconstituer celle de : chacune des six ventualits
lmentaires (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6) donne la mme valeur X, savoir
1. X() ne contient donc pas tout linformation relative , mais seulement une
partie. Ainsi, lvnement X = 1 correspond en fait lvnement formel :

{(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)}.

Notons que les six vnements : X = 1, X = 2, X = 3, X = 4, X =


5, X = 6 sont deux--deux incompatibles, et recouvrent , puisque lun de ces
vnements est toujours ralis, X prenant toujours une valeur parmi les entiers de
1 6. Ils forment donc une partition de en six vnements, chacun des vnements
Variables alatoires 123

de ce systme comprenant six ventualits lmentaires. Si lon introduit maintenant


une autre variable alatoire Y dfinie sur par

Y ((x1 , x2 )) = x2 ,

qui dcrit donc le rsultat du deuxime d, on obtient une autre partition de ,


associe aux diffrentes valeurs que peut prendre Y . Les six vnements Y = 1,
Y = 2, Y = 3, Y = 4, Y = 5, Y = 6 forment galement un dcoupage
de lespace des possibles, diffrent de celui que lon obtenait avec X. Lvnement
Y = i correspond lvnement : {(1, i), (2, i), (3, i), (4, i), (5, i), (6, i)}. Si lon
range les lments de dans un tableau :

(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)


(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

le dcoupage relatif aux valeurs de X est form par les six lignes du tableau, le
dcoupage relatif Y par les six colonnes. Ces deux dcoupages coexistent, mais
sont distincts. Si lon introduit maintenant la variable alatoire Z dfinie par

Z = (X, Y ),

on obtient un dcoupage plus fin que les deux prcdents, correspondant aux trente-
six cases du tableau. En fait, dans ce cas, Z() = .
Si lon reprsente sous la forme dun arbre de profondeur 2 dont la premire
ramification dtermine le rsultat du premier d, et la seconde le rsultat du second
d, X et Y sont formellement des fonctions dfinies sur les feuilles (ou encore, ce
qui revient au mme, sur les rayons conduisant de la racine une feuille) de larbre,
mme si X ne fait rellement intervenir que la premire ramification, et Y la seconde.
Peut-tre cette manire de dfinir explicitement les variables alatoires en fonction
des ventualits vous parat-elle trange. En fait, on retrouve la mme distinction
concret/formel que celle qui sapplique aux vnements. Du point de vue formel,
une variable alatoire X est une fonction (ou encore une application), dont on doit
dfinir la valeur X() pour chaque ventualit lmentaire , tandis que, du point
de vue concret, une variable alatoire est simplement une quantit (ou un caractre
qualitatif) en rapport avec la situation considr, et qui, du fait que cette situation
est variable, incertaine ou alatoire, est elle-mme variable, incertaine, ou alatoire.
Comme dans le cas des vnements, on dfinira souvent (mais pas toujours) les
variables alatoires de manire concrte, la traduction formelle dans le cadre du
124

modle tant implicite (mais ncessitant bien entendu la connaissance du dictionnaire


reliant les lments de la ralit). Comme dans le cas des vnements, une variable
alatoire au sens concret nest pas ncessairement associe une variable alatoire au
sens formel : cela dpend de la finesse avec laquelle lespace des possibles dcrit la
situation tudie. Par exemple, la variable alatoire (au sens concret) correspondant
la dure du lancer du premier d nest pas associe une variable alatoire au sens
formel dans le modle dcrit ci-dessus, car celui-ci nincorpore aucune information
relative cette dure. Enfin, une mme variable alatoire (au sens concret) pourra
correspondre des variables alatoires (au sens formel) diffrentes dans des modles
diffrents.
Dans lexemple dune succession indpendante de N lancers de pile ou face, telle
que dcrite dans le chapitre prcdent par le modle (N , PN ), on pourra dfinir une
variable alatoire de manire concrte par : X est le nombre total de face obtenus
au cours des N lancers, ou, de manire formelle (et quivalente) par :

X() = #{1 i N : i = F}

(o #E dsigne le nombre dlments de lensemble E, et en se souvenant que les


lments de N sont de la forme = (1 , . . . , n )). Dfinissons les variables alatoires
X1 , . . . , XN , valeurs dans {P,F}, reprsentant les rsultats (pile ou face) des lancers
successifs, dfinies de manire formelle par :

Xi () = i .

Ces variables alatoires figurent explicitement dans le modle, et cest en fait partir
de la spcification de leurs valeurs quest construit lespace des possibles N . Inver-
sement, la variable alatoire X comptant le nombre de face obtenus ne figure pas
explicitement dans le modle, mais sa valeur se dduit de celle de (1 , . . . , N ).

Quelques confusions viter

Comme pour toute fonction, il importe de bien diffrencier la valeur ponctuelle


prise par une variable alatoire pour un certain , X(), qui reprsente la valeur de X
que lon observe lorsque la situation tudie se ralise selon lventualit lmentaire
, et la variable alatoire elle-mme, qui est une fonction sur , et dcrit la totalit
des valeurs possibles de cette variable. Quand on parle de variable alatoire, on
considre donc implicitement toutes les valeurs possibles que celle-ci peut prendre, et
non pas simplement celle qui sest effectivement ralise. De mme, il importe de bien
distinguer lespace sur lequel la variable est dfinie, de lespace SX dans lequel celle-
ci prend ses valeurs. Notons quune variable alatoire ne prend pas ncessairement des
valeurs numriques, (tout dpend de lensemble SX ) mais peut galement reprsenter
un caractre qualitatif comme une couleur, en prenant par exemple des valeurs
Variables alatoires 125

telles que rose, bleu, vert. Cependant, la plupart des variables alatoires que
nous considrerons prendront des valeurs numriques.
Notons que lon est en gnral amen considrer plusieurs variables alatoires d-
finies sur un mme espace de probabilit le modle de rfrence utilis pour dcrire
la situation. Dans lexemple de pile ou face ci-dessus, les variables X, X1 , . . . , XN
nont rien voir entre elles, mais sont toutes dfinies sur le mme espace N .

Un exemple simple et fondamental de variable alatoire : la fonction in-


dicatrice dun vnement

tant donn un vnement formel A (cest--dire un sous-ensemble de ), on


dfinit la fonction indicatrice de lvnement A, note 1A , par :

1A () = 1 si A,
1 () = 0 si
/ A.
A

La fonction 1A est donc une variable alatoire, puisquil sagit dune fonction dfinie
sur , et sa valeur indique la ralisation ou la non-ralisation de lvnement A :
1A prend la valeur 1 lorsque A est ralis, et 0 lorsquil nest pas ralis. Cest
probablement lexemple le plus simple de variable alatoire.

2.2 Loi dune variable alatoire


2.2.1 Le point de vue formel pour les variables alatoires discrtes
De manire gnrale, comment la probabilit P dfinie sur lespace des possibles
affecte-t-elle les variables alatoires dfinies sur ? Remarquons en passant que la
notion de variable alatoire est dfinie indpendamment de la probabilit sur : il
sagit dune notion relative seulement la structure de (ou encore de la situation
considre), sans rfrence P. Pour chaque valeur que peut prendre une variable
alatoire, il convient donc de prciser quelle est la probabilit pour que cette valeur
soit effectivement prise. Considrons une variable alatoire X dfinie sur , dont
nous notons SX lespace image, cest--dire lensemble des valeurs possibles :

X : SX .

chaque ventualit lmentaire est attach un lment X() de SX .


Inversement, chaque valeur possible que peut prendre X, cest--dire chaque l-
ment s SX , est attach lvnement (concret) X = s, ou encore X prend la
valeur s, dont le correspondant formel dans est lensemble des ventualits l-
mentaires de telles que X() = s. Cet vnement possde une probabilit, dfinie
126

comme la somme des probabilits des ventualits lmentaires qui le constituent :


X
P(X = s) = P().
: X()=s

Il est important de comprendre parfaitement la signification de cette formule : pour


une valeur fixe s que peut prendre la variable alatoire X, un certain nombre dven-
tualits lmentaires donnent effectivement X la valeur s, cest--dire sont
telles que X() = s. La probabilit pour que X prenne la valeur s est donc la somme
des probabilits de toutes ces ventualits lmentaires. Les deux difficults prsentes
ici sont que :
1. plusieurs ventualits lmentaires peuvent fournir la mme valeur pour X,
2. les lments de SX , cest--dire les valeurs que peut prendre X (souvent des
nombres), ne sont pas de la mme nature que les lments de .
Reprenons lexemple prcdent des deux ds, en supposant que la probabilit dfinie
sur est la probabilit uniforme. Lvnement X=2 correspond lvnement

{(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6)},

et la probabilit pour que X = 2 est donc donne par :


1 1
P(X = 2) = P(2, 1) + P(2, 2) + P(2, 3) + P(2, 4) + P(2, 5) + P(2, 6) = 6 = .
36 6
Les valeurs que peut prendre X forment lensemble des entiers entre 1 et 6, ici
SX = {1; 2; 3; 4; 5; 6}, et ne sont pas de la mme nature que les lments de , qui,
lui, est constitu par des couples dentiers.
Nous lavons vu prcdemment sur un exemple, et la gnralisation de cette
observation est immdiate, la liste des vnements X = s, s dcrivant lensemble
des lments de SX (les valeurs possibles de X) forme une partition de lespace ,
cest--dire un systme complet dvnements. La liste des probabilits associes
ce dcoupage, cest--dire la liste des probabilits P(X = s), s dcrivant SX ,
est appele loi de la variable alatoire X, (ou loi de probabilit de X, ou
encore distribution de probabilit de X), relativement la probabilit P.
(Lorsquil ny a pas dambigut, on parle simplement de la loi de X sans prciser la
probabilit de rfrence sur ).
Dans lexemple des deux ds, on vrifie facilement que la loi de X est donne
par :
1
P(X = 1) = P(X = 2) = P(X = 3) = P(X = 4) = P(X = 5) = P(X = 6) = .
6
La liste des vnements X = s formant une partition de , on a la relation
X
P(X = s) = 1.
sS
Variables alatoires 127

La fonction s 7 P(X = s) dfinie sur lensemble SX apparat dont comme une


probabilit sur lensemble SX . Ceci nous donne une autre manire de prsenter la loi
dune variable alatoire X dfinie sur un modle probabiliste (, P). Si lon considre
un modle moins fin que (, P) pour dcrire la mme situation dans lequel on ne
prend en compte que linformation relative la valeur prise par X, on obtient un
modle (SX , pX ), dont les ventualits lmentaires sont simplement les diffrentes
valeurs possibles pour X, cest--dire les lments de lespace image SX , sur lequel,
(pour assurer la compatibilit avec la description de la situation fournie par (, P)),
on doit ncessairement avoir :

pX (s) = P(X = s).

La loi de X apparat alors simplement comme la probabilit pX sur lespace


des possibles SX de ce modle : chaque lment de SX est associe la probabilit
pour que X prenne effectivement cette valeur. Nous appellerons (SX , pX ) le modle
image de (, P) par X. (La probabilit pX sur SX dpend bien entendu de P et
pas seulement de X.)
Notons que, et, si H dsigne un sous-ensemble de SX , on a
X
P(X H) = P(X = s).
sH

On comparera cette expression la suivante, tout aussi valable :


X
P(X H) = P(),
: X()H

en notant que lune repose sur une reprsentation au moyen du modle (, P), et
lautre sur lutilisation du modle (SX , pX ).
Le fait que la loi de probabilit dune variable alatoire apparaisse simplement
comme une probabilit sur lensemble des valeurs de cette variable justifie le fait
que lon parle souvent dune loi de probabilit sur un ensemble S sans rfrence
particulire une variable alatoire susceptible de possder cette loi. Une
loi de probabilit sur un ensemble S (fini ou dnombrable), indpendamment de la
notion de variable alatoire, dsigne simplement une probabilit sur lensemble S,
vu comme un espace des possibles 1 . Au risque dinsister inutilement, une loi de
probabilit sur S (sans rfrence une variable alatoire) est donc la donne dune
probabilit sur lensemble S, cest--dire dune fonction p : S [0, 1], vrifiant la
P
condition de normalisation sSX p(s) = 1. Dire quune variable alatoire suit la
loi p sur SX , cest simplement dire que, pour tout s SX , on a P(X = s) = p(s),
1. On peut noter, que, tant donn un espace de probabilit (S, p), la variable alatoire X dfinie
sur S par X(s) = s suit la loi p.
128

autrement dit, que la loi de la variable alatoire X (en tant que probabilit sur
lespace des possibles SX ) concide avec la probabilit p.
Dans le mme ordre dides, on spcifie implicitement un modle (, P) dune
situation en dfinissant de manire concrte une variable alatoire X et en spcifiant
sa loi. Ce modle correspond alors = SX et P = loi de X.
Il est important de bien comprendre que plusieurs variables alatoires dfinies sur
le mme espace de probabilit, mais bien distinctes, peuvent parfaitement partager la
mme loi. Par exemple, dans le modle (N , PN ) dcrivant une rptition indpen-
dante de N lancers de pile ou face, ( = {P, F}, P(P) = p, P(F) = 1 p), chacune
des variables alatoires Xi reprsentant le rsultat du ime lancer possde la mme
loi, savoir : PN (Xi = P) = p, PN (Xi = F) = 1 p. Ces variables alatoires ne
sont pourtant pas en gnral gales entre elles ! De mme, dans le cas des deux ds,
lorsque la probabilit dcrivant les lancers est uniforme, les trois variables alatoires
X, Y et 7 X ont la mme loi (exercice facile), et ne sont pas gales en gnral. De
mme, des variables alatoires dfinies sur des espaces de probabilit diffrents, et
intervenant dans la modlisation de situations concrtes compltement diffrentes,
pourront galement possder la mme loi. Mieux : parfois, la loi des variables ala-
toires auxquelles on est confront est une loi classique, dont les proprits sont bien
connues, et qui apparat systmatiquement lorsque certaines proprits gnrales sont
prsentes dans le modle.
En ce sens, la notion de loi est portable, les calculs mens partir de la loi
ne faisant intervenir que le modle portable (SX , pX ), et non pas les dtails du
modle (, P) sous-jacent sur lequel X est dfinie qui sont susceptibles de varier
considrablement dune situation lautre , et une mme loi est donc susceptible
dintervenir dans de trs nombreux modles, indpendamment des dtails de ceux-ci.
Dans la suite, nous donnons une liste (non-exhaustive) de lois classiques, ainsi
que les hypothses qui permettent didentifier immdiatement une variable alatoire
comme possdant une telle loi. La loi apparatra donc comme une notion portable,
qui pourra souvent tre manipule sans autre rfrence au modle probabiliste sous-
jacent (, P) que quelques proprits gnrales, essentiellement dindpendance, le
plus souvent sans rapport avec la structure dtaille du modle et de la situation que
lon modlise.

2.2.2 La loi dans linterprtation frquentielle de la probabilit


notion de loi empirique

Etant donn un chantillon de valeurs x = (x1 , . . . , xN ), et un ensemble S (fini ou


dnombrable) contenant x1 , . . . , xN , la loi empirique sur S associe lchantillon
x est celle qui attribue chaque valeur s S une probabilit gale sa frquence
Variables alatoires 129

relative dapparition dans lchantillon :


1
pemp.,x (s) = nombre dindices i pour lesquels xi = s.
N
(Lorsquun lment de S napparat pas dans lchantillon, il est affect dune proba-
bilit nulle.) Lorsquil ny a pas dambigut concernant lchantillon utilis, on note
parfois simplement pemp. la loi correspondante (mais cette loi dpend nanmoins de
lchantillon x utilis pour la dfinir !).
La loi empirique associe un chantillon nest donc rien dautre quune descrip-
tion de cet chantillon, au moyen des frquences dapparition des diffrentes valeurs
dans cet chantillon (cest la probabilit au sens des frquences dans la population
constitue exclusivement par les valeurs de lchantillon) 2 .
Une autre manire de prsenter les choses est de dire que la loi empirique associe
x est la loi de probabilit dun lment choisi au hasard selon la probabilit uniforme
dans lchantillon 3 x.
La notion de loi empirique est fondamentale dans linterprtation frquentielle de
la probabilit. En effet, dans ce contexte, la loi (tout court) dune variable
alatoire nest autre que la loi empirique, dans la limite dun grand nombre
de rptitions de la situation considre (la manire dont les rptitions sont
effectues devant bien entendu tre dfinie avec prcision, cela fait partie de la
dfinition de la probabilit dans ce contexte et assurer la stabilisation des frquences
long terme).
Dans le cadre de cette interprtation, et de la mme manire que lon distingue
un terme dune suite de la limite de celle-ci, on sera amener distinguer ce que
lon appelle la loi thorique dune variable alatoire, qui correspond la limite
de la loi empirique dans lidalisation dun nombre infini de rptitions, de la loi
empirique associe un chantillon donn. Comme nous lavons dj not au chapitre
prcdent, cette notion de loi thorique nest quune idalisation, et les probabilits
qui lui sont associes ne sauraient en ralit tre dfinies mieux quun certain
degr dimprcision prs. Cependant, cette idalisation est trs utile en tant quoutil
conceptuel.
Juste pour fixer les ides, voici les rsultats obtenus avec quelques simulations
menes laide du logiciel R et censes simuler des rptitions indpendantes de
lancers de pile et face quiprobables. La loi thorique est donc ici la loi sur lensemble
{P,F} attribuant P et F une probabilit de 1/2. En effectuant 100 simulations
2. Lorsque la probabilit utilise dans le modle dsigne simplement la frquence au sein dune
certaine population, il importe de ne pas confondre la loi empirique associ un chantillon tir de
cette population, et la loi globale, qui correspond aux frquences au sein de la population totale.
3. Rappelons ici que la probabilit au sens des frquences au sein dune population peut gale-
ment se voir comme la probabilit frquentielle associe des tirages alatoires uniformes rpts
au sein de cette population.
130

de lancer, on a trouv 44 fois pile, et 56 fois face. La loi empirique associe cet
chantillon simul correspond donc une probabilit empirique de 0, 44 pour pile, et
de 0, 56 pour face. Bien entendu, 100 nouvelles simulations de lancers donneront en
gnral lieu une loi empirique diffrente. Hop ! Un nouveau tirage nous donne 52
pile et 48 face, la probabilit empirique dcrivant ce tirage est donc 0, 52 pour pile
et 0, 48 pour face. Plus la taille de lchantillon est grande, plus on sattend ce que
la loi empirique soit proche de la loi thorique. Avec 10000 simulations, on a trouv
4934 fois pile, et 5067 fois face. En lanant une nouvelle simulation, nous obtenons
5042 fois pile et 4958 fois face. Avec 1000000 simulations, 500290 fois pile, et 499710
fois face. Au premier abord, ceci ne semble pas en contradiction flagrante avec notre
idalisation dune loi thorique de 1/2 pour pile et 1/2 pour face. Des exemples plus
trpidants sont prsents sous forme de graphiques dans la suite. Nous reviendrons
beaucoup plus en dtail sur ces questions dans les chapitres suivants (loi des grands
nombres et courbe en cloche).
Concluons par une remarque terminologique.

Remarque 2 Dans le langage courant, le terme de loi, appliqu un phnomne


naturel, ou, plutt, une classe de phnomnes naturels, dsigne une proprit cen-
se tre vrifie par lensemble des phnomnes de cette classe. En physique, on parle
ainsi de la loi de la gravitation de Newton cense dcrire les phnomnes dattrac-
tion entre les corps pesants, de la loi des gaz parfaits, cense dcrire la relation entre
pression, volume et temprature pour une certaine catgorie de gaz, de la loi dAr-
chimde sur la force exerce par un liquide sur un corps solide immerg, ou encore
la loi dOhm cense dcrire le lien entre intensit et tension lectriques dans certains
types de matriaux conducteurs. Dans dautres domaines, on parle par exemple de la
loi de Moore (la puissance de calcul permise par les ordinateurs double environ tous
les 18 mois), de la loi des rendements dcroissants en conomie, etc... (sans oublier
la loi de la jungle ou la loi de Murphy). Bien entendu, ces diffrentes lois ne sont
pas toutes de mme nature et nont pas toutes le mme statut. Nous vous renvoyons
un ouvrage dpistmologie et/ou dhistoire des sciences pour une discussion de la
notion de loi dans ce contexte. Retenons simplement le rle fondamental jou par
la vrification empirique des lois, cest--dire la confrontation de leurs prdictions
la ralit observe. En gnral, lorsquune loi est qualifie dempirique, cest pour
souligner quelle correspond effectivement aux observations, mais que lon ne dispose
pas darguments thoriques permettant de la justifier.
La terminologie employe en probabilits recoupe plus ou moins ces usages du mot
loi. Ainsi, dans linterprtation frquentielle de la probabilit, la loi (au sens usuel,
non-probabiliste du terme) attache une quantit alatoire est que, au cours dun
grand nombre dexpriences rptes fournissant des mesures de cette quantit (les
conditions de rptition devant naturellement tre prcises), les frquences dappari-
Variables alatoires 131

tion des diffrentes valeurs que cette quantit peut prendre se stabilisent au voisinage
de limites qui sont justement dcrites par la loi de probabilit de la variable ala-
toire modlisant cette quantit. Comme toute loi (au sens non-probabiliste), celle-ci
peut-tre fausse ou approximative, plus ou moins bien vrifie en pratique, et plus ou
moins bien taye par des arguments thoriques.
Dans ce contexte, la loi de probabilit empirique attache un chantillon de
valeurs mesures de cette quantit est simplement le rsum de linformation obtenue
exprimentalement sur la rpartition des valeurs de celle-ci. Lors de llaboration
dun modle probabiliste dune situation, et notamment de la spcification des lois
de probabilit des variables alatoires intervenant dans le modle, les lois empiriques
associes des valeurs mesures sont lun des lments fondamentaux (parfois le seul
auquel cas le modle peut tre considr comme compltement empirique mais
souvent accompagn de considrations thoriques, connaissances ou hypothses sur le
phnomne tudi) de la dmarche.

2.2.3 Fonction de rpartition dune loi discrte


Si p est une probabilit sur un sous-ensemble fini ou dnombrable S de R, on
dfinit la fonction de rpartition de p comme la fonction dfinie sur R par

Fp (x) = p ({s S : s x}) .

Par dfinition, X
Fp (x) = p(s).
s : sx

On dfinit la fonction de rpartition dune variable alatoire X valeurs relles


et dfinie sur (, P) par FX = FpX , o, plus explicitement,
X
FX (x) = P(X x) = P(X = x).
sSX : sx

On vrifie que la fonction Fp est croissante, et quil sagit en fait dune fonction
en escalier continue droite (si on lit le graphe de Fp dans le sens des abscisses
croissantes, la fonction effectue des sauts vers le haut aux points dont les abscisses
correspondent aux lments de S.
On vrifie que limx Fp (x) = 0, et que limx Fp (x) = 1.
La connaissance de Fp est quivalente celle de la loi de p, car, pour x, y S
tels que x < y et ]x, y[S = , on a p(y) = Fp (y) Fp (x).

2.2.4 Reprsentations graphiques


La loi dune variable alatoire discrte est la donne, pour chaque valeur que
peut prendre cette variable alatoire, de la probabilit attache cette valeur. Il
132

est trs utile de disposer de diverses reprsentations graphiques dune loi, car cela
permet de saisir visuellement un certain nombre de proprits quil serait parfois
difficile de dgager directement dune liste ou dun tableau de nombres, dune formule,
ou dindicateurs numriques synthtiques (tels quesprance, mdiane, cart-type,...,
nous en discuterons dans la suite).

Nous nous limiterons essentiellement au cas le plus simple : la reprsentation


graphique des lois de variables alatoires valeurs dans R on parle de lois univaries
(avec une brve excursion au cas bi-vari dans le chapitre sur la rgression). Il existe
par ailleurs de trs nombreux outils destins traiter le cas de variables alatoires
qualitatives, ou de variables multi-dimensionnelles.

Nous vous renvoyons un cours de statistique descriptive pour une description


dtaille des divers types de reprsentation graphique, dont nous ne prsentons dans
la suite que quelques exemples.

Diagramme en btons

La reprsentation la plus simple, ou diagramme en btons, consiste tracer, en


regard de chaque valeur possible de la variable, un trait dont la hauteur reprsente
la probabilit associe cette valeur. Voici quelques exemples de tels diagrammes
(nous donnerons plus bas les dfinitions exactes des lois qui sont reprsentes).

Loi binomiale B(20,0.5)


0.15
0.10
P(X=s)

0.05
0.00

0 5 10 15 20

s
Variables alatoires 133

Loi binomiale B(20,0.7)


0.15
0.10
P(X=s)

0.05
0.00

0 5 10 15 20

Loi de Poisson de param. lambda=5,2


0.15
0.10
P(X=s)

0.05
0.00

0 5 10 15 20

Loi geometrique de param. p=0.4


0.4
0.3
P(X=s)

0.2
0.1
0.0

5 10 15

s
134

Loi uniforme sur 1,2,...,50


0.025
P(X=x)

0.020
0.015

0 10 20 30 40 50

Voici prsent les diagrammes en btons obtenus partir des lois empiriques as-
socies des chantillons simuls (simulations menes sous R) de variables alatoires.

Loi empirique : 50 simulations de Binom(20,0,5)


0.25
0.20
0.15
Pemp(X=x)

0.10
0.05
0.00

4 6 7 8 9 10 11 12 13 14

Loi empirique : 50 simulations de Binom(20,0,5)


0.20
0.15
Pemp(X=x)

0.10
0.05
0.00

4 6 7 8 9 10 11 12 13 14

x
Variables alatoires 135

Loi empirique : 500 simulations de Binom(20,0,5)


0.15
Pemp(X=x)

0.10
0.05
0.00

4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Loi empirique : 10000 simulations de Binom(20,0,5)


0.15
0.10
Pemp(X=x)

0.05
0.00

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Loi empirique : 50 simulations de Poisson(lambda=5,2)


0.20
0.15
Pemp(X=x)

0.10
0.05
0.00

1 2 3 4 5 6 7 8 9 10

x
136

Loi empirique : 50 simulations de Poisson(lambda=5,2)


0.20
0.15
Pemp(X=x)

0.10
0.05
0.00

1 2 3 4 5 6 7 8 9 10 11

Loi empirique : 500 simulations de Poisson(lambda=5,2)


0.15
0.10
Pemp(X=x)

0.05
0.00

0 1 2 3 4 5 6 7 8 9 10 11 12

Loi empirique : 10000 simulations de Poisson(lambda=5,2)


0.15
0.10
Pemp(X=x)

0.05
0.00

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

x
Variables alatoires 137

Loi empirique : 50 simulations de loi uniforme sur 1,2,...,50


0.08
0.06
Pemp(X=x)

0.04
0.02
0.00

1 3 5 7 10 13 15 17 19 21 23 25 27 31 33 36 39 44 46 49

Loi empirique : 50 simulations de loi uniforme sur 1,2,...,50


0.08
0.06
Pemp(X=x)

0.04
0.02
0.00

3 6 9 11 13 15 17 19 21 25 28 30 34 36 38 43 45 47 50

Loi empirique : 500 simulations de loi uniforme sur 1,2,...,50


0.035
0.030
0.025
0.020
Pemp(X=x)

0.015
0.010
0.005
0.000

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49

x
138

Loi empirique : 10000 simulations de loi uniforme sur 1,2,...,50


0.025
0.020
0.015
Pemp(X=x)

0.010
0.005
0.000

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49

On observe bien la diffrence existant entre loi thorique dune part, et, dautre
part loi empirique associe un chantillon produit par simulation, et cens tre
modlis par cette loi thorique.

Mise en garde 5 Il importe de ne pas confondre les diagrammes ci-dessus, qui re-
prsentent la loi empirique associe des chantillons de la forme x1 , . . . , xN , avec
le trac de xi en fonction de i (qui peut avoir un intrt, mais na pas de rapport avec
ce qui est reprsent ci-dessus).
Pour bien saisir la diffrence, voici quoi peut ressembler un tel trac.

50 simulations de loi uniforme sur 1,2,...,50


50
40
30
x(i)

20
10

0 10 20 30 40 50

On remarque au passage que la loi empirique associe un chantillon ne dpend


pas de lordre dans lequel les valeurs apparaissent dans lchantillon. Si celui-ci re-
flte, par exemple, un ordre chronologique entre des mesures effectues des dates
diffrentes, ou, plus gnralement, si celui-ci prsente un rapport avec la situation
tudie, ne retenir dun chantillon que sa loi empirique peut donc conduire to-
talement ignorer certaines structures prsentes dans lchantillon et potentiellement
importantes dans ltude de la situation considre. Voir le chapitre Statistique
ce sujet.
Variables alatoires 139

Histogramme

Lorsque la variable alatoire laquelle on sintresse prend un grand nombre de


valeurs distinctes, (cela sera en particulier le cas des lois empiriques associes aux
lois continues, que nous tudierons ultrieurement) il est souvent plus commode de
regrouper entre elles les valeurs proches, et de reprsenter la loi sous la forme dun
histogramme constitu dun nombre limit de barres, la surface des barres reprsen-
tant la probabilit quune valeur se trouve dans lintervalle formant la base de cette
barre. Linformation contenue dans lhistogramme est donc moins dtaille que celle
que fournit un diagramme en btons, lhistogramme ne permet pas en gnral de
retrouver la loi, et il y a en ce sens perte dinformation lorsque lon utilise cette
reprsentation mais elle en fournit un rsum souvent plus lisible. Plus prcis-
ment, pour construire un histogramme dcrivant la loi dune variable alatoire X,
on fixe une largeur , et lon dcoupe lensemble des valeurs que peut prendre X en
classes deux--deux disjointes de la forme [ai , ai+1 [ (ou ]ai , ai+1 ], cela dpend des
dfinitions). Au-dessus de chaque intervalle [ai , ai+1 [, on trace une barre dont la sur-
face est proportionnelle P(X [ai , ai+1 [). La hauteur de la barre situe au-dessus
de lintervalle [ai , ai+1 [ est donc proportionnelle P(X [ai , ai+1 [)/(ai+1 ai ). On
choisit la plupart du temps des classes de mme largeur, cest--dire pour lesquelles
ai+1 = ai + pour tout i. Le choix des paramtres de lhistogramme (largeur des
classes, points de borne infrieure et suprieure, chelles) contient une part darbi-
traire, et diffrentes rgles automatiques de choix de ces paramtres sont utilises
par les logiciels de statistique tels que R.

Exemple 1 Jojo mesure le temps de transmission dun message de son ordinateur


un autre par le rseau internet, divers moments. Il recueille les donnes suivantes
(temps exprim en millisecondes) : 188,9 ; 188,7 ; 184,1 ; 348,0 ; 187,0 ; 195,3 ; 255,0 ;
413,9 ; 225,3 ; 221,1 ; 269,4 ; 208,7 ; 211,7 ; 206,9 ; 226,4 ; 186,5 ; 193,8 ; 208,2 ; 238,4 ;
250,7 ; 195,1 ; 186,3 ; 195,6. Si lon effectue un diagramme en btons de la loi empi-
rique associe cet chantillon, on obtient, toutes les valeurs de lchantillons tant
distinctes (et donc affectes chacune dune probabilit gale 1/23), le diagramme
suivant, dont laspect abscons devrait vous convaincre de lintrt dutiliser des his-
togrammes :
140
0.060
0.055
0.050
0.045
P(X=s)

0.040
0.035
0.030
0.025

200 250 300 350 400

La reprsentation par un histogramme de la loi empirique associe cet chan-


tillon de valeurs donne le rsultat (plus parlant) suivant, en choisissant une largeur
de classes gale 50ms :
0.008
0.006
0.004
0.002
0.000

150 200 250 300 350 400 450

En rduisant la largeur dune classe 20ms, on obtient le rsultat (plus prcis,


mais moins lisible) suivant :
Variables alatoires 141

0.020
0.015
0.010
0.005
0.000

200 250 300 350 400

Lorsquon reprsente, comme nous venons de la faire, une loi empirique associe
un chantillon de donnes, on indique parfois en ordonne leffectif correspondant
la barre, cest--dire le nombre de valeurs de lchantillon qui se trouvent dans
lintervalle dlimit par la base de la barre. Par exemple :
10
8
6
Effectif

4
2
0

200 250 300 350 400

On note que, dans ce cas, il nest pas forcment pertinent de comparer des his-
togrammes associs des chantillons de tailles diffrentes en les superposant, pour
dvidentes raisons dchelle.

Reprsentation graphique de la fonction de rpartition

Il sagit simplement de reprsenter le graphe de la fonction de rpartition. Voici


quelques exemples reprenant les lois reprsentes prcdemment.
142

Loi binomiale B(20,0.5)


1.0
0.8
0.6
0.4
0.2
0.0

0 5 10 15 20

Loi binomiale B(20,0.7)


1.0
0.8
0.6
0.4
0.2
0.0

0 5 10 15 20

Loi de Poisson, lambda=5.2


1.0
0.8
0.6
0.4
0.2
0.0

0 5 10 15 20
Variables alatoires 143

Loi geometrique de param. p=0,4


1.0
0.9
0.8
0.7
0.6
0.5
0.4

0 5 10 15

Loi uniforme sur 1,...,50


1.0
0.8
0.6
0.4
0.2
0.0

0 10 20 30 40 50

Temps de transmission
1.0
0.8
0.6
0.4
0.2
0.0

200 250 300 350 400

Pour marquer le fait que la fonction de rpartition est continue droite, on note
parfois les points situs aux bords gauches des sauts, comme ceci.
144

Loi binomiale B(20,0.5)


1.0
0.8
0.6
0.4
0.2
0.0

0 5 10 15 20

Autres reprsentations graphiques

Il existe de nombreux autres types de reprsentations graphiques, pouvant servir


rsumer avec plus ou moins de prcision une loi de probabilit unidimensionnelle.
Mentionnons, sans prtendre lexhaustivit, la reprsentation de la fonction de
rpartition et le boxplot, qui sont dcrits plus bas. De nombreux raffinements (tels
que lemploi de procds de lissage) de ces mthodes de base existent. (voir nimporte
quel ouvrage comportant le mot Statistique descriptive dans son titre pour plus
de dtails).

Comparaison graphique de deux lois au moyen du trac quantile-quantile


*

Cette partie ncessite la connaissance de la notion de quantile dune loi de pro-


babilit, dfinie plus bas.
Le trac quantile-quantile (appel quantile-quantile plot, ou encore qq-plot en
anglais) est une mthode de reprsentation graphique visant comparer deux distri-
butions de probabilit unidimensionnelles (la plupart du temps, au moins lune des
deux distributions est la loi empirique associe un chantillon, lautre pouvant soit
tre une loi thorique laquelle on souhaite comparer la distribution empirique de
lchantillon, soit la loi empirique dun autre chantillon, si lon souhaite comparer
entre elles les distributions des deux chantillons). En gros, le principe est le suivant :
partant de deux distributions de probabilit X et Y , on reprsente les couples de
la forme (xr , yr ), o xr (resp. yr ) dsigne le fractile dordre r de la loi X (resp. Y ).
De fait, il existe une certaine latitude dans la dfinition exacte du trac (ce que
nous venons den dire ne suffit pas le spcifier compltement), et lon rencontre
diffrentes versions du trac quantile-quantile suivant les logiciels que lon utilise.
Nous nentrerons pas dans ces dtails, et nous nous contenterons dillustrer ce type
de trac au moyen de quelques exemples.
Variables alatoires 145

Des exemples...

2.2.5 Quelques lois discrtes classiques


Loi de Bernoulli

On dira quune variable alatoire X dfinie sur un espace probabilis (, P) suit


une loi de Bernoulli de paramtre p [0, 1] si elle prend la valeur 1 avec probabilit p
et la valeur 0 avec la probabilit 1 p. Nimporte quelle variable alatoire ne pouvant
prendre que les valeurs 0 et 1, par exemple, nimporte quelle fonction indicatrice dun
vnements, suit donc une loi de Bernoulli.

Loi binomiale

On dira quune variable alatoire X dfinie sur un espace probabilis (, P) suit


une loi binomiale de paramtres n 0 et p [0, 1] si elle ne prend que des valeurs
entires entre 0 et n, avec les probabilits :

P(X = k) = Cnk pk (1 p)nk , 0 k n.

Autrement dit, la loi binomiale (sans rfrence une variable alatoire) est la pro-
babilit pbinom(n,p) sur lensemble {0, . . . , n} dfinie par :

pbinom(n,p) (k) = Cnk pk (1 p)nk .

Expliquons dans quel contexte cette loi intervient : supposons que, sur un espace
probabilis (, P), nous nous intressions la ralisation de n vnements A1 , . . . , An ,
mutuellement indpendants, et survenant chacun avec une probabilit commune gale
p:
P(A1 ) = = P(An ) = p,
et dfinissons X comme le nombre total (alatoire) dvnements Ai qui se ralisent
effectivement. Par exemple, nous effectuons n rptitions indpendantes dune mme
exprience, qui peut chaque rptition donner lieu un succs (avec probabilit p)
ou un chec (avec probabilit (1 p)), et nous comptons le nombre total (alatoire)
de succs obtenus au cours des n expriences. Alors, X suit une loi binomiale de
paramtres n et p. Pour le voir, il suffit de vrifier que lvnement : ralisation
dexactement k vnements parmi les Ai , cest--dire la ralisation de k dentre eux, et
la non-ralisation des nk restants, peut scrire comme la runion de Cnk vnements
deux--deux disjoints, chacun de probabilit pk (1 p)nk . En effet, il y a Cnk sous-
ensembles dindices I inclus dans {1; 2; . . . ; n} comportant k lments, et, pour tout
tel sous-ensemble dindices I, lvnement EI : ralisation des k vnements Ai dont
les indices se trouvent dans I, et non-ralisation de ceux des Ai dont les indices
146

ne figurent pas dans I, possde, du fait de lindpendance mutuelle des Ai , une


probabilit gale pk (1p)nk . Pour deux sous-ensembles distincts I1 et I2 dindices,
les deux vnements EI1 et EI2 sont incompatibles (leur ralisation simultane exige
en mme temps la ralisation et la non-ralisation dau moins lun des Ai ), do la
formule ci-dessus. Il conviendrait de vrifier que lon a bien
n
X
Cnk pk (1 p)nk = 1,
k=0

afin de prouver que lon a bien dfini une loi de probabilit. Cette galit rsulte de
la formule du binme de Newton applique (p + (1 p))n . Cependant, elle rsulte
galement du fait que nous avons prouv que pbinom(n,p) (k) apparat effectivement
comme la loi dune variable alatoire dans un contexte particulier.

Mise en garde 6 Un raisonnement erronn donne comme rsultat P(X = k) = pk


au lieu de Cnk pk (1 p)nk : on demande quil y ait k succs, tous indpendants de
probabilit p, do pk . Autre raisonnement erronn : on demande quil y ait k succs,
tous indpendants de probabilit p, do pk , et, indpendamment, n k checs tous
indpendants de probabilit 1 p, do pk (1 p)nk .

Exemple 2 On administre un traitement 200 malades, et, pour chaque malade, la


probabilit que le traitement soit efficace est de 90%. Si lon suppose que les gurisons
des diffrents malades forment une famille dvnements mutuellement indpendants,
ou, ce qui revient au mme, que les gurisons des malades peuvent tre modlises
par une succession indpendante dpreuves (gurison/non-gurison), le nombre total
de malades qui gurissent suit une loi binomiale de paramtres 200 et 90%.

Exemple 3 On effectue 50 lancers successifs dun d. En supposant que les rsultats


des lancers peuvent tre modliss par une succession indpendante, et que le lancer
dun d est toujours dcrit par la probabilit uniforme, le nombre total de 5 que lon
obtient aprs les 50 lancers suit une loi binomiale de paramtres 50 et 1/6.

Remarque 3 On constate que lon peut tre en prsence de variables alatoires sui-
vant la loi binomiale mme (et surtout) lorsque le modle ne se rsume pas une suc-
cession dpreuves indpendantes de Bernoulli (cest--dire ne possdant que deux is-
sues). Par exemple, le modle de succession indpendante de 50 lancers de d contient
plus dinformation que le simple fait que le 5 sorte ou ne sorte pas, pour chaque lan-
cer. Globalement, il suffira quun modle moins fin que (, P) mais compatible avec
celui-ci soit effectivement constitu par une succession indpendante dpreuves de
Bernoulli (par exemple, dans le cas prcdent, le modle qui ne tient compte, pour
chaque lancer, que du fait dobtenir ou non un 5).
Variables alatoires 147

Loi uniforme

On dira quune variable alatoire X dfinie sur un espace probabilis (, P) suit


la loi uniforme si elle ne peut prendre quun nombre fini de valeurs, chaque valeur
tant affecte de la mme probabilit. Autrement dit, si lensemble des valeurs que
peut prendre X est SX = {s1 , . . . , sp },
1
P(X = si ) = , pour tout 1 i p.
p

La loi uniforme sur SX (sans rfrence une variable alatoire) est la probabilit
punif (S) sur lensemble SX est donc dfinie par :

1
punif (S) (si ) = pour tout 1 i p.
p

Mise en garde 7 Le fait que X suive la loi uniforme nimplique pas que lespace de
probabilit sous-jacent (, P) soit muni de la probabilit uniforme. Par exemple, si
= {0, 1} {0, 1} et P(0, 0) = 1/3, P(0, 1) = 1/6, P(1, 0) = 1/6, P(1, 1) = 1/3, la
variable alatoire dfinie par X(x1 , x2 ) = x1 + x2 suit la loi uniforme sur {0, 1, 2},
mais P nest manifestement pas la probabilit uniforme sur . Inversement, le fait
que P soit la probabilit uniforme nentrane pas que X suive la loi uniforme : si
= {0, 1} {0, 1} et si P est la probabilit uniforme sur , P(X = 1) = 1/2 alors
que P(X = 0) = 1/4, et X ne suit donc pas la loi uniforme.

Loi de Poisson

Cette loi tire son nom du mathmaticien Poisson 4 , et ne prsente donc a priori
pas de rapport avec la pche en mer ou laquariophilie.
On dira quune variable alatoire X dfinie sur un espace probabilis (, P) suit
une loi de Poisson de paramtre > 0 si elle ne prend que des valeurs entires
positives ou nulles, avec les probabilits :

k
P(X = k) = e , k 0.
k!
Autrement dit, la loi de Poisson (sans rfrence une variable alatoire) est la pro-
babilit pP oiss() sur lensemble N dfinie par :

k
pP oiss() (k) = e , k 0.
k!
Cette loi intervient dans le mme contexte gnral que la loi binomiale : celle dun
comptage du nombre de succs enregistrs au cours dune succession indpendante
4. Simon Denis Poisson (17811840)
148

dexpriences ayant chacune la mme probabilit de succs, mais dans un rgime


asymptotique particulier : celui o le nombre de rptitions est trs grand, la proba-
bilit de succs tant elle-mme trs petite. Considrons une variable alatoire Xn
de loi binomiale de paramtres n et p = /n, dfinie sur un espace de probabilit
(n , Pn ), n tant suffisament grand pour que /n 1. Pour tout entier k fix et tout
entier n k, on a, par dfinition,
 k 
nk


Pn (Xn = k) = Cnk 1 .
n n

Lorsque n tend vers linfini, k tant fix, on a

n (n 1) (n k + 1) nk
Cnk = ,
k! k!
et
 nk

1 e .
n
Do, lorsque n tend vers linfini,

k
Pn (Xn = k) e ,
k!
et la loi de Poisson apparat comme un cas limite de la loi binomiale de paramtres
n et /n lorsque n est grand. Bien que la probabilit de succs tende vers 0 lorsque
n tend vers linfini, ceci est compens par le grand nombre dexpriences, de telle
sorte que le nombre de succs observ prend des valeurs finies et non-nulles avec une
probabilit qui ne tend pas vers zro lorsque n tend vers linfini. Pour cette raison,
on appelle parfois le rsultat ci-dessus le thorme des vnements rares.

Remarque 4 Plus gnralement, on peut vrifier, exactement de la mme manire,


que la loi binomiale de paramtres n et pn tend vers une loi de Poisson de paramtre
pourvu que limn+ npn = . Voir lexercice 114.

Remarque 5 Concernant la quantification de lapproximation de la loi binomiale


par la loi de Poisson, on peut par exemple prouver lingalit suivante (voir louvrage
de Shiryaev cit dans la bibliographie) : pour tout tel que 0 < /n < 1,

+
pP oiss() (k) pbinom(n,/n) (k) 2 min(2, ).
X
n
k=0

Voir galement ce sujet lexercice 115.


Variables alatoires 149

Pour vrifier que lon a bien affaire une loi de probabilit, il faut vrifier que
lon a :
+
X
pP oiss() (k) = 1,
k=0
ce qui est une consquence de la formule :
+ k
X
e = .
k!
k=0

On peut aussi vrifier cette relation en passant la limite dans la relation analogue
valable pour la loi binomiale (mais le passage la limite est un peu dlicat).

Exemple 4 Un fabricant dcrans dordinateur sintresse au nombre de dfauts pr-


sents sur la surface de ses crans. Un cran est partag en petites zones de contrle
deux--deux disjointes de surfaces gales, et lon fait lhypothse que la prsence ou
labsence de dfauts de fabrication dans chacune de ces zones forment des vnements
mutuellement indpendants. De plus, on suppose que les zones de contrle choisies
sont suffisament petites pour quil puisse y avoir au plus un dfaut par zone, et que
la probabilit de trouver un dfaut dans lune de ces petites zones est proportionnelle
sa surface : plus la surface de la (petite) zone est grande, plus la probabilit dy
trouver un dfaut est leve.
Quelle est la loi du nombre total de dfauts prsents sur lcran ? Appelons n le
nombre de zones de contrle. Le nombre total de dfauts est le nombre total dv-
nements un dfaut est prsent qui se ralisent parmi les n vnements associs
chacun une zone de contrle. Ces n vnements tant mutuellement indpendants,
le nombre total de dfauts suit donc une loi binomiale de paramtres n et p, o p
est la probabilit dapparition dun dfaut sur une zone de contrle. Cette probabilit
tant, daprs notre hypothse, proportionnelle la surface de la zone, elle est de la
forme
S
p= ,
n
o S est la surface totale de lcran, et le coefficient de proportionnalit (ces deux
quantits tant exprimes avec la mme unit de surface). En posant = S, et en
supposant n grand, on constate que le nombre total de dfauts prsents sur lcran
suit (approximativement) une loi de Poisson de paramtre . Il est important de
noter la diffrence entre le rsultat que lon obtient ici, et celui que lon obtiendrait
avec une loi binomiale B(n, p), avec n grand et p de lordre de 1/3 (par exemple).
Dans le cas de la loi de Poisson, mme si n est grand, les valeurs typiques prise par
la variable alatoire sont trs grossirement de lordre de , aussi grand n soit-il :
pour un grand nombre dexpriences, le nombre de succs prend essentiellement des
valeurs de lordre de quelques units. linverse, dans le cas de la loi binomiale
150

classique, le nombre de succs crot proportionnellement n : avec n tentatives et


une probabilit de succs de 1/3, on sattend obtenir de lordre de n/3 succs.

Exemple 5 Des chasseurs lafft sintressent au nombre total de galinettes cen-


dres passant leur porte en une journe. On admet quil peut passer au plus une
galinette chaque minute, et que la probabilit de passage dune galinette pendant un
intervalle de temps (infrieur une minute) donn est proportionnelle la dure de
cet intervalle, le coefficient de proportionnalit (pour une dure exprime en secondes)
tant not . De plus, on suppose que les passages de galinettes au cours dintervalles
de temps deux--deux disjoints sont mutuellement indpendants (ou, ce qui revient
au mme, que la succession des passages de galinettes, second aprs seconde, peut
tre modlise par une succession indpendante dpreuves de mme probabilit de
succs). De mme que dans lexemple prcdent, le nombre total de galinettes qui
passent en une journe est le nombre total dvnements une galinette passe qui
se ralisent, parmi les n vnements associs au dcoupage dune journe en n pe-
tits intervalles de dure gale. Ici encore, on voit, en choisissant n grand, que le
nombre de galinettes qui passent en une journe suit approximativement une loi de
Poisson de paramtre = D, o D est la dure dune journe en secondes et le
coefficient de proportionnalit.

Voici quelques illustrations de lapproximation de la loi binomiale par la loi de


Poisson.

Loi B(n,p), n=1000, p=0,005


0.15
0.10
0.05
0.00

0 20 40 60 80 100
Variables alatoires 151

Loi de Poisson, lambda=5


0.15
0.10
0.05
0.00

0 20 40 60 80 100

Loi B(n,p), n=1000, p=0,02


0.08
0.06
0.04
0.02
0.00

0 20 40 60 80 100

Loi de Poisson, lambda=20


0.08
0.06
0.04
0.02
0.00

0 20 40 60 80 100
152

Loi B(n,p), n=1000, p=0,0005


0.6
0.5
0.4
0.3
0.2
0.1
0.0

0 20 40 60 80 100

Loi de Poisson, lambda=0,5


0.6
0.5
0.4
0.3
0.2
0.1
0.0

0 20 40 60 80 100

Loi gomtrique

On dira quune variable alatoire X dfinie sur un espace probabilis (, P) suit


une loi gomtrique de paramtre p [0, 1] si elle ne prend que des valeurs entires
strictement positives, avec les probabilits :

P(X = k) = (1 p)k1 p , k 1.

Autrement dit, la loi gomtrique (sans rfrence une variable alatoire) est la
probabilit pgeom(p) sur lensemble N dfinie par :

pgeom(p) (k) = (1 p)k1 p.

Expliquons dans quel contexte cette loi intervient. Supposons que nous rptions
indpendamment une exprience alatoire, chaque exprience tant susceptible de
donner lieu un certain vnement appel succs avec une probabilit p, jusqu
obtenir un succs pour la premire fois. Alors, le numro de la premire exprience se
soldant par un succs suit une loi gomtrique de paramtre p. Exercice : construisez
un modle en arbre rendant compte de cette situation, et prouvez la validit de
la formule ci-dessus. Le seul point dlicat est quil nest pas vident a priori que le
Variables alatoires 153

nombre de tentatives ncessaires pour obtenir un succs est ncessairement fini. Aprs
tout, il serait imaginable que lon soit confront une succession infinie dchecs...

Mise en garde 8 On emploie parfois le terme de loi gomtrique pour dsigner la


loi dcale dfinie par p(k) = pgeom(p) (k + 1) pour tout k 0, et la terminologie est
donc lgrement ambigu.

Exemple 6 On suppose qu chaque seconde, la probabilit pour quun piton tra-


verse la rue est gale 1/10, et que les vnements un piton traverse la seconde
numro i forment une succession indpendante. Alors, (en supposant que lon ob-
serve le passage des pitons partir de la seconde numro 1) le numro de la premire
seconde pendant laquelle un piton va traverser suit une loi gomtrique de paramtre
1/10.

Exemple 7 Jojo lance des flchettes sur une cible. On suppose que la probabilit pour
quil atteigne le mille est de 25%, et que les succs de chaque tentative forment une
succession indpendante. Combien de lancers Jojo doit-il effectuer avant datteindre
le mille ? Un nombre alatoire qui suit une loi gomtrique de paramtre 25%.

2.2.6 Variables alatoires et lois continues


Introduction

Les variables alatoires, telles que les avons dfinies au dbut de ce chapitre, se
rattachent la catgorie dite des variables alatoires discrtes. Celles-ci apparaissent
comme des fonctions dfinies sur un ensemble fini ou dnombrable, et, par cons-
quent, ne peuvent prendre quun nombre fini ou dnombrable de valeurs distinctes.
Pour modliser des quantits pouvant prendre un continuum de valeurs (par exemple
lensemble des valeurs comprises dans un intervalle), il est donc ncessaire de faire
appel une dfinition plus gnrale des modles probabilistes, englobant des espaces
des possibles non-dnombrables. Il faut pour cela se placer dans le cadre de la thorie
mathmatique de la mesure abstraite, dont le niveau technique dpasse largement
celui de ce cours (vous pouvez consulter les ouvrages classiques dintroduction la
thorie mathmatique des probabilits cits en bibliographie pour en avoir un ex-
pos). Par consquent, nous nous contenterons, ce qui nest pas absurde dun point
de vue pratique, de prsenter les variables alatoires continues comme un cas li-
mite de variables alatoires discrtes une chelle microscopique, mais pouvant tre
considres comme continues une chelle plus macroscopique.
Commenons par un exemple de telle situation limite.
Voici lhistogramme dune loi de probabilit, dans lequel la largeur des barres est
fixe = 1 (la graduation verticale reprsente la surface de chaque barre.)
154

Delta=1
0.5
0.4
0.3
0.2
0.1
0.0

8 6 4 2 0 2 4

Pour la mme loi de probabilit, rduisons progressivement la largeur des barres.


Voici lhistogramme obtenu avec = 0, 5.
Delta=0.5
0.5
0.4
0.3
0.2
0.1
0.0

8 6 4 2 0 2

Rduisons encore : voici lhistogramme obtenu pour = 0, 2.


Delta=0.2
0.5
0.4
0.3
0.2
0.1
0.0

8 6 4 2 0 2

De plus en plus fort ! Voici lhistogramme obtenu pour = 0, 1.


Variables alatoires 155

Delta=0.1
0.5
0.4
0.3
0.2
0.1
0.0

8 6 4 2 0 2

Voici encore lhistogramme obtenu pour = 0, 05


Delta=0.05
0.5
0.4
0.3
0.2
0.1
0.0

8 6 4 2 0 2

Et enfin, lhistogramme obtenu pour = 0, 02.


Delta=0.02
0.5
0.4
0.3
0.2
0.1
0.0

8 6 4 2 0 2

Que constate-t-on ? Si lon examine le comportement dune barre dont lextrmit


gauche prend une valeur fixe a, on constate que la hauteur de cette barre se rap-
proche, mesure que la largeur des barres diminue, dune valeur f (a), qui semble
dfinir une fonction continue de a. Autrement dit, en se rappelant que cest la sur-
face dune barre qui reprsente la probabilit de trouver une valeur dans lintervalle
156

correspondant la base de cette barre :


P(X [a, a + [)
lim = f (a). (2.1)
0
Nous trichons bien entendu en crivant cette limite, car, en toute rigueur, la valeur
de diminue, mais ne tend pas rellement vers zro.
Une autre consquence de nos observations est lidentit
Z b
P(a X < b) = f (u)du. (2.2)
a

En effet, pour un intervalle de la forme [a, a + n[, on a


n
X
P(a X < a + n) = P(X [a(i 1), a + i[).
i=1

En se rappelant que P(X [a(i1), a+i[) nest autre que la surface de la barre de
lhistogramme ayant pour base lintervalle [a(i 1), a + i[, et que lintgrale dune
fonction continue reprsente la surface sous une portion de courbe, on se convainc
aisment en observant les histogrammes prcdent de la validit de lidentit (2.2),
au moins en tant qugalit approche valable lorsque est petit.
Contrairement aux apparences, la loi reprsente par les histogrammes prcdents
est une loi discrte, en fait simplement la loi empirique associe un chantillon
comportant un trs grand nombre (107 ) de valeurs toutes distinctes, mais trs proches
les unes des autres. Si lon regarde la loupe la zone situe autour de 1, par exemple,
on pourra observer la rpartition suivante (il sagit dun diagramme en btons, chaque
bton reprsente une valeur possible de la variable).
1.4e07
1.2e07
1.0e07
8.0e08
6.0e08

1.00200 1.00201 1.00202 1.00203 1.00204 1.00205

Pour des valeurs de de lordre de 106 , la rpartition, observe avec un pas


de discrtisation de , nest donc plus du tout rgulire. En revanche, lorsque
prend des valeurs de lordre de 101 ou 102 , comme nous avons pu le constater,
les deux quations (2.1) et (2.2) prcdentes constituent dexcellentes approxima-
tions de la situation relle, et nous pouvons raisonner, cette chelle, comme si les
Variables alatoires 157

valeurs de X formaient un continuum et non pas un ensemble discret. En revanche,


sur une chelle plus fine, cette approximation nest plus du tout pertinente. Ceci
est tout--fait courant en physique, o lon modlise en gnral les quantits macro-
scopiques telles que la masse ou le volume par des quantits continues, mme si,
lchelle atomique, ce type de description perd compltement sa pertinence. Notons
galement que, lorsque lon effectue des simulations, du fait de la prcision finie avec
laquelle sont cods les nombres rels sur ordinateur (par exemple, une trentaine ou
une cinquantaine de dcimales), on ne manipule ncessairement que des variables
alatoires discrtes, mme si celles-ci peuvent tre considres comme continues
lchelle macroscopique.

Dfinition

Ceci nous conduit poser la dfinition gnrale dune variable alatoire


continue valeurs relles : on dit que X est une variable alatoire continue
de densit f , o f : R R est une fonction valeurs positives ou nulles,
que nous supposerons toujours continue par morceaux, lorsque, pour tout
intervalle ]a, b[, les bornes pouvant ventuellement tre ou +, on a :
Z b
P(X ]a, b[) = f (u)du.
a

(Pour des raisons techniques, il est plus commode dutiliser la proprit (2.2)
plutt que la proprit (2.1) pour donner une dfinition gnrale, mme si ces deux
dfinitions sont essentiellement quivalentes dans la plupart des situations.) Comme
nous lavons mentionn plus haut, la dfinition ci-dessus nest pas compatible avec le
cadre des espaces de probabilits discrets auquel nous nous sommes confins jusqu
prsent, et donc... ce nest pas une vritable dfinition dans le cadre de ce cours,
puisquaucune variable alatoire telle que dfinie prcdemment ne peut la satisfaire
exactement.
Par exemple, en toute rigueur, la dfinition (2.1) ci-dessus entrane que la pro-
babilit P(X = b) est nulle pour tout b, donc que X ne peut prendre aucune valeur !
En effet, daprs la dfinition :
Z b+
P(X = b) P(X ]b , b + [) = f (u)du,
b

et, en faisant tendre vers zro, on constate bel et bien que P(X = b) = 0. Il faut
donc et, en tout cas, on peut sans aucune difficult dans le cadre de ce cours voir
cette dfinition comme caractrisant correctement une situation limite, la variable
alatoire X pouvant en ralit tre considre comme une variable alatoire discrte,
pour laquelle lquation (2.2) ci-dessus caractrise une bonne approximation prs
158

la loi de X, une chelle pouvant tre trs petite (par rapport 1), mais demeurant
grande devant lchelle microscopique des valeurs de X.
Dans cette interprtation, le paradoxe apparent dcrit ci-dessus, provient simple-
ment du fait quil existe une chelle en-de de laquelle lquation (2.2) cesse dtre
valable.
Cependant, la plupart du temps, on utilise directement lquation (2.2) ci-dessus
et ses consquences, comme si celle-ci tait valable sans restriction, cest--dire sans
reprciser systmatiquement que lon ne manipule en ralit que des approximations
de la validit desquelles il faudrait sassurer systmatiquement. Il est possible de le
faire de manire cohrente, comme nous lexpliquons dans ce qui suit. Simplement,
les sommes qui interviennent dans les manipulations usuelles concernant les variables
alatoires discrtes doivent tre remplaces par des intgrales (qui en sont en ralit
des approximations).
Soulignons que, pour prix de ces (lgres) complications, nous gagnons la possi-
bilit dutiliser un puissant outil de modlisation et de calcul. La notion de variable
alatoire continue permet de traiter de manire unifie un grand nombre de pro-
blmes, discrets une chelle microscopique, mais pouvant tre considrs comme
continus lchelle envisage, et, surtout, nous autorise utiliser le puissant arsenal
de techniques provenant du calcul diffrentiel et intgral.

Proprits

tudions maintenant de plus prs la manire de manipuler les variables alatoires


continues.
On note que la relation (2.2) ne caractrise pas compltement la densit f , car,
par exemple, si lon modifie la valeur de f en un nombre fini de points, cela ne modifie
Rb
pas la valeur des intgrales de la forme a f (u)du.
Par ailleurs, comme nous lavons vu plus haut, la probabilit pour quune variable
alatoire continue prenne une valeur fixe est toujours nulle, et, par consquent, on
a P(X [a, b]) = P(X ]a, b[) = P(X [a, b[) = P(X ]a, b]), ainsi que P(X
] , b[) = P(X ] , b]) et P(X ]a, +[) = P(X [a, +[, pour tous a, b R,
De plus, le fait que P(X R) = 1 entrane la relation
Z +
f (u)du = 1.

De manire gnrale, nous appellerons densit de probabilit (sans rfrence


une variable alatoire particulire) toute fonction valeurs positives continue par
R +
morceaux et qui vrifie f (u)du = 1, de mme quune loi de probabilit (sans
rfrence une variable alatoire particulire) sur un ensemble S fini ou dnombrable
P
est la donne dune fonction p sur S vrifiant sS p(s) = 1.
Variables alatoires 159

La probabilit dobserver la valeur dune telle variable alatoire dans un petit


R a+
intervalle [a, a + [ est gale a f (u)du, et, par consquent, si f est continue en
a,
P(X [a, a + [) = f (a)(1 + o(1)).

En dautre termes, cette probabilit est (au premier ordre en ) proportionnelle


, et le coefficient de proportionnalit est f (a), do le nom de densit de probabilit
pour f (penser la dfinition de la densit locale dun fluide comme le coefficient de
proportionnalit entre la masse et le volume dun petit lment de fluide). On note
parfois symboliquement cette relation par : P(X [a, a + da[) = f (a)da. Plutt que
de manipuler les probabilits pour que X prenne telle ou telle valeur, nous aurons
donc considrer les probabilits pour que X se trouve dans un intervalle
(ou une runion dintervalles).
La fonction de rpartition de X est dfinie, comme dans le cas discret, par la
relation FX (x) = P(X x). Par dfinition, on a donc
Z x
FX (x) = f (u)du.

Comme dans le cas discret, la fonction FX est croissante, mais cette fois FX est
une fonction continue. Si f est continue au point x, FX est drivable en x et lon a
FX0 (x) = f (x).
On vrifie que, dans le cas continu comme dans le cas discret, limx FX (x) = 0
et limx FX (x) = 1.
Comparons plus prcisment ces rsultats ceux qui prvalent pour les variables
alatoires discrtes. Dans ce cas, pour a et b fixs, nous pourrions faire la liste des
valeurs possibles de la variable comprises entre a et b, et faire la somme :
X
P(a < X < b) = P(X = x).
a<x<b,xS

Pour les variables continues, la somme portant sur les lments de S compris
Rb
entre a et b est remplace par lintgrale a , et la probabilit P(X = x) par la
probabilit infinitsimale f (x)dx. Cest systmatiquement ainsi que nous passerons
des identits portant sur les variables alatoires discrtes leurs analogues continus.
On retient donc le tableau suivant :
P Rb
a<x<b a

P(X = x) f (x)dx

Rappelons que lon peut toujours retrouver ces relations en considrant une loi
continue comme limite de lois discrtes.
160

Loi continue et loi empirique

Dans linterprtation frquentielle de la probabilit, la loi empirique associe


un grand nombre de rptitions de lexprience donnant lieu la variable alatoire
X fournit une approximation de la loi thorique de X, la frquence avec laquelle
une valeur xk apparat dans un chantillon fournissant une approximation de la
probabilit P(X = xk ). Dans le cas o la loi thorique en question est une loi continue,
on ne peut sattendre ce que lapproximation ait lieu exactement en ce sens.
Lanalogue de cette proprit dans le cas continu est que, pour tous les intervalles
de la forme ]a, b[ la probabilit empirique dobserver une valeur dans ]a, b[ fournit
une approximation de la probabilit thorique P(X ]a, b[). Deux manires, parmi
dautres, de visualiser graphiquement une telle approximation, sont :
une largeur > 0 tant fixe, comparer lhistogramme de la loi empirique
celui de la loi thorique (ou au graphe de la densit de la loi thorique) ;
comparer le graphe de la fonction de rpartition de la loi empirique celui de
la fonction de rpartition de la loi thorique.
Mme dans le cas o la loi continue considre nest quune approximation dune
loi discrte lchelle microscopique, les chantillons que lon peut sattendre ma-
nipuler en pratique ont la plupart du temps une taille bien trop faible pour faire
apparatre ce caractre discret, et il nest pas raisonnable de sattendre ce que
la loi empirique associe un tel chantillon fournisse une approximation de la loi
thorique dans le sens qui a cours pour les lois discrtes.
Nous reviendrons sur cette question dans le chapitre sur la loi des grands nombres.
Prsentons rapidement quelques exemples.
Les graphiques qui suivent reprsentent les histogrammes associs des chan-
tillon simuls de la loi gamma de paramtres a = 2 et s = 1, sur lesquels on a
superpos la densit de ladite loi.
Avec 100 valeurs et = 1.
Loi empirique : 100 simulations de loi gamma a=2, s=1
0.4
0.3
0.2
0.1
0.0

0 2 4 6 8 10

Avec les mmes 100 valeurs et = 0, 5.


Variables alatoires 161

Loi empirique : 100 simulations de loi gamma a=2, s=1


0.4
0.3
0.2
0.1
0.0

0 2 4 6 8 10

Avec les mmes 100 valeurs et = 0, 2.


Loi empirique : 100 simulations de loi gamma a=2, s=1
0.5
0.4
0.3
0.2
0.1
0.0

0 2 4 6 8 10

Avec les mmes 100 valeurs et = 0, 1.


Loi empirique : 100 simulations de loi gamma a=2, s=1
0.6
0.5
0.4
0.3
0.2
0.1
0.0

0 2 4 6 8 10

Quelques remarques. Lorsque la largeur des barres est suffisament petite pour
que la densit soit peu prs constante sur lintervalle correspondant, on sattend
ce que la hauteur de la barre soit voisine de la densit. Lorsque la densit fluctue
sur lintervalle [a, a + [ formant la base dune barre, cest la valeur moyenne de
1 a+
R
la densit sur lintervalle [a, a + [, soit a f (u)du qui doit tre voisine de la
hauteur de la barre. Par consquent, il est normal que la densit ne colle pas au
162

plus prs de lhistogramme lorsque les barres de celui-ci ne sont pas suffisament fines.

Dautre part, (pour enfoncer le clou), insistons sur le fait que la loi empirique
varie dun chantillon lautre, comme lillustre le graphique suivant.

Avec un autre chantillon de 100 valeurs et = 1.

Loi empirique : 100 simulations de loi gamma a=2, s=1


0.4
0.3
0.2
0.1
0.0

0 2 4 6 8 10

Il est important de comprendre que, plus la taille de lchantillon est importante,


plus lon peut sattendre ce que ladquation entre histogramme et densit soit
prcise et valable jusqu de petites chelles (tout ceci pouvant tre quantifi de
manire prcise, comme nous le verrons par la suite).

Avec cette fois un chantillon de 20 valeurs, et = 1.

Loi empirique : 20 simulations de loi gamma a=2, s=1


0.4
0.3
0.2
0.1
0.0

0 2 4 6 8 10

Ladquation nest pas excellente, mais cest normal : il ny a tout simplement


pas assez de valeurs dans lchantillon pour que lon puisse sattendre mieux.

Avec un autre chantillon de 20 valeurs, et = 1.


Variables alatoires 163

Loi empirique : 20 simulations de loi gamma a=2, s=1


0.4
0.3
0.2
0.1
0.0

0 2 4 6 8 10

Avec un chantillon de 10000 valeurs et = 1.


Loi empirique : 10000 simulations de loi gamma a=2, s=1
0.4
0.3
0.2
0.1
0.0

0 2 4 6 8 10

Cette fois, ladquation est bien meilleure (cest la valeur moyenne de la densit
sur un intervalle qui doit tre compare la largeur dune barre).
Avec le mme chantillon de 10000 valeurs et = 0, 1.

Loi empirique : 10000 simulations de loi gamma a=2, s=1


0.4
0.3
0.2
0.1
0.0

0 2 4 6 8 10

Avec le mme chantillon de 10000 valeurs et = 0, 01 (en restreignant linter-


valle des valeurs prsentes de manire pouvoir voir quelque chose).
164

Loi empirique : 10000 simulations de loi gamma a=2, s=1


0.5
0.4
0.3
0.2
0.1
0.0

1.0 1.2 1.4 1.6 1.8 2.0

Avec le mme chantillon de 10000 valeurs et = 0, 001 (en restreignant encore


plus lintervalle des valeurs prsentes).

Loi empirique : 10000 simulations de loi gamma a=2, s=1


1.2
1.0
0.8
0.6
0.4
0.2
0.0

1.00 1.02 1.04 1.06 1.08 1.10

Ladquation entre densit et histogramme est valable jusqu une chelle nette-
ment plus fine que lorsque lon ne disposait que de 100 ou 20 valeurs. Cependant, en
affinant suffisament lchelle, on parvient toujours mettre en vidence une inad-
quation criante. Sur les deux histogrammes prcdents, on constate que la densit
fournit encore une approximation satisfaisante lorsque lon regroupe plusieurs inter-
valles conscutifs.

Avec le mme chantillon de 10000 valeurs, en diminuant encore lchelle, on


obtient lhistogramme suivant, pour lequel les choses se gtent vraiment.
Variables alatoires 165

Loi empirique : 10000 simulations de loi gamma a=2, s=1


30
25
20
15
10
5
0

1.000 1.002 1.004 1.006 1.008 1.010

Une discussion quantitative sur la manire de juger quand un cart entre histo-
gramme et densit est ou non raisonnable, et comment les valeurs de peuvent tre
choisies par rapport la taille de lchantillon, est manifestement ncessaire. Elle
sera prsente dans le chapitre Statistique.

Transformations affines dune variable alatoire de loi continue

De nombreuses familles paramtriques (cest--dire, indexes par des paramtres)


de lois continues (mais pas toutes, cependant) vrifient le fait que, si X suit une loi
appartenant cette famille, cest aussi le cas de la variable alatoire aX + b, tout
au moins pour certaines valeurs de a et de b. Etudions la faon dont la densit se
transforme sous leffet dune telle opration. Le rsultat est le suivant : si f dsigne
la densit de X, alors, pour tout a 6= 0 et tout b, aX + b possde la densit

1 x

x 7 |a| f a b .

Cette formule est une simple consquence de lgalit, due la formule de chan-
Ry 1 R y b
f ua b du = xa

gement de variables pour les intgrales : x |a| f (u)du.
a b
On peut encore la vrifier en tudiant la faon dont se transforme un histogramme
sous leffet dune telle transformation : la probabilit pour que aX + b soit compris
entre x et x + nest autre que la probabilit pour que X soit compris entre x0 =
x 0
a b et x + a . La surface de la barre B correspondant lintervalle [x, x + [
dans lhistogramme de la loi de aX + b est donc la mme que celle de la barre B 0
correspondant lintervalle [x0 , x0 +
a ] dans lhistogramme de la loi de X. La hauteur
de B doit donc tre gale |a| fois la hauteur de B 0 , puisque la largeur de B est |a|
1

fois celle de B. Do la formule, en se rappelant le lien entre densit et histogramme


associ un dcoupage en barres de bases trs fines.
Le cas dune transformation plus gnrale quune transformation affine est discut
dans la partie 2.5.
166

2.2.7 Exemples de lois continues


Loi uniforme sur un intervalle

La loi uniforme sur un intervalle [a, b] est la plus simple des lois continues. Confor-
mment la dfinition donne dans le cas discret savoir, la loi qui attribue
chaque lment de S la mme probabilit, il sagit de la loi qui attribue chaque
lment de [a, b] la mme densit de probabilit. La probabilit attribue par cette
loi aux valeurs extrieures lintervalle [a, b] devant tre nulle, la densit est donc
nulle hors de [a, b]. La densit de la loi uniforme sur [a, b] doit donc valoir : une
R
constante c sur [a, b], et zro hors de [a, b]. Pour que la condition R f (x)dx = 1 soit
vrifie, on constate que la seule valeur possible pour c est 1/(ba), do finalement :

1
f (x) = ba si x [a, b],
f (x) = 0 si x
/ [a, b].

Loi exponentielle

Il sagit en quelque sorte dune version en temps continu de la loi gomtrique, et


qui apparat dans le mme contexte de modlisation : le premier instant de survenue
dun vnement. Le lien rsulte du mme passage la limite que celui qui fournit
lapproximation de la loi binomiale par la loi de Poisson.
Divisons chaque intervalle de temps de 1 seconde en n intervalles de taille gale, et
intressons-nous au premier instant de survenue dun succs, mesur en secondes, lors
de la rptition dexpriences indpendantes associes chacune un petit intervalle
de temps de dure 1/n, et de mme probabilit de succs p. La loi de cet instant
alatoire mesur en nombre dexpriences, est une loi gomtrique de paramtre
p. Par consquent, la probabilit quil faille attendre moins de t secondes pour voir
survenir lvnement est (comme il y a n expriences par seconde) :
+
X
P(Y < t) = 1 P(Y t) = 1 p (1 p)k1 = 1 (1 p)bntc1 .
k=bntc

En supposant que p /n, lorsque n tend vers linfini, o est une constante, on
constate que

P(Y < t) = 1 (1 /n)bntc1 n+ exp( t).

En appelant Y le premier instant (mesur en secondes) au bout duquel le premier


succs survient, on constate donc que, la limite, on doit poser :

P(Y < t) = exp( t),


Variables alatoires 167

do lon dduit, par drivation, la densit fexp() (t) = et . Pour t < 0, cette
densit est bien entendu nulle (linstant que lon tudie prend toujours une valeur
positive), et lon a donc :

fexp() (t) = et si t 0,
f (t) = 0 si t < 0.

Voici le graphe de la densit de la loi exponentielle pour deux valeurs de .


Loi exponentielle, lambda=2
2.0
1.5
f(x)

1.0
0.5
0.0

2 0 2 4 6 8 10

Loi exponentielle, lambda=0.5


2.0
1.5
f(x)

1.0
0.5
0.0

2 0 2 4 6 8 10

Le paramtre 1 joue pour la loi exponentielle le rle de paramtre dchelle.


Plus prcisment, si X suit la loi exponentielle de paramtre 1, alors 1 X suit la
loi exponentielle de paramtre . Ceci se vrifie facilement partir de la formule sur
les transformations affines donne prcdemment.
Voir lexercice 128.

La loi gaussienne (ou loi normale)

Cette loi tire son nom de celui du mathmaticien Gauss 5 , et on lui attache souvent
galement le nom de Laplace 6 .
5. Carl-Friedrich Gauss (17771855)
6. Pierre-Simon Laplace (17491827).
168

Il sagit dune loi continue intervenant dans un trs grand nombre de situations, et
dont ltude fait elle seule lobjet du chapitre courbe en cloche, dans lequel seront
entre autres prsentes des explications son apparition frquente. Contentons-nous
den rappeler la dfinition : sa densit est donne par la fonction dfinie sur R
(x m)2
 
1
m,v (x) = exp .
2v 2v
Le paramtre m joue le rle dun paramtre de position, et v celui dun paramtre
dchelle. En effet, si X suit la loi gaussienne de paramtres m = 0 et v = 1, X +
suit la loi gaussienne de paramtres m = et v = 2 .
Voici quelques exemples de graphes de la densit gaussienne.
Gaussienne , m=0 v=1
0.7
0.6
0.5
0.4
f(x)

0.3
0.2
0.1
0.0

4 2 0 2 4

Gaussienne, m=0 v=0,036


0.7
0.6
0.5
0.4
f(x)

0.3
0.2
0.1
0.0

4 2 0 2 4

Voir lexercice 130.

Loi de Cauchy

Cette loi tire son nom de celui du mathmaticien Cauchy 7 .


7. Augustin-Louis Cauchy (17891857)
Variables alatoires 169

Il sagit de la loi sur R+ dont la densit est dfinie pour ` R et s > 0 par

1
fCauchy(`,s) (x) = 2 .
s(1 + x`

s )

Le paramtre ` est un paramtre de position, et le paramtre s > 0 un paramtre


dchelle : si X suit la loi de Cauchy de paramtres ` = 0 et s = 1, X + suit la
loi de Cauchy de paramtres ` = et s = .
Voir lexercice 131.

Loi gamma

Il sagit de la loi sur R+ dont la densit est dfinie de la manire suivante

1
fgamma(a,s) (x) = xa1 exp(x/s)
sa (a)

pour x 0, et fgamma(a,s) (x) = 0 si x < 0. Les deux paramtres a > 0 et s > 0 sont
respectivement appels paramtre de forme et dchelle.
Si X suit la loi gamma de paramtres a et 1, X suit la loi gamma de paramtres
a et .
Rappelons que la fonction gamma dEuler est dfinie pour a > 0 par
Z +
(a) = xa1 exp(x)dx.
0
Voir lexercice 128 pour un exemple de contexte dans lesquels cette loi intervient.

Loi beta

Il sagit de la loi sur [0, 1] dont la densit est dfinie de la manire suivante

(a + b) a1
fbeta(a,b) (x) = x (1 x)b1 ,
(a)(b)

pour x [0, 1], et fbeta(a,b) (x) = 0 si x


/ [0, 1], les deux paramtres rels a et b devant
tre tels que a > 0 et b > 0. Voir lexercice 134 pour un exemple de contexte dans
lequel cette loi intervient.

Loi du chi-deux

Pour n entier 1, la loi du chi-deux n degrs de libert est la loi sur R+ dfinie
par la densit

f2 (n) (x) = 2n/2 (n/2)xn/21 exp(x/2)


170

pour x 0, et f2 (n) (x) = 0 pour x < 0.


Il sagit donc dun cas particulier de la loi gamma avec s = 2 et a = n/2. Elle
intervient de manire fondamentale dans le test statistique du chi-deux, que nous
tudierons dans la partie Statistique. Voir lexercice 129.

Remarque 6 Vous noterez que, comme annonc, les hypothses qui nous permettent
daffirmer automatiquement que lon est en prsence de telle ou telle loi classique sont
trs gnrales, et ne font quassez peu intervenir la forme dtaille des modles. Nous
avons seulement besoin de proprits assez gnrales dindpendance sous-jacentes au
modle sur lequels les variables alatoires tudies sont dfinies. La facilit que pro-
cure lutilisation de ces lois classiques ne doit pas pour autant nous faire abandonner
la mthode systmatique qui convient pour aborder la modlisation dune situation :
il est indispensable de prciser les donnes, connaissances, et hypothses de mod-
lisation sur lesquelles on sappuie. Cest seulement une fois cette tape accomplie
que lon peut se demander si telle ou telle variable alatoire suit une loi classique,
en vrifiant que le modle possde bien les proprits correspondantes. Il faut donc
voir les rsultats ci-dessus sur lidentification des lois classiques comme des moyens
de gagner du temps en vitant de refaire des raisonnements ou des calculs qui ont
dj t mens (il est inutile de refaire chaque fois le raisonnement qui mne
la loi binomiale, il suffit de retenir dans quelles conditions gnrales de modlisa-
tion celle-ci apparat). En revanche, commencer ltude dune situation en tentant
de plaquer dessus telle ou telle loi classique, sans sinterroger sur la forme du mo-
dle, les donnes et les connaissances disponibles, et les hypothses de modlisation
quil est pertinent de formuler, nest pas une dmarche acceptable, et conduit le plus
souvent des rsultats errons. Il est important de noter que des lois distinctes des
lois classiques apparaissent dans de nombreuses situations.

2.3 Loi jointe de plusieurs variables alatoires, vecteurs


alatoires
Lorsque lon dispose de plusieurs variables alatoires X1 , . . . , Xm dfinies sur un
mme et valeurs respectivement dans des ensembles SX1 , . . . , SXm , on appelle
loi jointe de X1 , . . . , Xm la loi de la variable alatoire X() = (X1 (), . . . , Xm ()),
dfinie sur et valeurs dans lensemble produit SX1 SXm .

Mise en garde 9 Les SXi peuvent tre totalement diffrents les uns des autres,
mais, pour que la notion de loi jointe ait un sens, il est ncessaire que toutes les va-
riables alatoires considres soient dfinies sur le mme espace de probabilit (, P).
Variables alatoires 171

Souvent, on spcifie implicitement un modle probabiliste dune situation en sp-


cifiant simplement la loi jointe dun certain nombre de variables alatoires qui inter-
viennent dans celui-ci.

Mise en garde 10 Il est important de bien noter que la connaissance de la loi indi-
viduelle de Xi pour tout 1 i n ne suffit pas en gnral dterminer la loi jointe
de ces variables. Prenons par exemple le modle (N , PN ) dcrivant une rpti-
tion indpendante de N lancers de pile ou face, la variable alatoire Xi reprsentant
le rsultat du ime lancer. Dans le N uplet (X1 , . . . , XN ), chaque variable pos-
sde individuellement une loi de Bernoulli de paramtre p. Cest aussi le cas si lon
constituant le N uplet (X1 , X1 , . . . , X1 ). Pourtant, il est bien vident que ces deux
N uplets nont pas la mme loi !

2.3.1 Indpendance de variables alatoires, cas discret

Etant donns un modle probabiliste (, P), et m variables alatoires X1 , . . . , Xm


dfinies sur et dont les ensembles de valeurs possibles sont S1 , . . . , Sm , considrons

le modle image S(X1 ,...,Xm ) , p(X1 ,...,Xm ) compatible avec (, P) et dcrivant les
valeurs prises par le N uplet (X1 , . . . , Xm ).
On dira que les variables alatoires X1 , X2 , . . . , Xm sont globalement, ou
encore mutuellement, indpendantes si

p(X1 ,...,Xm ) = pX1 pXm ,



ou, autrement dit, si le modle image S(X1 ,...,Xm ) , p(X1 ,...,Xm ) associ au muplet
(X1 , . . . , Xm ) sidentifie la succession indpendante des modles (SX1 , pX1 ), . . . , (SXm , pXm )
associs individuellement aux variables alatoires X1 , . . . , Xm .
En termes plus lmentaires, X1 , . . . , Xm sont mutuellement indpendantes lorsque,
pour tout s1 S1 , . . . , sm Sm , on a

P(X1 = s1 , . . . , Xm = sm ) = P(X1 = s1 ) P(Xm = sm )

Dans le cas o les variables alatoires X1 , . . . , Xm sont indpendantes, la donne


de leurs lois individuelles permet donc de reconstituer la loi jointe de (X1 , . . . , Xm ).
Dune manire gnrale, il est ncessaire de connatre la structure de dpendance des
Xi pour pouvoir reconstituer la loi jointe, comme on le voit simplement dans le cas
m = 2 en crivant

P((X1 , X2 ) = (s1 , s2 )) = P(X1 = s1 ) P(X2 = s2 |X1 = s1 ).


172

2.3.2 Vecteur alatoire continu


La gnralisation Rm de la notion de variable alatoire de loi continue valeurs
dans R, est connue sous le nom de vecteur alatoire de loi continue. Exactement
comme dans le cas dune variable alatoire relle, on peut voir cette situation comme
un cas limite de variables alatoires discrtes valeurs dans Rm . La gnralisation
de la relation (2.2) est la suivante : pour tout sous-ensemble A suffisament rgulier
(par exemple un pav de la forme [a1 , b1 ] [am , bm ], ou une runion finie de
pavs de ce type) de Rm , on a
Z
P((X1 , . . . , Xm ) A) = f (x1 , . . . , xm )dx1 dxm ,
A

o f : Rm R+ est une fonction positive que nous supposerons suffisament rgu-


lire (par exemple continue), appele la densit du vecteur alatoire (X1 , . . . , Xm ).
Nous resterons quelque peu vasif sur la notion de rgularit (pour f comme pour
A) dont il est question ici, le bon cadre pour dvelopper cette thorie tant celui de
la thorie mathmatique de la mesure.
En gnral, le muplet form par m variables alatoires de loi continue ne
forme pas un vecteur alatoire de loi continue dans le sens dfini prcdemment.
Par exemple, on peut facilement se convaincre que, si X1 est une variable alatoire
relle de loi continue, ce nest pas le cas de (X1 , X1 ) (mais ce type de difficult
disparat dans le formalisme de la thorie de la mesure).
On dira que m variables alatoires continues X1 , . . . , Xm sont mutuellement (ou
encore globalement) indpendantes lorsque (X1 , . . . , Xm ) possde une loi continue
dont la densit f(X1 ,...,Xm ) vrifie

f(X1 ,...,Xm ) (x1 , . . . , xm ) = fX1 (x1 ) fXm (xm ).

On vrifie facilement que cette notion est le passage la limite naturel de la


dfinition donne dans le cas discret.

2.3.3 Somme de variables alatoires indpendantes


Cas discret

Partant dune famille de variables alatoires, par exemple, deux variables X1 et


X2 dfinies sur le mme espace des possibles , et valeurs dans des ensembles S1
et S2 respectivement, on peut en fabriquer une troisime, galement dfinie sur ,
et valeurs dans S1 S2 , dfinie par :

Y () = (X1 (), X2 ()),

dont les valeurs dcrivent les valeurs simultanes de X1 et de X2 . Connaissant la


loi de X1 et de X2 , est-il possible den dduire la loi de Y ?
Variables alatoires 173

Sans plus dinformation, la rponse est : NON, car nous ne pouvons pas dter-
miner la loi jointe de X1 et X2 . Illustrons ceci laide dexemples.
Considrons un espace de probabilit (, P), sur lequel sont dfinies deux variables
alatoires X1 et X2 , chacune suivant la loi uniforme sur {1; 2; . . . ; 10}.
Par exemple, partons dune variable alatoire X de loi uniforme sur {1; 2; . . . ; 10},
et dfinissons X1 = X, X2 = 11 X. X1 suit donc la loi uniforme sur {1; 2; . . . ; 10},
et X2 galement. On constate, par exemple, que la probabilit P((X1 , X2 ) = (1, 1))
est gale zro. prsent, choisissons X1 et X2 gales X toutes les deux. X1 et X2
suivent encore chacune la loi uniforme sur {1; 2; . . . ; 10}, mais cette fois, la probabilit
P((X1 , X2 ) = (1, 1)) est gale 1/10 (cest la probabilit pour que X = 1). On
constate donc que la connaissance de la loi de X1 et de la loi de X2 prises sparment
ne permet pas den dduire la loi du couple Y = (X1 , X2 ). En revanche, si lon
suppose que X1 et X2 sont indpendantes, on a ncessairement :

P((X1 , X2 ) = (s1 , s2 )) = P(X1 = s1 ) P(X2 = s2 ),

et la loi du couple peut donc tre dduite des lois individuelles de X1 et X2 .


Reprenons les exemples prcdents pour aborder la question, importante en pra-
tique, de la loi dune somme de deux variables alatoires. Dans le premier exemple,
la somme de X1 et X2 est gale X1 + X2 = X + 11 X = 11, et prend donc la
valeur constante 11. Dans le deuxime exemple, X1 et X2 sont gales X toutes
les deux et leur somme est gale 2X, dont la loi est la loi uniforme sur les entiers
pairs compris entre 2 et 20. Partant de deux variables alatoires possdant chacune
la loi uniforme sur {1; 2; . . . ; 10}, nous obtenons donc, en en prenant la somme, deux
variables alatoires de lois compltement diffrentes, et la seule connaissance des lois
respectives de X1 et de X2 ne suffit donc pas pour dterminer la loi de X1 + X2 . Exa-
minons la situation de plus prs. Comment dtermine-t-on la probabilit pour que
X1 + X2 = 12 (par exemple) ? Il nous faut dabord dterminer toutes les ventualits
lmentaires telles que X1 () + X2 () = 12, et calculer la somme des probabilits
de toutes ces ventualits lmentaires. Une autre manire de procder, puique nous
nous intressons seulement aux valeurs prises par X1 et X2 , consiste dcouper
suivant les valeurs prises par la variable alatoire Z = (X1 , X2 ) (nous avons dj
vu quune variable alatoire fournissait un dcoupage de lespace des possibles en
considrant les vnements associs chaque valeur que peut prendre la variable
alatoire). Ce dcoupage de est a priori moins fin, plus grossier que le dcoupage
de par les ventualits lmentaires, puisquil est obtenu en regroupant toutes les
ventualits lmentaires qui donnent la mme valeur au couple (X1 , X2 ) (il peut y
en avoir plusieurs, car la description de lexprience que fournit ne se rsume pas
forcment aux valeurs prises par X1 et X2 , mais peut, par exemple, dcrire galement
les valeurs prises par dautres variables alatoires X3 , X4 , . . . auxquelles nous ne nous
intressons pas ici).
174

Considrons donc le dcoupage de form par les vnements form par les 100
vnements :
A(a,b) = {X1 = a , X2 = b} , 1 a, b 10.
Lvnement X1 + X2 = 12 est form par la runion des 11 vnements deux--deux
disjoints :
A(1,11) , A(2,10) , A(3,9) , A(4,8) , A(5,7) , A(6,6) , A(7,5) , A(8,4) , A(9,2) , A(10,2) , A(11,1) ,
et, par consquent, la probabilit que nous cherchons est gale :
11
X 11
X
P(X1 + X2 = 12) = P(A(i,12i) ) = P(X1 = i , X2 = 12 i).
i=1 i=1

Le problme, si nous ne connaissons que les lois de X1 et X2 prises sparment,


est que nous ne sommes pas en mesure de dterminer les probabilits du type :
P(X1 = i , X2 = 12 i), qui font intervenir la ralisation simultane des deux
variables. Bien entendu, si lon suppose que X1 et X2 sont indpendantes (ce qui
nest le cas ni lorsque X1 = 11X2 , ni lorsque X1 = X2 ), ces probabilits sexpriment
simplement en termes des lois respectives de X1 et X2 :
P(X1 = i , X2 = 12 i) = P(X1 = i) P(X2 = 12 i).
Nous retiendrons que, si X1 et X2 sont deux variables alatoires indpendantes
valeurs relles, dont les ensembles de valeurs possibles sont respectivement nots
SX1 et SX2 , on peut calculer la loi de X1 + X2 laide de la formule :
X
P(X1 + X2 = z) = P(X1 = x) P(X2 = z x)
xSX1
X
= P(X2 = y) P(X1 = z y).
ySX2

Remarquons que bien entendu, cette formule ne fait pas intervenir explicitement
lespace des possibles , mais simplement les lois des variables alatoires dfinies sur
. Lindpendance suppose de X1 et X2 nous permet de dduire directement la loi
jointe de X1 et X2 des lois individuelles.

Cas continu

La gnralisation des formules prcdentes au cas continu est facile : si X et Y


sont deux variables alatoires indpendantes et de loi continue, de densit f et g
respectivement, X + Y est encore une variable alatoire continue, dont la densit est
donne par
Z + Z +
h(z) = f (x)g(z x)dx = f (z y)g(y)dy.

Variables alatoires 175

2.4 Oprations sur les lois de probabilit


Nous avons vu, dans ce qui prcde, plusieurs dfinitions pouvant tre prsentes
comme celles doprations sur des probabilits (ou des lois de probabilits), mme si
nous nutiliserons pas beaucoup ce point de vue abstrait.
Lune dentre elles est le produit tensoriel. Etant donns (1 , P1 ) et (2 , P2 )
deux modles probabilistes, il sagit de la probabilit P1 P2 dfinie sur 1 2
par P1 P2 (1 , 1 ) = P1 (1 ) P2 (2 ), et qui permet de modliser la succession
indpendante de la situation dcrite par (1 , P1 ) par la situation dcrite par (2 , P2 ).
On vrifie que ce produit est associatif ( condition de faire les identifications qui
simposent), mais certainement pas commutatif.
Une autre est le produit de convolution. Si P1 et P2 sont les lois de deux
variables alatoires valeurs relles X et Y (1 est donc lensemble des valeurs
possibles de X, et 2 lensemble des valeurs possibles de Y ), le produit de convolution
de P1 par P2 , not P1 ? P2 , est simplement la loi de X + Y dans le modle (1
2 , P1 P2 ), o X(1 , 2 ) = X(1 ) et Y (1 , 2 ) = Y (2 ). Autrement dit, cest la loi
de X +Y en supposant que X et Y sont indpendantes. Daprs la partie prcdente,
X X
P1 ? P2 (z) = P1 (x) P2 (z x) = P1 (z y) P2 (y).
x1 y2

On vrifie immdiatement que ce produit est associatif et commutatif (car lad-


dition dans R lest !)
Une troisime opration, que nous navons pas encore formellement dfinie, est
le mlange de probabilits.
Si (a1 , . . . , an ) dfinit une probabilit sur lensemble {1, . . . , n}, et si P1 , . . . , Pn
sont des probabilits sur un ensemble donn, lapplication dfinie sur par 7
a1 P1 () + + an Pn () est appele le mlange de P1 , . . . , Pn par rapport aux poids
a1 , . . . , an . Considrons le modle {1, . . . , n} , dans lequel on choisit dabord un
entier entre 1 et n selon les probabilits a1 , . . . , an , puis conditionnellement au choix
de cet entier, un lment de selon la probabilit numrote par le choix de cet
entier. Si lon sintresse seulement au modle image associ llment de qui est
choisi, la probabilit associe est a1 P1 () + + an Pn .
Un exemple simple est celui o lon considre une probabilit dcrivant une po-
pulation constitue de plusieurs sous-populations. Supposons par exemple que len-
semble dcrive les diffrentes valeurs que peut prendre un caractre (quantitatif
ou qualitatif) associ un individu dune certaine population, et que la population
tudie est partitionne en deux sous-populations numrotes 1 et 2.
Si P1 et P2 dcrivent la rpartition de ce caractre dans chacune des deux sous-
populations, la probabilit sur dcrivant la rpartition associe la population
totale est p1 P1 + p2 P2 , o p1 et p2 dsignent les proportion dindividus figurant
respectivement dans les sous-population numrotes 1 et 2 (on a donc p1 + p2 = 1).
176

2.5 Loi dune fonction dune variable alatoire


On rencontre souvent le problme suivant : tant donne une variable alatoire
X : S, et une fonction h : S V , trouver la loi de la variable alatoire
h(X). Clairement, lensemble Sh(X) des valeurs possibles de h(X) est lensemble
{h(s) : s SX }, o SX dsigne lensemble des valeurs possibles pour X.
Dans le cas discret, il suffit dcrire que, pour v Sh(X) ,
X
P(h(X) = v) = P(X = s).
s{xSX : h(x)=v}

X h
On notera la composition SX Sh(X) , et lutilisation dans la formule
ci-dessus dun dcoupage selon les valeurs de lensemble intermdiaire SX .
Dans le cas continu, le calcul prcdent prend une forme spcifique lorsque,
comme il est courant, la fonction h possde de bonnes proprits de rgularit. Appe-
lons f la densit de X, et supposons par exemple, que h est un C 1 diffomorphisme
de R sur lui-mme. On vrifie alors que h(X) possde la densit
1
x 7 f (h1 (x)).
|h0 (h1 (x))|

Ceci se vrifie (au moins formellement) en crivant que, lorsque h est croissante
(et h est ncessairement croissante ou dcroissante avec nos hypothses), P(a
h(X) a + da) = P(h1 (a) X h1 (a + da)). En ngligeant les termes dordre
suprieur 1 en da, on peut alors crire que h1 (a + da) h1 (a) + (h1 )0 (a)da,
et que P(h1 (a) X h1 (a) + (h1 )0 (a)da) = f (h1 (a)) (h1 )0 (a)da, do
le rsultat. Le cas o h est dcroissante se traite de la mme faon. Une manire
de procder plus correcte mathmatiquement est de considrer des intervalles de
taille finie (et non pas infinitsimale) et dappliquer la formule de changement de
variables pour les intgrales, qui conduit au mme rsultat. Lorsque h nest pas
un C 1 diffomorphisme, rien ne nous empche de tenter une approche similaire en
tenant compte des proprits spcifiques de la fonction h considre.
Dans le cas multidimensionnel, ce qui prcde se gnralise sous la forme suivante.
Si (X1 , . . . , Xm ) est un vecteur alatoire continu de densit f sur Rm et si h =
(h1 , . . . , hm ) est un C 1 diffomorphisme de Rm sur lui-mme, h(X1 , . . . , Xm ) est
encore un vecteur alatoire, de densit
1
(x1 , . . . , xm ) 7    f (h1 (x1 , . . . , xm )).
dt hi

(h1 (x , . . . , x ))
xj 1i,jm 1 m

Cest une simple consquence de la formule de changement de variables pour les


intgrales sur Rm .
Variables alatoires 177

2.6 Esprance et variance


2.6.1 Dfinition
Intressons-nous maintenant spcifiquement aux variables alatoires valeurs
relles, qui reprsentent donc des quantits numriques telles que : la taille, le poids
dun individu, le temps de transfert dun paquet de donnes sur internet ou encore la
valeur du patrimoine dun mnage... Lesprance dune variable alatoire X
valeurs relles, dfinie sur un espace de probabilit (, P) est dfinie par :
X
EP (X) = X() P().

Lesprance dune variable alatoire est donc un nombre rel, non-alatoire (il ne d-
pend pas de ) obtenu en effectuant la somme sur toutes les ventualits lmentaires,
cest--dire sur toutes les issues de la situation tudie, au niveau de description
adopt , de la valeur que prend la variable alatoire dans le cas o cest cette issue
qui est ralise, multiplie par la probabilit que cette ventualit se ralise. Plus une
ventualit lmentaire est probable, plus le poids attribu dans cette somme la
valeur que prend X lorsque cette ventualit est ralise est grand, et plus celle-ci
contribue la valeur totale de la somme. En dautres termes, lesprance est une
moyenne pondre des valeurs que prend la variable X sur les diffrentes ventuali-
ts lmentaires, la pondration tant fournie par les probabilits de ces ventualits
lmentaires.
Lorsquil ny a aucune ambiguit concernant la probabilit sur laquelle on
se rfre, on note simplement lesprance sous la forme E(X). Inversement, lorsque
plusieurs probabilits sur peuvent tre envisages, il convient de prciser !

Exemple 8
= {a, b, c};

X(a) = 2 , X(b) = 4 , X(c) = 2;

P (a) = 2/8 , P (b) = 1/8 , P (c) = 5/8.
1 1 1

Lesprance de X est donne par :

EP1 (X) = X(a)P1 (a)+X(b)P1 (b)+X(c)P1 (c) = 22/8+41/8+25/8 = 2, 25.

Si lon modifie la probabilit en accordant un poids plus important b, cette valeur


se rapproche de X(b) = 4. Par exemple si

P2 (a) = 2/8 , P2 (b) = 5/8 , P2 (c) = 1/8,

lesprance de X est donne par :

EP2 (X) = X(a)P2 (a)+X(b)P2 (b)+X(c)P2 (c) = 22/8+45/8+21/8 = 3, 75.


178

Une autre manire de dfinir lesprance consiste lcrire, non plus comme une
somme sur toutes les ventualits lmentaires, pondres chacune par leur probabi-
lit de ralisation, mais comme une somme sur toutes les valeurs que peut prendre
X, pondres chacune par leur probabilit dapparition. (Ou, autrement dit, en se
plaant sur lespace de probabilit image (SX , pX ) associ X et compatible avec le
modle (, P) pour le calcul de lesprance). En effet, si, dans la formule qui dfinit
lesprance de X, nous regroupons toutes les ventualits lmentaires qui donnent
X la valeur s, leur contribution totale dans la somme est :

X X X
X()P() = sP() = s P() = sP(X = s).
: X()=s : X()=s : X()=s

En considrant lensemble SX de toutes les valeurs possibles que peut prendre la va-
riable alatoire X, on constate que lesprance de X sexprime donc galement
par la formule : X
E(X) = s P(X = s).
sSX

Cette dernire formule montre en particulier que lesprance de X ne dpend que


de la loi de X, puisquelle ne fait intervenir X quau travers des probabilits
P(X = s). La somme ne porte plus ici sur les lments de , mais directement
sur les valeurs que peut prendre X, chaque valeur tant multiplie par sa proba-
bilit dapparition, et contribuant donc dautant plus la somme totale que cette
probabilit est importante.
Dans le cas dune variable alatoire continue, cette dfinition de lesprance (qui
est la seule que nous puissions donner, la premire dfinition ne pouvant tre gn-
ralise sans appel la thorie mathmatique de la mesure) se transcrit en
Z
E(X) = x f (x)dx.
R

Dans lexemple simple prcdent, cette nouvelle manire dexprimer lesprance


revient regrouper dans le calcul les ventualits a et c, qui donnent la mme valeur
X :

E(X) = 2 P({a, c}) + 4 P(b) = 2 (P(a) + P(c)) + 4 P(b).

Remarque 7 dans les deux dfinitions ci-dessus, nous ne nous sommes pas proc-
P P
cups de lexistence des sommes de la forme : ou sS . Lorsque les variables
alatoires considres ne prennent quun nombre fini de valeurs, et, a fortiori, lorsque
ne comporte quun nombre fini dlments, cette criture ne soulve aucune dif-
ficult. En revanche, si est infini (nous le supposerons toujours dnombrable), il
faut sassurer que les sommes que lon manipule sont bien dfinies, et ce nest pas
Variables alatoires 179

toujours le cas. Par exemple, considrons une variable alatoire dont lensemble
des valeurs est N , et dont la loi est dfinie par :

1 1 1
P(X = n) = = .
n(n + 1) n n+1
P+ 1
On dfinit bien ainsi une loi de probabilit car n=1 n(n+1) = 1. Cependant, la
somme qui dfinit lesprance de X ne converge pas :
+ + +
X X n X 1
n P(X = n) = = ,
n(n + 1) (n + 1)
n=1 n=1 n=1

et lesprance nest donc pas dfinie. On pourrait cependant convenir que, dans ce cas,
que lesprance de X est gale +. Lexemple dune variable alatoire valeurs
dans Z et qui vrifie P(X = n) = 2|n|(|n|+1)
1
devrait vous convaincre que lon ne peut
vraiment pas toujours dfinir lesprance.
Dans tous les cas, nous ne parlerons de lesprance de X que lorsque la srie :
X
|X()|P()

converge, ou, ce qui revient au mme, lorsque la srie


X
|s| P(X = s)
sS

converge, et nous dirons alors que lesprance de X existe, ou est bien dfinie, ou
encore que X possde une esprance. Dans ce cas, la srie dfinissant lesprance
converge, et le rsultat ne dpend pas de lordre dans lequel la sommation est effectue.
En tout cas, il faut chaque fois sassurer, lorsque lon manipule une esprance, que
ces convergences ont bien lieu.

Lorsque h est une fonction valeur relles, lesprance de h(X) ( condition


quelle soit dfinie), peut se mettre dans le cas discret sous la forme
X X
E(h(X)) = v P(h(X) = v) = h(s)P(X = s).
vSh(X) sSX

Dans le cas continu :


Z +
E(h(X)) = h(u)f (u)du.

(On dduit facilement cette formule de celle qui prvaut dans le cas discret).
180

Mise en garde 11 Attention ne pas crire dabsurdit du genre


X
E(h(X)) = h(s)h(P(X = s))
sSX
R +
ou encore E(h(X)) = h(u)h(f (u))du, malheureusement frquentes, en particu-
lier lorsque h(t) = t2 et que lon cherche calculer la variance, qui sera dfinie plus
bas.

On note bien que cest le caractre numrique, quantitatif, dune variable ala-
toire, qui permet de donner un sens son esprance, dfinie comme une somme
pondre de valeurs. Que serait lesprance dune variable alatoire dont la valeur
serait un prnom ou une couleur ?

2.6.2 Esprance et moyenne, loi empirique


Expliquons prsent le lien entre la notion desprance que nous venons de dfinir,
et la notion de moyenne dun chantillon de valeurs au sens usuel.
Partons dun chantillon de N valeurs numriques x1 , . . . , xN . La moyenne arith-
mtique, au sens usuel, est dfinie par :
N
1 X
xi .
N
i=1

En appelant S lensemble des valeurs distinctes prsentes dans cet chantillon, et en


regroupant les dans la somme ci-dessus les xi possdant la mme valeur, la moyenne
se rcrit : X 1
s ( nombre dindices i pour lesquels xi = s).
N
sS

Autrement dit, la moyenne (au sens usuel) des valeurs dun chantillon scrit gale-
ment comme la somme des valeurs prsentes dans cet chantillon pondres par leurs
frquences relatives dapparition dans lchantillon. La formule donnant lesprance
sous la forme : X
E(X) = s P(X = s),
sS

apparat donc comme une extension de cette dfinition, dans laquelle les frquences
dapparition des diffrentes valeurs sont remplaces par leurs probabilits. Remar-
quons que, lorsque la loi de X est la loi empirique dcrivant un chantillon de valeurs
x1 , . . . , xN , cest--dire lorsque les probabilits affectes aux diffrentes valeurs de
X sont prises gales aux frquences dapparition de ces valeurs dans lchantillon,
lesprance de cette loi empirique est gale la moyenne (au sens usuel) des valeurs
de lchantillon.
Variables alatoires 181

Interprtation frquentielle

Dans le cadre de linterprtation frquentielle de la probabilit nous reviendrons


sur ce point dans le chapitre traitant de la loi des grands nombres , lesprance
apparat donc comme la valeur limite de la moyenne (au sens usuel) des valeurs
obtenues en rptant un grand nombre de fois lexprience donnant lieu la variable
alatoire considre (voir ce que nous avons dit prcdemment sur le lien entre loi et
loi empirique).
Cette proprit fondamentale de lesprance est lune des raisons pour laquelle
cette quantit joue un rle essentiel en probabilits.

2.6.3 Le raisonnement de Huygens *


Une justification de lutilisation de lesprance dans le contexte des paris, ind-
pendante de linterprtation frquentielle (qui a bien entendu une grande importance
si lon effectue des paris rpts) a t propose notamment par Huygens. Nous vous
renvoyons lexercice 112 pour une description de ce raisonnement.

2.6.4 Lutilit espre *


Supposons que nous ayons choisir entre deux situations (alatoires, variables,
incertaines), modlises respectivement par (, P1 ) et (, P2 ), chaque lment
de tant associ un nombre rel U () mesurant quantitativement notre degr de
satisfaction lorsque est lissue effectivement ralise, et appel lutilit que nous
attachons . (Nous supposons ici pour simplifier que est un ensemble fini.)
La rgle de maximisation de lutilit espre stipule quun individu rationnel
slectionnera celle des deux situations qui attribue U lesprance la plus leve,
ou, autrement dit, que les prfrences peuvent sexprimer simplement partir de
lesprance de lutilit attache une situation.
Bien entendu, il nest pas toujours facile de dfinir en pratique une telle mesure
dutilit, et celle-ci dpend de toute faon de nos propres choix et prfrences, qui
peuvent fort bien varier dun individu lautre. En particulier, mme dans le cas
simple o les diffrentes issues de sont associes des gains quantifiables de manire
naturelle (par exemple financiers, ou en termes de performances dun dispositif),
lutilit quun individu peut attacher ne sidentifie pas forcment ce gain, en
raison, par exemple, de diffrences de risque entre les situations envisages (voir ce
sujet lexercice 80, et lexercice 121). La fonction dutilit doit reflter ce risque, par
exemple en pnalisant les gains associs aux situations les plus risques.
Dans un contexte de choix rpts o la probabilit est interprte de manire fr-
quentielle, la rgle de la maximisation de lutilit espre est assez naturelle, puisque
lesprance reprsente la moyenne long terme. Bien entendu, encore faut-il avoir
182

la possibilit deffectuer ces choix long terme (par exemple, ne pas risquer dtre
ruin aprs quelques checs et donc dans limpossibilit de participer aux choix ul-
trieurs), ce qui nest pas toujours garanti, et limite la porte de cette rgle mme
dans ce contexte. Quantifier prcisment le risque correspondant et ce que signifie
un long terme en pratique, est, dans ce contexte, une question dlicate, mais im-
portante (voir par exemple le chapitre Loi des grands nombres pour en apprendre
davantage), que nous naborderons pas de manire systmatique.
Par ailleurs, Von Neumann et Morgenstern ont prouv que, sous des hypothses
gnrales censes tre vrifies par un individu rationnel, les prfrences entre diff-
rentes situations peuvent toujours tre exprimes en termes dutilit espre.
Plus prcisment, supposons donne une relation de prfrence entre les dif-
frentes probabilits sur , P1 P2 signifiant que lon prfre (au sens large) P2
P1 , lindiffrence tant traduite par le fait que P1 P2 et P2 P1 . Nous noterons
P1 s P2 le fait que lon prfre P2 P1 au sens strict, cest--dire que P1 P2 et
que lon na pas P2 P1 .
Le rsultat de Von Neumann et Morgenstern est que, si la relation vrifie les
quatre proprits prsentes ci-aprs, il existe ncessairement une fonction U dfinie
sur et valeurs relles telles que EP1 (U ) EP2 (U ) si et seulement si P1 P2 .
Voici ces quatre proprits :
la relation de prfrence est totale, ce qui signifie que lon a toujours une
prfrence (qui peut ventuellement tre lindiffrence) entre deux probabilits
P1 et P2 ;
la relation de prfrence est transitive, ce qui signifie que si lon prfre P2
P1 et P3 P2 , on doit prfrer P3 P1 ;
si P1 s P2 s P3 , il existe a, b ]0, 1[ tels que P2 s (aP1 + (1 a)P3 ) et
(bP1 + (1 b)P3 ) s P2 ;
si P1 P2 , alors, pour tout a [0, 1] et toute probabilit P3 , aP1 + (1 a)P3
aP2 + (1 a)P3 .
Nous vous laissons le soin de rflchir la signification de ces proprits en termes
de rationalit des choix. Voir lexercice 81 pour des exemples illustrant le fait que les
relations de prfrence relles des individus ne satisfont pas toujours ces axiomes.

2.6.5 Lesprance comme indicateur de position


La donne de la loi dune variable alatoire est une information complexe, pou-
vant comprendre un grand nombre de valeurs diffrentes associes des probabilits
varies, et peut donc savrer difficile exploiter directement, par exemple pour ef-
fectuer des comparaisons. Il est donc trs utile de disposer dindicateurs numriques
qui, sous la forme dun nombre unique, rsument une loi en en dgageant des ca-
ractristiques importantes. Dans ce contexte, on utilise souvent lesprance comme
Variables alatoires 183

un rsum numrique synthtique (un seul nombre) susceptible de donner une ide
de la localisation des valeurs de la variable alatoire considre, qui, rappelons-le, est
une fonction, dont les valeurs sont affectes de probabilits varies.

Deux caractrisations de lesprance

Plaons-nous, pour simplifier, dans le cas o est un ensemble fini, et supposons


que nous cherchions, pour toute probabilit P sur et toute variable alatoire X
dfinie sur valeurs relles, dfinir un nombre unique h(X, P) cens rsumer la
localisation des valeurs de cette variable. Il semble naturel de demander que h vrifie
les conditions suivantes :
si X et Y sont deux variables alatoires sur (, P) vrifiant P(X Y ) = 1,
alors h(X, P) h(Y, P) (positivit)
si R est un rel fix, h(X, P) = h(X, P) (invariance par changement
dchelle) ;
si c R est un rel fix, h(X + c, P) = h(X, P) + c (invariance par translation) ;
h(X, P) ne dpend que de la loi de X.
Si lon ajoute la condition supplmentaire suivante (qui peut galement sembler
naturelle) :
si X et Y sont deux variables alatoires sur (, P) , h(X + Y, P) = h(X, P) +
h(Y, P) ;
on montre alors facilement (cest lexercice 93) que ncessairement h(X, P) =
EP (X).
Une autre caractrisation (voir exercice 94) de lesprance est la suivante : E(X)
est lunique nombre qui minimise la fonction a 7 E(X a)2 , autrement dit, si lon
cherche approcher X par une constante, et que lon mesure lerreur dapproxima-
tion par E(X a)2 , on parle alors dapproximation au sens des moindres carrs
lesprance constitue la meilleure approximation de X par une constante. (Bien
entendu, cette proprit ne peut servir dfinir lesprance puisquelle suppose dans
sa formulation que la notion est dj dfinie).
Mentionnons galement le rle jou par lesprance comme paramtre de po-
sition dans la dfinition de certaines lois de probabilit (voir plus haut).

Esprance et valeur typique

Une premire confusion, qui vaut tant pour la notion usuelle de moyenne que
pour la notion desprance, est de croire que celle-ci fournit en gnral une valeur
typique, ou encore reprsentative des valeurs prises par la variable alatoire
considre. Pour au moins deux raisons distinctes, ce nest pas le cas en gnral.
Une premire raison est la compensation pouvant exister entre valeurs suprieures
et infrieures E(X). Un exemple caricatural est une variable alatoire prenant la
184

valeur a b avec probabilit 1/2 et a + b avec probabilit 1/2. Lesprance de cette


variable est toujours gale a, quelle que soit la valeur de b. Si b est effectivement
faible devant a (et si a 6= 0), on peut raisonnablement considrer que a reprsente
une valeur typique, ou tout au moins, fournit un bon ordre de grandeur, pour la
variable alatoire en question. Si b est au contraire grand devant a, lesprance ne
donne aucune ide des valeurs typiquement prises par la variable alatoire considre.
Par exemple, une entreprise dont la moiti des salaris gagne 1000 euros par mois
tandis que lautre moiti gagne 4000 euros par mois fournit un salaire moyen de 2500
euros par mois, qui ne reprsente en aucun cas une valeur typique du salaire des
personnels de cette entreprise.
Ou encore : une personne ayant une probabilit de 0, 6 de faire un pas de 1 mtre
vers la droite, et 0, 4 de faire un pas de un mtre vers la gauche, se dplace, en
esprance, de 20 centimtres vers la droite, mais cette esprance ne reprsente en
rien les possibilits de dplacement relles. Pire : avec une probabilit de 0, 5 daller
gauche et 0, 5 daller droite, le dplacement espr est nul. Pourtant, la personne
se dplace systmatiquement dun mtre par rapport sa position initiale !
Voici dautres exemples.
Lentreprise A emploie 20 salaris, dont les rmunrations annuelles nettes en
2005 (classes par ordre dcroissant) sont donnes (en euros) dans le tableau suivant :

Directeur 99123
Cadre 1 66244
Cadre 2 65908
Cadre 3 58163
Cadre 4 52284
Cadre 5 45928
Cadre 6 33354
Cadre 7 25736
Employ 1 15262
Employ 2 14634
Employ 3 13253
Employ 4 13078
Employ 5 12044
Employ 6 12027
Employ 7 12010
Employ 8 11773
Employ 9 11602
Employ 10 11244
Employ 11 10640
Employ 12 10283
Variables alatoires 185

Lhistogramme correspondant est le suivant.

Entreprise A
12
10
8
6
4
2
0

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

La moyenne de la rmunration des salaris de lentreprise A slve 29729,5


euros. Manifestement, cette valeur ne reprsente pas une valeur typique de la r-
munration : tous les cadres sauf deux gagnent nettement plus, tandis que tous les
employs gagnent nettement moins. De toute faon, il ne saurait exister une unique
valeur typique dans ce cas, puisque les rmunrations sont clairement dcoupes en
deux groupes bien distincts, et dimportance numrique comparable.

Considrons maintenant le mme tableau pour lentreprise B, qui opre dans un


secteur dactivit totalement diffrent.
186

Directeur 50123
Cadre 1 33244
Cadre 2 32908
Cadre 3 31163
Cadre 4 29284
Cadre 5 29128
Cadre 6 29054
Cadre 7 28736
Cadre 8 28363
Cadre 9 28284
Cadre 10 27928
Cadre 11 27854
Cadre 12 27736
Cadre 13 27654
Cadre 14 26936
Cadre 15 26854
Cadre 16 25732
Employ 1 19262
Employ 2 13634
Employ 3 12253

Lhistogramme correspondant est le suivant.


Entreprise B
12
10
8
6
4
2
0

10000 20000 30000 40000 50000

Pour lentreprise B, la rmunration moyenne slve 27806,5 euros, soit une


valeur relativement proche de la prcdente. Mais cette fois, la distribution de ces
valeurs est totalement diffrente de celle de lentreprise A, et lesprance fournit une
ide raisonnable de la rmunration typique du personnel de lentreprise.
Rien ne permet pourtant, partir de la seule valeur de la rmunration moyenne,
de distinguer entre ces deux situations.
Une deuxime raison pour laquelle lesprance ne reprsente pas en gnral
Variables alatoires 187

une valeur typique est ce que lon appelle sa sensibilit aux valeurs extrmes.
Prenons lexemple de lentreprise C.

Directeur 250123
Cadre 1 132244
Employ 1 11262
Employ 2 11189
Employ 3 11124
Employ 1 10982
Employ 2 10903
Employ 3 10884
Employ 1 10880
Employ 2 10875
Employ 3 10864
Employ 1 10859
Employ 2 10841
Employ 3 10838
Employ 1 10832
Employ 2 10822
Employ 3 10818

Lhistogramme correspondant est le suivant.


Entreprise C
15
10
5
0

0 50000 100000 150000 200000 250000 300000

La moyenne des rmunrations est de 30962,33 euros environ. Pourtant, tous les
salaris sauf deux gagnent moins de 1000 euros par mois ! Les deux rmunrations
du directeur et du cadre sont tellement importantes que leur faible poids dans la
moyenne (10%) est compens par leur valeur leve. On parle parfois de phnomne
du loto pour dsigner cette situation : lexistence dun gain trs lev mais trs rare,
et donc nullement reprsentatif, contribue de manire dterminante la valeur de
lesprance. Voir lexercice 71. Le mme problme peut galement se poser lorsquun
188

chantillon de valeurs contient une valeur aberrante anormalement leve, prove-


nant par exemple dun mauvais fonctionnement de lappareil de mesure, ou dune
erreur de saisie ou de transmission de la valeur mesure.
Insistons : les exemples prcdents nont rien dexceptionnel ou dinhabituel. En
gnral, la valeur de lesprance dune variable alatoire est le fruit de compensations
entre des valeurs suprieures et des valeurs infrieures celle-ci, qui peuvent tre
trs diffrentes entre elles, et trs diffrentes de lesprance , ainsi que de compensa-
tions entre valeurs de la variable et probabilits attaches ces valeurs. Lesprance
ne peut tre considre elle seule comme indiquant en gnral ne serait-ce quun
ordre de grandeur des valeurs de la variable.

Dautres indicateurs de position

Pour tenter de pallier les limitations les plus flagrantes de lesprance en tant
quindicateur de position, on a souvent recours dautres indicateurs numriques,
qui ont leurs dfauts et limitations propres, mais permettent daffiner la description
de la loi dune variable alatoire par rapport la seule donne de lesprance.
Lune dentre elles est la mdiane, ou encore, lintervalle mdian, dont voici les
dfinitions.
On pose x1/2, (X) = sup{x R : P(X x) > 1/2} et x1/2,+ (X) = inf{x
R : P(X x) > 1/2}.
On vrifie que ces deux nombres sont toujours bien dfinis et finis, du fait que
P(X x) tend vers zro (resp. 1) lorsque x tend vers (resp. +). Qui plus est,
par croissance de la fonction de rpartition FX , on vrifie que x1/2, x1/2,+ . On
vrifie galement le fait que P(X x1/2,+ ) 1/2, et P(X x1/2, ) 1/2.
Lintervalle mdian de X est lintervalle [x1/2, ; x1/2,+ ]. Lorsque x1/2,+ =
x1/2,+ , cette valeur commune est appele la mdiane de X. Lorsque x1/2,+ 6= x1/2, ,
x +x
on prend souvent pour mdiane le milieu de lintervalle mdian, soit 1/2,+ 2 1/2, , ce
qui permet de dfinir la mdiane de manire systmatique. Clairement, la mdiane ne
prsente pas le mme phnomne de sensibilit aux valeurs extrmes que lesprance.
Considrons le cas particulier dune loi empirique associe un chantillon de
valeurs x1 , . . . , xN , on a, en notant xi1 xi2 . . . xiN . Si N = 2k + 1, la mdiane
est simplement gale xik+1 . Si N = 2k, x1/2, = xik randis que x1/2,+ = xik+1 .
Dans les exemples prcdents, la mdiane associe aux rmunrations est de
13943,5 euros pour lentreprise A, de 28106 euros pour lentreprise B, et de 10882
euros pour lentreprise C. Pour lentreprise A, la valeur de la mdiane est nette-
ment infrieure lesprance, et traduit le fait quune majorit de salaris sont des
employs gagnant moins de 13943 euros, cette valeur ne reprsentant, pas plus que
lesprance, une valeur typique de la rmunration (il ne peut de toute faon pas
y avoir de valeur typique unique dans ce cas). Notamment, cette valeur ne donne
Variables alatoires 189

aucune ide prcise de la rmunration, relativement homogne, des cadres de len-


treprise. Pour lentreprise B, mdiane et moyenne sont relativement proches, ce qui
est cohrent avec la grande homognit des rmunrations. Quant lentreprise C,
on observe bien linsensibilit de la mdiane aux revenus extrmes.

Le milieu du domaine est simplement dfini comme 12 (sup X inf X), et il


nest bien dfini que lorsque le domaine de X est born. Cet indicateur ne tient
aucun compte des probabilits affectant les diffrentes valeurs possibles de X, et sa
porte est donc assez limite. Dans les exemples prcdents, le milieu du domaine
des rmunration de lentreprise A est 54703 euros, 33688 euros pour lentreprise B,
et 130470,5 euros pour lentreprise C.

Le mode est une notion surtout approprie aux variables prenant un petit nombre
de valeurs distinctes : cest simplement la valeur la plus probable de X (le mode
nest pas toujours dfini car plusieurs valeurs peuvent tre ex-quo). Le fait que,
lorsquil est dfini, le mode soit plus probable que nimporte quelle autre valeur
prise individuellement ne signifie pas quil soit affect dune probabilit importante.
Mme la valeur la plus probable peut navoir quune probabilit trs faible et ne
pas reprsenter grand-chose de pertinent. Dans les exemples prcdents des trois
entreprises A, B et C, chaque valeur apparat exactement une fois, si bien que le
mode nest pas correctement dfini.

On peut galement dfinir le deuxime mode, comme la deuxime valeur la plus


probable, le troisime mode comme la troisime valeur la plus probable, etc...

Dans le cadre des lois continues, les modes seront plutt dfinis comme les pics
de la densit.

Voici un extrait du World Almanac and Book of Facts (1975), dans lequel se
trouve une estimation du nombre des grandes inventions mises au point chaque anne
entre 1860 et 1959, soit

5 3 0 2 0 3 2 3 6 1 2 1 2 1 3 3 3 5 2 4 4 0 2 3 7 12 3 10 9 2 3 7 7
233624352240425233658366052226344
2247533022213422111214432141110020

(source : base de donnes du logiciel R)

Voici le tableau des effectifs et des frquences associ cette liste.


190

x effectif frquence
0 9 0.09
1 12 0.12
2 26 0.26
3 20 0.20
4 12 0.12
5 7 0.07
6 6 0.06
7 4 0.04
8 1 0.01
9 1 0.01
10 1 0.01
12 1 0.01

Le mode associ la loi empirique correspondant lchantillon de valeurs propo-


ses est donc 2 (avec une probabilit de 25%), suivi de prs par 3 (avec une probabilit
de 20%).

Voici le diagramme en btons correspondant.


25
20
15
10
5
0

0 1 2 3 4 5 6 7 8 9 10 12

On note en passant son absence de symtrie. Lesprance est ici gale 3,1, et la
mdiane 3. Il y donc concidence entre ces trois indicateurs. Comme les exemples
prcdents le prouvent, ce nest en gnral pas le cas.

Pour insister, encore un exemple : la loi gomtrique de paramtre p = 0, 1. Le


mode est en 1, la mdiane vaut 7, et lesprance vaut 10. Voici le diagramme en
btons correspondant.
Variables alatoires 191

0.08
0.06
P(X=x)

0.04
0.02
0.00

0 10 20 30 40 50

Des confusions malheureuses mais frquentes

Voici quelques exemples derreurs communment commises propos de lesp-


rance.
Je raisonne en remplaant la variable alatoire par son esprance. Confu-
sion entre esprance et valeur typique, aux consquences souvent dvastatrices.
Rsulte parfois dune mauvaise comprhension de la signification de lesprance
dans le cadre frquentiel.
Il doit y avoir environ une chance sur deux pour que X soit suprieur
E(X), et environ une chance sur deux pour que X lui soit infrieur. Cest
totalement faux en gnral. Cela revient (en gros) confondre esprance et
mdiane. En prenant pour X la rmunration dun salari, et pour loi la loi
empirique associe aux tableaux fournis, la probabilit pour que X dpasse
E(X) est de 0, 35 pour lentreprise A, de 0, 5 pour lentreprise B, et de 0, 1
pour lentreprise C.
Lesprance de X est (ou est proche de) la valeur la plus probable de X.
Cest galement totalement faux. Cela revient (encore en gros) confondre
lesprance et le mode, qui nest en gnral pas une valeur particulirement
probable. Mme dans le sens vague du mot, cette affirmation est fausse, comme
lexemple de lentreprise A le montre bien.
Il doit y avoir peu prs autant de chances pour que X = E(X) + t et X =
E(X) t. Ou encore Autant de chances pour que X E(X) et X E(X).
Cela revient supposer que la loi de probabilit de X est symtrique par
rapport son esprance. Lorsque lon a effectivement symtrie par rapport
une valeur, celle-ci est effectivement gale lesprance. En revanche, la plupart
des lois ne sont symtriques par rapport aucune valeur, et en particulier pas
192

symtriques par rapport leur esprance. Voir les exemples prcdents.


Par ailleurs, croire quil existerait un bon indicateur dont lutilisation syst-
matique simposerait est une erreur : chaque indicateur prsente des avantages et des
dfauts, peut apporter une information pertinente dans certains cas, ou au contraire
se rvler trompeur dans dautres. Linformation contenue dans la loi dune variable
alatoire est trop riche pour pouvoir, en toute gnralit, tre rsume par un ou
mme plusieurs indicateurs numriques synthtiques.

Centrage dune variable alatoire

Il sagit simplement de lopration consistant crire X sous la forme X =


(X E(X))+E(X). Daprs la proprit de linarit de lesprance (que nous verrons
plus bas), on crit ainsi X comme la somme dun terme constant gal son esprance,
et dune variable alatoire desprance gale zro.

2.6.6 Variance
La variance dune variable alatoire X est dfinie comme lesprance
des carts quadratiques de la variable son esprance, cest--dire :

V(X) = E (X E(X))2 ,
 

lorsque les esprances X et X E(X) possdent une esprance.


Dans le cas dune variable alatoire continue, lesprance dune variable alatoire
de densit X est dfinie de la manire suivante (conformment aux rgles de passage
du cas discret au cas continu) :
Z +
V(X) = (s E(X))2 f (s)ds.

La variable alatoire (X E(X))2 mesure lcart entre la variable alatoire X et


la valeur constante E(X). La variance est lesprance de cet cart.
On introduit galement lcart-type, dfini comme la racine carre de la va-
riance :
p
(X) = V(X),

et qui a lavantage de sexprimer dans la mme unit que X.


La variance dune variable alatoire joue un rle prpondrant dans le thorme
de la limite centrale, que nous tudierons dans un chapitre ultrieur. Nous nous
contenterons dtudier ici son rle comme indicateur de dispersion dune variable
alatoire. Mentionnons galement le rle jou par lcart-type comme paramtre
dchelle dans la dfinition de certaines lois de probabilit (voir plus haut).
Variables alatoires 193

La variance comme indicateur de dispersion

Les indicateurs de dispersion viennent en complment des indicateurs de position,


dont lesprance (ainsi que la mdiane) fournit un exemple important. Le but de ces
indicateurs est de quantifier la dispersion de la loi de la variable (par exemple, par
rapport un indicateur de position donn).
Dans ce contexte, la variance apparat comme lesprance dune quantit mesu-
rant lcart entre X et E(X). Elle mesure donc, avec toutes limitations inhrentes
lutilisation de lesprance pour rsumer la loi dune variable alatoire, la dispersion
des valeurs prises par X par rapport E(X).
Lcart-type permet de comparer directement la mesure de dispersion fournie
par la variance aux valeurs prises par X. Le nom dcart-type est trompeur, puisque
lesprance de (X E(X))2 ne correspond pas en gnral une valeur typique de
(X E(X))2 .
Une caractrisation alternative de la variance, qui ne fait pas apparatre explici-
tement lesprance de X, est donne dans lexercice 95.
Notons que, si lon se trouve dans une situation o E(X) nest pas un indicateur
de position pertinent pour X, la pertinence de la variance en tant quindicateur de
dispersion est demble remise en question. Enfin, mme dans les cas o lesprance
fournit une indication satisfaisante de position pour X, la variance peut trs bien ne
pas fournir une indication de dispersion satisfaisante.
Pour prendre un exemple extrme, une variable alatoire prenant la valeurs a
avec probabilit 99, 9% , a + b avec probabilit 0, 5% et a b avec probabilit 0, 5%
possde une esprance gale a, que lon peut raisonnablement considrer comme
une valeur typique. Pourtant, lcart-type est gal (b2 0, 1%)1/2 , et, si lon choisit
par exemple b = 10000, on obtient un cart-type denviron 316, qui ne reprsente
certainement pas une valeur typique de lcart ! (Voir galement lexercice 71)
Remarquons par ailleurs que, dans le cas limite dune variable alatoire X v-
rifiant V(X) = 0, X est ncessairement gale une constante avec probabilit 1 :
P(X = E(X)) = 1 (X nest pas forcment constante stricto sensu, car elle peut
prendre des valeurs arbitraires pour des de probabilit nulle sans que sa loi en soit
modifie).
Reprenant les exemples des trois entreprises A, B et C, on obtient des carts-
types pour la loi empirique de la rmunration gaux respectivement : 25882 euros
environ pour lentreprise A, 7586 euros environ pour lentreprise B, et 61695 euros
environ pour lentreprise C.
Pour lentreprise A, on note que lcart-type surestime significativement (nous ne
donnons pas pour linstant ce terme de signification plus prcise que sa signification
courante) lcart entre la rmunration moyenne (29729,5 euros) et la rmunration
des employs. En effet, cet cart schelonne entre 14467,5 et 19446,5 euros. Concer-
194

nant les cadres, cet cart nest quasiment jamais proche de lcart rel, la liste des
(valeurs absolues des) carts tant la suivante : 69393,5 ; 36514,5 ; 36178,5 ; 28433,5 ;
22554,5 ; 16198,5 ; 3624,5 ; 3993,5. Lcart-type fournit nanmoins, de manire trs
grossire, une mesure de lcart, et une indication de lordre de grandeur de la dis-
persion des rmunrations.
Pour lentreprise B, lcart-type surestime globalement lcart la rmunration
moyenne, qui a par exemple plus de 70% de chances dtre infrieur la moiti de
lcart-type, deux autres valeurs tant voisines de celui-ci, et deux autres encore trs
loignes. Ici encore, on nobtient quune estimation trs grossire de lcart, et de
lordre de grandeur de la dispersion des rmunrations.
Quant lentreprise C, lcart-type ne reprsente peu prs rien, lesprance
tant elle-mme affecte par les deux valeurs extrmes. Lcart entre la rmunration
et sa valeur moyenne est, avec une probabilit de 90%, de lordre de 20000 euros, et,
pour les deux valeurs extrmes, de 219160,67 et 101281,67 euros.

Autres indicateurs de dispersion

Bien dautres types dindicateurs de dispersion peuvent tre utiliss.


Un indicateur trs grossier est par exemple la largeur de lintervalle des valeurs
de X.
Un autre, trs utilis, est la distance interquartile.
De manire gnrale, pour r ]0, 1[, on dfinit lintervalle fractile dordre r comme
lintervalle [xr, , xr,+ ], o xr,+ (X) = sup{x R : P(X x) > r} ; et xr, (X) =
inf{x R : P(X x) > 1 r}.
On vrifie, comme dans le cas de la mdiane, que ces quantits sont toujours
dfinies, et vrifient le fait que P(X xr,+ (X)) r et P(X xr, (X)) 1 r.
Lorsque cet intervalle est rduit un point, on lappelle le fractile dordre r
de X, et on le note xr (X). Lorsque ce nest pas le cas, on considre souvent le point
xr,+ (X)+xr, (X)
2 afin que les fractiles soient toujours dfinis.
On utilise le terme de quantile de manire interchangeable avec celui de frac-
tile.
(La dfinition des fractiles nest pas totalement fixe, voir par exemple laide
en ligne de R : help(quantile) pour une liste de dfinitions possibles, diffrentes,
quoique voisines. ou larticle Hyndman, R. J. and Fan, Y. (1996) Sample quantiles
in statistical packages, American Statistician, 50, 361365.)
La mdiane (ou lintervalle mdian) correspond au fractile dordre 1/2. On appelle
quartiles les fractiles dordre 1/4, 2/4, 3/4, dciles les fractiles dordre 1/10, 2/10, . . . , 9/10.
La distance interquartile diq. est alors dfinie comme lcart entre le fractile
dordre 3/4 et le fractile dordre 1/4, et fournit un indicateur numrique de dispersion,
qui a lavantage dtre insensible aux valeurs extrmes.
Variables alatoires 195

Cet indicateur est la base de la reprsentation graphique dite diagramme


moustaches, aussi connu sous le nom de diagramme en bote ou boxplot, qui
consiste rsumer la distribution de X par un graphique sur lequel on reprsente
sur un axe vertical gradu :

la mdiane, et le premier et le dernier quartile (ceux dordre 1/4 et 3/4), sous


forme de traits horizontaux qui dlimitent la bote ;
les deux intervalles (les moustaches) reliant respectivement x1/4 la plus
grande valeur de la variable qui soit infrieure x1/4 + 1, 5 diq. , et x3/4
la plus petite valeur de la variable qui soit suprieure x3/4 1, 5 diq. ;
les moustaches recouvrent donc lensemble des valeurs considres comme non
extrmes ;
les valeurs qui se trouvent soit au-dessus de x1/4 + 1, 5 diq. , soit en-dessous
de x3/4 1, 5 diq. (et qui sont considres comme des valeurs extrmes), sous
forme de points.

Voici par exemple les diagrammes moustache associs la distribution empi-


rique des rmunrations dans les entreprises A,B et C.

Entreprise A
1e+05
8e+04
6e+04
4e+04
2e+04
196

Entreprise B
50000
40000
30000
20000

Entreprise C
250000
200000
150000
100000
50000

On constate que ces graphiques rendent bien compte des diffrences qualitatives
existant entre les trois distributions : deux groupes de rmunrations pour lentreprise
A, lun assez resserr (les employs), lautre plus tal (les cadres) ; une rpartition
assez concentre des revenus pour lentreprise B ; une rpartition comportant deux
extrmes trs loigns du reste de la distribution pour lentreprise C.

La mme remarque gnrale que celle faite propos des indicateurs de position
sapplique : chaque indicateur possde des avantages et des dfauts, qui rendent leur
valeur plus ou moins pertinente ou trompeuse selon le contexte. Linformation conte-
nue dans la loi dune variable alatoire est trop riche pour pouvoir, en toute gnralit,
tre rsume par un ou mme plusieurs indicateurs numriques synthtiques.
Variables alatoires 197

2.6.7 Lingalit de Markov


Lingalit de Markov permet dextraire des informations quantitatives sur la
localisation dune variable alatoire partir de la connaissance de lesprance de
celle-ci et dune borne sur le domaine de ces valeurs. Sans perte de gnralit (quitte
changer le signe et ajouter une constante de manire notre variable alatoire),
le problme qui se pose est le suivant : supposons que nous ayons affaire une
variable alatoire dont les valeurs ne peuvent tre que positives ou nulles, et que
nous ne connaissions de cette variable alatoire que la valeur de son esprance. Que
pouvons-nous en dduire sur la localisation des valeurs de cette variable ?
Un rsultat simple mais dune grande importance, dans cette direction, est lin-
galit suivante, appele ingalit de Markov 8 . Si X est une variable alatoire
positive, alors, pour tout a > 0,
E(X)
P(X a) .
a
La preuve de cette ingalit est trs simple. Partons de la dfinition de lesprance.
P
E(X) = X()P(). Appelons A lensemble des ventualits lmentaires
telles que : X() a (autrement dit, A est lvnement : X a dont nous
cherchons majorer la probabilit). et ne conservons, dans la somme dfinissant les-
prance ci-dessus, que les termes associs aux lments de A. Comme tous les X()
sont positifs ou nuls, on obtient ainsi un nombre infrieur ou gal E(X). Autrement
P
dit : A X()P() E(X). Comme, pour tout A, X() est suprieur ou gal
P P
a, nous obtenons encore que : aP(A) = A aP() A X()P() E(X),
ce qui prouve lingalit de Markov.
Connaissant lesprance dune variable alatoire positive (si cette esprance est
dfinie), on dispose donc dune borne sur la probabilit que cette variable prenne
des valeurs plus grandes quune valeur seuil a. Le terme par lequel lingalit majore
P(X a) est dautant plus petit que a est grand en comparaison de E(X). La
probabilit pour que X prenne des valeurs dont lordre de grandeur dpasse beaucoup
son esprance est donc faible, et nous disposons dune expression quantitative de ce
fait. On note que lingalit de Markov ne nous renseigne rellement sur P (X a)
que si a > E(X) (une probabilit est toujours infrieure ou gale 1 !).
A quel point cette ingalit peut-elle tre considre comme prcise ? Une rponse
possible est que, trs souvent, cette ingalit est assez grossire, cest--dire que
P(X a) est bien plus petite que E(X) a . Qui plus est, cette ingalit ne fournit une
information non-triviale que lorsque a > E(X). Prenons lexemple dune variable
alatoire X de loi de Poisson de paramtre 2, pour laquelle on a donc E(X) = 2.
(Les valeurs prsentes sont arrondies au plus proche partir de la deuxime dcimale
significative.)
8. Du nom de A. A. Markov (18561922).
198

a 1 2 3 4 5 6 7 8
P(X a) 0,86 0,59 0,32 0,14 0,053 0,016 0,0045 0,0010
E(X)/a 2 1 0,67 0,50 0,40 0,33 0,29 0,25

A prsent, voici lexemple dune variable alatoire de loi binomiale de paramtres


n = 100 et p = 0, 4 pour laquelle on a donc E(X) = 40. (Les valeurs prsentes sont
arrondies au plus proche partir de la deuxime dcimale significative.)

a 40 42 44 46 48 50 52 54
P(X a) 0,54 0,38 0,24 0,13 0,064 0,027 0,010 0,003
E(X)/a 1 0,95 0,91 0,86 0,83 0,80 0,77 0,74

Ces deux exemples illustrent le fait que, dans certains cas (en fait, souvent),
la fonction a 7 P(X a) dcrot bien plus rapidement avec a que E(X)/a, ce
qui fait que lingalit de Markov, quoique valable (nous lavons prouve ! ! !), nest
pas prcise. Autre exemple : la loi exponentielle, pour laquelle on a P(X a)
exp(a/E(X)), ce qui met encore en vidence ce phnomne.
Pour autant, on ne peut pas en toute gnralit esprer (cest--dire pour toute
variable alatoire positive dont lesprance est dfinie) obtenir mieux que lingalit
de Markov, car il est facile (voir lexercice 119) de construire des exemples de variables
alatoires positives pour lesquels P(X a) est aussi proche de E(X)/a quon le
souhaite, au moins pour certaines valeurs de a. Des hypothses supplmentaires sur la
loi de X (comme par exemple, le fait que la loi de X appartienne une famille de lois
paramtriques particulire, comme les lois de Poisson, ou exponentielle, par exemple)
sont donc ncessaires pour que lon puisse esprer dduire de la seule connaissance de
lesprance de X des informations sur la localisation des valeurs de X plus prcises
que celles fournies par lingalit de Markov.
Lingalit de Markov fournit une borne suprieure sur les probabilits du type
P(X a), cest--dire sur la probabilit pour que X dpasse une certaine valeur a,
cette ingalit ayant un rel contenu lorsque a > E(X).
La connaissance de E(X) nous permet-elle de dduire des informations non-
triviales sur dautres probabilits relatives la localisation des valeurs de X ?
On pourrait chercher obtenir des bornes infrieures sur des probabilits du type
P(X a) lorsque a > E(X) (ce qui est un peu contradictoire avec lutilisation de
lesprance comme indicateur de position, mais bon...), on voit facilement que cette
probabilit peut tre rendue gale zro dans certains cas, et que lon ne peut donc
rien dire ce sujet au seul vu de lesprance.
Pour a = E(X), on note que lon a ncessairement P(X E(X)) > 0 et
P(X E(X)) > 0. Il est facile de construire des exemples o lune ou lautre de
ces probabilits sont aussi petites quon le souhaite (elles ne peuvent videmment
pas tre petites simultanment, du fait que leur somme est suprieure ou gale 1),
Variables alatoires 199

et lon ne peut donc pas dire quoique ce soit de plus en toute gnralit (cest--dire
sans hypothses supplmentaires sur la loi de X).
Pour a < E(X), tant donns deux nombres a, b > 0 vrifiant a < b et 0 < p < 1,
on peut toujours construire une variable alatoire positive X vrifiant P(X a) =
p et E(X) = b. Il suffit de choisir X prenant la valeur a avec probabilit p et
(b ap)/(1 p) avec probabilit 1 p.
On constate donc que lon ne peut rien dire sans hypothse supplmentaire sur
la probabilit P(X a) ou, en passant au complmentaire, P(X < a).
Notons par ailleurs que lhypothse selon laquelle la variable alatoire X consi-
dre ne prend que des valeurs positives est essentielle. Sans hypothse de ce type,
la seule connaissance de lesprance E(X) ne permet pas de dire quoique ce soit de
quantitatif sur les probabilits du type P(X a) ou P(X a) sans hypothses
supplmentaires, hormis le fait trivial que P(X E(X)) > 0 et P(X E(X)) > 0.
Ceci en raison des compensations entre valeurs positives et ngatives qui peuvent
survenir dans le calcul de E(X).
Par exemple, une variable alatoire desprance gale zro peut prendre des
valeurs positives et ngatives arbitrairement grandes en valeur absolue (penser une
v.a. prenant la valeur a avec probabilit 1/2 et a avec probabilit 1/2).
On peut nanmoins obtenir des estimations sur des variables de signe quelconque,
mais en considrant les esprances de fonctions positives de ces variables alatoires,
telles que |X|p ou exp(tX).
Un exemple clbre et important est lingalit de Bienaym-Tchebychev 9 ,
que lon obtient en appliquant lingalit de Markov la variable alatoire positive
[X E(X)]2 , soit

(X) 2
 
V(X)
P (|X E(X)| t) = ,
t2 t
valable pour tout t > 0.
Lingalit de Bienaym-Tchebychev fournit donc une majoration de la probabi-
lit pour que la valeur prise par X scarte de E(X) dune distance suprieure (ou
gale) t. Cette ingalit fait intervenir le rapport entre lcart-type de X, (X), et
t, cest--dire lcart lesprance, et la majoration fournit une valeur dautant plus
petite que lcart entre X et son esprance est suppos grand devant lcart-type
(X). En ce sens, observer une valeur de X dont lcart par rapport E(X) dpasse
de beaucoup lcart-type est donc trs improbable. Ceci entrane que, lorsque lcart-
type est lui-mme petit devant lesprance, la valeur de E(X) reprsente la valeur
typique de X.
Conformment la discussion prcdente sur lingalit de Markov, cette inga-
lit est trs souvent imprcise (la majoration est exagrment pessimiste), mais on ne
9. I.-J. Bienaym (17961878), P. L. Tchebychev (18211894).
200

peut pas lamliorer en toute gnralit, car il existe des cas o celle-ci est peut-tre
rendue arbitrairement prcise. Enfin, on ne peut rien dduire, en labsence dinfor-
mations ou dhypothses supplmentaires au sujet de la variable alatoire considre,
sur la probabilit pour que lcart soit effectivement plus grand quune fraction don-
ne de lcart-type : un cart beaucoup plus grand que lcart-type est, daprs ce qui
prcde, trs improbable, mais rien ne prouve que les carts ne sont pas typiquement
beaucoup plus petits que lcart-type (voir lexemple de lentreprise C dans ce qui
prcde, ou lexercice 71).
Exemple des entreprises A, B, C.
Pour illustrer cette ingalit, considrons une variable alatoire de loi binomiale
de paramtres n = 50 et p = 0, 6. (Les valeurs prsentes sont arrondies au plus
proche partir de la deuxime dcimale significative.)

a 2 3 4 5 6 7 8 9
P(|X E(X)| a) 0,67 0,47 0,31 0,19 0,11 0,059 0,029 0,0013
V (X)/a2 3 1,33 0,75 0,48 0,33 0,24 0,19 0.15

Considrons prsent une variable alatoire de loi de Poisson de paramtre =


15. (Les valeurs prsentes sont arrondies au plus proche partir de la deuxime
dcimale significative.)

a 4 5 6 7 8 9 10
P(|X E(X)| a) 0,37 0,24 0,15 0,09 0,050 0,027 0,014
V (X)/a2 0,94 0,60 0,41 0,30 0,23 0,19 0,12

2.6.8 Oprations algbriques : linarit de lesprance


tant donnes deux variables alatoires X et Y valeurs relles dfinies sur un
mme espace de probabilit (, P), on peut leur asocier diverses variables alatoires
en combinant X et Y laide doprations algbriques telles que somme et produit : la
variable alatoire somme, dfinie, pour tout , par (X +Y )() = X()+Y (), la
variable alatoire produit, dfinie, pour tout , par (X Y )() = X()Y (). Il
est important, en thorie et en pratique, de savoir comment lesprance et la variance
se comportent vis--vis de ces oprations, car les sommes ou les produits de variables
alatoires interviennent dans de nombreuses situations.
En ce qui concerne lesprance, on regroupe sous le nom de linarit de les-
prance les deux proprits fondamentales suivantes, valables pour tout couple de
variables alatoires X et Y dont lesprance est bien dfinie, et tout nombre rel :
(
E(X + Y ) = E(X) + E(Y ),
E( X) = E(X).
Variables alatoires 201

La dmonstration de ces proprits est presque immdiate. Partant de la dfini-


tion de lesprance, on vrifie que :
X X X
E(X)+E(Y ) = X()P()+ Y ()P() = (X()+Y ())P() = E(X+Y ),

la somme dfinissant lesprance de X + Y tant bien dfinie ds lors que les sommes
dfinissant lesprance de X et lesprance de Y le sont en vertu de lingalit |X()+
Y ()| |X()| + |Y ()|. De mme,
X X
E(X) = X()P() = X()P() = E( X).

Cette proprit de linarit de lesprance est fondamentale, en particulier parce
quelle fournit la possibilit dvaluer lesprance dune somme de variables alatoires
partir des esprances individuelles de ces variables, mme lorsquil existe entre
celles-ci des relations de dpendance ventuellement complexes.
Cette proprit a bien entendu des consquences sur le comportement de la va-
riance.
Ainsi, la proprit de linarit de lesprance permet den donner une nouvelle
expression :
V(X) = E(X 2 ) (E(X))2 .
Pour vrifier cette formule, partons de la dfinition :
V(X) = E (X E(X))2 .
 

En dveloppant, on obtient que :


(X E(X))2 = X 2 2E(X) X + (E(X))2 .
La proprit de linarit de lesprance entrane donc que :
V(X) = E(X 2 ) 2E(E(X) X) + E((E(X))2 ).
Lesprance E(X) tant un nombre dterministe (non-alatoire, constant), la linarit
de lesprance, toujours, ainsi que le fait que lesprance dune variable alatoire
constante est gale cette constante, entrane que :
V(X) = E(X 2 ) 2E(X) E(X) + (E(X))2 = E(X 2 ) (E(X))2 .
tudions maintenant leffet produit sur la variance et lcart-type par la multi-
plication par un nombre rel fix . laide, par exemple, de la nouvelle expression
pour la variance, et grce la linarit de lesprance, on constate que :
V( X) = E(( X)2 ) (E( X))2
= E(2 X 2 ) ( E(X))2
= 2 E(X 2 ) 2 (E(X))2
= 2 V(X).
202

Multiplier une variable alatoire par a donc pour effet de multiplier sa variance
par 2 , et lcart-type se trouve donc, lui, multipli par ||.

V( X) = 2 V(X) , ( X) = || (X).

Le comportement de la variance vis--vis de la somme sera tudi ultrieurement.

Normalisation par lcart-type

Etant donne une variable alatoire X de variance non-nulle, on obtient une


variable alatoire de variance 1 en considrant X((X))1 . Cette dernire quantit
est alors une variable alatoire sans dimension, et de variance fixe 1. On dit parfois
que X((X))1 est la variable X rduite.

Un exemple de raisonnement bas sur la linarit de lesprance

Le chef du protocole doit organiser les invitations au bal de lambassade. Le prince


hritier (il sagit dune monarchie) donne pour instruction, soit dinviter le Prou,
soit dexclure le Quatar. La reine, de son ct, rclame que soient invits le Quatar
ou la Roumanie (ou les deux la fois). Le roi, par esprit de contradiction, exige que
soient exclus du bal soit la Roumanie, soit le Prou, soit les deux. Y a-t-il un moyen
de satisfaire simultanment toutes les exigences de la famille royale ?
On peut coder le problme laide de variables boolennes : p prendra la valeur
VRAI si lambassadeur du Prou est invit, et FAUX sinon, et, de mme, q (resp. r)
prendront les valeurs VRAI ou FAUX suivant que lambassadeur du Quatar (resp.
de Roumanie) est invit ou non.
Les trois contraintes imposes par la famille royale peuvent se traduire de la faon
suivante :
(p q) , (q r) , (r q)

(le symbole dsignant le ou.) Ce problme est un exemple (simple) du problme


gnral de la satisfaisabilit des clauses logiques, dfini de la faon suivante : on
considre n variables boolennes x1 , . . . , xn pouvant prendre chacune la valeur vrai
ou faux, et des clauses logiques de la forme :

yl1 yl2 . . . ylk ,

chaque yi pouvant tre gal xi ou sa ngation xi . Par exemple : x1 x3 x4 , ou


x2 x3 x4 x5 sont de telles clauses. Une clause est dite satisfaite si lune au moins
des variables qui y figurent prend la valeur vrai. Le problme de la satisfaisabilit
est de dterminer si, tant donn un ensemble de clauses, il est possible de trou-
ver une assignation des variables x1 , . . . , xn qui satisfasse simultanment toutes ces
Variables alatoires 203

clauses. (Ce nest bien entendu pas toujours possible.) Il sagit dun problme NP-
complet, jouant un rle important en informatique thorique, et personne ne sait
lheure actuelle sil existe une mthode pour le rsoudre essentiellement meilleure
que dessayer une par une toutes les combinaisons de valeurs possibles pour les yi .
Nous allons prouver, laide dun raisonnement de probabilits, le rsultat sui-
vant : pour tout ensemble de m clauses, il existe une assignation des variables yi telle
quau moins m/2 clauses sont satisfaites.
Supposons que les valeurs des n variables boolennes sont tires au hasard, cest-
-dire donnes par n variables alatoires mutuellement indpendantes X1 , . . . , Xn
prenant chacune la valeur vrai avec probabilit 1/2, et faux avec probabilit 1/2.
Notons C1 , . . . , Cm les diffrentes clauses, et intressons-nous la probabilit quune
clause donne Ci soit satisfaite. Appelons k le nombre de variables apparaissant
dans Ci . Par dfinition, Ci est satisfaite ds que lune au moins des k variables qui y
figurent prend la valeur vrai. En consquence, la probabilit pour que Ci ne soit
pas satisfaite est la probabilit pour que chacune de ces k variables prenne la valeur
faux, et vaut donc, les variables tant mutuellement indpendantes, (1/2)k . La
probabilit pour que Ci soit satisfaite est donc gale 1 (1/2)k , et se trouve donc
toujours suprieure ou gale 1/2.
prsent, intressons-nous au nombre total X de clauses satisfaites simultan-
ment. Par dfinition, ce nombre scrit :
m
X
X= 1Ci est satisfaite .
i=1

Grce la proprit dadditivit de lesprance, on a :


m m
X X 1
E(X) = E (1{Ci est satisfaite}) = P(Ci est satisfaite) m .
2
i=1 i=1

Lesprance du nombre total de clauses satisfaites en attribuant les valeurs des n


variables boolennes alatoirement est donc suprieur ou gal m/2. En particulier,
il existe obligatoirement au moins une assignation des variables telle quau moins
m/2 clauses soient satisfaites, ce qui constitue le rsultat que nous souhaitions d-
montrer. Ce petit argument illustre, sur un exemple trs simple, la puissance de ce
que lon appelle la mthode probabiliste, qui consiste introduire artificiellement le
hasard dans une situation o il nintervient pas initialement, de faon rsoudre
plus simplement le problme pos. Ici, la difficult fondamentale rside dans le fait
que plusieurs clauses peuvent faire intervenir les mmes variables, ce qui se traduit
par le fait que les satisfactions des diffrentes clauses ne forment pas des vnements
indpendants. Pour autant, la proprit dadditivit de lesprance, valable sans au-
cune hypothse dindpendance, permet de conclure trs simplement. Essayez-donc
204

de prouver le rsultat par une autre mthode ! Pour en savoir (beaucoup) plus sur
ce type dapproche, et en particulier sur lutilisation de lalatoire pour concevoir
des algorithmes simples et performants dans de nombreuses situations, vous pouvez
consulter louvrage de Motwani et Raghavan cit dans la bibliographie.

2.6.9 Oprations algbriques : esprance dun produit


Contrairement ce qui a lieu pour la somme, lesprance du produit X Y
nest pas en gnral le produit des esprances, comme le montre lexemple
suivant : si X suit une loi de Bernoulli de paramtre p ]0, 1[, X = X X car X ne
prend que les valeurs 0 et 1. Par consquent, lesprance de X est gale lesprance
de X 2 , et vaut p1+(1p)0 = p, et diffre par consquent du carr de lesprance
de X, gal p p = p2 .
Une proprit fondamentale de lesprance est la suivante : si X et Y sont
indpendantes, lesprance du produit de X par Y est le produit de leurs
esprances :
E(X Y ) = E(X) E(Y ).
Le fait que lesprance du produit XY existe fait galement partie du rsultat. Avant
de dmontrer cette proprit, signalons quelle ne suffit pas caractriser lindpen-
dance de X et Y . En effet, sur lespace des possibles = {1, 2, 3, 4} muni de la
probabilit uniforme, dfinissons X et Y par :

X(1) = 1 , X(2) = 0 , X(3) = 0 , X(4) = 1,

et
Y (1) = 0 , Y (2) = 1 , Y (3) = 1 , Y (4) = 0.
On vrifie que X Y () = 0 pour tout , et par consquent, E(X Y ) = 0.
Dautre part, E(X) = 41 (1) + 14 0 + 14 0 + 41 1 = 0 = E(Y ). On a donc bien
E(X Y ) = E(X) E(Y ). En revanche, X et Y ne sont pas indpendantes, car, par
exemple, P(X = 0, Y = 0) = 0 alors que P(X = 0) = P(Y = 0) = 21 , do le fait que
P(X = 0, Y = 0) 6= P(X = 0) P(Y = 0). Nous reviendrons dans la partie suivante
sur cette question.
Rinsistons sur le fait que, sans hypothses supplmentaires (telles que lindpen-
dance), lesprance dun produit na aucune chance dtre le produit des esprances.
Considrons encore un exemple.
Jojo rclame une augmentation de salaire son employeur. Celui-ci, apparem-
ment convaincu par les arguments de Jojo, lui propose larrangement suivant : si les
rsultats de lentreprise continuent dtre satisfaisants, Jojo verra son salaire aug-
menter de 20% ds cette anne. En revanche, son salaire naugmentera pas lanne
suivante. Si au contraire les rsultats sont infrieurs ceux qui taient attendus,
Variables alatoires 205

le salaire de Jojo ne sera pas augment cette anne, mais sera de toute faon ac-
cru lanne suivante de 20%. Au vu de la situation conomique incertaine, Jojo, qui
nest gure optimiste, estime 1/2 la probabilit pour que lentreprise atteigne ses
objectifs cette anne.
Appelons A1 laugmentation relative de salaire (alatoire) reue par Jojo cette
anne, et A2 laugmentation relative de lanne suivante.
Lesprance de A1 est :

1 1
E(A1 ) = 1, 2 + 1 = 1, 1.
2 2
Celle de A2 se calcule de la mme manire :

1 1
E(A2 ) = 1, 2 + 1 = 1, 1,
2 2
laugmentation de Jojo ayant une chance sur deux de se produire cette anne, et une
sur deux de se produire lanne suivante. Que dire de laugmentation totale A1 A2
perue par Jojo sur les deux annes ? Jojo tant certain dtre augment de 20% cette
anne ou bien lanne suivante, A1 A2 est toujours gal 1, 2. En particulier, E(A1
A2 ) = 1, 2. En revanche, le produit des esprances E(A1 ) E(A2 ) est gal 1, 1
1, 1 = 1, 21. Lesprance de a1 A2 nest donc pas gale au produit des esprances de
A1 et de A2 . Ces deux variables ne sont bien entendu pas indpendantes, puisquune
augmentation cette anne entrane une absence daugmentation lanne suivante, et
inversement.
Dmontrons prsent la proprit. Considrons donc deux variables alatoires
indpendantes X et Y , dont les esprances sont bien dfinies. Notons SX et SY les
ensembles de valeurs possibles pour X et Y respectivement.
Par dfinition :

X X
E(X) E(Y ) = s P(X = s) t P(Y = t) .
sSX tSY

En utilisant la distributivit de la multiplication par rapport laddition, nous ob-


tenons donc que :
X
E(X) E(Y ) = (s t) P(X = s) P(Y = t).
sSX ,tSY

X et Y tant deux variables alatoires indpendantes, cette galit se rcrit :


X
E(X) E(Y ) = (s t) P(X = s , Y = t).
sSX ,tSY
206

Regroupons dans la somme ci-dessus tous les couples (s, t) tels que s t = u.
Leur contribution totale dans la somme ci-dessus est donc :
X X
u P(X = s , Y = t) = u P(X = s , Y = t).
(s,t) : st=u (s,t) : st=u

La famille dvnements X = s , Y = t, (s, t) dcrivant lensemble des couples


tels que s t = u, forme une famille dvnements deux--deux incompatibles, dont
la runion est lvnement X Y = u, ou, autrement dit, une partition de cet
vnement. On en dduit que
X
P(X = s , Y = t) = P(X Y = u).
(s,t) : st=u

Finalement, on en dduit, en considrant toutes les valeurs possibles u, que :


X
E(X) E(Y ) = u P(X Y = u) = E(X Y ),
uSXY

o SXY dsigne lensemble des valeurs possibles pour le produit dun lment de SX
par un lment de SY .

Remarque 8 Largument ci-dessus ne pose aucun problme lorsque SX et SY sont


des ensembles finis. Lorsque ce nest plus le cas, il est ncessaire de travailler dabord
avec |X| et |Y | de faon ne manipuler que des nombres positifs, pour lesquels on
est certain que largument ci-dessus fonctionne. On peut ensuite reprendre largu-
ment pour X et Y , ltape prcdente ayant tabli que les sries qui interviennent
sont absolument convergentes. En particulier, lnonc que nous venons de prouver
contient laffirmation que, si les esprances de X et Y sont bien et que X et Y sont
indpendantes, lesprance de X Y est galement dfinie.

Covariance et corrlation entre deux variables alatoires

Le comportement de la variance vis--vis de la somme est plus complexe que


celui de lesprance, puisque en gnral, la variance dune somme nest pas la
somme des variances, et il en va de mme pour les carts-types, comme le montre
lexemple trs simple suivant. Si X suit une loi de Bernoulli de paramtre p ]0, 1[,
V(X + X) = V(2 X) = 4 V(X), alors que V(X) + V(X) = 2 V(X). V(X)
tant gale E(X 2 ) (E(X))2 = p p2 = p(1 p), et donc diffrente de zro, on
a donc V(X + X) 6= V(X) + V(X). Quant aux carts-types, considrons les deux
variables alatoires X et X. X + (X) = 0 et son cart-type est donc gal zro.
p
En revanche, la somme des deux cart-types est gale 2 p(1 p) > 0.
Variables alatoires 207

Etant donnes deux variables alatoires X et Y dfinies sur un mme espace de


probabilit (, P), pour lesquelles V(X) et V(Y ) sont dfinies, la covariance de X
et de Y est dfinie par

cov(X, Y ) = E(XY ) E(X)E(Y ) = E [(X E(X))(Y E(Y ))] .

(Lidentit entre les deux dfinitions sobtient en dveloppant les produits et en


utilisant la linarit de lesprance. Lingalit |XY | |X 2 | + |Y 2 | entrane le fait
que lesprance de XY est bien dfinie avec nos hypothses.)
On a la proprit fondamentale suivante :

V(X + Y ) = V(X) + V(Y ) + 2cov(X, Y ). (2.3)

(Lingalit |X + Y |2 2(|X|2 + |Y |2 ) entrane le fait que la variance de X + Y est


bien dfinie avec nos hypothses.)
Dmontrons cette proprit, en partant de la formule :

V(X + Y ) = E((X + Y )2 ) (E(X + Y ))2 .

tudions sparment chaque terme. En dveloppant le carr, et grce la linarit


de lesprance, on obtient que :

E((X + Y )2 ) = E(X 2 + 2XY + Y 2 ) = E(X 2 ) + 2E(XY ) + E(Y 2 ).

Par ailleurs,

(E(X + Y ))2 = E(X) + E(Y ))2 = E(X)2 + 2E(X)E(Y ) + E(Y )2 .

En faisant la diffrence entre ces deux expressions, on obtient que :

V(X + Y ) = E(X 2 ) E(X)2 + E(Y 2 ) E(Y )2 + 2E(XY ) 2E(X)E(Y )


= V(X) + V(Y ) + 2E(XY ) 2E(X)E(Y ).

On en retient le fait que V(X +Y ) = V(X)+V(Y ) si et seulement si cov(X, Y ) =


0. En particulier, si X et Y sont indpendantes, la variance de leur somme
est gale la somme de leurs variances :

V(X + Y ) = V(X) + V(Y ).

On dit que X et Y sont corrles lorsque cov(X, Y ) 6= 0, et non-corrles sinon.


Comme nous lavons dj mentionn dans la partie prcdente, le fait que X et Y
ne sont pas corrles nentrane pas le fait que X et Y sont indpendantes.
208

Lorsque (X) et (Y ) sont non-nuls, cest--dire lorsque X et Y ne sont pas


gales des constantes avec probabilit 1, on dfinit le coefficient de corrlation
linaire (souvent appel simplement coefficient de corrlation) de X et de Y par
cov(X, Y )
corr(X, Y ) = ,
(X)(Y )
lorsque (X) et (Y ) sont non-nuls.
On vrifie que 1 corr(X, Y ) 1. Lorsque X et Y sont indpendantes,
corr(X, Y ) = 0 daprs ce qui prcde.
Lorsque corr(X, Y ) = 1 ou corr(X, Y ) = 1, X et Y sont proportionnelles, cest-
-dire quil existe un nombre rel 6= 0 tel que X = Y avec probabilit 1, le signe
de tant celui de corr(X, Y ). La dpendance entre X et Y est donc maximale.
Pour cette raison, on prsente parfois le coefficient de corrlation comme une me-
sure normalise (rsume par un nombre entre 1 et +1) de la dpendance pouvant
exister entre X et Y . Cette terminologie est toutefois abusive (sauf dans le cas trs
particulier des vecteure gaussiens que nous tudierons ultrieurement), puisque X et
Y peuvent parfaitement ne pas tre indpendantes tout en possdant un coefficient
de corrlation gal zro. En revanche, un coefficient de corrlation non-nul entre
deux variables alatoires est le signe dune dpendance entre celles-ci.
Bien entendu, si lon ne dispose que dun chantillon de valeurs, il se peut que la
loi empirique prsente une corrlation non-nulle entre X et Y alors mme que X et
Y sont indpendantes sous la loi thorique de (X, Y ).
Par exemple, le coefficient de corrlation associ lchantillon suivant de couples
de valeurs :
x y
1 0,08 0,09
2 0,93 0,58
3 5,36 0,69
4 1,02 0,53
5 0,42 0,53
6 1,00 0,31
7 1,28 0,26
8 2,86 0,95
9 3,91 0,10
10 0,01 0,44

est gal environ 0, 28. Pourtant, ces valeurs ont t simules partir dun
modle dans lequel X et Y sont indpendantes, X tant une variable alatoire de loi
exponentielle de paramtre 1 arrondie deux dcimales, et Y une variable alatoire
indpendante de X, de loi uniforme sur [0, 1] galement arrondie deux dcimales.
Variables alatoires 209

La question de savoir partir de quelle valeur un coefficient de corrlation non-


nul calcul sur une loi empirique peut tre considr comme accrditant une non-
indpendance dans la loi thorique na rien dvident, et sera aborde dans la partie
Statistique.

Un exemple de spurious correlation

Intressons-nous linfluence possible du nombre de chemines que compte une


ville sur la natalit (il faut bien que les cigognes puissent travailler !). On pourrait
imaginer de quantifier ce lien en tudiant la corrlation linaire existant, pour un en-
semble de villes, entre le nombre de naissances annuelles, et le nombre de chemines.
Cependant, on sexpose ainsi mettre en vidence une corrlation due simplement au
fait que des villes vastes et peuples comporteront simultanment plus de chemines
et plus de naissances que des villes dimportance moindre. Simulons par exemple
indpendamment 100 villes selon le modle suivant : le nombre dhabitants Z dune
ville suit une loi de Poisson de paramtre 50000, et, conditionnellement ce nombre
dhabitants Z, le nombre de naissances X dans cette ville suit une loi de Poisson
de paramtre Z/5, tandis que le nombre de chemines suit, quant lui, une loi de
Poisson de paramtre Z/10.
10300
10200
10100
y(i)

10000
9900
9800

4850 4900 4950 5000 5050 5100 5150

x(i)

Le coefficient de corrlation entre le nombre de naissances et le nombre de chemi-


nes associ ce modle est denviron 0,12 (et le coefficient associ la loi empirique
de notre chantillon de 100 villes est, quant lui, de 0,18).
Il semble donc plus pertinent de rapporter aussi bien le nombre de naissances
que le nombre de chemines une mesure de limportance de la ville, telle que, par
exemple, le nombre de femmes en ge de procrer.
Admettant le modle (purement fictif, sans aucune prtention une quelconque
pertinence) suivant : pour une ville donne, le nombre de femmes en ge de procrer
210

suit une loi de Poisson de paramtre = 10000, le nombre de chemines suit une
loi de Poisson de paramtre = 10000, et le nombre de naissances suit une loi de
Poisson de paramtre = 20000, ces variables tant indpendantes entre elles, et
indpendantes dune ville lautre.
Rptons 1000 fois lexprience consistant simuler, pour 100 villes, le nombre de
naissances, le nombre de chemines, et le nombre de femmes en ge de procrer, puis
calculer le coefficient de corrlation linaire entre les deux rapports : (nombre de che-
mines)/(nombre de femmes en ge de procrer) et (nombre de naissances)/(nombre
de femmes en ge de procrer).
Les 1000 valeurs obtenues pour le coefficient de corrlation fournissent lhisto-
gramme suivant :
Coeff. de corr.
200
150
Effectif

100
50
0

0.0 0.1 0.2 0.3 0.4 0.5 0.6

Avec ce procd, il est donc trs probable dobserver un coefficient de corrlation


linaire important entre ces deux variables. Un esprit non-averti pourrait en dduire
lexistence dune influence du nombre de chemines sur la natalit, alors que, dans
notre modle, ces deux variables sont indpendantes ! En revanche, les deux rapports
que nous avons calcul ne le sont pas ceci tant, dans notre exemple, expliqu par
le fait quils font intervenir la mme variable au dnominateur. Rappelons que, de
manire gnrale, lexistence dun coefficient de corrlation non-nul nest que le signe
dune dpendance entre variables, et ne signifie donc absolument pas quil y ait
ncessairement une relation de cause effet entre ces variables (nous vous renvoyons
en particulier larticle de D. Freedman cit dans la bibliographie).

2.6.10 Esprance et variance des lois usuelles

Loi de Bernoulli

Nous avons dj calcul lesprance et la variance dune loi de Bernoulli pour


donner des contre-exemples dans ce qui prcde. Rcapitulons : si X suit une loi de
Variables alatoires 211

Bernoulli de paramtre p, (
E(X) = p,
V(X) = p(1 p).

Loi binomiale

Nous lavons vu, la loi binomiale de paramtres n et p intervient lorsque lon


compte le nombre alatoire dvnements raliss au sein dune famille de n v-
nements mutuellement indpendants ayant chacun la probabilit p de de produire.
Considrons donc le modle standard (n , Pn ) dcrivant une succession indpen-
dante dpreuves de Bernoulli de probabilit de succs p, et appelons A1 , . . . , An
les vnements dfinis par Ai =succs lpreuve numro i. Considrons leurs
fonctions indicatrices
1A1 , . . . , 1An .
Ces variables alatoires prennent chacune la valeur 1 avec probabilit p, et 0 avec
probabilit 1 p. Elles suivent donc chacune une loi de Bernoulli de paramtre p.
De plus, la variable X, qui compte le nombre dvnements Ai qui sont raliss,
sexprime laide de ces fonctions indicatrices :

X = 1A 1 + + 1A n .

Grce la linarit de lesprance, on en dduit que :

E(X) = E(1A1 + + 1An ) = E(1A1 ) + + E(1An ) = p + + p = np.

De plus, lindpendance mutuelle des vnements Ai entrane que les variables


alatoires 1Ai sont mutuellement indpendantes, et par consquent :

V(X) = V(1A1 + +1An ) = V(1A1 )+ +V(1An ) = p(1p)+ +p(1p) = np(1p).

Cette dduction est un peu rapide, car nous navons prouv ladditivit des variances
que pour une somme de deux variables alatoires indpendantes. Pour passer n
variables, il suffit de remarquer que, par exemple, les deux variables 1An et 1A1 +
+ 1An1 sont indpendantes, et ditrer largument.
Rcapitulons : si X suit une loi binomiale de paramtres n et p :
(
E(X) = np,
V(X) = np(1 p).

Remarquons que nous aurions galement pu, pour calculer E(X) et V(X), partir
de la dfinition de la loi binomiale

P(X = k) = Cnk pk (1 p)nk , 0 k n,


212

et calculer
n
X
E(X) = kCnk pk (1 p)nk
k=0

et
n
X
V(X) = k 2 Cnk pk (1 p)nk (E(X))2
k=0

laide didentits portant sur les coefficients binomiaux.

Loi de Poisson

Nous lavons vu, la loi de Poisson de paramtre apparat comme limite de la


loi binomiale de paramtres n et /n lorsque n tend vers linfini. Il est donc tentant
daffirmer que lesprance et la variance de cette loi sobtiennent comme limites de
lesprance et de la variance associes la loi binomiale :
 

E(X) = lim n = ,
n+ n

et   

V(X) = lim n 1 = ,
n+ n n
et ce raisonnement peut tre rendu rigoureux, au prix dun peu de travail suppl-
mentaire.
Pour obtenir ces valeurs, il serait galement possible de partir de la dfinition de
la loi de Poisson
k
P(X = k) = e , k 0.
k!
et de calculer
+
X k
E(X) = k e
k!
k=0

et
n
X k
V(X) = k2 e (E(X))2
k!
k=0

laide didentits sur les sries entires.


Rcapitulons : si X suit une loi de Poisson de paramtre :
(
E(X) = ,
V(X) = .
Variables alatoires 213

Loi gomtrique

Rappelons la dfinition de la loi gomtrique :

P(X = k) = (1 p)k1 p , k 1.

Son esprance et sa variance se calculent laide didentits sur les sries entires :
+
X 1
E(X) = k(1 p)k1 p = ,
p
k=1

+
X 1p
V(X) = k 2 (1 p)k1 p (E(X))2 = .
p2
k=1

Un moyen de trouver la valeur de E(X) et V(X) est de sappuyer sur le raison-


nement heuristique suivant (ce raisonnement peut en fait tre rendu compltement
rigoureux, mais cela ncessite sensiblement plus darguments et de dtails que ce qui
figure ci-aprs, en particulier pour le calcul de la variance).
Considrons n rptitions indpendantes dune variable alatoire de loi Bernoulli
de paramtre p, notes Z1 , . . . , Zn . Dcoupons prsent la squence de 0 et de 1
constitue par Z1 . . . Zn en tronons successifs de la forme 0 . . . 01 (le nombre de 0
prcdant le 1 dans un tel tronon pouvant tre gal 0), auquel sajoute ven-
tuellement un dernier tronon incomplet constitu uniquement de 0. Appelons Nn
le nombre de tronons dans le dcoupage (en nincluant pas lventuel tronon final
incomplet), et L1 , . . . , LNn les longueurs respectives de de ces tronons. Intuitive-
ment, il est clair que, lorsque n >> 1, on doit avoir L1 + + LNn n, car
la longueur de lventuel dernier tronon incomplet est ngligeable devant n. Par
ailleurs, en ngligeant le fait que notre dcoupage doit sarrter la fin de la s-
quence, on peut approcher la suite L1 , . . . , LNn par une rptition indpendante de
variables alatoires de loi gomtrique de paramtre p, du fait que les Zi constituent
des rptitions indpendantes dune mme variable de Bernoulli, chaque Li comp-
tant le nombre de rptitions effectuer pour obtenir un 1 en partant du tronon
prcdent. On sattend par consquent (voire ce sujet le chapitre suivant Loi des
grands nombres) ce que, lorsque n >> 1, on ait L1 + + LNn E(X) Nn . En
notant que Nn nest autre que le nombre de 1 prsents dans la squence Z1 , . . . , Zn ,
soit Nn = Z1 + + Zn , on sattend par ailleurs ce que Nn np. On en dduit que
L1 + + LNn E(X) np, et, en utilisant lobservation prcdente selon laquelle
L1 + + LNn n, on en dduit que lon doit avoir E(X) = 1/p, ce qui correspond
bien la vritable valeur.
Pour le calcul de la variance, on note que, au fait prs de ngliger lventuel
tronon final incomplet, on doit avoir Nn np N
P n
j=1 (1 Lj p). En traitant les
variables Lj comme des variables indpendantes de loi gomtrique de paramtre p,
214

et en remplaant Nn par np, on obtient que V(Nn np) np V(1 Xp). En


utilisant le fait que Nn suit une loi binomiale de paramtres n et p, do le fait que
V(Nn np) = np(1 p), et que V(1 Xp) = p2 V(X), on en dduit que lon doit
avoir np(1 p) np p2 V(X), do le fait que V(X) = 1pp2
.

Loi exponentielle

Si X suit une loi exponentielle de paramtre ,


(
E(X) = 1 ,
V(X) = 12 .
R + R +
Ceci peut se voir en calculant les intgrales 0 t exp(t)dt et 0 t2 exp(t)dt,
ou en utilisant lapproximation par une loi gomtrique de paramtre /n renorma-
lise par n.
On note que lesprance sidentifie ici au paramtre dchelle.

Loi gaussienne

Si X suit une loi gaussienne de paramtre m et v,


(
E(X) = m,
V(X) = v.
Ceci peut se voir en calculant les intgrales correspondantes (voir le chapitre Courbe
en cloche). Lesprance sidentifie donc au paramtre de position, et la variance au
paramtre dchelle.

Loi gamma

En vertu de lexercice 128, si X suit une loi gamma de paramtres a et s avec


a entier, lesprance de X doit tre gale as et la variance as2 . Cest galement
vrai si a nest pas un nombre entier, comme on peut le voir en calculant les intgrales
correspondantes. (
E(X) = a,
V(X) = as2 .

Loi beta

Si X suit une loi beta de paramtres a et b,


(
a
E(X) = a+b ,
V(X) = (a+b)2ab
(a+b+1)
.
comme on peut le vrifier en calculant les intgrales correspondantes. (Voir galement
lexercice 134).
Variables alatoires 215

Loi de Cauchy

La loi de Cauchy est lexemple le plus classique de loi pour lesquelles lesprance
nest pas dfinie (et, par voie de consquence, la variance ne lest pas non plus).
R + x
En effet, on voit facilement que 1+x 2 dx = +.

Cette loi intervient pourtant dans diverses situations de modlisation. Le fait


que lesprance dune variable alatoire puisse ne pas exister nest pas quune vue de
lesprit !

2.6.11 Rgression linaire


De manire gnrale, le problme de la rgression se pose de la manire suivante :
partir de la connaissance de la valeur prise par une variable alatoire X, proposer
une approximation de la valeur prise par une autre variable alatoire Y . En dautres
termes, on cherche une fonction h telle que h(X) reprsente une approximation de
la valeur de Y . La diffrence Y h(X) est gnralement appele le rsidu de la
rgression.
On cherche naturellement ce que le rsidu soit le plus faible possible, au sens
dun critre qui doit tre prcis.
Ce type de problme intervient dans de trs nombreuses applications. Par exemple,
prdire de la meilleure faon possible la taille dun garon lge adulte (Y ) en
fonction de la taille de son pre (X), ou encore, estimer la valeur dune quantit
physique (Y ) partir dune mesure indirecte et bruite de cette quantit (X). Autre
exemple, X pourra reprsenter une mesure de la concentration de certains marqueurs
biologiques dans le sang dun patient, tandis que Y reprsente le degr de gravit
de latteinte de celui-ci ( estimer au mieux sur la base des mesures). Encore un
exemple : X reprsente limage numrise (sous forme dune grille de pixels) dune
lettre manuscrite, et Y reprsente ladite lettre (A,B,C,...), et lon cherche auto-
matiquement retrouver Y partir de X. De fait, dinnombrables autres problmes
concrets peuvent se mettre sous la forme de problmes de rgression. Nous ne dis-
cuterons ici que le cas trs particulier o X et Y sont deux variables alatoires
valeurs relles.
Une premire tape indispensable est de dfinir prcisment la manire dont
on mesure lcart entre lapproximation propose h(X), et la vritable valeur Y ,
diffrentes manires de mesurer cet cart menant en gnral diffrentes notions de
ce quest la meilleure approximation de Y par une fonction de X.
Un choix frquent est lcart quadratique moyen : E (Y h(X))2 . Bien en-
 

tendu, ce choix nest pas le seul possible, et prsente un certain nombre davantages
et dinconvnients la mesure de lerreur par ce critre est donc discutable, et cette
discussion rejoint celle sur la pertinence de lesprance en tant quindicateur de po-
sition (voir ce qui a t dit prcdemment ce sujet). Dans le cadre frquentiel, ce
216

critre fournit un contrle sur la somme des erreurs quadratiques commises. Linga-
lit de Markov assure au moins quune faible valeur de lcart en ce sens conduit
un cart typiquement faible.
Ce choix tant fix, le problme de la rgression est donc de trouver une fonction
h qui minimise la quantit E (Y h(X))2 . On parle alors de rgression au sens des
 

moindres carrs. Une solution thorique ce problme de minimisation est fournie


par le raisonnement suivant.
Dans notre contexte, notons que lon peut crire, dans le cas dune variable ala-
toire X discrte dont SX est lensemble des valeurs :
X 
E (Y h(X))2 = E (Y h(x))2 |X = x P(X = x),
  

sSX

o E( |X = x) dsigne lesprance par rapport la probabilit P( |X = x) (Voir


la partie sur lesprance conditionnelle pour plus de dtails).
Dans le cas dune variable alatoire X continue et possdant la densit f , on peut
encore crire
Z +
2
E (Y h(x))2 |X = x f (x)dx,
   
E (Y h(X)) =

et nous vous renvoyons aux remarques sur le conditionnement par une variable ala-
toire continue effectues plus bas pour une discussion des problmes techniques sou-
levs par cette situation.
Sil nexiste aucune contrainte liant entre elles les valeurs de h(x) pour diffrentes
valeurs de x (telles que, par exemple, des contraintes de continuit) ce qui est le
cas lorsque lon cherche une rgression sous la forme h(X), o h est la fonction la
plus gnrale possible, il suffit de minimiser sparment pour chaque valeur de x la
quantit E (Y f (x))2 |X = x . Lexercice 94 entrane que le minimum est atteint
 

en choisissant
h(x) := E [Y |X = x] .
Notons que la variable alatoire h(X) nest autre que lesprance conditionnelle
E(Y |X), notion tudie en tant que telle dans une autre partie.
Pour tre simple dfinir, cette solution au problme de la rgression nest en
gnral que thorique, car, entre autres, de redoutables problmes destimation se
posent lorsque lon cherche concrtement, partir de listes de valeurs mesures
(xi , yi )i=1,...,n du couple de variables (X, Y ), estimer la fonction h dfinie ci-dessus.
Nous allons dans cette partie nous intresser une version restreinte du problme :
rechercher la meilleure approximation de Y non pas par une variable alatoire de la
forme h(X), o h peut-tre une fonction quelconque (ou presque), mais en nous
restreignant aux fonctions affines, cest--dire de la forme h(x) = ax + b. Nous serons
donc amens chercher les rels a et b qui minimisent la quantit E([Y (aX + b)]2 ).
Variables alatoires 217

On parle dans ce cas de rgression linaire, pour insister sur le fait que les fonctions
h considres sont linaires (en fait, affines).
Un problme de ce type dapproche est quen gnral, mme en choisissant a et b
de manire optimale, lapproximation aX + b de Y est diffrente de E(Y |X). Autre-
ment dit, notre approximation nest pas la meilleure au sens des moindres carrs. En
revanche, ce choix conduit des problmes destimation faciles rsoudre, et rsulte
donc dun compromis entre prcision de lapproximation fournie par la rgression, et
possibilit de calculer concrtement (et pas seulement de manire thorique) celle-ci.
Le rle privilgi de la rgression linaire dans les modles gaussiens (o elle con-
cide effectivement avec la rgression optimale au sens des moindres carrs E(Y |X),
nous en reparlerons dans le chapitre sur la courbe en cloche) est une autre raison de
limportance de ce type de rgression.
De nombreuses mthodes plus labores que la rgression linaire (tels que splines,
rseaux de neurones, arbres de dcision,...), et ralisant des compromis diffrents
et plus ou moins bien adapts aux diffrents contextes existent, et sont devenus
utilisables ces dernires annes notamment grce laccroissement de la puissance
de calcul des ordinateurs. Pour en apprendre (beaucoup) plus sur le sujet, vous
pouvez consulter par exemple louvrage de Hastie, Tibshirani et Friedman cit dans
la bibliographie.
Expliquons maintenant comment calculer les coefficients de la rgression linaire
de Y sur X, cest--dire les rels a et b qui minimisent la quantit E([Y (aX + b)]2 ).
On vrifie quune manire quivalente de poser le problme consiste chercher une
criture de Y sous la forme Y = aX+b+W , o W vrifie E(W ) = 0 et cov(W, X) = 0.
Ou encore, chercher crire Y sous la forme (X E(X)) + E(Y ) + W , o W
vrifie E(W ) = 0 et cov(W, X) = 0, soit une somme dun terme constant (E(Y )),
un terme proportionnel lcart entre X et E(X), et un terme rsiduel centr et
non-corrl X.

Remarque 9 Dans le cas o la loi du couple (X, Y ) est la loi empirique associe
un chantillon de valeurs (x1 , y1 ), . . . , (xN , yN ), on vrifie que le problme revient
chercher la droite dapproximation des moindres carrs du nuage de points du plan
form par (x1 , y1 ), . . . , (xN , yN ), donne par son quation y = ax + b.

Si lon suppose que V(X) 6= 0, on obtient que la meilleure approximation est


obtenue avec a = aX,Y := cov(X, Y )(V(X))1 et b = bX,Y := E(Y ) aE(X). En
dautres termes, lapproximation obtenue est cov(X, Y )(V(X))1 (X E(X)) +


E(Y ). Cette variable alatoire est appele la rgression linaire de Y sur X. La


diffrence X,Y := aX,Y X bX,Y est appele le rsidu de la rgression, et lon vrifie
que cov(X,Y , X) = 0.
On a alors V(Y ) = V(X,Y ) + V(aX,Y X + bX,Y ). La quantit V(X,Y ) est appele
la variance rsiduelle de la rgression. La quantit V(aX,Y X + bX,Y ) est, quant
218

elle, souvent appele la variance explique par la rgression, car elle apparat dans
lexpression ci-dessus comme la part de la variance de Y qui est explique par la
variance de X dans le modle de rgression linaire ; toutefois, cette terminologie peut
prter confusion, et il faut se garder (comme de la peste) de confondre rgression
(linaire ou non) et explication (voir par exemple larticle de D. Freedman cit dans
la bibliographie), de mme quune simple association entre vnements ne permet
pas de conclure lexistence dun lien de cause effet entre ceux-ci.
On vrifie que V(X,Y ) = (1 corr(X, Y )2 )V(Y ) tandis que V(aX,Y X + bX,Y ) =
corr(X, Y )2 V(Y ), et lon en dduit donc que le coefficient de corrlation r fournit
une mesure de la prcision de la rgression linaire de Y sur X.
Voici prsent une version normalise de la rgression de X sur Y , dans
laquelle ces variables sont ramenes sur une chelle o leur esprance est nulle et
leur cart-type gale 1 10 .
Lorsque (X) et (Y ) sont non-nuls, on dfinit X = (X E(X))((X))1 et
Y = (Y E(Y ))((Y ))1 .
Le coefficient de corrlation corr(X, Y ) est alors gal au coefficient a de la rgres-
sion linaire de la variable alatoire Y sur X. On vrifie que lerreur dapproximation
 2 
E Y corr(X, Y )X ,

est alors gale 1 corr(X, Y )2 , et le coefficient de corrlation fournit donc une


mesure de la qualit de la rgression linaire de Y sur X.
Les rsultats mentionns ci-dessus sans preuve peuvent tre soient prouvs de
manire lmentaire (en dveloppant tous les carrs et en analysant les variations
des fonctions dune ou de deux variables obtenues), ou partir de linterprtation
gomtrique prsente plus bas. Voir lexercice 96).
Comme nous lavons mentionn, un exemple de situation dans laquelle le rgres-
sion linaire intervient est celui o lon dispose dune mesure de la variable X, et
o lon cherche prdire le mieux possible la valeur de Y par une fonction affine de
X, partir dune connaissance de la loi jointe de (X, Y ), qui peut par exemple tre
obtenue partir dun chantillon de valeurs mesures du couple (X, Y ), de la forme
(x1 , y1 ), . . . , (xN , yN ) 11 .

Mise en garde 12 Il importe de ne pas confondre la question de la rgression li-


naire, dans lequel la prdiction est effectue avec une fonction affine, avec la question
10. Nous aurons loccasion de discuter nouveau de cette normalisation dans le chapitre Courbe
en cloche
11. Au passage, insistons sur le fait que la problme de la rgression porte sur le couple de variables
alatoires (X, Y ). Les chantillons de donnes mesures que lon utilisera seront donc de la forme
(xi , yi )i=1,...,N , dans lesquels lappariement entre la valeur xi et la valeur yi (et non pas avec une
autre valeur yj de la liste) est extrmement important.
Variables alatoires 219

plus gnrale consistant chercher la meilleure approximation de Y sous la forme


dune fonction quelconque de X (pas ncessairement affine), et dont la rponse est
fournie par lesprance conditionnelle, tudie dans une autre partie.

Comme nous lavons mentionn, lun des intrts de la rgression linaire est
que les paramtres a et b peuvent tre facilement (cest--dire au moyen de calculs
relativement peu coteux) et en gnral efficacement (cest--dire avec une prcision
raisonnable lorsque lon suppose de donnes en nombre raisonnable, voir le chapitre
Statistique pour une introduction ce type de questions) estims partir dun
chantillon (x1 , y1 ), . . . , (xN , yN ) de valeurs mesures du couple (X, Y ).
Dautre part, la rgression linaire joue un rle privilgi dans les modles gaus-
siens, sur lesquels nous reviendrons dans le chapitre sur la courbe en cloche.
Une situation particulirement confortable pour la rgression linaire est celle o
Y peut effectivement se mettre sous la forme Y = aX + b + W , o W est centre,
possde une variance, et est indpendante de X. En effet, dans ce cas, les coefficients
a et b sont ncessairement ceux de la rgression linaire de Y sur X, et aX + b
constitue la meilleure estimation possible de Y par une fonction quelconque de X,
au sens des moindres carrs, autrement dit, en anticipant quelque peu, aX + b est
lesprance conditionnelle de Y sachant X.
Afin dillustrer un peu cette situation, voici un exemple du nuage de points
obtenus en gnrant un chantillon de 100 valeurs (xi , yi ) selon le modle Y =
2, 3 X + 5, 7 + W , o X suit une loi exponentielle de paramtre 1, et W est
indpendante de X et suit une loi gaussienne de paramtres m = 0 et v = 0, 64. Sur
le nuage de points, nous avons galement trac la droite dquation y = 2, 3x + 5, 7
(dans ce cas, nous connaissons lavance ces coefficients, et nous ne nous posons pas,
pour linstant, la question de leur estimation partir des donnes).
14
12
10
y(i)

8
6
4

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

x(i)

On constate que les abscisses des points ne sont pas uniformment rparties, ce
qui est normal et ne fait que reflter le fait que la distribution des abscisses nest
pas de loi uniforme, mais de loi exponentielle de paramtre 1. On constate des carts
220

alatoires entre la droite trace (appele droite de rgression) et les ordonnes des
points, et lon observe grossirement le caractre symtrique de leur loi de probabilit.
Modifions la valeur de v en la portant v = 9.
Nous obtenons le graphique suivant. On observe que la prdiction de y(i) fournie
par ax(i) + b est en gnral moins prcise que dans le cas prcdent. Cette prdiction
est nanmoins la meilleure possible au sens des moindres carrs, et cest la disper-
sion plus importante des valeurs de W qui limite la qualit des prdictions quil est
possible deffectuer partir de la seule valeur de X.
15
10
y(i)

5
0

0 1 2 3 4 5

x(i)

A prsent, choisissons W de la forme W = V 3, o V suit une loi exponentielle


de paramtre 1/3 et est indpendante de X.
Nous obtenons le graphique suivant.
25
20
15
y(i)

10
5

0 1 2 3 4

x(i)

Les carts ne sont plus symtriques, mais demeurent centrs, les valeurs positives
plus rares et plus grandes compensant les valeurs ngatives plus frquentes et plus
Variables alatoires 221

faibles en valeur absolue.

La situation se corse peine si lon autorise W dpendre de X, mais en restant


centr conditionnellement la valeur de X, autrement dit : pour tout x, lesprance
de W sachant que X = x est encore gale zro. Dans ce cas, les coefficients a et
b sont encore ceux de la rgression linaire de Y sur X, et aX + b constitue encore
la meilleure estimation possible de Y par une fonction quelconque de X, au sens des
moindres carrs, autrement dit, en anticipant quelque peu, aX + b est lesprance
conditionnelle de Y sachant X.

Dans lexemple ci-dessous, la loi de W sachant que X = x est une loi exponentielle
de paramtre = (|x 0, 7| + 0, 1)1 translate par son esprance, de manire
vrifier le fait que lesprance de W sachant que X = x est nulle.
20
15
y(i)

10
5

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

x(i)

On observe effectivement des variations de la dispersion des carts en fonction de


la valeur de X.

A prsent, donnons un exemple o la rgression linaire nest plus une mthode


aussi satisfaisante.

On dfinit W = X 2 /2 2X + 1 + , o  est une variable alatoire indpendante


de X de loi gaussienne de paramtres m = 0 et v = 0, 55. Clairement, W nest
pas indpendante de X, et, pire, lesprance de W sachant que X = x est gale
x2 /2 2x + 1 et nest donc pas nulle en gnral, si bien que aX + b nest pas
la meilleure estimation possible de Y par une fonction de X au sens des moindres
carrs. Pourtant, a et b sont encore les coefficients de la rgression linaire de Y sur
X. Voici le gaphique obtenu.
222
20
15
y(i)

10

0 1 2 3 4 5

x(i)

En fait, on constate facilement que la meilleure estimation possible de Y par X au


sens des moindres carrs est donne par la fonction quadratique g(x) = 2, 3x + 5, 7 +
x2 /2 2x + 1. Voici la superposition de cette courbe au nuage de points prcdent.
20
15
y(i)

10

0 1 2 3 4 5

x(i)

Sur cet exemple, les choses sont relativement claires, et une simple observation
des donnes suffit suggrer quun procd de rgression quadratique (ou tout au
moins autre que linaire) est plus appropri. Dans des cas plus complexes, soit que
lon ne dispose pas de suffisament de donnes pour se faire une ide prcise de la
loi jointe de (X, Y ), soit que les objets manipuls ne soient pas simplement des
variables relles unidimensionnelles, mais des objets de nature plus labore, il est
difficile, voire impossible, de dterminer la manire optimale de prdire Y partir
de X, et lon se restreint souvent lutilisation de certains types de procds de
rgression, dont la rgression linaire est certainement le plus simple tout point de
Variables alatoires 223

vue.
Pour en revenir la rgression linaire, tout en sachant quelle ne constitue pas
en gnral le moyen dobtenir la meilleure estimation, on note que le coefficient de
corrlation fournit une estimation de lerreur commise (plus prcisment, de sa va-
riance). Toutefois, une mme erreur destimation peut recouvrir des situations trs
diffrentes. De mme que la dmarche consistant simplement calculer lesprance
et lcart-type dune variable alatoire valeurs relles et considrer que lon ob-
tient ainsi lessentiel des informations sur la loi de cette variable alatoire est une
dmarche catastrophique (sauf lorsque lon dispose dinformations spcifiques sur
la loi en question, telle que, par exemple, son appartenance une famille param-
trique de lois telles les gaussiennes), la dmarche consistant, en prsence dun couple
de variables alatoires valeurs relles (X, Y ), calculer simplement lesprance et
lcart-type de X et de Y , ainsi que le coefficient de corrlation, est elle aussi catas-
trophique (sauf, l encore, lorsque lon dispose dinformations spcifiques sur la loi
du couple). Il est indispensable de procder une analyse plus dtaille, par exemple
au moyen dautres indicateurs et doutils de visualisation.
En voici une illustration classique, due Anscombe (Anscombe, Francis J. (1973)
Graphs in statistical analysis. American Statistician, 27, 1721).
Supposons donc que lon dispose dun chantillon de 11 mesures portant simul-
tanment sur huit caractres quantitatifs X1 , . . . , X4 et Y1 , . . . , Y4 .

x1 x2 x3 x4 y1 y2 y3 y4
1 10 10 10 8 8,04 9,14 7,46 6,58
2 8 8 8 8 6,95 8,14 6,77 5,76
3 13 13 13 8 7,58 8,74 12,74 7,71
4 9 9 9 8 8,81 8,77 7,11 8,84
5 11 11 11 8 8,33 9,26 7,81 8,47
6 14 14 14 8 9,96 8,10 8,84 7,04
7 6 6 6 8 7,24 6,13 6,08 5,25
8 4 4 4 19 4,26 3,10 5,39 12,50
9 12 12 12 8 10,84 9,13 8,15 5,56
10 7 7 7 8 4,82 7,26 6,42 7,91
11 5 5 5 8 5,68 4,74 5,73 6,89

En considrant la loi empirique de la variable alatoire (X1 , . . . , X4 , Y1 , . . . , Y4 ),


on obtient les valeurs numriques suivantes (la deuxime dcimale significative est
arrondie).

1. Eemp. (X1 ) = 9, Eemp. (Y1 ) = 7, 5, Vemp. (X1 ) = 11, Vemp. (Y1 ) = 4, 13, corremp. (X1 , Y1 ) =
0, 82 ;
224

2. Eemp. (X2 ) = 9, Eemp. (Y2 ) = 7, 5, Vemp. (X2 ) = 11, Vemp. (Y2 ) = 4, 13, corremp. (X2 , Y2 ) =
0, 82 ;

3. Eemp. (X3 ) = 9, Eemp. (Y3 ) = 7, 5, Vemp. (X3 ) = 11, Vemp. (Y3 ) = 4, 12, corremp. (X3 , Y3 ) =
0, 82 ;

4. Eemp. (X4 ) = 9, Eemp. (Y4 ) = 7, 5, Vemp. (X4 ) = 11, Vemp. (Y4 ) = 4, 12, corremp. (X4 , Y4 ) =
0, 82 ;

Ces indicateurs ne font donc pas apparatre de diffrence entre les quatre paires
de variables (Xi , Yi ) pour i, pour lesquelles une corrlation leve. En revanche, les
graphiques suivants, qui reprsentent yi en fonction de xi pour i = 1, 2, 3, 4, font
clairement apparatre des diffrences qualitatives fondamentales entre ces variables,
en particulier (mais pas seulement) dans la dpendance pouvant exister entre deux
membres dune mme paire.
11
10
9
8
y1

7
6
5
4

4 6 8 10 12 14

x1
9
8
7
y2

6
5
4
3

4 6 8 10 12 14

x2
Variables alatoires 225

12
10
y3

8
6

4 6 8 10 12 14

x3
12
10
y4

8
6

8 10 12 14 16 18

x4

Le premier graphique voque ceux obtenus dans le cas o Y scrit sous la forme
dune fonction linaire de X laquelle sajoute un bruit alatoire centr indpendant
de X.
Le deuxime suggre trs fortement que Y2 doit sexprimer de manire dtermi-
niste en fonction de Y2 , mais comme une fonction non-linaire. La dpendance est
donc bien plus forte que ce que le coefficient de corrlation laisse supposer, et na
rien de linaire.
Le troisime suggre galement trs fortement le fait que Y3 doit sexprimer exac-
tement comme une fonction linaire de X3 diffrente de celle calcule par rgression
linaire, et quun point aberrant affecte les mesures (la mesure lorigine de ce point
devant certainement tre rexamine de manire critique 12 ).
Le dernier nous rappelle que X4 est constante, lexception dune unique valeur,
la distribution de X4 semblant relativement uniforme entre 5 et 9.
Nous nous contentons ici dune discussion trs rapide et informelle, davantage de-
vant tre dit sur ce type de question dans le chapitre Statistique. Le point essentiel
est de noter les trs fortes diffrences entre ces situations, qui donnent pourtant lieu
des indicateurs desprance/variance/covariance totalement identiques.

12. La question des points aberrants sera reprise dans le chapitre Statistique
226

Interprtation gomtrique : thorie L2 *

Cette partie est principalement destine aux lecteurs ayant dj une connaissance
au moins rudimentaire de la thorie des espaces euclidiens, voire hilbertiens.
Les rsultats qui prcdent ont une interprtation gomtrique trs simple.
En appelant L2 (, P) lensemble des variables alatoires dfinies sur (, P)
valeurs relles possdant une variance, on vrifie que L2 (, P) est un espace vectoriel
vis--vis des oprations daddition des variables alatoires et de leur multiplication
par un scalaire, et que lapplication X 7 E(X 2 ), dfinit (le carr d) une norme
euclidienne || || sur L2 (, P), dont le produit scalaire est donn par < X, Y >=
E(XY ).
Appelons C le sous-espace vectoriel de L2 (, P) form par les fonctions constantes,
et L20 (, P) le sous-espace vectoriel de L2 (, P) form par les variables alatoires dont
lesprance est nulle.

On vrifie immdiatement que L2 (, P) = L20 (, P) C.
On vrifie que lesprance de X nest autre (voir lexercice 94) que la projection
orthogonale de X sur C.
Par consquent, le centrage de X, cest--dire la transformation : X 7
X E(X) nest autre que la projection de X sur L20 (, P). On voit ainsi que V(X) =
||(X)||2 et cov(X, Y ) =< (X), (Y ) >.
Dans ce cadre, lquation 2.3 nest autre que la reformulation de la formule bien
connue sur la norme euclidienne dune somme de deux vecteurs : ||(X + Y )||2 =
||(X)||2 + ||(Y )||2 + 2 < (X), (Y ) >.
Lindpendance de X et de Y entrane le fait que (X) et (Y ) sont orthogonales,
la rciproque tant fausse en gnral.
Le problme de la rgression linaire de Y sur X sinterprte alors simplement
comme celui de la recherche de la projection orthogonale de Y sur le sous-espace
constitu par les vecteurs de la forme aX + b, (a, b) R2 .
La normalisation de X par X revient simplement normaliser le vecteur (X),
cest--dire le diviser par sa norme.
Dans ce contexte, le coefficient de corrlation de X et de Y se prsente comme
le cosinus de langle entre les deux vecteurs (X) et (Y ).

2.7 Probabilit, loi et esprance conditionnelles


Dans cette partie, nous nous restreindrons au cas discret pour des raisons de
simplicit dexposition. Lorsquelles peuvent tre dfinies, les notions analogues dans
le cas continu se dduisent facilement de ce qui est prsent ici, partir des transfor-
mations usuelles permettant de passer du cas discret au cas continu (voir galement
la partie suivante).
Variables alatoires 227

Considrons un modle probabiliste (, P). Etant donn un vnement A tel


que P(A) > 0, nous avons dfini au chapitre prcdent la probabilit P conditionnelle
A, note P(|A).
Nous utiliserons galement la notion desprance conditionnelle un vnement :
si X est une variable alatoire dfinie sur (, P) valeurs relles et possdant une
esprance, on notera EP (X|A), ou encore E(X|A) quand il ny a pas dambigut,
lesprance de X calcule non pas partir de la probabilit P, mais partir de la
probabilit P(|A). Autrement dit, E(X|A) := EP(|A) (X). Plus explicitement, dans
P P
le cas discret, E(X|A) = X() P(|A) = sSX s P(X = s|A).
On dduit facilement de cette dfinition que

E(X1(A))
E(X|A) = .
P(A)

Supposons maintenant que nous disposions dun systme complet dvnements


A = (A1 , . . . , Ap ), et que nous soyons capable de dterminer non pas par lequel des
lments de la situation se ralise, mais simplement lequel des vnements de
A est ralis. (On ne localise donc pas parfaitement , mais lunique vnement Ai
auquel il appartient).
Lorsque lon sait que Ai est ralis, nous avons vu quil convient de dcrire la
situation laide du modle modifi (, P(|Ai )).
Ainsi, suivant lvnement de A qui se ralise, on est amen dcrire la situa-
tion laide dune probabilit diffrente de P, et qui dpend de Ai . En ce sens, la
probabilit avec laquelle il convient de dcrire la situation tudie en tenant compte
de lvnement de A qui sest ralis est elle-mme une variable alatoire, puisquelle
varie en fonction de celui des vnements de A qui sest effectivement ralis.
Ceci justifie la dfinition gnrale suivante.
On appelle probabilit P conditionnelle A la variable alatoire dfinie sur
et valeurs dans lensemble des probabilits sur dfinie par lquation suivante :

pour tout 1 i p et tout Ai , P(|A) = P(|Ai ).

Vous ne rvez donc pas, il sagit bel et bien dune probabilit alatoire sur .
A tout est associ une probabilit sur , gale la probabilit conditionnelle
lunique vnement de A contenant (lexistence et lunicit dun tel vnement
provient du fait que A forme un systme complet dvnements).
Un (lger) problme de dfinition provient du fait que P(|Ai ) nest pas dfinie
lorsque P(Ai ) = 0. Un choix arbitraire dune probabilit sur (par exemple P) dans
le cas o P(Ai ) = 0 permet de dfinir compltement P(|A). Ce choix arbitraire
na aucune importance en pratique, puisque, si P(Ai ) = 0, les lments Ai ne
correspondent jamais une issue ralise de la situation considre.
228

Dans le cas o lon dispose dune reprsentation en arbre de et o A est form


par des vnements associs des nuds de larbre, la probabilit conditionnelle
consiste simplement associer toute feuille de larbre sa probabilit conditionnelle
lunique nud de A dont elle descend. Comme cette probabilit dpend du nud
considr, elle apparat naturellement comme une variable alatoire.
On observe que la relation
p
X p
X
P(B) = P(B|Ai )P(Ai )
i=1 i=1

entrane le fait que, pour tout vnement B :

EP (P(B|A)) = P(B).
Etant donne une variable alatoire X valeurs relles dfinie sur , on parlera
de la loi conditionnelle de X par rapport A et P pour dsigner la variable
alatoire constitue par la loi de X par rapport la probabilit alatoire P(|A) sur
.
Si X est valeurs relles et possde une esprance, on pourra dfinir de la mme
manire lesprance conditionnelle de X par rapport A et P, note EP (X|A)
(en utilisant le fait que si X possde une esprance sous P, il en va de mme de
P(|Ai )).
(Comme toujours, lorsquil ny a pas dambiguit, nous crirons simplement
E(X|A).) On vrifie facilement que, si X possde une esprance, cest galement
le cas de E(X|A), et que
EP EP (X|A) = EP (X).
Pour le voir, il suffit dcrire que 1 = pi=1 1(Ai ), et donc que X = pi=1 X1(Ai ),
P P
Pp Pp
do le fait que E(X) = i=1 E(X1(Ai )) = i=1 E(X|Ai ) P(Ai ) = E (E(X|Ai )).
Une caractrisation importante de lesprance conditionnelle, qui dcoule de la
caractrisation de lesprance donne dans lexercice 94 est la suivante : si X possde
une variance, cest galement le cas de E(X|A), et E(X|A) est la meilleure approxi-
mation au sens des moindres carrs de X par une variable alatoire qui ne dpend
que de la ralisation des vnements de A (cest--dire une fonction de la variable
alatoire (1(A1 ), . . . , 1(Ap )), ou encore, pour rutiliser une dfinition du chapitre
prcdent, une variable alatoire possdant une traduction formelle dans lespace des
possibles A = {A1 , Ac1 } {An , Acn } dcrivant la ralisation des vnements
Ai ).
En particulier, si lon prend comme systme complet dvnements la liste des
vnements X = s , que nous noterons A(X), et si Y est une variable alatoire
dfinie sur (, P) et possdant une variance, E(Y |A(X)), que nous noterons parfois
simplement E(Y |X) est la meilleure approximation au sens des moindres carrs de
Variables alatoires 229

Y par une variable alatoire qui scrit comme une fonction de X. (Voir ce sujet la
partie sur la rgression).
En termes plus abstraits, et pour reprendre linterprtation gomtrique pr-
sente prcdemment propos de la rgression linaire, on vrifie que lensemble
L2 (, A(X), P) des variables alatoires possdant une variance et scrivant comme
une fonction de X forme un sous-espace vectoriel ferm de L2 (, P). Lapplication
Y 7 E(Y |A(X)) dfinie sur L2 (, P) sidentifie alors, daprs ce qui prcde, la
projection orthogonale sur L2 (, A(X), P).
Pour plus de dtails sur cette notion importante, nous vous invitons consulter
les ouvrages dintroduction la thorie mathmatique des probabilits cits dans la
bibliographie.

2.8 Conditionnement par une variable alatoire de loi


continue
Donner une prsentation mathmatiquement rigoureuse du conditionnement par
des variables alatoires continues est possible, mais ncessite le recours la thorie
mathmatique de la mesure. Nous nous contenterons donc dune approche plus in-
tuitive, conforme celle adopte pour la dfinition des variables alatoires continues,
et base sur lide selon laquelle lutilisation de variables alatoires continues peut se
voir comme un procd dapproximation de modles discrets, mais dont le caractre
discret napparat qu une chelle microscopique.
Si X est une variable alatoire de loi continue, on ne peut pas dfinir directement
les probabilits conditionnelles telles que P(A|X = x), du fait que P(X = x) = 0.
Revenant notre interprtation des variables alatoires continues comme cas limite
de variables alatoires discrtes, considrons une variable alatoire discrte lchelle
microscopique, mais dont le comportement macroscopique peut tre dcrit (avec une
bonne approximation) par celui dune variable continue de densit f .
Les probabilits de la forme P(A|X = x) sont alors bien dfinies lorsque x SX ,
mais certainement pas pour tout x R. De plus, la valeur dune telle probabilit
est a priori trs sensible la valeur exacte de X. Nous nous intresserons plutt
aux probabilits de la forme P(A|x X x + dx), pour des valeurs de dx petites
lchelle macroscopique, mais grandes devant lchelle microscopique laquelle le
caractre discret de la variable X apparat.
Si lvnement A dpend dune manire suffisament rgulire des valeurs prises
par la variable X (en particulier, on suppose que lvnement A nest pas sensible
la valeur exacte prise par X), on peut alors sattendre ce que, pour des valeurs
de dx suffisament petites (mais pas trop, comme expliqu ci-dessus), la valeur de
P(A|x X x + dx) soit proche dune valeur fixe h(A, x) ne dpendant que de x
230

et de A, mais pas de la valeur prcise de dx.


(Illustration sur un exemple et graphique.)
Partant de lidentit P(A) = +
P
i= P(A|idx X < idx + dx)P(idx X <
idx + dx), on en dduit que P(A) doit alors tre proche de la valeur
Z +
h(A, x)f (x)dx

.
Voyant le cas dune variable continue comme un procd dapproximation de la
situation discrte que nous venons de dcrire, nous serons donc amens utiliser la
dfinition suivante : pour une variable continue, P(A|X = x) = limdx0 P(A|x
X x + dx), lorsque cette limite existe.
On peut alors crire que
Z +
P(A) = P(A|X = x)f (x)dx. (2.4)

Pour une variable discrte, cela revient donc utiliser h(A, x) en lieu et place de
P(A|X = x), mme si cette dernire expression est dfinie. Cest cette condition
que lon peut utiliser la densit de X pour faire les calculs dans des expressions telles
que 2.4.
Cette dfinition tant acquise, on peut utiliser lexpression P(A|X = x) essentiel-
lement comme on le ferait dans le cas discret, en se rappelant les rgles de passage
P R
usuelles du cas discret au cas continu ( , et P(X = x) f (x)dx).

2.9 Transformes de Laplace et de Fourier dune loi de


probabilit *
Nous dcrivons trs brivement dans cette partie des outils mathmatiques trs
utiles dans ltude des lois de probabilit. Le niveau mathmatique ncessaire une
prsentation rigoureuse de leurs proprits dpasse nettement celui de ce cours, et
nous vous renvoyons aux ouvrages classiques dintroduction la thorie mathma-
tique des probabilits qui sont cits dans la bibliographie pour plus de dtails. Dans
notre contexte, nous aurons surtout loccasion de les utiliser comme des interm-
diaires commodes pour calculer explicitement des lois de sommes de variables ala-
toires indpendantes, la porte de ces outils dpassant cependant de trs loin ce cadre
dapplication restreint.

2.9.1 Fonction gnratrice


Considrons une variable alatoire X valeurs dans N.
Variables alatoires 231

P+
Du fait que P(X = k) 0 pour tout k et que k=0 P(X = k) = 1, la srie entire

+
X
GX (z) = P(X = k)z k ,
k=0

converge pour tout z C tel que |z| 1. On lappelle la srie gnratrice de la


variable alatoire X. On vrifie immdiatement que GX ne dpend que de la loi de
X, et que lon peut en fait crire GX (z) = E(z X ).
Les thormes habituels sur les sries entires montrent que la fonction GX (cest-
-dire lensemble des valeurs GX (z), et non pas seulement la valeur en un point
donn) caractrise entirement la suite P(X = k), et donc la loi de X.
Lun des intrts de cette notion est quelle se comporte particulirement bien
vis--vis de laddition des variables alatoires indpendantes.
Ainsi, si X et Y sont indpendantes, on a, pour tout z C tel que |z| < 1,
lidentit
GX+Y (z) = GX (z) GY (z).

Cette identit est une consquence immdiate du fait que z X et z Y sont indpen-
dantes.

2.9.2 Transforme de Laplace


Cette notion est utilise pour les variables alatoires valeurs relles positives
(discrte ou continues). Il sagit de la fonction dfinie sur R+ par LX (t) = E(exp(tX)).
(Cette esprance est toujours dfinie car exp(tX) est compris entre 0 et 1 du fait
que X est valeurs positives). Bien entendu, cette fonction ne dpend que de la loi
de X.
Le lien avec les fonctions gnratrices dfinies dans le paragraphe prcdent est le
suivant : pour une variable alatoire valeurs entires positives, on a GX (exp(t)) =
LX (t), comme on le vrifie immdiatement partir des dfinitions.
Ici encore, on vrifie que, si X et Y sont indpendantes (et positives), on a, pour
tout t R+ , lidentit
LX+Y (z) = LX (z) LY (z).

Cette identit est une consquence immdiate du fait que exp(tX) et exp(tY )
sont indpendantes.
Nous admettrons que la donne de la fonction LX caractrise entirement la loi
de X.
Autrement dit, si deux variables alatoires positives X et Y sont telles que LX =
LY , alors X et Y ont mme loi.
232

2.9.3 Transforme de Fourier


Cette notion est utilise pour les variables alatoires valeurs relles gnrales
(discrtes ou continues, sans hypothse de positivit comme pour la transforme de
Laplace).
Il sagit de la fonction dfinie sur R par FX (t) = E(exp(itX)). (Cette esprance
est toujours dfinie car | exp(itX)| = 1 pour tout t).
Bien entendu, cette fonction ne dpend que de la loi de X.
Nous admettrons que la donne de la fonction FX caractrise entirement la loi
de X.
Autrement dit, si deux variables alatoires X et Y sont telles que FX = FY ,
alors X et Y ont mme loi.
Ici encore, on vrifie que, si X et Y sont indpendantes, on a, pour tout t R+ ,
lidentit
FX+Y (z) = FX (z) FY (z).

Cette identit est une consquence immdiate du fait que exp(itX) et exp(itY ) sont
indpendantes.

2.9.4 Transformes des lois classiques


Loi de Bernoulli

On voit immdiatement que, si X suit une loi de Bernoulli de paramtre p, on a

FX (t) = p exp(it) + 1 p et LX (t) = p exp(t) + 1 p.

Loi binomiale

Une consquence de ce qui prcde est que, si X suit une loi binomiale de para-
mtres n et p, on a

FX (t) = [p exp(it) + 1 p]n et LX (t) = [p exp(t) + 1 p]n .

Loi de Poisson

Si X suit une loi de Poisson de paramtre , on a

FX (t) = exp [(exp(it) 1)] et LX (t) = exp [(exp(t) 1)] .

(Calcul, ou approximation par une loi binomiale).


Variables alatoires 233

Loi gomtrique

Si X suit une loi gomtrique de paramtre p, on a


p exp(it) p exp(t)
FX (t) = et LX (t) = .
1 (1 p) exp(it) 1 (1 p) exp(t)
Par le calcul, ou en observant que la loi de X est le mlange de la loi de X +1 (avec
probabilit (1 p)) et de la loi concentre sur la valeur constante 1 (avec probabilit
p).

Loi exponentielle

Si X suit une loi exponentielle de paramtre , on a


i
FX (t) = et LX (t) = .
t + i t +
Par le calcul, ou en approchant par une loi gomtrique renormalise.

Loi gaussienne

Si X suit une loi gaussienne de paramtres m et v, on a


t2
 
FX (t) = exp itm
2v
.
Par le calcul de lintgrale correspondante.

Loi de Cauchy
 
s|t|
Si X suit une loi gaussienne de paramtres ` et s, on a FX (t) = exp it` 4 .
Par le calcul de lintgrale correspondante.

2.10 Quelques mots de thorie de linformation *


Ce qui suit est fortement inspir de la prsentation donne dans louvrage de
P. Brmaud cit en bibliographie. Les ouvrages traitant de la thorie de linformation
sont trs nombreux. Nous citons dans la bibliographie celui de Cover et Thomas.

2.10.1 Entropie
Etant donn un ensemble fini S, et une probabilit P sur S, on dfinit lentropie
en base 2 de P par la formule
X
H2 (P) = P(x) log2 (P(x)),
xS
234

avec la convention 0 log2 (0) = 0.


On vrifie aisment les proprits suivantes :
lentropie est un nombre positif ou nul ;
si (S1 , P1 ) et (S2 , P2 ) sont deux modles probabilistes, H2 (P1 P2 ) = H2 (P1 ) +
H2 (P2 ) ;
la probabilit uniforme sur S maximise lentropie parmi les distributions de
probabilit possibles ;
lautre extrme, si la probabilit P est concentre sur un seul lment x S,
(i.e. P(x) = 1), lentropie est nulle.

2.10.2 Questionnaires
Dfinition

Formellement, un questionnaire binaire Q permettant didentifier les lments


dun ensemble fini S est la donne dun arbre enracin TQ dans lequel tout sommet
non-terminal possde un ou deux fils, et dont les feuilles sont en bijection avec les
lments de S (on dit que les sommets de labre sont tiquets par les lments de S).
Le questionnaire est dit efficace lorsque tous les sommets non-terminaux possdent
exactement deux fils (ce dernier terme nest pas standard).
Pour tout sommet v de TQ , nous noterons S(v) lensemble des lments de S
tiquetant les feuilles du sous-arbre de TQ issu de v.
Si v est un sommet non-terminal de TQ , on note d(v) le nombre de ses fils ; d(v)
est donc gal 1 ou 2. Si d(v) = 1, on note v1 lunique fils de v. Si d(v) = 2, on note
v1 et v2 ces deux fils, (en choisissant arbitrairement celui qui est numrot 1 et celui
qui est numrot 2).
Si d(v) = 2, on constate que S(v) = S(v1 ) S(v2 ) et S(v1 ) S(v2 ) = .
Si d(v) = 1, on a S(v) = S(v1 ).
On obtient un questionnaire (au sens usuel) en associant chaque sommet non-
terminal v de larbre, la question : x appartient-il S(v1 ) ? .
Partant dun lment x de S inconnu, on pose dabord la question associe la
racine, note pour la circonstance w(x, 0) : x appartient-il S(w(x, 0)1 ) ? Si ce
nest pas le cas, x appartient ncessairement S(w(x, 0)2 ). En notant w(x, 1) lunique
fils de w(x, 0) tel que x S(w(x, 1)), on pose ensuite la question : x appartient-il
S(w(x, 1)1 ) ? Si ce nest pas le cas, x appartient ncessairement S(w(x, 1)2 ).
On dfinit ensuite w(x, 2) comme lunique fils de w(x, 1) tel que x S(w(x, 2)), et...
on itre le procd en dfinissant successivement w(x, 3), w(x, 4), . . . , jusqu avoir
dfini un w(x, i) dont x est un fils. On a alors identifi x, au moyen de questions
successives relatives sa localisation dans S, qui permettent de le localiser de plus
en plus finement jusqu lidentifier compltement. De manire image, on remonte
larbre, en partant de la racine jusqu la feuille tiquete par x, en posant chaque
Variables alatoires 235

fois la question qui permet de dterminer quelle est la bifurcation dirige vers x
(lorsquil y a possibilit de bifurcation, cest--dire deux fils).
On note quune question associe un sommet v qui vrifie d(v) = 1 est inutile,
car sa rponse est identique celle de la question associe au pre de v. Cest en ce
sens quun questionnaire possdant des sommets vrifiant d(v) = 1 est dit inefficace.
Partant dun questionnaire qui nest pas efficace, il suffit de contracter toutes les
artes reliant un sommet son fils unique, cest--dire toutes les questions inutiles,
pour le transformer en un questionnaire efficace.
(Dessin.)
La profondeur du sommet de larbre tiquet par un lment donn x de S corres-
pond donc au nombre de questions quil est ncessaire de poser avec ce questionnaire
pour identifier x (en tenant compte des questions inutiles dans le cas de question-
naires inefficaces). Etant donn un questionnaire Q relatif S et un lment x de S,
nous noterons `Q (x) cette profondeur.

Questionnaires et codes prfixes

Il y a correspondance bijective entre questionnaires binaires et codes


binaires p ossdant la proprit du prfixe (cest--dire quaucun mot de code
nest le prfixe dun autre, ce qui vite les ambiguits de dcodage lorsque plusieurs
mots sont transmis la suite).
Un questionnaire fournit un tel code en associant chaque lment de S un mot
de code form par les rponses successives aux questions poses (de la racine jusqu
la feuille) pour localiser cet lment.
Inversement, partons dun code binaire possdant la proprit du prfixe. Ap-
pelons M la longueur du plus long mot de code, et considrons T, larbre binaire
complet de profondeur M . Pour tout sommet non-terminal, numrotons par 0 et 1
les deux fils de ce sommet, de manire pouvoir reprer chaque sommet de T par
une suite (a1 , . . . , ak ) de 0 et et de 1 indiquant les choix successifs de fils menant de
la racine cette feuille. On peut ainsi associer tout mot de code binaire le sommet
de T repr par ce mot de code dans lindexation de T que nous venons de dcrire.
Notons C lensemble des sommets associs aux mots du code par ce procd. En
laguant larbre T par suppression de tous les descendants des lments de C, si bien
que ceux-ci constituent lensemble des feuilles de larbre ainsi lagu, et en tiquetant
ces feuilles par les lments de S associs aux mots de code correspondant, on obtient
un questionnaire binaire permettant didentifier les lments de S (le fait que cette
construction fonctionne utilise le fait que le code possde la proprit du prfixe ; o
donc ?).
Le nombre de questions poser pour identifier un lment x de S au moyen
dun questionnaire est gal, dans cette correspondance, la longueur du mot de code
236

associ x.

Ingalit de Kraft

Nous allons prouver que tout questionnaire binaire vrifie lingalit suivante,
appele ingalit de Kraft :
X
2`Q (x) 1.
xS

Posons M = max{`Q (x) : x S}. Compltons larbre associ Q en un arbre


binaire complet de profondeur M , not T, et qui comporte donc 2M feuilles.
Le sous-arbre de T form par les descendants dun sommet situ une profon-
deur `Q (x) comporte 2M `Q (x) feuilles. Clairement, les sous-arbres ainsi obtenus en
partant de sommets distincts de larbre associ Q sont disjoints, do le fait que
M `Q (x) 2M , ce qui entrane lingalit annonce.
P
xS 2
Pour un questionnaire efficace, le mme argument prouve que lon a exactement
`Q (x) = 1.
P
xS 2
Nous allons maintenant prouver la rciproque de lingalit de Kraft :
toute famille dentiers dx , x S, suprieurs ou gaux 1, et vrifiant
X
2dx 1,
xS

on peut associer un questionnaire Q relatif S et tel que `Q (x) = dx .


Ecrivons la liste des lments de S sous la forme {x1 , . . . , xn }, de telle sorte que
dx1 dx2 dxn . Posons M = max{dx : x S} = dxn , et considrons une
fois encore T, larbre binaire complet de profondeur M , en reprant les sommets par
des suites de 0 et de 1 grce lindexation dcrite prcdemment. A chaque feuille
P 1
v de T, on associe ensuite un entier (v) dfinie par (a1 , . . . , aM ) = M i
i=0 ai 2 , o
(a1 , . . . , aM ) est lindexation de cette feuille.
Ensuite, les feuilles de T numrotes de 1 2M d1 sont tiquetes par x1 , les
feuilles numrotes de 2M d1 + 1 2M d1 + 2M d2 sont tiquetes par x2 , etc... Lin-
galit que nous avons suppose sur les dx garantit que lon peut poursuivre ce pro-
cd jusqu avoir tiquet les xS 2M dx premires feuilles, les 2M xS 2M dx
P P

dernires feuilles de T restant sans tiquettes. Qui plus est, le fait que la suite
(M dxi )1in soit dcroissante entrane le fait que, pour tout i, il existe un sommet
hi de T situ une profondeur gale dxi , tel que les feuilles qui en descendent sont
exactement les feuilles tiquetes par xi dans ltiquetage que nous venons de dfinir.
On construit alors un questionnaire de la manire suivante : on tiquette chaque
hi par xi , puis on lague T en supprimant tous les descendants des hi , si bien que
{h1 , . . . , hn } forme lensemble des feuilles de larbre lagu.
Variables alatoires 237

Questionnaires optimaux et entropie : borne de Shannon

Une consquence simple de lingalit de Kraft est que, dans tout questionnaire Q,
il existe au moins un lment x de S tel que `Q (x) dlog2 (|S|)e. Rciproquement,
il est clair que lon peut toujours construire un questionnaire dans lequel tous les
lments ont une profondeur infrieure ou gale dlog2 (|S|)e. Si la performance dun
questionnaire est mesure par sa profondeur maximale (le nombre de questions quil
est ncessaire de poser pour identifier un lment dans la pire des cas), la question
de trouver un questionnaire optimal nest donc pas trs intressante. En revanche,
lorsque S est muni dune probabilit P, et que lon tudie le nombre de questions quil
est ncessaire de poser pour identifier un lment de S choisi selon la probabilit
P, on obtient une variable alatoire dont la loi peut diffrer trs fortement dun
questionnaire lautre. Intuitivement, on peut tirer parti de diffrences de probabilit
entre les diffrents lments de S en associant aux plus probables les nombres de
questions les plus faibles.
Nous supposerons dans la suite que P(x) > 0 pour tout x S (si ce nest pas le
cas, il suffit dliminer de S les lments de probabilit nulle, qui, de toute faon, ne
peuvent jamais apparatre).
On sintressera spcifiquement lesprance du nombre de questions poser
pour identifier un lment de S choisi selon la probabilit P, soit
X
LP (Q) = `Q (x)P(x).
xS

Si lon doit utiliser un questionnaire de manire rpte pour localiser des l-


ments de x choisis selon la probabilit P (ou, dans linterprtation en termes de
codage, si lon doit coder de manire rpte des lments de x), LP (Q) est a priori
une quantit plus pertinente que la longueur de codage dans le pire des cas, puis-
quelle reprsente, long terme, le nombre moyen de questions par lment de x quil
nous faudra poser.
Nous montrerons dans la suite que, (S, P) tant donn, il existe un questionnaire
Q qui minimise la valeur de LP (Q) parmi lensemble des questionnaires possibles, et
que lon dispose dun algorithme efficace pour construire un tel questionnaire.
Ce que nous allons prouver pour linstant est le rsultat suivant, connu sous le
nom de borne de Shannon 13 : (S, P) tant donn,

H2 (P) min LP (Q) H2 (P) + 1,

le minimum tant pris sur la totalit des questionnaires binaires permettant diden-
tifier les lments de S.
13. Claude Elwood Shannon (19162001).
238

Par consquent, lentropie de P apparat comme une mesure (au moins


approche) du minimum du nombre moyen de questions poser pour iden-
tifier les lments de S lorsque ceux-ci sont gnrs selon la probabilit
P.
Lorsque P est la loi uniforme, on constate que, daprs lingalit ci-dessus, on ne
peut gure faire mieux que le questionnaire dans lequel tous les lments sont associs
au mme nombre de questions, le cas moyen et le pire cas tant essentiellement
quivalents.

Remarque 10 Si lon considre des suites indpendantes dlments de S de lon-


gueur n, gnres selon la probabilit Pn , on obtient donc que le nombre moyen
minimal de questions poser est compris entre nH2 (P) et nH2 (P) + 1, et, par cons-
quent, ce nombre moyen rapport la longueur de la suite tend vers H2 (P) lorsque n
tend vers linfini, ce qui confre un caractre naturel H2 (P) (qui nintervenait qu
un terme derreur pouvant aller jusqu 1 dans lingalit prcdente).

Remarque 11 Lentropie, telle que nous lavons introduite dans cette partie, inter-
vient dans bien dautres contextes (par exemple en physique statistique, en statistique
baysienne, en intelligence artificielle,...), o elle joue un rle important, avec des
interprtations parfois trs diffrentes.

Prouvons maintenant la borne de Shannon. Dans la suite, nous noterons ((dx )xS ) =
P
xS dx P(x) et
Appelons D lensemble des familles dentiers (dx )xS , suprieurs ou gaux 1, et
vrifiant xS 2dx 1.
P

Daprs lingalit de Kraft et sa rciproque, le problme de minimisation que


nous tudions se ramne au suivant :

minimiser sur lensemble D.

On vrifie que, lorsque (dx )xS tend vers linfini, cest galement le cas de ((dx )xS )
par positivit des P(x). Par consquent, possde bien un minimum absolu sur D.
Le fait que lensemble D soit constitu de nombres entiers nous complique la vie
car nous ne pouvons pas utiliser les outils du calcul diffrentiel pour rsoudre ce
problme de minimisation.
0
Appelons D des familles de nombres rels (dx )xS , suprieurs ou gaux 0, et
vrifiant xS 2dx 1, et considrons le problme de minimisation suivant :
P

0
minimiser sur lensemble D .
0
On note quen ralit, un lment de D vrifie toujours que dx > 0 pour tout
x S, sans quoi lingalit xS 2dx 1 serait contredite.
P
Variables alatoires 239

Par continuit de , et toujours du fait que ((dx )xS ) tend vers linfini lorsque
0
(dx )xS tend vers linfini, possde bien un minimum absolu sur D . De plus, si la
contrainte xS 2dx 1 est satisfaite, cest encore le cas si lon augmente certains
P
P
des dx . Or cette opration fait crotre strictement la fonctionnelle xS dx P(x). On
en dduit que le minimum ne peut tre atteint que pour une famille dx vrifiant
dx = 1.
P
xS 2
P
Calculons la diffrentielle de en (dx )xS : D((dx )xS ) = xS P(x)Ddx . Par
ailleurs, D( xS 2dx ) = xS log(2)2dx Ddx . En crivant, comme nous y autorise
P P

le thorme des extrema lis, que D doit tre proportionnelle D( xS 2dx ) en


P

un extremum local sous contrainte, on en dduit que le minimum est atteint pour
dx = log2 (P(x)).
Par consquent, minD0 = H2 (P).
0
En notant que minD minD0 puisque D D , on en dduit que minD
H2 (P), ce qui fournit une moitit de lingalit annonce. Quant lautre moiti, on
vrifie que la famille dentiers (dlog2 (P(x))e)xS est dans D, et lon vrifie facilement
que (dlog2 (P(x))exS ) (log2 (P(x))xS ) + 1. Lingalit affirmant que minD
H2 (P) + 1 en rsulte.

Lalgorithme de Huffmann

Lalgorithme de Huffmann permet de construire de manire rcursive un ques-


tionnaire optimal.
Pour dcrire le principe de lalgorithme, crivons S = {x1 , . . . , xn }, o lindexa-
tion est choisie de telle sorte que P(x1 ) P(x2 ) P(xn ). Si S ne com-
porte que deux lments, le questionnaire optimal consiste tout simplement poser
une seule question pour dterminer auquel des deux lments on a affaire. Si S
comporte n 3 lments, un questionnaire optimal sobtient en appelant rcur-
sivement lalgorithme afin de construire un questionnaire optimal pour lensemble
0 0 0
S = {x1 , x2 , . . . , xn2 , y} muni de la probabilit P dfinie par P (xi ) = P(xi ) pour
0
i = 1, 2, . . . , n 2, et P (y) = P(xn1 ) + P(xn ), cet ensemble comportant un lment
de moins que S. Ensuite, dans larbre associ au questionnaire ainsi obtenu, on greffe
deux enfants sur la feuille tiquete par y, les deux feuilles ainsi obtenues tant ti-
quetes par xn1 et xn respectivement. On obtient ainsi un questionnaire optimal
pour (S, P).
Prouvons loptimalit de cet algorithme.
Appelons Q un questionnaire optimal pour (S, P). Nous allons montrer que lon
peut le transformer en un autre questionnaire optimal pour lequel la feuille sur de
celle tiquete par xn est tiquete par xn1 .
Commenons par observer que, si P(a) < P(b), on a ncessairement `Q (a)
`Q (b). (Cette proprit est intuitivement claire : dans un questionnaire optimal,
240

les lments les plus probables doivent avoir la profondeur la plus faible possible.)
En effet, notons que, si `Q (a) > `Q (b), il suffit dchanger les tiquetages des
feuilles associes a et b dans larbre du questionnaire pour obtenir un nouveau
questionnaire Q2 tel que LP (Q2 ) < LP (Q ), ce qui est impossible par optimalit de
Q .
Considrons la feuille sur de celle tiquete par xn dans Q , et appelons z
son tiquette. Si P(z) < P(xn1 ), on a ncessairement `Q (z) `Q (xn1 ). Si
`Q (xn1 ) = `Q (z), il suffit dchanger les tiquetages des feuilles associes z
et xn1 , pour obtenir un questionnaire dans lequel les feuilles tiquetes par xn
et xn1 sont surs, tout en conservant la valeur de LP (Q ), et donc loptimalit. Si
`Q (xn1 ) > `Q (z) = `Q (xn ), en appelant w ltiquette de la feuille sur de xn1 ,
on doit ncessairement avoir P(w) = P(xn ). En changeant les tiquetages des feuilles
associes w et xn , on obtient encore un questionnaire o les feuilles tiquetes par
xn et xn1 sont surs, tout en conservant la valeur de LP (Q ), et donc loptimalit.
Enfin, si P(z) = P(xn1 ), en changeant les tiquetages des feuilles associes z et
xn1 , on obtient encore un questionnaire o les feuilles tiquetes par xn et xn1
sont surs, tout en conservant la valeur de LP (Q ), et donc loptimalit.
(Dans le cas o lon a Q(x1 ) > > Q(xn ), on note que le raisonnement ci-dessus
peut tre grandement simplifi, car on a ncessairement que `Q (xn ) = `Q (xn1 ).)
Considrons donc un questionnaire optimal Q tel que les feuilles tiquetes par
xn et xn1 sont surs.
0
Partant de Q , nous pouvons construire un questionnaire (Q ) sur S en trans-
formant le pre de xn et xn1 en une feuille, tiquete par y, et qui vrifie donc que
LP (Q ) = LP0 ((Q )) + P(xn1 ) + P(xn ).
0
Inversement, partant dun questionnaire Q sur S , nous appellerons (Q) le ques-
tionnaire fabriqu par lalgorithme de Huffmann sur S partir de Q. Clairement,
LP ((Q)) = LP0 (Q) + P(xn1 ) + P(xn ). De plus, ((Q )) = Q .
0 0
Nous voyons prsent que (Q ) doit tre optimal pour (S , P ). Sinon, on pour-
0
rait trouver un questionnaire Q sur S tel que LP0 (Q) < LP0 ((Q )), do le fait que
LP ((Q)) < LP (Q )), ce qui contredirait loptimalit de Q .
0 0
Ncessairement, il existe donc un questionnaire optimal pour (S , P ) que trans-
forme en Q .
Comme la diffrence entre LP ((Q))LP0 (Q) est toujours gale P(xn1 )+P(xn ),
0 0
(Q) est optimal pour (S, P) pour tout Q questionnaire optimal pour (S , P ), ce qui
prouve le bon fonctionnement de lalgorithme de Huffmann.
Nous navons prsent ici que quelques mots extraits du vaste corpus connu sous
le nom de thorie de linformation, qui aborde toutes sortes de problmes et de
questions (tels que codage et dcodage rapides, ou encore compression de donnes
avec perte dinformation, transmission dinformation dans des canaux bruits,...).
Variables alatoires 241

2.11 Quelques mots sur le hasard simul


Pour plus tard...

2.12 Les lois de Benford et de Zipf


2.12.1 La loi de Benford
Pour un entier k 1 donn, on appelle loi de Benford sur k chiffres la loi de
probabilit sur {0, . . . , 9}k dfinie par
k
!
X
ki
pBenf ord (d1 , . . . , dk ) = log10 1 + di 10 .
i=1

De manire surprenante, au moins pour de faibles valeurs de k (au moins k = 1),


lorsque lon regroupe des valeurs numriques de provenances varies, la distribution
empirique des k premiers chiffres significatifs de lcriture en base 10 des valeurs
ainsi obtenues obt avec une assez bonne approximation la loi de Benford. Ce
phnomne fut formellement constat par Simon Newcomb en 1881, puis nouveau
mentionn et tudi par Frank Benford en 1938 (un indice amusant en faveur de
cette loi tant lusure ingale des premires et des dernires pages des tables de
logarithme : les nombres commenant par 1 sont plus frquemment manipuls que
ceux commenant par 2, eux-mmes plus frquents que ceux commenant par 3,
etc...). Des tests bass sur la loi de Benford sont par exemple utiliss par les services
fiscaux de certains pays pour tenter de dtecter les ensembles de chiffres fabriqus
(par exemple, de faux bilans comptables), par opposition de vraies valeurs, dont
on pourrait sattendre ce quelles suivent la loi de Benford.
Diverses explications mathmatiques lapparition, non pas systmatique, mais
au moins frquente, de cette loi, ont t avances.
Pour plus dinformations, nous vous renvoyons larticle de Hill cit dans la
bibliographie et aux rfrences qui sy trouvent.
Notez au passage que lon joue ici sur les deux sens du mot loi : le terme loi de
Benford dsigne la fois la loi de probabilit dfinie ci-dessus, et laffirmation selon
laquelle la rpartition empirique des premiers chiffres significatifs dans des listes de
valeurs de provenances diverses a souvent (mais pas toujours, insistons) tendance
suivre cette loi de probabilit.
Des exemples...

2.12.2 Lois de Zipf-Mandelbrot et de Pareto


On appelle lois de Zipf-Mandelbrot les lois de probabilit sur {1, 2, . . .} de la
forme p(n) = K(a + bn)c , o a 0, b > 0 et c > 1. (K est alors entirement
242

dtermin par a, b et c).


Dans le cas continu, un analogue est constitu par les lois de Pareto : ce sont les
lois dont la densit est de la forme f (x) = Kxc pour x b, avec b > 0 et c > 1.
Ces lois sont qualifies de lois de puissance (power-law en anglais), et de
nombreux phnomnes (biologiques, physiques, sociaux) font apparatre des lois de
probabilit qui, sans sidentifier parfaitement aux lois prcdentes, reproduisent ap-
proximativement le comportement en xc ou nc pour une vaste gamme de valeurs
de x ou n. Notez que ce comportement tranche avec celui des lois classiques (exponen-
tielle, Poisson, gamma, gaussienne) pour lesquelles la dcroissance de la probabilit
ou de la densit pour les grandes valeurs est beaucoup plus rapide. Une proprit re-
marquable de ces lois est leur proprit dinvariance dchelle : observe des chelles
diffrentes, une variable alatoire possdant une loi de ce type prsente toujours la
mme loi (voir lexercice 150). De multiples explications, parfois trs spculatives,
parfois moins, ont t proposes pour tenter de rendre compte de lapparition de ce
type de loi dans des situations relles.

Exemple 9 Un exemple relativement bien tabli est que, dans de nombreux textes,
si lon classe par ordre dcroissant les frquences dapparition des diffrents mots du
texte, soient f (1) f (2) , (ce qui signifie donc que f (1) est la frquence du mot
le plus reprsent, f (2) la frquence du second mot le plus reprsent, etc...) f (n) cor-
respond souvent approximativement une loi de Zipf-Mandelbrot, tout au moins pour
un certain domaine de valeurs de n. Vous pouvez vous-mme tester exprimentale-
ment la validit de la loi de Zipf sur les textes de votre choix en vous rendant sur le site
maintenu par Emmanuel Giguet : http://users.info.unicaen.fr/~giguet/java/zipf.html.

Autres exemples...

2.13 Auto-valuation
Quest-ce quune variable alatoire (concrtement, en franais) ?
Quest-ce quune variable alatoire (en tant quobjet mathmatique) ?
La dfinition dune variable alatoire dpend-elle de la probabilit sur ?
Quest-ce que la loi dune variable alatoire ?
Deux variables alatoires possdant la mme loi sont-elles ncessairement gales ?
Deux variables alatoires dfinies sur des espaces de probabilit diffrents peuvent-
elles nanmoins possder la mme loi ?
Quest-ce quune loi de probabilit en gnral (sans rfrence une variable
alatoire) ?
Donnez la dfinition des lois de Bernoulli, Binomiale, de Poisson, uniforme,
gomtrique, leurs paramtres, le contexte exact (hypothses sur le modles,
exemples concrets) dans lequel on sait quelles interviennent.
Variables alatoires 243

Quest-ce que la loi empirique associe un chantillon de valeurs ?


Pour une variable alatoire donne, quelle diffrence y a-t-il entre sa loi, et la
loi empirique associe un chantillon de valeurs collectes de cette variable
alatoire ?
Donnez la dfinition de deux, et plus gnralement de n variables alatoires
indpendantes.
Les variables alatoires qui interviennent dans la modlisation dun phnomne
doivent-elles ncessairement tre dfinies sur le mme espace de dpart ? Avoir
le mme espace darrive ?
Donnez les deux formules dfinissant lesprance. Quelle est la diffrence entre
ces deux formules ?
Deux variables alatoires ayant la mme loi peuvent-elles avoir des esprances
diffrentes ? Et des variances diffrentes ?
Quel est le lien entre lesprance et la moyenne dune liste de valeurs au sens
usuel ?
Donnez la dfinition de la variance et de lcart-type dune variable alatoire.
Que reprsente la variance ? Et lcart-type ? En quoi la dfinition traduit-elle
prcisment cette intuition ?
Rappelez lingalit de Markov. Comment utilise-t-on cette ingalit ? Est-elle
toujours prcise ?
Rappelez lingalit de Bienaym-Tchebychev. Comment utilise-t-on cette in-
galit ? Est-elle toujours prcise ?
Quest-ce que le phnomne du loto ?
Quel lien prcis peut-il exister entre esprance et moyenne des valeurs mesures
dune variable alatoire ?
Lesprance est-elle toujours une valeur typique de la variable considre ?
Quels sont les principales limites lutilisation de lesprance en tant quindi-
cateur de position ?
Lcart-type reprsente-t-il effectivement un cart typique de la variable ? (Un
cart entre quoi et quoi, au fait ?)
Rappelez lexpression de lesprance et de la variance des lois usuelles en fonc-
tion de leurs paramtres.
Rappelez les liens entre oprations algbriques (somme, produit) sur les va-
riables alatoires, et oprations algbriques sur leur esprance et leur variance.
Comment sont dfinies les variables alatoires continues ? Quel lien possible
avec les variables alatoires de loi discrte ?
Comment passe-t-on des dfinitions et proprits relatives aux v.a. discrtes
leurs analogues dans le cas continu ?
Quest-ce que la densit dune variable alatoire continue ?
Quest-ce que la densit dune variable alatoire continue permet de calculer ?
244

Comment dfinit-on lesprance et la variance dune variable alatoire de loi


continue ?
Donnez la dfinition des lois gaussienne, exponentielle, et uniforme sur un inter-
valle, prcisez leurs paramtres, le contexte exact (hypothses sur le modles,
exemples concrets) dans lequel on sait quelles interviennent.
Quappelle-t-on rgression dune variable sur une autre ?
Quappelle-t-on rgression linaire ?
Comment sont dfinis la covariance et le coefficient de corrlation de deux
variables alatoires ?
Dfinissez le diagramme en btons, lhistogramme, le trac de la fonction de
rpartition, le box-plot, associs la loi dune variable alatoire.
Connaissant la loi de X, comment calculer la loi de h(X) ?
Connaissant la loi de X et la loi de Y , peut-on calculer la loi de X + Y ?

2.14 Exercices
Exercice 63 tant donns deux vnements A et B sur un espace des possibles ,
comment exprimer laide des fonctions indicatrices de A et B :
la fonction indicatrice de A B ?
la fonction indicatrice de A B ?
la fonction indicatrice de Ac ?
la fonction indicatrice de lvnement A ou bien B (ou exclusif ) ?

Exercice 64 La Jojomobile dans laquelle roule Jojo est une vritable antiquit, et
les dboires de Jojo avec son vhicule sont un sujet damusement permanent pour ses
collgues. En particulier, les portires ont une fcheuse tendance souvrir inopin-
ment lorsque la voiture est en marche. Conducteur peu scrupuleux, Jojo ne sarrte
que lorsque la moiti au moins des portires souvre. En admettant quau cours dun
trajet, le mcanisme de fermeture de chaque portire a une probabilit p de sou-
vrir, indpendamment des autres, prcisez quelle est la loi du nombre de portires
qui souvrent au cours dun trajet avec la Jojomobile. Quelle est la probabilit pour
que Jojo sinterrompe au cours dun trajet ? Lass de sarrter aussi souvent, Jojo
dcide dattacher avec du ruban adhsif la portire avant gauche la portire arrire
gauche, et la portire avant droite la portire arrire droite. Grce cet ingnieux
dispositif, une portire ne souvre plus que lorsque les mcanismes de fermeture de
cette portire et de celle laquelle elle est attache souvrent simultanment. Quelle
est prsent la probabilit pour que Jojo sinterrompe au cours dun trajet ?

Exercice 65 Une information trs secrte concernant le fonctionnement dune nou-


velle technologie militaire circule travers une chane dagents secrets et despions.
Variables alatoires 245

En fait, chaque membre du rseau est plus ou moins un agent double et, pour des rai-
sons qui lui sont propres, transmet linformation oppose celle quil vient de recevoir
avec une probabilit p [0, 1]. Seul le premier maillon de la chane sait effectivement
si la technologie concerne est au point, et lon suppose que les dcisions prises par
chacun des agents transmettre correctement ou non linformation quils ont reue
sont mutuellement indpendantes. Calculez la probabilit pn pour que linformation
fournie par le nme maillon de la chane soit correcte. Trouver une relation de
rcurrence entre pn et pn+1 . Que se passe-t-il lorsque n tend vers linfini ?

Exercice 66 Pour agrmenter dun peu de fantaisie son morne quotidien, un mar-
chand de confiseries dcide de piger quelques unes des botes de chocolats de son
talage en y plaant des ptards qui exploseront louverture de la bote. Aujourdhui,
sur les 52 botes de chocolats disposes sur ltalage, 4 sont piges. Un client entre
dans la boutique, choisit une bote de chocolat au hasard (uniformment parmi les
botes prsentes), lachte, et sen va. Quelle est la probabilit quil emporte, sans le
savoir, lune des botes spcialement arranges par notre factieux confiseur ? Peu
aprs, un deuxime client pntre dans la boutique, choisit son tour une bote de
chocolats, et lemporte, aprs, naturellement, lavoir paye. Quelle est la probabilit
pour quil ait choisi une bote de chocolats pige ? Mme question pour le troisime
client, le quatrime, etc...

Exercice 67 Le jeune Dirichlet a plac sa paire de chaussettes bleues pois mauves


dans lun des tiroirs de la commode mais, distrait, il a oubli de quel tiroir il sagissait.
Dtermin retrouver cote que cote sa prcieuse paire de chaussettes, il ouvre les
tiroirs uniformment au hasard, les uns aprs les autres, en prenant bien soin de ne
pas refermer les tiroirs dj ouverts, jusqu remettre la main sur ses chaussettes.
Dcrivez un modle probabiliste simple de la situation. Quelle est la loi du nombre
de tiroirs quil lui faut ouvrir avant de retrouver ses chaussettes ? Quelle est son
esprance ?

Exercice 68 Les quarante marins qui forment lquipage du Jojo des mers des-
cendent au port pour une nuit de beuverie. Au petit matin, compltement ivres, ils
retournent sur le bateau, et chacun choisit une cabine au hasard parmi les quarante
possibles, indpendamment de ses camarades. Quelle est la loi du nombre de marins
qui dorment dans leur propre cabine ? Quelle est son esprance ? Et sa variance ?

Exercice 69 Chaque matin, Jojo consomme un grand bol de crales avant de se


rendre sur son lieu de travail. Dans chaque paquet de crrales de la marque favorite
de Jojo se trouve une vignette sur laquelle est reprsente, au choix, lune des sept
images suivantes : un pi de mas, une abeille, un vlo, un ours, une chouette, un
mulot ou un bouc. Une fois en possession dun exemplaire de chaque image, Jojo
246

aura gagn un T-shirt portant le logo de la marque. Combien de paquets en moyenne


Jojo devra-t-il acheter avant de pouvoir bnficier de cette allchante proposition ?
(On admettra quil y a la mme probabilit de trouver chacune des sept vignettes
dans un paquet, et que les images prsentes dans les diffrents paquets quachte Jojo
sont mutuellement indpendantes.) Quelle est la variance de ce nombre de paquets ?
Numrotons les vignettes de 1 7. En introduisant les vnements E(n, i) dfinis
par : Jojo na trouv la vignette numro i dans aucun des n premiers paquets ,
proposez une formule exacte pour la loi du nombre de paquets tudi, ainsi quune
majoration de la probabilit pour que celui-ci dpasse une valeur fixe n.

Exercice 70 partir dune suite de nombres alatoires indpendants suivant la loi


uniforme sur [0, 1], proposez une mthode pour gnrer :
une suite de variables alatoires suivant la loi uniforme sur {0, . . . , M } o M
est un entier positif,
une suite de variables alatoires de Bernoulli de probabilit p [0, 1],
une variable alatoire de loi binomiale de paramtres n et p,
une variable alatoire de loi de Poisson de paramtre ,
une variable alatoire de loi gomtrique de paramtre p.

Exercice 71 Considrons une loterie simplifie, laquelle participent un million


dindividus. Chaque participant verse un euro de participation, et, aprs un tirage
alatoire uniforme parmi lensemble des participants, un seul des participants emporte
le million deuros ainsi collect. Calculez lesprance et lcart-type du gain dun
individu donn participant cette loterie. Sont-ils des indicateurs pertinents de de la
loi de probabilit du gain ?

Exercice 72 (Ds de Sicherman)


On considre deux ds cubiques dont les faces sont numrotes de 1 6. Quelle
est, en supposant que, pour chaque d, chaque face possde la mme probabilit que
les autres de sortir, et quil y a indpendance entre les deux ds, la loi de probabilit
de la somme des chiffres obtenus aprs un lancer de ces deux ds ?
Mme question avec deux ds cubiques dont les faces sont numrotes ainsi :
(1, 2, 2, 3, 3, 4) pour le premier d, et (1, 3, 4, 5, 6, 8) pour le deuxime.

Exercice 73 (Ds dEfron)


On considre quatre ds cubiques nots A, B, C, D.
Chaque face de chaque d porte un nombre entier. Voici prcisment, pour chaque
d, la liste de ces nombres.
A : (0, 0, 4, 4, 4, 4)
B : (3, 3, 3, 3, 3, 3)
C : (2, 2, 2, 6, 6, 6)
Variables alatoires 247

D : (1, 1, 1, 5, 5, 5)
On considre prsent le jeu deux joueurs suivant. Un premier joueur choisit
lun des quatre ds ci-dessus, et le deuxime joueur choisit un d parmi les trois
restants. Chacun lance ensuite son d, et le joueur ayant obtenu le plus grand chiffre
gagne la partie. Comment conseilleriez-vous aux deux joueurs de choisir leurs ds ?

Exercice 74 On considre une urne contenant m objets distincts, numrots de 1


m, et lon suppose que lon effectue n tirages successifs sans remise parmi ces m
objets (on suppose donc que n m), chaque objet tant tir uniformment au hasard
parmi les objets restants dans lurne au moment du tirage.
Pour tout 1 i n, appelons Xi le numro de lobjet tir de lurne lors du
ime tirage.
Prouvez que, pour toute permutation de lensemble {1, . . . , n}, la loi de

(X(1) , X (2), . . . , X (n))

est la mme que celle de (X1 , . . . , Xn ). Quelle est cette loi ? Dduisez-en le fait que,
si I = {i1 , . . . , ik } et J = {j1 , . . . , jk } sont deux sous-ensembles de {1, . . . , n} com-
portant chacun k lments, (Xi1 , . . . , Xik ) et (Xj1 , . . . , Xjk ) possdent la mme loi.
Quel rsultat obtient-on en spcialisant ce rsultat au cas densembles comportant un
seul lment ?
Comment ce rsultat peut-il sappliquer dans les exercices 9, 66, 86, 67, 124, 36 ?

Exercice 75 Jojo souhaite gnrer une suite alatoire de 0 et de 1, indpendants,


et distribus selon la loi uniforme sur {0, 1}. En fouillant dans sa poche, il na trouv
quune pice de monnaie trs use dont la symtrie lui parat douteuse, si bien quil
pense que la probabilit p dobtenir pile en lanant sa pice nest pas gale 1/2.
Comment peut-il sy prendre, sans connatre la valeur de p, pour gnrer tout de
mme la suite de valeurs dont il a besoin. Indication : en effectuant deux lancers
successifs, quelle est la probabilit dobtenir pile suivi de face. Et face suivi de
pile ?

Exercice 76 Albric est un cambrioleur malheureux, spcialis dans les bijouteries.


chaque tentative de cambriolage dune bijouterie, il choue avec une probabilit de
80%. Appelons Xn le nombre de cambriolages russis aprs n tentatives (avec par
convention X0 = 0). Quelle est la loi de Xn ? Quelle est son esprance ? Appelons
T le nombre de tentatives ncessaires avant de russir un cambriolage. Quelle est la
loi de T ? Quelle est son esprance ? Quelle est la loi de XT ? Son esprance ? Quelle
est la loi de XT 1 ? Son esprance ?

Exercice 77 Comparez lesprance et la variance des deux variables alatoires X et


Y dont les deux lois sont dfinies par :
248

P(X = 0) = 14/30 , P(X = 1) = 3/30 , P(X = 2) = 12/30 , P(X = 3) = 1/30,

et

P(Y = 0) = 13/30 , P(Y = 1) = 6/30 , P(Y = 2) = 9/30 , P(Y = 3) = 2/30.

Exercice 78 (Violation de lingalit de Bell)


On considre quatre variables alatoires X1 , X2 , Y1 , Y2 dfinies sur un mme es-
pace de probabilit (, P), chaque variable ne pouvant prendre que les valeurs 0 ou 1.
Prouvez que :
(X1 6= Y1 et Y1 6= X2 et X2 6= Y2 ) X1 6= Y2 .
En dduire lingalit de Bell :

P(X1 = Y2 ) P(X1 = Y1 ) + P(Y1 = X2 ) + P(X2 = Y2 ).

Application. On sintresse lexprience de physique suivante : un atome de cal-


cium est excit par un faisceau laser, et, en retournant son tat non-excit, met

une paire de photons qui partent dans deux directions opposes x et y . Chacun des
deux photons est intercept par un filtre de polarisation, quil peut ou non traverser,
un photo-dtecteur tant plac au-del de chaque filtre pour dterminer si le photon a
effectivement travers. Lvnement auquel on sintresse est la concidence des com-
portements des deux photons : traversent les filtres tous les deux, ou restent bloqus
tous les deux. Chacun des deux filtres peut tre rgl selon deux positions diffrentes
notes 1 et 2, ce qui donne lieu quatre dispositifs exprimentaux diffrents, nots
(i, j), i dsignant la position sur laquelle est rgle le filtre situ dans la direction

x , j la position du filtre situ dans la direction y . La mcanique quantique prdit,
et ceci est confirm par lexprience, que, pour un choix conven able des diffrentes
positions que peuvent prendre les filtres, les probabilits dobserver un comportement
identique des deux photons sont donnes, pour chacun des dispositifs exprimentaux,
par :
p(1,2) = 0, 85 ; p(2,2) = 0, 15 ; p(1,1) = 0, 15 ; p(2,1) = 0, 15.
On dsire modliser ltat du systme form par la paire de photons laide
dun espace de probabilit (, P). Sur cet espace de probabilit sont dfinies quatre
variables alatoires X1 , X2 , Y1 , Y2 , qui indiquent si ltat du systme autorise ou non
les photons traverser les filtres, suivant les positions de ceux-ci. Ainsi, X1 prend

la valeur 1 lorsque ltat du systme permet au photon parti dans la direction x de
traverser le filtre si celui-ci est plac en position 1, et prend la valeur 0 dans le cas
contraire. De mme, X2 prend la valeur 1 lorsque ltat du systme permet au photon

parti dans la direction x de traverser le filtre si celui-ci est plac en position 2, et
Variables alatoires 249

prend la valeur 0 dans le cas contraire. On dfinit de mme Y1 et Y2 pour le photon



parti dans la direction y .
Comment les probabilits p(i,j) sexpriment-elles laide de X1 , X2 , Y1 , Y2 ? Quen
concluez-vous ?

Exercice 79 (Tri rapide randomis)


On dsire trier par ordre croissant une liste de n nombres x1 , . . . , xn . On utilise
pour cela lalgorithme de tri rapide randomis suivant : on choisit au hasard (uni-
formment) un indice I parmi 1, 2, . . . , n, et lon compare xI (le pivot) aux autres
nombres de la liste, de faon former deux sous-listes, contenant respectivement les
lments de la liste infrieurs (ou gaux) xI , et les lments strictement suprieurs
xI . On applique ensuite rcursivement la mthode ces deux sous-listes, et lalgo-
rithme sarrte lorsque les sous-listes trier ne contiennent plus chacune quun seul
lment. On peut reprsenter le rsultat de lexcution de lalgorithme par un arbre
binaire tiquet, sur les noeuds duquel figurent les lments de la liste. La racine
est tiquete par xI , son descendant gauche est tiquet par llment choisi pour le
tri de la sous-liste des lments suprieurs xI , son descendant droit par llment
choisi pour le tri de la sous-liste des lments infrieurs xI , et ainsi de suite (il
ny a pas de descendant associ une sous-liste vide). Comment utiliser cet arbre
pour produire la liste x1 , . . . , xn ordonne ? Effectuez vous-mme ( la main) le tri de
la liste 2; 5; 4; 7; 1; 6; 3; 9; 8 deux reprises selon lalgorithme indiqu. Obtenez-vous
le mme arbre ? On sintresse au temps dexcution (alatoire) de lalgorithme, tel
que mesur par le nombre total de comparaisons effectues. Quel est le pire cas pos-
sible ? Montrez que, pour une paire dindices {i, j} donne, lalgorithme effectue au
plus une comparaison entre xi et xj lors de son excution. Le temps dexcution de
lalgorithme est donc dfini par :
X
T = 1{xi et xj sont compars} .
1i<jn

Notons y1 , . . . , yn la liste x1 , . . . , xn ordonne de faon croissante. quelle condi-


tion lalgorithme effectue-t-il une comparaison entre yi et yj lors de son droulement ?
En dduire la probabilit :

P(yi et yj sont compars).

En dduire finalement la valeur de lesprance de T , E(T ). Cette esprance dpend-


elle de la liste initiale ? Comment se comporte-t-elle lorsque la taille n de la liste
trier tend vers linfini ? Lappellation de tri rapide vous semble-t-elle justifie ?

Exercice 80 (Aversion au risque)


On vous propose de participer une loterie, en vous laissant le choix entre deux
modalits :
250

modalit 1 : gain de 1000 euros avec probabilit 1/2, gain de 0 euro avec pro-
babilit 1/2
modalit 2 : gain de x euros avec probabilit 1.
A partir de quelle valeur de x prfrez-vous loption 2 loption 1 ? Quelle valeur
accepteriez-vous de payer un billet de loterie vous donnant droit loption 2 ?

Exercice 81 (Paradoxe dAllais)


Un gnreux membre de votre famille ayant fait fortune grce aux jeux de hasard,
et dsireux de vous faire un petit cadeau, vous propose le choix (choix 1) entre les
deux options suivantes :
option 1 : il vous offre 1000 euros ;
option 2 : il vous offre un billet de loterie donnant 10% de chances de gagner
5000 euros, 89% de chances de gagner 1000 euros, et 1% de chances de ne rien
gagner du tout.
Il souligne par ailleurs que le billet de loterie qui vous est propos est vendu plus
de 1000 euros.
Laquelle des deux options choisiriez-vous ?
Mme question avec le choix (choix 2) suivant :
option 1 : un billet de loterie qui vous donne 11% de chances de gagner 1000
euros et 89% de chances de ne rien gagner du tout ;
option 2 : un billet de loterie qui vous donne 10% de chances de gagner 5000
euros et 90% de chances de ne rien gagner du tout.
Mme question avec le choix (choix 3) suivant :
option 1 : il vous offre 1000 euros ;
option 2 : un billet de loterie qui vous donne 10/11 chances de gagner 5000
euros et 1 10/11 de chances de ne rien gagner du tout.
Comment vos ractions se confrontent-elles aux arguments suivants ?
si lon est cohrent, on doit choisir la mme option (1 ou 2) lors du deuxime
et du troisime choix, car loption 1 du deuxime choix correspond 11% de
chances de gagner loption 1 du troisime choix, et de ne rien gagner sinon,
tandis que loption 2 du deuxime choix correspond 11% de chances de gagner
loption 2 du troisime choix, et de ne rien gagner sinon ;
si lon est cohrent, on doit choisir la mme option (1 ou 2) lors du premier et
du troisime choix, car loption 1 du choix 1 correspond 11% de chances de
gagner loption 1 du choix 3 avec un lot de consolation en cas de perte de 1000
euros (tir par les cheveux, hein ?), tandis que loption 2 du choix du choix 1
correspond 11% de chances de gagner loption 2 du choix 3 avec un lot de
consolation en cas de perte de 1000 euros.

Exercice 82 Vous jouez au jeu des devinettes avec votre petit cousin. Le principe
du jeu consiste choisir un nombre entre 1 et 6, et le faire deviner par lautre
Variables alatoires 251

en rpondant les unes aprs les autres ses questions, qui sont du type le nombre
figure-t-il dans A ?, o A est un sous-ensemble de {1, 2, 3, 4, 5, 6}.
A force de jouer, vous avez fini par attribuer chaque entier i entre 1 et 6 une
probabilit pi dtre choisi par votre petit cousin :

(p1 , p2 , . . . , p6 ) = (6/30, 7/30, 4/30, 5/30, 3/30, 5/30)

On cherche deviner le nombre choisi en posant, en moyenne, le moins de ques-


tions possibles.
premire mthode : on ne pose que des questions de la forme le nombre est-il
gal i en puisant les diffrentes possibilits les unes aprs les autres. Quel
est lordre qui minimise le nombre moyen de questions poser ? Quelle est la
valeur de ce nombre moyen ?
deuxime mthode : on pose la question le nombre est-il gal 1 ou 2. Si
la rponse est oui, on demande sil est gal 1. Si la rponse est non, on teste
les possibilits restantes comme dans la mthode prcdente. Quel est le nombre
moyen de questions requis par cette stratgie ?
en utilisant lalgorithme de Huffman, vous pouvez dterminer une mthode op-
timale. Quelle est le nombre moyen de questions quelle requiert ? Comment ce
nombre se compare-t-il lentropie de la probabilit (pi )1i6 ?

Exercice 83 Jojo vit dans une rgion o les risques sismiques, quoique faibles, sont
loin dtre ngligeables. Limmeuble dans lequel vit Jojo a t conu pour rsister
des secousses dont la magnitude ne dpasse pas 20 (sur lchelle de Jojo). Des tudes
exprimentales menes sur plusieurs annes ont permis de conclure que des sismes
de faible amplitude survenaient une fois par an, avec une magnitude moyenne de 10
et une variance de 4 (sur lchelle de Jojo). Jojo peut-il dormir tranquille ? Pour
combien de temps ? (Justifiez.)

Exercice 84 Une squence gntique se prsente comme une suite de lettres de lal-
phabet {A, C, G, T }. On modlise de faon trs simplifie une squence gnomique
de longueur 1000 issue du gnme dun individu comme une suite X1 , X2 , . . . , X1000
de variables alatoires indpendantes, les probabilits attribues chaque lettre tant
donnes par :

P(Xi = A) = 0, 4 ; P(Xi = C) = 0, 2 ; P(Xi = G) = 0, 1; P(Xi = T ) = 0, 3.

On appelle NA le nombre de A apparaissant dans la squence X1 , . . . , X1000 .


Pouvez-vous dterminer la loi de NA ? De mme, on appelle NC le nombre de C
apparaissant dans la squence. Quelle est la loi de NC ? Comment le nombre total de
A et de C apparaissant dans la squence sexprime-t-il en fonction de NA et de NC ?
Pouvez-vous calculer son esprance ? Sa variance ? Appelons S lindice du premier A
252

prsent dans la squence (le plus petit indice i tel que Xi = A). (Si la squence ne
comporte aucun A, on pose par convention S = 1001.) Quelle est la loi de S ? Lorsque
la squence comporte au moins un A, le A situ en position S est la premire lettre
dune suite ininterrompue de A (ventuellement rduite un seul A). Par exemple,
dans la squence :
CGCT GT AAAGCT C...
on a S = 7, et le A situ en position S est la premire lettre dune suite de A
ininterrompue de longeur 3. Appelons U la position du A situ le plus droite dans
la squence ininterrompue de A commenant en S (par convention, on pose U = 1001
lorsque la squence ne comporte pas de A). Sur lexemple ci-dessus, on a donc U = 9.
Quelle est (de manire gnrale) la probabilit pour que U = 30 ?

Exercice 85 Chouette ! En rclant le fond de ses poches, Jojo vient de trouver 100
euros. Heureuse concidence, son ami Pierrot vient de lui proposer dinvestir de lar-
gent dans une affaire commerciale qui sannonce, affirme-t-il, trs lucrative. Jojo sera
rmunr hauteur de son investissement : sil investit x euros, il recevra au bout
dun an x (1 + L) euros, L dsignant le taux (alatoire) de rentabilit de laffaire.
Jojo hsite alors entre deux stratgies. La premire consiste simplement investir
ses 100 euros dans laffaire propose. La seconde, plus complexe, consiste dabord
emprunter 10000 euros la banque, quil devra rembourser au bout dun an, en don-
nant immdiatement ses 100 euros titre dintrts, et investir dans laffaire les
10000 euros emprunts. Discutez les avantages et les inconvnients de ces deux stra-
tgies, notamment les risques de perte et les perspectives de gain des deux stratgies,
en fonction des proprits de L (avec des arguments prcis, bien entendu).

Exercice 86 Un certain soir, Jojo reoit dix de ses amis chez lui. En fin de soire,
aprs un repas bien arros, ceux-ci ne sont plus en tat de retrouver leur chapeau
parmi ceux des autres, et sen retournent donc chez eux (en taxi) aprs avoir choisi
au hasard lun des dix chapeaux en prsence. On sintresse au nombre X des amis
de Jojo ayant effectivement retrouv leur propre chapeau. Dcrivez prcisment la
modlisation du tirage alatoire des chapeaux par les invits que vous allez adopter
(indication : une affectation des chapeaux aux invits peut, par exemple, se reprsen-
ter par une permutation des entiers de 1 10). On dfinit les variables alatoires
X1 , X2 , . . . , X10 par :

Xi = 1{linvit numro i a retrouv son chapeau} .

exprimez X en fonction des Xi ;


calculez lesprance de X ;
calculez la variance de X ;
donnez une formule explicite pour la loi de X (commencer par P(X = 0)).
Variables alatoires 253

Exercice 87 Lorsquil tlcharge des documents sur internet, Jojo a pour habitude
dinterrompre le chargement lorsque la dure de celui-ci dpasse une minute. Son
ide est quune dure de tlchargement anormalement longue (suprieure une mi-
nute) est le signe probable dun problme technique ralentissant considrablement le
tlchargement, et rendant donc inutile le fait dattendre une ou deux minutes suppl-
mentaires. Il prfre donc, dans le but de gagner du temps, abandonner le chargement
en cours, et retenter un nouveau tlchargement quelques dizaines de minutes plus
tard. Cette ide est-elle compatible avec la modlisation de la dure totale de tlchar-
gement dun fichier sans interruption ni nouvelle tentative (en secondes par exemple)
laide dune loi gomtrique de paramtre fix p ? (Argumentez votre rponse, en
comparant, par exemple, la mthode de Jojo avec celle qui consisterait simplement
attendre le chargement complet dun fichier, sans interrompre celui-ci au bout dune
minute.)

Exercice 88 Ce soir, Jojo joue aux checs avec son ami Horace. Du moins le crot-
il. En effet, Horace est un joueur de niveau assez moyen, mais il demande parfois
son frre jumeau, Hyacinthe, excellent joueur, de le remplacer, sans que personne ne
puisse sapercevoir de limposture. Lorsquil joue contre Horace, Jojo a une probabilit
de 0,5 de lemporter. En revanche, lorsquil joue contre Hyacinthe, cette probabilit
chute 0,2. Aprs cinq parties joues, Jojo en a dj perdu trois, et, de mauvaise
humeur, commence maugrer quil se trouve probablement en face de Hyacinthe et
non de son frre. Pouvez-vous lui donner raison ?
La raison de la mauvaise humeur de Jojo est que, un peu prsomptueux, celui-ci a
pari un repas au restaurant avec Horace quil remporterait au moins quatre parties
sur les sept que ceux-ci projetaient de jouer ce soir (dont les cinq premires ont
donc dj t joues). Jojo propose un arrangement : les deux parties restantes ne
seront pas joues, et les deux amis se rpartiront la note du restaurant quitablement
au vu du rsultat des cinq premires parties. Quelle est selon vous cette rpartition
quitable ?

Exercice 89 (Le jeu de la Belle au bois dormant)


Belle dort en permanence, sauf peut-tre le mardi et le mercredi, o lquipe orga-
nisant le jeu a la possibilit de la rveiller pour quelques instants. Plus prcisment,
chaque lundi, lquipe procde au lancer dune pice de monnaie quilibre. Si pile
est obtenu, Belle est rveille le mardi (et on la laisse dormir dans le cas contraire).
De plus, Belle est rveille chaque mercredi quel que soit le rsultat du lancer.
chaque rveil, on demande Belle de parier sur le rsultat (pile ou face) du lancer
de la semaine en cours. Belle ignore totalement la date courante, et en particulier
le jour de la semaine, car elle perd tous ses souvenirs chaque fois quelle sendort.
Comment conseilleriez-vous Belle de parier ? Sachant que Belle gagne 50 euros
254

chaque pari gagn, de quelle somme devrait-elle disposer aprs 6 mois si elle applique
votre mthode ?

Exercice 90 Combien obtient-on en moyenne de 6 en lanant 4 fois un d ? Et de


paires de 6 en lanant 24 fois deux ds ? Est-il plus probable dobtenir un 6 en lanant
4 fois un d que dobtenir une paire de 6 en lanant 24 fois deux ds ? Ces rsultats
sont-ils cohrents ?

Exercice 91 Montrez que toute variable alatoire ne pouvant prendre quun nombre
fini de valeurs distinctes peut se mettre sous la forme dune combinaison linaire de
fonctions indicatrices.

Exercice 92 On dispose de n+1 urnes U0 , . . . , Un contenant chacune N boules dont


certaines sont rouges et dautres blanches. Pour tout 0 i n, lurne Ui contient
une proportion i/n de boules rouges, et 1 i/n de boules blanches. On choisit une
urne uniformment au hasard parmi U0 , . . . , Un , et lon effectue des tirages successifs
avec remise (uniformes et indpendants) dans lurne choisie. Si lon na obtenu que
des boules rouges au cours des p premiers tirages, comment valuer la probabilit
dobtenir une boule rouge au p + 1me tirage ? Que se passe-t-il lorsque n tend vers
linfini ? Le rsultat est appel loi de succession de Laplace 14 Application (quelque
peu tire par les cheveux) : sachant que le Soleil sest lev chaque matin au cours des
2000 dernires annes, quelle est la probabilit pour que celui-ci se lve demain ?

Exercice 93 Montrez que, si est un ensemble fini, il existe une seule fonction h
associant toute probabilit P sur et toute variable alatoire X valeurs relles et
dfinie sur , un nombre rel h(X, P) vrifiant les conditions suivantes :
si X et Y sont deux variables alatoires sur (, P) vrifiant P(X Y ) = 1,
alors h(X, P) h(Y, P) (positivit)
si R est un rel fix, h(X, P) = h(X, P) (invariance par changement
dchelle) ;
si c R est un rel fix, h(X +c, P) = h(X, P)+c (invariance par translation) ;
si X et Y sont deux variables alatoires sur (, P), h(X + Y, P) = h(X, P) +
h(Y, P) ;
h(X, P) ne dpend que de la loi de X.
En conclure que cette fonction vrifie ncessairement h(X, P) = E(X).
Quelles sont les proprits ci-dessus que vrifient ou ne vrifient pas la mdiane,
le mode, et le milieu du domaine ?

Exercice 94 On se donne une variable alatoire X possdant une esprance et une


variance. Prouvez que E(X) est lunique minimum de la fonction dfinie sur R par
a 7 E(X a)2 .
14. Pierre-Simon Laplace (17491827).
Variables alatoires 255

De mme, montrez que lensemble des points o la fonction dfinie sur R par
a 7 E |X a| atteint son minimum est lintervalle mdian. Enfin, montrez que, si
X est borne, lensemble des points o la fonction dfinie sur R par a 7 sup |X a|
atteint son minimum est le milieu du domaine de X.

Exercice 95 Considrons une variable alatoire X valeurs relles, dfinie sur un


modle probabiliste (, P). Introduisons le modle (2 , P2 ) correspondant deux
rptitions indpendantes de (, P). Dfinissons X1 (1 , 2 ) = X(1 ) et X2 (1 , 2 ) =
X(2 ). On vrifie ainsi que X1 et X2 sont deux variables alatoires indpendantes,
et que X1 et X2 suivent chacune individuellement la loi de X. Prouvez que 2V(X) =
E [X1 X2 ]2 . En dautres termes, sans rfrence explicite lesprance de X, la


variance de X peut tre vue comme une mesure de la variation existant entre deux
variables alatoires indpendantes de mme loi que X.

Exercice 96 Etant donnes deux variables alatoires X et Y possdant une esp-


rance et une variance, vrifiez que le coefficient de corrlation de X et de Y est
toujours compris entre 1 et 1. Caractrisez lgalit 1 et 1. Calculez, aprs
2
avoir prouv leur existence, les rels a et b qui minimisent E [Y aX b] .

Exercice 97 Deux amis, Amde et Basile jouent au jeu suivant. Amde pense
deux nombres rels distincts, choisit pile ou face lun de ces deux nombres et le
communique Basile. Basile, de son ct, doit tenter de deviner si le nombre qui
lui a t communiqu est le plus grand ou le plus petit des deux auxquels Amde a
pens. Il ne semble gure possible de faire mieux en toute gnralit que de rpondre
en tirant pile ou face, avec exactement une chance sur deux de gagner. Et pour-
tant... Supposons que Basile saide en gnrant une variable alatoire relle X, de
loi continue, possdant une densit strictement positive sur R tout entier, et rponde
Amde de la manire suivante. Lorsque le nombre communiqu par Amde est
infrieur la valeur de X, Basile parie sur le fait que ce nombre est le plus petit des
deux, et, rciproquement, lorsque le nombre communiqu est suprieur la valeur de
X, Basile parie sur le fait que ce nombre est le plus grand des deux. Montrez quainsi
Basile possde strictement plus dune chance sur deux de gagner. Discutez ce rsultat.

Exercice 98 Lentreprise Jojo16i propose des services de saisie informatise de


documents manuscrits. Chaque document est saisi par deux dactylographes diff-
rentes, et les deux versions sont ensuite compares automatiquement afin de dceler
dventuelles discordances. Quel est lavantage de cette mthode par rapport une
saisie simple ? Prcisez ceci en admettant que, par exemple, chaque dactylographe a
une probabilit denviron 0,3% de se tromper lors de la saisie dune entre, et que les
documents saisis comportent en gnral de lordre de 10000 entres.
256

Exercice 99 On appelle quation de Drake lgalit

N = R fp ne fl fi fc L,

o :
N est le nombre de civilisations extra-terrestres prsentes dans notre galaxie et
avec lesquelles nous pourrions nous attendre pouvoir communiquer ;
R est le taux de formation dtoiles dans notre galaxie ;
fp est la proportion de ces toiles possdant des plantes ;
ne est le nombre moyen de plantes susceptibles dabriter la vie rapport au
nombre dtoiles possdant des plantes ;
fl est la fraction des plantes ci-dessus qui vont rellement voir la vie se dve-
lopper ;
fi est la proportion dentre elles qui vont voir une civilisation intelligente se
dvelopper ;
fc est la fraction des civilisations ci-dessus qui sont dsireuses de communiquer
et capables de le faire ;
L est la dure moyenne dexistence dune telle civilisation.
Sur quels prsupposs et approximations cette quation repose-t-elle ? Comment
pourrait-on tenter dvaluer les diffrents termes apparaissant dans lquation ? Pour-
quoi cette quation comporte-t-elle un produit de 7 termes et non pas 8 ou 6 ? Peut-on
imaginer dautres quations visant estimer N ?

Exercice 100 Un arbre de jeu est un arbre fini enracin, dont les noeuds distance
paire de la racine sont tiquets MIN et les noeuds distance impaire sont tiquets
MAX. A chaque feuille de larbre est associe la valeur 0 ou 1. Lvaluation de larbre
consiste attribuer itrativement une valeur chaque noeud de larbre, en partant
des feuilles, de la manire suivante : la valeur associe un noeud tiquet MIN
est le minimum des valeurs associes ses enfants, et la valeur associe un noeud
tiquet MAX en est le maximum.
1) Concrtement, un tel arbre reprsente le droulement dun jeu deux joueurs,
dans lequel chacun des deux joueurs joue son tour, les ramifications de larbre
reprsentant, chaque tape, les diffrentes possibilits offertes au joueur dont cest
le tour de jouer. Les feuilles de larbre correspondent aux fins de partie, et sont
tiquetes 0 lorsque la partie sest solde par une victoire du joueur ayant jou le
premier coup, et 1 dans le cas dune victoire du joueur ayant jou le deuxime coup
(on suppose quil ny a pas de nul possible, et quune partie doit toujours se terminer).
Que traduit lvaluation de larbre, et en particulier la valeur attribue la racine ?
Comment modifier ce modle pour prendre en compte la possibilit dun match nul ?
Dans la suite, on se place dans le cas particulier dun arbre binaire rgulier de
profondeur n 2 fixe.
Variables alatoires 257

2) Est-il toujours ncessaire de prendre en compte la valeur de toutes les feuilles pour
calculer la valeur de la racine ou peut-on parfois en ignorer certaines ?
3) On considre maintenant des algorithmes dterministes (i.e. non-randomiss) per-
mettant de calculer ltiquette attache la racine partir de la lecture de tout ou
partie des tiquettes attaches aux feuilles. Plus prcisment, un algorithme dter-
ministe dvaluation de larbre fonctionne de la manire suivante. Il commence par
spcifier une feuille de larbre, dont la valeur est lue. Ensuite, chaque tape, une
nouvelle feuille est spcifie en fonction des rsultats obtenus au cours des tapes
prcdentes, et sa valeur est lue son tour. Lalgorithme sarrte lorsque les valeurs
quil a lues lui permettent de dterminer ltiquette attache la racine.
Montrez (par exemple par rcurrence) quil est toujours possible de trouver une
affectation de 0 et de 1 aux feuilles de larbre qui force un tel algorithme lire toutes
les feuilles de larbre avant de pouvoir dterminer la valeur de la racine.
4) On considre un algorithme randomis fonctionnant de la manire suivante : pour
valuer un noeud MIN, lalgorithme choisit au hasard avec probabilit 1/2 lun de ses
deux descendants, qui est lui-mme valu en faisant appel lalgorithme de manire
rcursive. Si celui-ci a pour valeur 0, la valeur du noeud MIN est donc dtermine
et est gale 0. Si le descendant a pour valeur 1, on value lautre descendant de la
mme manire. Dans le cas dun noeud MAX, on procde suivant le mme principe,
ceci prs que la valeur du noeud est dtermine par son premier desccendant lorsque
celui-ci a pour valeur 1. Prouvez que, pour toute affectation des valeurs des feuilles, le
nombre moyen de feuilles lues par cet algorithme est infrieur ou gal 3k . Comment
ce temps moyen se compare-t-il au pire cas ?

Exercice 101 Afin de dterminer le nombre moyen denfants par famille, on sonde
un grand nombre denfants en leur demandant combien ils possdent de frres et
de surs (y compris eux-mmes). En faisant la moyenne des valeurs obtenues, on
obtient un nombre bien suprieur 2, qui est pourtant approximativement la valeur
correcte. Que sest-il pass ?
En admettant que le nombre moyen denfants par famille soit gal 2,2, peut-on
en dduire que la population devrait augmenter au cours des prochaines annes ?

Exercice 102 (Froeppel)


Soient A et B deux points la mme distance lun de lautre. Comment dplacer
B sans que A sen aperoive ?

Exercice 103 Soit n un nombre premier, et Z/nZ lensemble des (classes de congruence
d) entiers modulo n. On part de deux variables alatoires A et B valeurs dans
Z/nZ, indpendantes et de loi uniforme. Pour tout 1 i n, on dfinit Yi =
Ai + B mod n. Montrez que Yi suit la loi uniforme sur Z/nZ, et que, pour tout
258

couple 1 i 6= j n, Yi et Yj sont indpendantes. Les variables alatoires Y1 , . . . , Yn


sont-elles mutuellement indpendantes ?

Exercice 104 Pour tester une certaine proprit P pouvant ou non tre vrifie par
un objet x, on suppose que lon dispose dun algorithme randomis prenant en entre
x ainsi quun entier uniformment choisi entre 1 et n, n tant un entier premier. Si
x vrifie effectivement la proprit P , lalgorithme rpond toujours que P est vrifie.
En revanche, si P nest pas vrifie, tout ce que lon sait est que la probabilit pour
que lalgorithme rponde que P nest pas vrifie est suprieure ou gale 1/2. On
suppose que n est trop grand pour quil soit rentable de tester la totalit des entiers
compris entre 1 et n (ce qui permettrait de dcider de manire certaine si x possde
ou non la proprit). En utilisant r rptitions indpendantes de son algorithme,
Jojo parvient diminuer la probabilit derreur 2r au pire (voir lexercice 23).
Combien de bits alatoires (i.e. de v.a. de Bernoulli indpendantes symtriques) faut-
il pour gnrer r excutions de lalgorithme ? Si lon utilise la place la mthode de
lexercice 103 pour gnrer les r (suppos infrieur n) nombres alatoires de loi
uniforme sur {1, 2, . . . , n} ncessaires aux r excutions successives de lalgorithme,
combien ce nombre passe-t-il ? Que peut-on dire alors de la probabilit derreur ?

Exercice 105 Dans un pays dont nous tairons le nom, les prjugs sexistes sont tels
que la plupart des femmes planifient ainsi les naissances de leurs enfants : donner
naissance des enfants jusqu obtenir un garon ou quatre enfants. Daprs vous,
cette attitude a-t-elle plutt tendance augmenter ou diminuer la proportion de
filles parmi les naissances ? Montrez quil en est de mme de toute stratgie de plani-
fication des naissances dans lesquelles la dcision darrter ou de continuer davoir
des enfants est prise en fonction des naissances prcdentes, et pour lesquelles le
nombre maximum denfants ne peut pas dpasser une certaine limite.
Quen est-il de la stratgie suivante : continuer davoir des enfants jusqu ce que
le nombre de garons dpasse dau moins un le nombre de filles (sans restriction sur
le nombre total denfants) ?

Exercice 106 On dsire envoyer un message A travers un systme de commu-


nication qui ne peut acheminer quun seul message la fois. A chaque seconde, le
systme peut tre occup par la transmission dun autre message que A, et ceci ind-
pendamment chaque seconde, avec une probabilit p.
1) Le message A que lon souhaite envoyer ncessite une seconde de transmission.
Quelle est la loi de la variable alatoire T1 donnant le temps dattente ncessaire
avant que le message A ait fini dtre transmis ?
2) Cette fois, le message A ncessite deux secondes conscutives pour tre correcte-
ment transmis. Appelons T2 le temps dattente ncessaire avant que A ait fini dtre
transmis. Proposez une borne suprieure simple sur P(T2 > n).
Variables alatoires 259

Montrez que, pour tout n 2,

P(T2 > n) = pP(T2 > n 1) + (1 p)pP(T2 > n 2).

En dduire la loi de T2 .
3) Prouver une relation similaire pour le temps Tk correspondant un message n-
cessitant k secondes de transmission.
4) Reprenez les questions prcdentes en supposant que le message puisse tre divis
en fragments dune seconde pouvant tre transmis de manire non-conscutive.

Exercice 107 Deux amis, appelons-les Jojo et Gg, dcident de jouer au jeu sui-
vant. Deux enveloppes indiscernables contiennent lune un montant de m euros, et
lautre un montant de 2m euros (o m est un montant non-nul, inconnu des deux
joueurs, mais fix.) On rpartit alatoirement les deux enveloppes entre Jojo et Gg.
Jojo ouvre lenveloppe qui lui a t attribue, et y dcouvre une somme de X euros.
On lui propose ensuite dchanger le montant de son enveloppe avec celui de len-
veloppe de Gg (quil na pas pu observer). Le raisonnement de Jojo est alors le
suivant : il y a une chance sur deux pour que mon enveloppe contienne le montant
le plus lev (2m euros), et une chance sur deux pour quelle contienne le montant le
plus bas (m euros). Par consquent, il y a une chance sur deux pour que le montant
de lenveloppe de Gg soit gal au double du montant contenu dans mon enveloppe,
et une chance sur deux pour que le montant de lenveloppe de Gg soit gal la
moiti du montant contenu dans mon enveloppe. En moyenne, lenveloppe de Gg
doit donc contenir 1/2(1/2 X) + 1/2(2 X) = 5/4 X euros. Or (5/4)X > X,
et, par consquent, jai intrt accepter lchange qui mest propos. Le problme
est que Gg, de son ct, peut se livrer exactement au mme raisonnement et par-
venir la conclusion que lui aussi a intrt procder lchange. Comment Jojo
et Gg peuvent-ils avoir intrt simultanment procder lchange des montants
contenus dans leurs enveloppes respectives ? En vous appuyant sur une modlisation
probabiliste dtaille du problme, pouvez-vous confirmer ou infirmer le raisonnement
de Jojo, et prsenter une solution ce paradoxe apparent ?

Exercice 108 Supposons que lon tire un nombre alatoire U de loi uniforme sur
lintervalle [0, 1], puis que lon effectue n lancers indpendants dune pice de monnaie
ayant une probabilit de U de tomber sur pile, et 1 U de tomber sur face. Quelle
est la loi de probabilit du nombre de pile obtenus ?

Exercice 109 Supposons que lon tire un nombre alatoire A selon une loi exponen-
tielle de paramtre > 0, puis, ce tirage effectu, un nombre alatoire X selon une
loi exponentielle de paramtre A. Quelle est la loi de probabilit de X ?
260

Exercice 110 On remplit une urne avec N boules selon la procdure suivante. Par-
tant dune urne vide, on effectue successivement N lancers indpendants dune pice
de monnaie (pas ncessairement symtrique). A chaque lancer, on ajoute une boule
dans lurne, de couleur rouge si la pice a donn pile, de couleur noire si la pice
a donn face. Une fois lurne remplie, on tire uniformment au hasard, et sans re-
mise, des boules dans lurne, jusqu avoir vid lurne. Montrez que la couleur de la
boule tire ltape i (avec 1 i N ) est indpendante des couleurs des boules ti-
res prcdemment. A prsent, considrons le raisonnement suivant. Une fois lurne
remplie, celle-ci contient N boules, dont un nombre alatoire R de boules rouges. Au
premier tirage, la probabilit dobtenir une boule rouge est alors de R/N . Si cest
effectivement une boule rouge que jobtiens, le deuxime tirage seffectue avec une
boule rouge de moins dans lurne, et donc la proportion des boules rouges par rapport
aux boules noires est moindre que lors du premier tirage. La probabilit dobtenir une
boule rouge au deuxime tirage doit donc tre infrieure ce quelle tait lors du
premier tirage. Comment concilier ceci avec le fait que, daprs ce qui prcde, la
probabilit dobtenir une boule rouge au i-me tirage ne dpend pas des couleurs des
boules tires prcdemment ? Reprendre la totalit de la question en supposant que
lon effectue des tirages rpts avec remise.

Exercice 111 (Mthode du second moment)


Considrons une variable alatoire positive X telle que E(X) et E(X 2 ) sont dfi-
nies, et P(X = 0) < 1. Prouvez lingalit suivante :

1 E(X 2 )
P(X 21 E(X)) 4 [E(X)]2

En quoi cette ingalit fourni-elle un complment lingalit de Markov ?

Exercice 112 (Le raisonnement de Huygens 15 )


1) Pour tout entier q 1, montrez quil existe une fonction f : {1, . . . , q}
{1, . . . , q} {1, . . . , q} vrifiant les deux conditions suivantes :
pour tout i {1, . . . , q}, la fonction f (i, ) : {1, . . . , q} {1, . . . , q} est une
bijection ;
pour tout j {1, . . . , q}, la fonction f (, j) : {1, . . . , q} {1, . . . , q} est une
bijection.
2) Considrons X une variable alatoire dfinie sur (, P) satisfaisant la condition
suivante : il existe une suite de nombres rels x1 , . . . , xq telle que X suit la loi em-
pirique associe lchantillon (x1 , . . . , xq ). Quelles sont les variables alatoires X
vrifiant une telle condition de manire exacte ? Et en sautorisant une approxima-
tion arbitrairement petite ?
15. Christiaan Huygens (16291695).
Variables alatoires 261

3) Supposons prsent que q individus I1 , . . . , Iq participent un pari bas sur la


x ++x
rgle suivante. Chacun des q individus apporte une mise gale 1 q q . Ensuite,
un entier L est choisi selon la loi uniforme sur lensemble {1, . . . , q}, et la mise totale
est rpartie entre les joueurs de telle faon que, pour tout 1 i q, lindividu Ii
reoit une somme gale xf (i,L) , o f est une fonction satisfaisant les proprits
mentionnes la question 1). Montrez que la totalit de la mise x1 + + xq est
redistribue entre les joueurs. Pour 1 i q, quelle est la loi de probabilit du gain
de lindividu i ?
4) Supposons quavant que le tirage ait pu avoir lieu, le pari soit interrompu. Quelle
serait, selon vous, la rpartition quitable de la mise totale x1 + + xq entre les
individus ?
5) Existe-t-il dautres types de pari pour lesquels cette rpartition devrait, selon vous,
tre diffrente ? Comment ce qui prcde se compare-t-il la rgle de lutilit espre ?

Exercice 113 (Aiguille de Buffon)


On jette de manire rpte une aiguille au hasard sur un parquet constitu de
lattes rectangulaires identiques, et parallles. On sintresse la moyenne du nombre
dintersections de laiguille avec les rainures dlimitant les lattes. Pour simplifier, on
choisit de ngliger les effets de bord en considrant un parquet infini recouvrant la
totalit du plan identifi R2 , et dont les rainures sont identifies aux ensembles de
la forme {i} R, o i dcrit Z. De son ct, laiguille est assimile un segment de
droite de longueur L > 0.
1) Dcrivez prcisment un modle probabiliste du lancer, vrifiant, en termes infor-
mels, le fait que toutes les positions possibles relatives de laiguille par rapport au
rseau form par les lattes sont quiprobables. En appelant I notre aiguille, on note
N (I) la variable alatoire indiquant le nombre de points dintersection de laiguille
avec les rainures.
Dans le cadre de votre modle, comment lesprance E(N (I)) sexprime-t-elle ?
2) Montrez que si, au lieu dun segment, on jette sur le parquet (selon le mme
modle) un objet form de plusieurs aiguilles I1 , I2 , . . . , Ip mises bout--bout dans un
mme plan (autrement dit, une logne polygonale inscrite dans un plan), et rigidement
attaches les unes aux autres, (deux aiguilles mises bout--bout peuvent former un
angle quelconque, mais cet angle est fix une fois pour toutes et ne varie pas au cours
du mouvement de lobjet ainsi form), le nombre total de points dintersection de
cette ligne polygonale avec les rainures vaut pk=1 E(N (Ik )).
P

3) En dduire que E(N (I)) est de la forme cL, o c est une constante.
4) En approchant un cercle de diamtre 1 par des lignes polygonales, montrez que la
constante c est gale 2/.
262

Exercice 114 Prouvez que, si (pn )n1 est une suite de nombres compris entre 0 et
1 telle que limn+ npn = > 0, la loi binomiale de paramtres n et pn converge
vers une loi de Poisson de paramtre .

Exercice 115 On considre un entier positif n et un nombre rel p compris entre 0


et 1. On considre ensuite n variables alatoires U1 , . . . , Un indpendantes et de loi
uniforme sur lintervalle [0, 1]. On dfinit alors, pour tout 1 i n, les variables
alatoires Xi et Yi par

Xi = 0 si Ui 1 p et Xi = 1 si Ui > 1 p,
k1 k
X pj X pj
Yi = k si ep < Ui ep
j! j!
j=0 j=0
P1
(avec la convention j=0 = 0). Enfin, on dfinit Sn = ni=1 Xi et Tn = ni=1 Yi .
P P

1) Dterminer la loi de Sn et de Tn .
2) En utilisant lingalit 1 p ep , prouver que, pour tout i, P (Xi = Yi ) 1 p2 .
n
3) En dduire que P (Sn = Tn ) 1 p2 .
4) En crivant P(Sn A) = E(1(Sn A)) et P(Tn A) = E(1(Tn A)), et
en utilisant lingalit de lexercice 116, prouvez que |P(Sn A) P(Tn A)|
n 
1 1 p2 .
5) En dduire lingalit suivante :

pP oiss(np) (k) pbinom(n,p) (k) 2 1 1 p2 n ,


X  

kN

et la comparer celle donne dans le cours.

Exercice 116 Prouvez que, si X est une variable alatoire possdant une esprance,
et si |X| possde une esprance, on a lingalit |E(X)| E(|X|).

Exercice 117 Si X et Y sont deux variables alatoires indpendantes, X suivant


une loi de Poisson de paramtre et Y suivant une loi de Poisson de paramtre ,
prouver que X + Y suit une loi de Poisson de paramtre + par trois mthodes
diffrentes :
en calculant directement la loi de X + Y partir de la loi de X et de la loi de
Y;
en utilisant les fonctions gnratrices ;
en utilisant la reprsentation dune loi de Poisson comme limite dune loi bi-
nomiale.

Exercice 118 Si X et Y sont deux variables alatoires indpendantes, X suivant


une loi binomiale de paramtres n et p et Y suivant une loi binomiale de paramtres
Variables alatoires 263

m et q, prouver que, si p = q, X + Y suit une loi binomiale de paramtres n + m et


p, par le calcul, et partir du contexte dans lequel intervient la loi binomiale.
Quen est-il lorsque p 6= q ?

Exercice 119 Etant donns a > 0 et  > 0, construire une variable alatoire positive
X possdant une esprance et vrifiant P(X a) (1 )E(X)/a.

Exercice 120 Considrons une variable alatoire X de loi continue sur R, donne
par une densit f . Montrez que, lorsque n tend vers linfini, la loi de nX mod 1 tend
vers une loi uniforme sur lintervalle [0, 1].

Exercice 121 (Le paradoxe de Saint-Petersbourg)


On se propose de jouer au jeu suivant. Une mise initiale de M euros ayant t
verse, on lance une pice de monnaie de manire rpte, et le jeu sarrte lorsque la
pice retombe sur pile pour la premire fois. Une somme de 2T euros est alors verse
au joueur, T dsignant le nombre total de lancers effectus. Quelle est lesprance de
gain de ce jeu ? Quelle mise seriez-vous prt investir au maximum dans ce jeu ?

Exercice 122 (Loi multinomiale)


Considrons un modle probabiliste (, P), et m vnements A1 , A2 , . . . , Am
formant un systme complet dvnements. Posons pi = P(Ai ) pour 1 i m.
Considrons maintenant le modle (N , PN ) correspondant N rptitions ind-
pendantes de (, P), et, pour tout 1 i m, dfinissons sur ce modle la variable
alatoires Ni comme le nombre de fois o lvnement Ai se ralise. La loi de Ni est
donc une loi binomiale de paramtres N et pi . Par ailleurs, on a N1 + + Nm = N .
Montrez que la loi jointe de (N1 , . . . , Nm ) est donne par la formule suivante.
Pour tout puplet dentiers (d1 , . . . , dm ) compris entre 0 et N et vrifiant d1 + +
dm = N ,

N!
PN (N1 = d1 , . . . , Nm = dm ) = pd1 pdmm .
d1 ! dm ! 1
Cette loi est appele loi multinomiale de paramtres N et (p1 , . . . , pm ). Pour m = 2,
on retrouve la loi binomiale habituelle.
Si i1 , . . . , is est un sous-ensemble dindices de {1, . . . , m}, que pouvez-vous dire
de la loi de Ni1 + + Nis ? Et de la loi de (Ni1 , . . . , Nis ) conditionnellement
lvnement Ni1 + +Nis = k, o 0 k N est un nombre fix ? Et de la loi jointe
des deux variables alatoires (Ni1 , . . . , Nis ) et (Nj )j {i
/ 1 ,...,is } conditionnellement ce
mme vnement ?

Exercice 123 On considre un modle probabiliste (, P) sur lequel est dfinie une
variable alatoire X de loi binomiale de paramtres n et p. Est-il toujours vrai que lon
peut dfinir sur une famille de n variables alatoires mutuellement indpendantes,
toutes de loi de Bernoulli de paramtre p ?
264

Exercice 124 On considre une urne contenant m boules dont a sont rouges et ma
sont blanches. On effectue un nombre n m de tirages sans remise dans lurne, en
supposant que chaque tirage est effectu uniformment au hasard dans lensemble des
boules restantes au moment o celui-ci a lieu. Appelons Na le nombre total de boules
rouges figurant parmi les n boules tires. La loi de Na est appele loi hypergomtrique
de paramtres n, a et m.
nk
1) Prouvez que lon a, pour tout 0 k min(a, m), P(Na = k) = Cak Cma n.
/Cm
(Proposez au moins trois arguments de dnombrement diffrents !)
2) Pouvez-vous calculer, partir de la formule prcdente, E(Na ) et V(Na ) ?
3) On dfinit, pour 1 i m, la variable Xi comme lindicatrice de lvnement :
tirer une boule rouge lors du ime tirage. Quelle relation y a-t-il entre Na et les
variables Xi ? Pouvez-vous en dduire lesprance et la variance de Na ?
4) Comment la loi hypergomtrique se diffrencie-t-elle de la loi binomiale de para-
mtres n et a/m ? Prouvez que, si n est fix, et si m et a tendent vers linfini de telle
sorte que a/m tend vers une valeur limite p, on obtient la limite la loi binomiale
de paramtres n et p.

Exercice 125 On considre des rptitions indpendantes de tirages de Bernoulli


(succs ou chec) avec probabilit de succs p.
Pour tout k 1, on appelle Nk le nombre dessais quil est ncessaire deffectuer
jusqu parvenir un total de k succs. La loi de Nk est appele loi binomiale ngative
de paramtres k et p.
1) Quelle est la loi de N1 ?
k1 k
2) Montrez que lon a, pour tout n 1, P(Nk = n) = Cn1 p (1 p)nk .
3) Pouvez-vous calculer, partir de la formule prcdente, E(Nk ) et V(Nk ) ?
4) Que peut-on dire des variables alatoires Nk+1 Nk pour k 1 ? En dduire
lesprance et la variance de Nk .

Exercice 126 (Analyse en moyenne de lalgorithme de tri rapide)


Pas encore crit en dtail...

Exercice 127 Appelons Sn lensemble des permutations de lensemble des entiers


de 1 n. On cherche gnrer un lment de Sn de loi uniforme, partir de
variables alatoires indpendantes de loi uniforme sur [0, 1].
1) Proposez (et prouvez la validit d) une mthode trs simple, base sur la gnration
progressive de (1), suivie de (2), et ainsi de suite jusqu (n). Evaluez le cot de
cette mthode en terme de nombre doprations effectues.
2) Voici une alternative. On part de n variables alatoires U1 , . . . , Un indpendantes
et de loi uniforme sur [0, 1], que lon trie par ordre croissant. En notant i1 , . . . , in
lunique famille dindices vrifiant Ui1 < Ui2 < . . . < Uin , la permutation renvoye
par lalgorithme est dfinie par (k) = ik pour tout 1 k n. Prouvez la validit
Variables alatoires 265

de cette mthode. Evaluez le cot de cette mthode en termes de nombre doprations


effectues. Comment grer les galits entre diffrentes variables en tenant compte
du fait que lon ne manipule les rels quavec un nombre fini de dcimales ?
3) Considrons la mthode suivante : Partant de = Id, on effectue la boucle sui-
vante : pour j dcroissant de n 1, tirer un entier J entre 1 et i selon la loi uniforme
(indpendamment des tirages prcdemment effectus), et changer les valeurs de (i)
et de (J). Quel est le cot de cette mthode en termes de nombre doprations effec-
tues ? Prouvez que la permutation qui en rsulte suit effectivement la loi uniforme
sur Sn , en interprtant cette mthode comme une implmentation (efficace !) de la
mthode propose en 1).

Exercice 128 Soient X1 , . . . , Xn n variables alatoires globalement indpendantes


de loi exponentielle de paramtre , et soit Sn = X1 + + Xn .
Montrez que la loi de Sn est une loi gamma de paramtres a = n et s = .
Indication pour prouver le rsultat (presque) sans calculs : montrer que lvne-
ment P(X1 + + Xn t) = P(Nt n), o Nt est une variable alatoire de loi de
Poisson de paramtre t. Autre approche : passer par lapproximation discrte des
variables de loi exponentielle par des variables de loi gomtrique.

Exercice 129 Soient X1 , . . . , Xn n variables alatoires globalement indpendantes


de loi gaussienne de paramtre m = 0 et v = 1, et soit Sn = X12 + + Xn2 .
Montrez que la loi de Sn est une loi du chi-deux n degrs de libert.

Exercice 130 Soit X et Y deux variables alatoires indpendantes, X suivant une


loi gaussienne de paramtres m et v, Y une loi gaussienne de paramtres m0 et v 0 .
Montrez que la loi de X + Y est une loi gaussienne. Quels sont ses paramtres ?

Exercice 131 Soient X1 , . . . , Xn n variables alatoires globalement indpendantes


de loi de Cauchy de paramtres ` et s, et soit Sn = X1 + + Xn .
Montrez que la loi de Sn est une loi de Cauchy de paramtre n`s.

Exercice 132 Soient X et Y deux variables alatoires indpendantes de loi gas-


sienne de paramtres m = 0 et v = 1.
Montrez que la loi de X/Y est une loi de Cauchy.

Exercice 133 (Vrification rapide randomise dun produit matriciel)


Considrons une matrice n n A coefficients rels, et dont au moins un co-
efficient nest pas nul. Considrons un vecteur alatoire v = (e1 , . . . , en ) dont les
coordonnes sont des variables alatoires indpendantes et de loi de Bernoulli de
paramtre 1/2. Prouvez que P(Av 6= 0) 1/2.
Application : considrons trois matrices n n, X, Y et Z, coefficients rels, et
supposons que XY 6= Z. Daprs ce qui prcde, P(XY v 6= Zv) 1/2.
266

Quel est le cot du calcul de XY v et de Zv ? Dduisez de ce rsultat une mthode


permettant de dtecter la diffrence entre XY et Z avec une probabilit suprieure
99, 9%. Comment le cot de cette mthode se compare-t-il au calcul direct du produit
XY ?
(Rappel : lalgorithme le plus simple de multiplication des matrices a un cot en
O(n3 ), les meilleurs algorithmes de multiplication rapide connus ont un cot infrieur
O(n2,4 ).)
Pour en savoir plus, sur ce type de technique, qui stendent des questions bien
plus gnrales de vrification rapide didentits entre objets, vous pouvez consulter
louvrage de Motwani et Raghavan cit dans la bibliographie.

Exercice 134 (Urne de Plya 16 )


On dispose dune urne contenant initialement a 1 boules rouges et b 1
boules noires. On rpte ensuite le petit jeu suivant : on tire une boule uniformment
dans lurne, et, une fois la couleur de cette boule observe, on la remet dans lurne
accompagne de boules de la mme couleur. Appelons X1 , . . . , Xn la suite des
couleurs obtenues au cours n premiers tirages effectus dans lurne, avec comme
codage Xi = 1 si la boule obtenue au ime tirage est rouge et Xi = 0 si celle-ci est
noire.
Par ailleurs, effectuons lexprience suivante. On tire un nombre q entre 0 et
1 selon la loi beta de paramtres a/ et b/, puis lon tire n variables alatoires
indpendantes de Bernoulli de paramtre q. Montrez que les lois jointes de X1 , . . . , Xn
dune part, et de Y1 , . . . , Yn dautre part, sont identiques.
Encore une reprsentation du mme modle : on part dun jeu de cartes compor-
tant a + b 1 cartes, les a cartes du dessus tant considres comme rouges, et les
b 1 cartes du dessous tant considres comme noires. On rpte ensuite linser-
tion de nouvelles cartes dans le jeu, chaque carte tant insre en une position choisie
uniformment au hasard parmi les emplacements possibles dans le paquet (dans un
paquet de k cartes, il y a donc k + 1 emplacements possibles). Si une carte est in-
sre au-dessus de la carte rouge la plus basse, elle est elle-mme considre comme
rouge, et elle est considre comme noire sinon. Montrez que la loi de la suite des
couleurs des cartes sidentifie aux modles dcrits ci-dessus. Montrez comment cette
reprsentation permet de calculer facilement la loi du nombre de cartes rouges aprs
n insertions.

Exercice 135 (Jeux somme nulle)


Deux amis, Anselme et Barnab, jouent au jeu suivant. Anselme doit choisir une
option parmi n possibles, numrotes 1, 2, . . . , n , tandis que Barnab doit choisir une
option parmi m possibles, numrotes 1, 2, . . . , m. Si Anselme a choisi loption i et
16. George Plya (18871985).
Variables alatoires 267

Barnab loption j, Barnab doit Anselme une somme de aij euros, cette somme
pouvant tre soit positive (Anselme a vraiment gagn, et Barnab lui doit de largent),
soit ngative (auquel cas, cest en fait Barnab qui a gagn, et Anselme qui lui doit
de largent, puisque la somme due Anselme par Barnab est ngative.)
1) Supposons par exemple que n = 2, m = 3, et que la matrice (aij ) soit la suivante

aij j=1 j=2 j=3


i=1 15 10 20
i=2 10 20 20

Comment Anselme et Barnab devraient-ils jouer, selon vous, dans le but de


maximiser leur bnfice ?
2) Mme question avec la matrice suivante.

aij j=1 j=2 j=3


i=1 12 10 15
i=2 17 5 20

3) Mme question avec la matrice suivante.

aij j=1 j=2 j=3


i=1 30 10 21
i=2 10 20 20

4) Pour tout entier k, notons Pk = {(r1 , . . . , rk ) Rk : ri 0 pour tout i et ki=1 ri = 1 }.


P

Pour p = (p1 , . . . , pn ) Pn et q = (q1 , . . . , qm ) Pm que reprsente vis--vis du


P
jeu lexpression S(p, q) = 1in aij pi qj ?
1jm
Le thorme du minimax de Von Neumann 17 affirme que maxpPn minqPm S(p, q) =
minqPm maxpPn S(p, q).
Quelle consquence ce rsultat peut-il avoir, selon vous, sur la manire dont de-
vraient jouer Anselme et Barnab ?
5) (Football) Supposons quAnselme soit gardien de but, tandis que Barnab tente de
marquer des penalties.
Pour simplifier, mettons que les options de Barnab soient de tirer vers la droite
ou vers la gauche, tandis que celles dAnselme sont de plonger vers la droite ou vers la
gauche (il doit de toute faon dcider avant que Barnab nait tir, compte-tenu de la
vitesse du ballon). En admettant quAnselme soit aussi habile pour arrter les ballons
arrivant sa gauche que ceux arrivant sa droite, comment Anselme et Barnab
devraient-ils jouer selon vous ? Mme question en supposant quAnselme ait 70% de
17. John Von Neumann (1903 1957).
268

chances dintercepter un ballon arrivant sa droite, et seulement 50% de chances


dintercepter un ballon arrivant sa gauche.
6) Supposons qu prsent le rsultat du jeu se traduise par une dette (ventuellement
ngative) dAnselme et Barnab non pas directement lun vis--vis de lautre, mais
vis--vis dune banque. Plus prcisment, si Anselme a choisi loption i et Barnab
loption j, la banque doit Anselme une somme de aij euros, cette somme pouvant
tre soit positive soit ngative, et Barnab une somme de bij euros. Si lon suppose
que aij = bij , la situation se ramne la prcdente, et la banque nest quun
intermdiaire sans effet sur le jeu. Si, en revanche, on ne suppose plus une telle
relation, que devient la validit des raisonnements prcdents ?

Exercice 136 Si X1 , . . . , Xn sont des variables alatoires indpendantes de mme


loi, dont la fonction de rpartition est note F , calculez les fonctions de rpartition
des variables alatoires suivantes : max(X1 , . . . , Xn ) et min(X1 , . . . , Xn ).

Exercice 137 On choisit un angle selon la loi uniforme dans lintervalle [0, 2].
Quelle est la loi de la tangente de cet angle ?

Exercice 138 Pourquoi peut-on affirmer, sans mme effectuer de calcul de probabi-
lits, que la plupart des loteries (la loterie nationale, leuro-million) prsentent une
esprance de gain ngative ? Le fait que de trs nombreux individus participent ces
jeux est-il compatible avec la rgle de lutilit espre ? Estimez-vous, selon les termes
de Flaubert, que le loto est un impt volontaire sur la btise ?

Exercice 139 Un groupe de 20 personnes a t fait prisonnier par une troupe de


bandits aux regards cruels et aux curs insensibles. Aprs plusieurs jours de captivit,
le chef des bandits expose aux prisonniers le (triste) sort qui les attend. Ceux-ci seront
numrots de 1 20, puis, lun aprs lautre, amens dans une salle o se trouvent 20
coffrets, disposs de gauche droite sur le sol. Les coffrets sont galement numrots
de 1 20, mais le numro attribu chaque coffret est inscrit lintrieur de celui-
ci, et il faut donc ouvrir un coffret pour connatre son numro. Bien entendu, la
disposition extrieure des coffrets ne renseigne en rien sur les numros qui leur sont
attachs.
Une fois admis dans la salle, un prisonnier devra tenter douvrir le coffret portant
son propre numro, mais naura le droit, pour essayer datteindre cet objectif, que
douvrir 10 coffrets au plus.
Ensuite, ledit prisonnier sera vacu, sans avoir la possibilit de communiquer
avec les prisonniers suivants, et donc sans pouvoir leur fournir aucune indication
sur les numros des diffrents coffrets quil a pu observer.
Si, lissue de lexprience, chaque prisonnier est parvenu ouvrir le coffret
portant son propre numro, les prisonniers seront librs. Si un seul dentre eux
Variables alatoires 269

choue, ils seront impitoyablement excuts. Telle est la dcision du chef des bandits,
qui, souligne-t-il, a tenu mnager aux prisonniers une infime chance de sen tirer.
1) En admettant que chaque prisonnier choisisse au hasard les coffres quil peut
ouvrir, quelle devrait tre la probabilit de succs dun prisonnier ? Quen est-il alors,
de la probabilit de survie du groupe ?
Aprs avoir men ce petit calcul, les prisonniers sont bien dsempars, mais...
lun dentre eux les invite ne pas totalement perdre espoir, et leur affirme quil
dtient une mthode leur permettant daugmenter considrablement leurs chances de
succs.
Sa mthode est la suivante : le prisonnier titulaire du numro i devra ouvrir en
premier le ime coffret en partant de la droite. En appelant j le numro inscrit
lintrieur de ce coffret, il devra ensuite ouvrir le jme coffret en partant de la
droite. En appelant k le numro inscrit lintrieur de ce nouveau coffret, il devra
ensuite ouvrir le kme coffret, et ainsi de suite jusqu avoir dcouvert le coffret
portant le numro i, ou, malheureusement, puis les dix coffrets quil tait en droit
douvrir.
2) En appelant (i) le numro contenu dans le coffret plac en ime position en par-
tant de la droite, et en admettant que est une permutation alatoire de loi uniforme
sur lensemble des permutations des entiers de 1 20, calculez la probabilit de succs
de lensemble des prisonniers. (Indication : caractrisez lvnement correspondant
au succs des prisonniers en termes dexistence de cycles de longueur suprieure
10 pour la permutation . Ensuite, pour k 11, comptez le nombre de permutations
des entiers de 1 20 possdant un cycle de longueur k.)
3) Au courant du stratagme imagin par les prisonniers, et afin de les dsesprer
plus encore, le chef laisse filtrer linformation selon laquelle il permutera les coffrets
de telle faon quil existe au moins un cycle de longueur suprieure 10. Comment,
en se mettant daccord lavance sur une permutation alatoire des entiers de 1
20, dont ils garderont le secret, les prisonniers peuvent-ils contourner cet obstacle ?
3) Le nombre i tant fix, quelle est la probabilit pour que le prisonnier numro i
russisse ouvrir le coffret portant son propre numro ?
4) Appelons X le nombre total de prisonniers parvenant ouvrir le coffret portant
leur numro. Quelle sont lesprance et la variance de X ? Si les succs des diff-
rents prisonniers taient mutuellement indpendants, quelle serait la loi de X ? En
tudiant ce qui advient lorsquil existe un cycle de longueur suprieure 10 dans la
permutation applique par les prisonniers, et en reprenant les calculs de la question
2), calculez la loi de X.

Exercice 140 Considrons un jeu de loto dans lequel N personnes achtent des
bulletins cotant chacun 1 euro. Chaque personne indique sur son bulletin une com-
binaison de chiffres, m combinaisons diffrentes tant disponibles, puis fait valider
270

son bulletin. Un tirage est ensuite effectu, au cours duquel lune des combinaisons
est choisie alatoirement, selon la loi uniforme. On rpartit ensuite un pourcentage
fix (disons ) des N euros collects entre les personnes dont les bulletins portent la
combinaison qui a t tire.
Supposons quil existe un numro particulier que personne ne pense jamais
jouer. Quelle serait lesprance de gain dune personne qui choisirait justement de
miser sur ce numro ?
Ceci vous suggre-t-il une stratgie vous permettant de gagner de largent en
jouant au loto ?

Exercice 141 (Le problme de Galton 18 )


On a mesur dans 10000 familles diffrentes les deux quantits suivantes : taille
du pre, et taille du fils an ( lge adulte). (En fait, nous utilisons dans cet exer-
cice des donnes simules, et non pas de vritables donnes mesures, mais le mo-
dle employ pour la simulation est inspir par les donnes relles tudies par Gal-
ton.) Pour 1 i 10000, nous noterons (xi , yi ) le couple form des deux valeurs
(taille du pre, taille du fils) dans la ime famille tudie.
Lune des principales questions auxquelles sintressait Galton tait la suivante :
quelle est linfluence de la taille du pre sur la taille du fils ?
Voici le nuage de points form par les paires (xi , yi ) pour 1 i 10000.
2.0
1.9
1.8
y(i)

1.7
1.6
1.5

1.5 1.6 1.7 1.8 1.9 2.0

x(i)

1) Quelle observation trs grossire sur lassociation entre taille du pre et taille du
fils peut-on faire, simplement partir de lobservation de ce nuage de points ?
2) Les tailles moyennes calcules partir des donnes prsentes sont trs voisines
chez les pres et chez les fils 1, 770m pour les pres, et 1, 771m pour les fils (en ar-
rondissant au millimtre). Le graphique suivant reprsente, pour diffrentes tranches
18. Sir Francis Galton (18221911).
Variables alatoires 271

de valeurs de la taille du pre, la valeur moyenne de la taille du fils dans les familles
correspondantes, et en surimpression la droite dquation y = x.

On a regroup entre elles les observations de la taille du pre par tranches de


longueur denviron 1,2 cm afin de disposer de donnes assez nombreuses dans chaque
tranche, les ordonnes des points reprsentant les milieux de chaque tranche.
1.90
1.85
1.80
moyenne de y

1.75
1.70
1.65

1.65 1.70 1.75 1.80 1.85 1.90

Lobservation qui avait frapp Galton tait la suivante : la courbe obtenue est ap-
proximativement une droite, mais dont la pente est nettement infrieure 1, coupant
la droite dquation y = x au niveau de la taille moyenne de la population, ce qui
signifie que les enfants ns dun pre plus grand que la moyenne, sont, galement, en
moyenne, plus grands que la moyenne de la population, mais que leur taille moyenne
est plus proche de la moyenne que ne lest celle de leur pre. La mme observation
peut tre faite, en sens inverse, pour les enfants issus dun pre de taille infrieure
la moyenne. On observe donc un phnomne de retour vers la moyenne, chaque
individu donnant naissance des enfants en moyenne plus proches queux mmes de
la taille moyenne de la population. On note donc que la taille dun fils nest pas en
moyenne gale celle de son pre, mais prsente un dcalage dans la direction de la
moyenne de la population. La conclusion en apparence logique de cette observation
serait que, au fur et mesure des gnrations, la taille des individus a tendance
converger vers la valeur moyenne (1,77 m dans notre exemple). Pourtant, si lon exa-
mine les deux distributions de taille, chez les pres et chez les fils, on nobserve aucun
phnomne de resserrement des tailles autour de la moyenne dans la population
des fils par rapport celle des pres, et les deux distributions des tailles semblent
trs voisines. Les carts-types, quant eux, sont tous les deux gaux 0,060 (en
arrondissant au millimtre).
272

histogramme de x(i)
6
5
4
3
2
1
0

1.5 1.6 1.7 1.8 1.9 2.0

histogramme de y(i)
6
5
4
3
2
1
0

1.5 1.6 1.7 1.8 1.9 2.0

Comment pourrait-on alors expliquer une telle situation ? Comment votre expli-
cation saccomode-t-elle du graphique suivant, qui reprsente non plus la moyenne,
mais lcart-type, calcul dans chacune des tranches de taille des pres prsentes
ci-dessus, et qui suggre galement que la variabilit de la taille des fils telle que
mesure par lcart-type ne varie pas ou peu avec la taille des pres ?
0.12
0.10
0.08
ec. type de y

0.06
0.04
0.02
0.00

1.65 1.70 1.75 1.80 1.85 1.90

x
Variables alatoires 273

Pour prciser la question et lexplication, notons que, en termes mathmatiques,


on cherche comprendre comment on peut effectivement disposer de deux variables
alatoires X et Y telles que :
E(X) = E(Y ) = m ;
V(X) = V(Y ) = v ;
pour tout x, E(Y |X = x) est plus proche de m que x ;
pour tous x1 , x2 , V(Y |X = x1 ) = V(Y |X = x2 ).
Suggestion : tudier les exemples de la forme Y = m + (X m) + W , o m et
sont des constantes, X est une variable alatoire quelconque (possdant une esprance
gale m et une variance gale v), et W une variable alatoire indpendante de
X. (En fait, les simulations prsentes appartiennent effectivement cette catgorie
dexemples. Pour comprendre comment des paires (taille du pre, taille du fils) vri-
tablement mesures dans une population humaine peuvent effectivement entrer dans
ce cadre, nous vous renvoyons la suite de cet exercice prsente dans le chapitre
Courbe en cloche.)
3) Nous navons pas du tout abord les questions lies lestimation de quantits
partir de lois empiriques. Bien entendu, un traitement statistique correct (voir la
partie Statistique) peut et doit prendre en compte ces questions trs importantes
en thorie comme en pratique , de manire quantitative.
Les graphiques suivant fournissent juste une petite illustration qualitative des ph-
nomnes lis la taille de la population tudie, et au choix de la taille des tranches
qui permettent de dcouper le domaine des valeurs de la taille du pre.
En conservant la mme population (10000 mesures), et en considrant des tranches
de taille 2,5mm environ.
1.90
1.85
1.80
moyenne de y

1.75
1.70
1.65

1.65 1.70 1.75 1.80 1.85 1.9

x
274
0.12
0.10
0.08
ec. type de y

0.06
0.04
0.02
0.00

1.65 1.70 1.75 1.80 1.85 1.9

En considrant une population plus petite (1000 mesures),


1.90
1.85
1.80
moyenne de y

1.75
1.70
1.65

1.65 1.70 1.75 1.80 1.85 1.90

x
Variables alatoires 275

0.12
0.10
0.08
ec. type de y

0.06
0.04
0.02
0.00

1.65 1.70 1.75 1.80 1.85 1.90

En considrant une nouvelle population de 1000 mesures indpendante de la pr-


cdente.
1.90
1.85
1.80
moyenne de y

1.75
1.70
1.65

1.65 1.70 1.75 1.80 1.85 1.90

x
276
0.12
0.10
0.08
ec. type de y

0.06
0.04
0.02
0.00

1.65 1.70 1.75 1.80 1.85 1.90

Exercice 142 (Mariages stables) On appelle problme des mariages stables la ques-
tion suivante. On dispose de deux populations A et B comportant chacune n individus
(disons, les hommes et les femmes). Chaque individu possde une liste de prfrence
personnelle, dans laquelle les n individus de la population du sexe oppos sont clas-
ss par ordre de prfrence. Un mariage entre ces deux populations est simplement
la donne de n couples (a1 , b1 ), . . . , (an , bn ) tels que chaque entier entre 1 et n figure
une et une seule fois dans chacune des deux listes (a1 , . . . , an ) et (b1 , . . . , bn ). Si lon
voit les lments ai comme numrotant des hommes, et les bi comme numrotant des
femmes, un mariage est donc simplement un appariement entre tous les hommes et
toutes les femmes de la population. On dit quun tel mariage est stable lorsquil ne
comporte aucune paire de couples (ai , bi ) et (aj , bj ) tels que ai classe bj avant bi dans
sa liste de prfrence, tandis que bj classe ai avant aj dans sa liste de prfrences (ai
et bj auraient alors tendance rompre leurs couples pour se regrouper tous les deux).
Un rsultat non-trivial est que, quelles que soient les listes de prfrences, il existe
toujours au moins un mariage stable. La question est ensuite : comment trouver algo-
rithmiquement un tel mariage stable. Compte-tenu du nombre de mariages possibles
(n!), il nest pas question dnumrer tous les mariages possibles. La mthode nave
consistant partir dun mariage arbitraire pour essayer de le corriger progressive-
ment en liminant les mariages instables ne fonctionne pas, mais lalgorithme suivant
(les hommes proposent, les femmes disposent) rpond cette question. Cet algo-
rithme fonctionne de la manire suivante. A tout moment de son droulement, un
mariage partiel (certains couples maris sont forms, tandis que dautres individus
peuvent tre clibataires) entre les deux populations est dfini, et chaque homme a
dj enregistr un certain nombre de refus de mariage de la part de certaines femmes.
Initialement, aucun individu nest mari. Ensuite, lun des hommes non maris (par
exemple celui possdant le plus petit indice) propose de se marier la femme qui se
Variables alatoires 277

trouve le plus haut place dans sa liste de prfrence, et qui ne la pas dj refus. Si
cette femme nest pas marie, elle accepte le mariage avec cet homme. Si elle est dj
marie, mais que son mari actuel se trouve moins bien plac dans sa liste de pr-
frences que le nouveau prtendant, le mariage prcdent est dfait, et la femme est
remarie avec le prtendant. Dans le cas contraire, la femme repousse la proposition
qui lui est faite.
Lorsque tous les hommes (et donc toutes les femmes) sont maris, lalgorithme
sarrte.
1) Prouver que lalgorithme sarrte aprs n2 tapes au pire, et que le mariage consti-
tu lorsquil sarrte est un mariage stable.
2) On sintresse la distribution de probabilit du temps dexcution (compt en
nombre dtapes) de lalgorithme lorsque les listes de prfrences des hommes sont
obtenues en effectuant une permutation alatoire de loi uniforme sur lensemble des
permutations des entiers de 1 n, et ce, indpendamment dun homme lautre, les
listes de prfrence des femmes pouvant, quant elles, tre totalement arbitraires (on
ne fait aucune hypothse de modlisation leur sujet). Appelons T ce temps dex-
cution, et introduisons le temps T 0 obtenu en modifiant lalgorithme de la manire
suivante : au lieu de suivre sa liste de prfrences, chaque homme tire chaque fois
uniformment au hasard la femme laquelle il va proposer de se marier (il se peut
donc quil repropose le mariage une femme qui la dj rejet, et ne pourra donc que
refuser nouveau). Montrer que pour tout k 0, P(T k) P(T 0 k). Montrez
ensuite que le temps T 0 peut-tre analys comme dans le problme du collectionneur
de vignettes n vignettes (exercice 69). Que peut-on en dduire sur la distribution
de probabilit du temps T ?

Exercice 143 (Coupure minimale dans un graphe) Un multigraphe est la donn


dun ensemble fini de sommets V et dun ensemble fini dartes V reliant des sommets
entre eux (les artes que nous considrons sont non-orientes, deux sommets peuvent
tre relis par plus dune arte, il ny a pas de boucles). On dit quun tel graphe est
connexe lorsque lon peut toujours passer de tout sommet tout autre en suivant
un chemin constitu dartes. Une coupure dun graphe connexe est un ensemble
dartes tel que, si lon supprime les artes figurant dans cet ensemble, le graphe perd
la proprit de connexit. Le problme de la coupure minimale consiste rechercher
une coupure comportant le plus petit nombre dartes possibles.
Voici un algorithme randomis destin rsoudre ce problme : on choisit une
arte uniformment au hasard dans lensemble des artes, et lon contracte celle-ci,
cest--dire que lon identifie les deux sommets que cette arte relie, tout en sup-
primant toutes les artes pouvant exister entre ces deux sommets. On obtient alors
un nouveau graphe, auquel on rapplique lopration prcdente, et lon continue jus-
qu obtenir un graphe ne comportant plus que deux sommets. Lensemble des artes
278

reliant ces sommets est ensuite renvoy par lalgorithme.


1) Prouvez que toute coupure de lun des graphes intermdiaires manipuls par lalgo-
rithme est une coupure du graphe original, et que lalgorithme renvoie donc toujours
une coupure du graphe (pas forcment minimale).
2) Considrons une coupure minimale du graphe. Prouver que, si aucune des artes
de cette coupure nest contracte par lalgorithme, alors lensemble dartes renvoy
par lalgorithme est exactement constitu par les artes de cette coupure.
3) Considrons une coupure minimale du graphe, et k le nombre dartes quelle
contient. Soit n le nombre de sommets du graphe. Prouver que le graphe comporte
au moins kn/2 artes.
4) A laide des deux questions prcdentes, prouvez que la probabilit pour que lalgo-
Qn2  2

rithme renvoie une coupure minimale est suprieure ou gale i=1 1 ni+1 ,
et donc 2/n2 .
5) Comment faire pour obtenir une probabilit leve de succs (disons 99, 9%) ?
Combien de pas sont alors ncessits par lalgorithme ? (Quid de la manipulation des
structures de donnes qui interviennent ?)

Exercice 144 Ce soir, Jojo reoit ses beaux-parents chez lui pour la premire fois.
Soucieux que tout se passe pour le mieux, il va jusqu sinterroger sur le bon fonction-
nement des ampoules lectriques installes son domicile. En particulier, lampoule
clairant la salle manger na pas t change depuis plus de deux ans, et Jojo re-
doute que celle-ci ne claque pendant le repas. Il prfre donc changer ladite ampoule
en la remplaant par une ampoule neuve, du mme modle que la prcdente, en es-
prant diminuer la probabilit dun claquage au cours du repas. En admettant que la
dure de vie (en secondes) dune ampoule aprs son installation puisse tre modlise
laide dune loi gomtrique, ce que vient de faire Jojo est-il judicieux ?

Exercice 145 Jojo dsire coder un long message laide dun code binaire. Spci-
fiquement, il cherche associer chaque mot du message un mot de code binaire,
constitu dune suite finie de 0 et de 1, et, pour des raisons de facilit de dcodage, il
souhaite que son code possde la proprit du prfixe : aucun mot du code binaire ne
doit tre le dbut dun autre mot du code. Supposons que le message soit crit dans
un langage trs primaire qui ne comporte que 6 mots diffrents, nots A1 , . . . , A6 , et
que, dans le message que Jojo cherche transmettre, les frquences de chacun des
mots soient les suivantes : A1 reprsente 12% des mots du message, A2 25%, A3 8%,
A4 11%, A5 14% , et A6 30%.
Quel code pouvez-vous proposer Jojo afin de minimiser la longueur du message
une fois cod ? Quel est le nombre moyen de signes binaires utiliss par votre code
pour coder le message de Jojo ? Comment se compare-t-il lentropie associe aux
frquences des diffrents mots dans le message ?
Variables alatoires 279

Exercice 146 Au cours dune mission, on invite une vingtaine de mdiums censs
deviner des informations sur des membres du public choisis au hasard (par exemple,
leur nombre denfants, sils sont ou non clibataires, etc...). A chaque tape, les m-
diums ayant devin juste restent sur scne, tandis que les autres sont limins. Aprs
cinq tapes, M. H*** est le seul rester en lice, et couronn comme possdant un don
vraiment exceptionnel. Pensez-vous que cela soit justifi ? En quoi llimination pro-
gressive peut-elle tendre accrditer indment, auprs des spectateurs non-avertis,
bien entendu M. H*** ?

Exercice 147 (Laffaire du testament Howland)


Lorsque la riche Mme Sylvia Howland mourut en 1865, il apparut que son testa-
ment, dat de 1863, stipulait quenviron la moiti de sa fortune devait tre rpartie
entre des lgataires varis, tandis que lautre moiti (soit plus dun million de dol-
lars de lpoque) serait place, et les intrts ainsi produits verss sa nice, Mme
Henrietta Howland Green, la mort de laquelle le principal serait redistribu entre
dautres lgataires.
Mme Howland Green, qui comptait bien hriter de la totalit de la somme, et non
pas seulement des intrts, produisit alors un exemplaire plus ancien du testament,
dat de 1862 (donc antrieur celui effectivement excut lors de la succession), qui
lui attribuait la quasi-totalit des biens de sa tante Sylvia, accompagn dune page
supplmentaire cense annuler tout testament rdig avant ou aprs celui-ci. Si
lauthenticit du testament de 1862 ne semblait pas devoir tre mise en doute (il
avait t sign de la dfunte Mme Howland et de trois tmoins), celle de la page
supplmentaire tait plus suspecte, celle-ci ne portant la signature que de la dfunte
et de sa nice. Lexcuteur testamentaire de Mme Howland refusant daccorder foi
la seconde partie du document, laffaire fut porte devant les tribunaux, et plusieurs
experts furent convoqus.
Un examen attentif 19 dun chantillon de 42 signatures ralises par la dfunte
Mme Howland lors de ses dernires annes fut men. Celui-ci rvla dune part, que
chaque signature comportait systmatiquement trente traits dirigs vers le bas, et,
dautre part, quentre deux signatures quelconques, en moyenne six traits dirigs vers
le bas homologues (cest--dire correspondant un mme lment dune mme lettre
de la signature) taient exactement superposables.
En revanche, en comparant la signature prsente sur le testament de 1862 avec
celle figurant sur la page supplmentaire de celui-ci, ce fut une concidence complte

19. Ralis pour le compte de lexcuteur testamentaire de Sylvia Howland, Tho-


mas Mandell, par le clbre mathmaticien et astronome amricain Benjamin
Peirce, assist de son non moins clbre fils Charles Peirce. Voir par exemple
http://www-groups.dcs.st-and.ac.uk/ history/Mathematicians/Peirce_Benjamin.html
et http://www-groups.dcs.st-and.ac.uk/ history/Mathematicians/Peirce_Charles.html.
280

des trente traits qui fut observe, suggrant la possibilit que la signature inscrite sur
la page supplmentaire du testament ait t recopie partir de lautre.
Les Peirce affirmrent quau vu de leur tude, on pouvait valuer la probabilit
quune telle concidence survienne de manire accidentelle 1/530 , soit, daprs les
Peirce toujours, environ 1/2, 666... 1021 , La conclusion tait quune probabilit si
faible indiquait que, selon toute raison, la page supplmentaire du testament tait un
faux.
1) Vrifiez que 1/530 1/2, 666... 1021 .
2) Expliquez en quoi cet argument apparat comme un (bel) exemple du sophisme
du procureur. Quelles probabilits aurait-il galement fallu valuer pour tenter de
conclure de manire correcte ? Dans quelles conditions pourrait-on nanmoins consi-
drer que les probabilits mettent srieusement en cause lauthenticit du document
produit par Mme Howland Green ?
3) Tentez dexpliquer comment les Peirce ont pu parvenir, partir de leur tude,
la valeur de 1/530 . Sur quelles hypothses ont-ils pu sappuyer ? Comment jugez-vous
la pertinence et la fiabilit de leur argument ?
4) Dans le cadre du procs, un chantillon de 110 signatures traces par lancien
prsident des Etats-Unis John Quincy Adams fut analys, rvlant que les douze
signatures de lchantillon les plus proches entre elles prsentaient des similarits
suprieures celles observes entre les deux signatures figurant sur le testament de
1862. Largument fut employ par les avocats de Mme Howland Green pour affirmer
quune telle similitude pouvait survenir de manire naturelle. Les avocats de la partie
adverse rtorqurent que le prsident Adams tait connu pour possder une criture
particulirement uniforme. Dautres exemples de signatures trs voisines produites
par une mme personne furent donns (entre autres, partir de chques bancaires).
Quelle est, selon-vous, la porte de ces arguments ?
5) Il fut galement propos quune similitude importante pouvait exister entre des
signatures ralises par une mme personne peu de temps dintervalle, la mme
place et sur le mme bureau, par exemple. Que pensez-vous de cet argument ?
6) En dfinitive, si vous deviez tudier vous-mme la question, de quelles donnes
chercheriez-vous disposer, et comment procderiez-vous ?
Sophisme du procureur ou pas, laffaire fut tranche en dfinitive sur la base
darguments purement juridiques et compltement indpendants des considrations
prsentes ci-dessus, qui donnrent tort Mme Howland Green. La question de savoir
si la cour aurait tranch en sa faveur si la seconde signature avait t considre
comme authentique, reste ouverte...
p
Exercice 148 Considrons une variable alatoire X telle que E(X) > 0 et V(X) <<
X
E(X). Montrez que E(X) est typiquement proche de 1. Peut-on en dduire que |X
X
p
E(X)| << 1 ? Si inversement V(X) >> E(X), peut-on en dduire que E(X) a une
Variables alatoires 281

probabilit significative dtre loigne de 1 ?


Voir galement lexercice 111.

Exercice 149 (Le paradoxe de Parrondo)


On considre les trois jeux suivants. Le premier jeu, not A, consiste simplement
lancer une pice de monnaie, le joueur gagnant 1 euro lorsque la pice retombe
sur pile, et perdant un euro lorsque celle-ci retombe sur face. Les probabilits de pile
et face ne sont pas a priori gales, et valent respectivement p et 1 p, o p est un
paramtre du problme. Le deuxime jeu, not B, consiste galement lancer une
pice de monnaie en gagant 1 euro lorsque celle-ci retombe sur pile, et en perdant 1
euro lorsque celle-ci retombe sur face, cette diffrence prs que la pice que lon lance
est choisie parmi deux pices (numrotes 1 et 2), aux caractristiques diffrentes, le
choix de la pice lance dpendant du capital total (en euros) dont dispose le joueur
avant le lancer. La pice numro 1 possde une probabilit p1 de retomber sur pile
(et donc 1 p1 de retomber sur face), tandis que la probabilit pour la pice numro
2 de retomber sur pile vaut p2 (do une probabilit 1 p2 de retomber sur face), p1
et p2 tant des paramtres du problme vrifiant 0 < p1 , p2 < 1. La rgle fixant le
choix des pices pour le jeu B est la suivante : si le capital disponible avant le lancer
est un multiple de 3, la pice lance est la pice numro 1, tandis que, dans le cas
contraire, cest la pice numrote 2 qui est choisie. Enfin, le troisime jeu, not C,
est en ralit une combinaison de A et de B : avec probabilit 1/2, le joueur joue au
jeu A, avec probabilit 1/2, il joue au jeu B.
Nous allons voir quil est possible de choisir p, p1 , p2 de telle faon que A et B
soient tous les deux, en un certain sens, des jeux perdants long terme, tandis que C
est, quant lui, gagnant long terme. Ce rsultat est connu sous le nom de paradoxe
de Parrondo, et a fait, depuis son apparition en 1999, lobjet de commentaires abon-
dants, en particulier, mais pas seulement, du fait quil illustre trs simplement les
proprits de certains modles physiques censs dcrire des moteurs molculaires.
Nous allons dabord prciser le comportement long terme du jeu B. Supposons
donc que lon joue de manire rpte au jeu B, et notons Yn le montant total dis-
ponible aprs le nme lancer, rduite modulo 3. Dfinissons ensuite ensuite, pour
n 0, le vecteur ligne n dont les coordonnes donnent la loi de Yn , cest--dire,
pour i = 0, 1, 2, n (i) := P(Yn = i).
2) Montrez que la relation suivante est satisfaite pour tout n 0 : n+1 = M n , o
n est le vecteur ligne dont les coordonnes sont (n (0), n (1), n (2)), et o M est la
matrice suivante :

0 p1 1 p1
M := 1 p2 0 p2 .

p2 1 p2 0
282

En dduire que, pour tout n 1, n = M n 0 .


3) Montrez que les solutions de lquation = M , o est un vecteur ligne dont
les coordonnes, sont de la forme :

= ((0), (1), (2)) = (1 p2 + p22 , 1 p2 + p1 p2 , 1 p1 + p1 p2 ), R.

En dduire quil existe une unique solution dont les coordonnes dcrivent une loi de
probabilit sur lensemble {0, 1, 2}. Soit = ( (0), (1), (2)) cette solution.
Nous admettrons (il sagit en fait dun rsultat gnral provenant de la tho-
rie des chanes de Markov) que, quelle que soit la valeur de 0 , on a toujours
limn+ 0 M n = .
4) En dduire, en fonction de p1 et p2 , la valeur limite lesprance de gain au nme
pas en jouant de manire rpte au jeu B, lorsque n tend vers linfini. A quelle
condition celle-ci est-elle ngative ?
5) Mme question avec le jeu C : quelle est la valeur limite, en fonction de p, p1 , p2 ,
de lesprance de gain au nme pas en jouant de manire rpte au jeu C, lorsque
n tend vers linfini, et quelle condition celle-ci est-elle ngative ? Indication : re-
prendre la stratgie employe pour les questions 2) et 3).
6) Donnez un exemple de valeur de p, p1 , p2 pour lequel les jeux A et B sont perdants
long terme, tandis que C est gagnant long terme.

Exercice 150 On considre une variable alatoire X dont la loi possde une densit
de la forme f (x) = Kxc pour x b, avec b > 0 et c > 1.
1) Montrez que la valeur de K est entirement dtermine par la donne de c et de
b.
2) Etant donn un nombre a b, on se concentre sur les valeurs de X suprieures
ou gales a, autrement dit, on sintresse la loi de X conditionnelle au fait que
X a. Pour pouvoir comparer entre elles des lois associes diffrentes valeurs de a,
on ramne la valeur de a lchelle 1, en considrant la loi de X/a conditionnelle au
fait que X a. Montrez que cette loi ne dpend en fait pas de a. Cette proprit est
ce que lon appelle linvariance dchelle de la loi de X : les valeurs de X suprieures
une valeur donne ont exactement (aprs mise lchelle) la mme distribution de
probabilit que X.
3) Supposons maintenant que X suive une loi exponentielle de paramtre > 0.
Quelle est cette fois la loi de X/a conditionnelle au fait que X a ?

Exercice 151 Deux lignes dautobus, les lignes 1 et 2, effectuent la liaison entre
la gare de Jojo-les-Pins et la place du march, situe au centre-ville. Les bus de
la ligne 1, sans arrt ou presque sur ce trajet, effectuent la liaison en 10 minutes
en moyenne. En revanche, les bus de la ligne 2 comportent plusieurs arrts sur le
parcours, et effectuent la liaison en 20 minutes, toujours en moyenne. Pour simplifier,
Variables alatoires 283

on suppose on supposera que les dures de parcours sont toujours exactement gales
10 et 20 minutes, respectivement pour les lignes 1 et 2. On modlise la dure
de lattente de lautobus pour un passager venant darriver la gare, et souhaitant
prendre la ligne 1, par une variable alatoire de loi exponentielle de paramtre 1 . La
mme loi est employe pour un passager attendant un bus de la ligne 2, mais avec
un paramtre 2 a priori diffrent de 1 .
1) Quelles hypothses de modlisation sous-jacente pourrait expliquer lemploi de lois
exponentielles dans ce contexte ?
2) Quel est en moyenne le temps total (attente plus trajet) pour un passager arrivant
la gare et souhaitant se rendre place du march en utilisant un bus de la ligne 1 ?
Mme question avec un bus de la ligne 2 ? A quelle condition est-il plus avantageux
de prendre la ligne 1 que la ligne 2 ?
3) Considrons prsent un passager choisissant de se rendre au march par le pre-
mier autobus (de la ligne 1 ou de la ligne 2) qui arrive. En supposant lindpendance
entre le temps dattente dun bus de la ligne 1 et dun bus de la ligne 2, quelle est
la loi du temps dattente de ce passager avant de pouvoir monter dans un bus ? Quel
est le temps total moyen mis par le passager pour se rendre destination ? Comment
ceci se compare-t-il, en fonction de 1 et 2 , au choix le plus avantageux obtenu
la question 2) ? Donnez des exemples de valeurs numriques ralistes pour lesquelles
cette comparaison a lieu dans un sens, et dans lautre.

Exercice 152 Une girafe cherche (mais pourquoi ?) traverser une route troite,
la dure ncessaire pour quelle effectue sa travere tant estime un nombre a de
minutes. On suppose quil passe en moyenne 6 vhicules par minute sur cette route
lendroit o la girafe cherche traverser, et, plus prcisment, que le nombre total de
vhicules traversant la route au cours dune priode de temps donne de a minutes
suit une loi de Poisson de paramtre proportionnel a.
1) Quelles hypothses de modlisation sous-jacentes le choix de cette loi de Poisson
peut-il traduire ?
2) Pour quelles valeurs de a la girafe a-t-elle moins de 5% de chances dentrer en col-
lision avec un vhicule ? Pour quelles valeurs de a cette probabilit est-elle suprieur
95% ?

Exercice 153 Un laboratoire danalyses mdicales effectue des tests sanguins des-
tins dtecter la prsence dune certaine substance dans le sang des personnes
sur lesquelles lanalyse est pratique. Une premire manire de procder pour le la-
boratoire consiste simplement effectuer individuellement un test sur chacun des
chantillons recueillis. Compte-tenu du cot unitaire lev des tests, le laboratoire
envisage de rduire le nombre de ceux-ci en procadant de la manire suivante. Deux
chantillons, au lieu dun seul, sont prlevs sur chacune des personnes concernes.
284

On divise ensuite lensemble des personnes testes en groupes comportant chacun m


individus. Pour chaque groupe, on procde alors de la manire suivante : un chan-
tillon de chaque personne du groupe est utilis pour tre mlang aux autres, et le
test de dtection est pratiqu sur le mlange ainsi obtenu. Si le rsultat de ce test est
ngatif, on considre que lensemble des personnes faisant partie du groupe obtient un
rsultat ngatif pour le test. Inversement, si le rsultat est positif, on teste sparment
chacun des chantillons individuels restants pour les personnes de ce groupe. En sup-
posant que la sensibilit du test est suffisante pour quun seul chantillon contenant la
substance entrane la dtection, mme si celui-ci est mlang dautres chantillons
qui ne la contiennent pas, on cherche dterminer si cette mthode est rellement
avantageuse par rapport la premire solution consistant tester individuellement
chaque chantillon. En supposant que lon peut modliser le prsence/absence de la
substance dans le sang de lensemble des personnes testes par une rptition ind-
pendante de variables de Bernoulli, discutez de la comparaison du nombre moyen de
tests effectus entre ces deux mthodes.
Chapitre 3

Loi des grands nombres

3.1 Introduction
La loi des grands nombres constitue le premier des thormes limites de la
thorie des probabilits. Dans sa version la plus simple, elle affirme que la moyenne
dun grand nombre de variables alatoires valeurs relles, indpendantes et de mme
loi est, typiquement, approximativement gale lesprance commune de ces variables
alatoires, lorsque celle-ci existe. Dans ce chapitre, nous prsentons et discutons
diffrentes versions de ce rsultat, leur interprtation et leur porte pratique.

3.2 Loi faible des grands nombres


3.2.1 Cadre et hypothses
Considrons un espace de probabilit (, P), et une variable alatoire X dfinie
sur et valeurs dans R. Considrons ensuite lespace de probabilit (N , PN )
dcrivant N rptitions indpendantes de (, P), et notons X1 , . . . , XN les va-
riables alatoires correspondant X dans chacune des N ralisations successives.
De manire plus prcise (voir le chapitre prcdent), les variables alatoires Xi sont
dfinies par N par Xi ((1 , . . . , N )) = X(i ).
On vrifie que les variables alatoires X1 , . . . , XN sont mutuellement indpen-
dantes, et quelles possdent toutes la mme loi que X.
On note que, partant de nimporte quel modle probabiliste (W, Q) sur lequel est
dfinie une famille de variables alatoires Y1 , . . . , YN mutuellement indpendantes et
possdant chacune la mme loi, on peut se ramener la situation dcrite ci-dessus
en considrant le modle-image de (Y1 , . . . , YN ). Par consquent, la loi des grands
nombres, que nous noncerons dans le paragraphe suivant, sapplique dans ce cadre
gnral.
286

Nous considrerons la variable alatoire N1 (X1 + + XN ). Celle-ci reprsente


la moyenne arithmtique des valeurs de X obtenues au cours des N rptitions
indpendantes (il sagit dune variable alatoire, puisque chaque Xi est elle-mme
une variable alatoire). En dautres termes, la variable alatoire N1 (X1 + + XN )
nest autre que la moyenne empirique associe lchantillon de valeurs (alatoires)
X1 , . . . , XN .
Un cas particulier trs important est celui o la variable alatoire X est la fonction
indicatrice dun vnment A de . Dans ce cas, N1 (X1 + + XN ) nest autre que
la proportion de fois o lvnement A sest ralis au cours des N rptitions, que
nous noterons fN (A).
Une hypothse fondamentale pour la suite est que la variable alatoire X pos-
sde une esprance. Dans le cas dune indicatrice, cette esprance existe toujours,
et nest autre que la probabilit P(A).

3.2.2 Enonc
Dans le cadre et sous les hypothses dcrits dans le paragraphe prcdent, cest-
-dire N variables alatoires X1 , . . . , XN reprsentant N rptitions indpendantes
dune variable alatoire X possdant une esprance, la loi faible des grands
nombres affirme que, pour tout  > 0,
 
N 1

lim P N (X 1 + + XN ) E(X)  = 0.
N +

Dans le cas particulier o X est la fonction indicatrice dun vnment A, la loi


des grands nombres se rcrit, en notant fN (A) la proportion de fois o lvnement
A sest ralis au cours des N rptitions, sous la forme suivante.

lim PN (|fN (A) P(A)| ) = 0.


N +

Ainsi, tant donn un  > 0 fix, mais que lon peut choisir arbitrairement petit,
la probabilit pour que N1 (X1 + + XN ) soit loign de E(X) dun cart suprieur
, tend vers zro lorsque N tend vers linfini. En dautres termes, lorsque N tend
vers linfini, la loi de la variable alatoire N1 (X1 + + XN ) se concentre autour de
la valeur E(X).
En termes plus imags, la loi des grands nombres affirme donc que, lorsque
N est suffisament grand, la variable alatoire N1 (X1 + + XN ) est, typique-
ment (avec une probabilit proche de 1), approximativement (  prs) gale
lesprance E(X).
Dans le cas dune indicatrice, on obtient que la proportion de fois o A se produit
est typiquement approximativement gale la probabilit de A.
Loi des grands nombres 287

Remarque 12 Soulignons que lon ne peut esprer se passer, dans lnonc ci-
dessus, daucun des deux termes approximativement et typiquement.
Pour sen convaincre, il suffit de penser lexemple du jeu de pile ou face, mo-
dlis par une suite de lancers indpendants donnant lieu pile ou face de manire
quiprobable. Aprs 10000 lancers, on peut sattendre ce que la proportion observe
de pile soit proche de 1/2, mais certainement pas obtenir exactement 5000 fois pile
et 5000 fois face. De mme, il est physiquement possible que lon obtienne 10000
fois face au cours des 10000 lancers, et il est donc physiquement possible que la pro-
portion observe de pile soit trs diffrente de 1/2. Simplement, une telle ventualit
est extrmement improbable (dans le modle de lancers indpendants avec quipro-
babilit de pile et de face), et cest pourquoi, bien que lon ne puisse pas exclure le
fait quelle puisse survenir, on sattend ce que typiquement, elle ne se produise pas.

Soulignons que la loi des grands nombres nonce ci-dessus est un thorme ma-
thmatique, qui ncessite pour que lon puisse lappliquer que ses hypothses (va-
riables alatoires indpendantes et de mme loi possdant une esprance) soient
satisfaites (voir galement ce sujet le paragraphe sur la robustesse de la loi des
grands nombres) que nous allons dmontrer dans le paragraphe suivant.

3.2.3 Preuve
Pour simplifier, nous donnerons une preuve en nous plaant sous lhypothse
supplmentaire selon laquelle la variance de X, et non seulement son esprance, est
dfinie.
Dabord, on vrifie que lesprance de la variable alatoire N 1 (X1 + + XN )
est gale E(X), grce la proprit de linarit de lesprance :
 
1 1 1
E (X1 + + XN ) = (E(X1 ) + + E(XN )) = (N E(X)) = E(X),
N N N

chaque Xi possdant individuellement la mme loi que X, et donc la mme esprance.


Nous cherchons montrer que cette esprance est galement la valeur typique de
N 1 (X1 + + XN ). Pour cela, nous pouvons tudier la variance :
 
1 1
V (X1 + + XN ) = V (X1 + + XN ) .
N N2

Du fait de lindpendance mutuelle des variables alatoires Xi , que nous


avons suppose, les variances des variables alatoires Xi sajoutent, et lon a :

V (X1 + + XN ) = V(X1 ) + + V(XN ) = N V(X),


288

en utilisant le fait que toutes les possdent individuellement la mme loi que X, et
donc la mme variance. En dfinitive, on obtient que :
 
1 V(X)
V (X1 + + XN ) = .
N N
La variance de la moyenne empirique associe N ralisations indpendantes
de la variable alatoire X est donc N fois plus petite que la variance de X. Cette
galit traduit donc le fait que la moyenne empirique fluctue dautant moins autour
de son esprance E(X) que N est grand. Plus prcisment, lingalit de Bienaym-
Tchebychev (voir le chapitre Variables alatoires) entrane que, pour tout  > 0,
 
N 1 V(X)

P N (X1 + + XN ) E(X)  N 2 ,

ce qui implique la loi des grands nombres nonce plus haut, en prenant la limite
lorsque N tend vers linfini.
Notons que, malgr son aspect anodin, la proprit dadditivit des variances
dans le cas de variables alatoires indpendantes est la clef de la preuve ci-dessus :
a priori, on pourrait sattendre ce que la variance de X1 + . . . + XN soit une
quantit dordre N 2 , car elle fait intervenir le carr de quantits dordre N (somme
de N variables alatoires). Le fait que cette variance savre en ralit tre dordre
N (du fait de ladditivit des variances) est donc un rsultat non banal (provenant
de lindpendance des variables alatoires X1 , . . . , XN ) !

3.2.4 Quest-ce quun grand nombre ?


La loi des grands nombres telle que nous lavons nonce ci-dessus est un rsultat
asymptotique affirmant quune certaine probabilit tend vers zro lorsque N tend vers
linfini. Une question fondamentale, si lon souhaite tirer des consquences pratiques
de ce rsultat, et donc lextrapoler des valeurs de N grandes mais finies, consiste
donc se demander partir de quelle valeur de N on peut considrer lapproxima-
tion N1 (X1 + + XN ) E(X) comme satisfaisante. Daprs ce qui prcde, une
manire prcise de poser le problme est de fixer deux nombres  > 0 et 0 < < 1
et de demander quelle partir de quelle valeur de N lingalit 1
 
N 1

P N (X1 + + XN ) E(X)  , (3.1)

est valable. Comme nous lavons observ prcdemment, mais il nest peut-tre pas
inutile dinsister, on ne peut se passer ni du  ni du pour aborder cette question,
ceux-ci permettant de quantifier le approximativement () et le typiquement
() intervenant dans la loi des grands nombres.
1. Une ingalit telle que (3.1) est souvent appele ingalit de dviation.
Loi des grands nombres 289

La premire chose retenir ce sujet est la suivante : la valeur dun N tel que
lingalit ( 3.1) soit valable dpend de , de , et de la loi de X. En aucun cas il
ne peut exister de nombre N grand dans labsolu, qui permettrait de garantir que
lapproximation N1 (X1 + + XN ) E(X) est satisfaisante pour toute valeur de ,
ou de , ou de X.

Afin dillustrer ce point, voici quelques simulations effectues, comme toujours


dans ce cours, laide du logiciel R.

Les histogrammes ci-dessous reprsentent, pour diverses valeurs de N , la rpar-


tition empirique obtenue en effectuant 10000 simulations de N1 (X1 + + XN ), les
Xi tant mutuellement indpendantes et toutes de loi uniforme sur [0, 1].

Voici les histogrammes obtenus respectivement pour N = 50, N = 500 et N =


50000. On constate, conformment la loi des grands nombres, que ces histogrammes
sont de plus en plus concentrs autour de la valeur 1/2 lorsque N crot. Un tel
histogramme de la loi de N1 (X1 + + XN ) permet facilement destimer, pour un
donn, quelle est la plus petite valeur de  telle que lingalit ( 3.1) soit satisfaite, ou,
inversement, tant donn , de trouver la plus petite valeur de telle que lingalit
( 3.1) soit satisfaite (le tout pour la valeur de N correspondant lhistogramme, bien
entendu).
1500
1000
Effectif

500
0

0.2 0.3 0.4 0.5 0.6 0.7 0.8

k
290

3000
2500
2000
1500
Effectif

1000
500
0

0.2 0.3 0.4 0.5 0.6 0.7 0.8

k
1500
1000
Effectif

500
0

0.2 0.3 0.4 0.5 0.6 0.7 0.8

Effectuons prsent des simulations avec des variables alatoires Xi de loi uni-
forme sur [49, 5; 50, 5], pour lesquelles on a encore E(X) = 1/2, et donc exactement
le mme nonc de la loi des grands nombres.
Voici les histogrammes correspondant respectivement N = 500 et N = 50000,
obtenus, comme prcdemment, au cours de 10000 simulations.
Loi des grands nombres 291

3000
2500
2000
Effectif

1500
1000
500
0

6 4 2 0 2 4 6

k
1500
1000
Effectif

500
0

2 1 0 1 2

On constate que la concentration de la loi autour de 1/2 est beaucoup moins


292

nette que dans le cas des variables alatoires uniformes sur [0, 1], les fluctuations
alatoires autour de 1/2 savrant beaucoup plus importantes, de telle sorte que
lapproximation N1 (X1 + + XN ) 1/2 est nettement moins bonne (de lordre de
lunit pour N = 500, de lordre du dixime pour N = 50000).

En reprenant les mmes expriences, avec cette fois des variables alatoires uni-
formes sur [4999, 5; 5000, 5], on obtient les histogrammes suivants pour N = 500 et
N = 50000 (toujours avec 10000 tirages), les voici.
1500
1000
Effectif

500
0

200 100 0 100 200

k
Loi des grands nombres 293

2500
2000
1500
Effectif

1000
500
0

40 20 0 20 40

On constate que la concentration autour de 1/2 est encore moins nette, et que
les flucutations alatoires autour de 1/2 sont si importantes que lapproximation
1
N (X1 + + XN ) 1/2 semble perdre sa pertinence : pour N = 500, les carts se
mesurent en centaines, et en dizaines pour N = 50000.

En allant chercher des valeurs de N plus grandes, lapproximation obtenue sam-


liore. Voici par exemple lhistogramme obtenu avec N = 5000000 et 100 expriences
(on neffectue que 100 expriences au lieu de 10000 comme prcndemment, car, vu
les nombres de variables alatoires gnrer, les simulations commencent consom-
mer du temps !). On constate que les carts sont de lordre de lunit.
294

25
20
15
Effectif

10
5
0

4 2 0 2 4

En augmentant encore les valeurs de N , on parviendrait obtenir des valeurs


typiquement encore plus proches de 1/2.

Nous retiendrons de ces quelques expriences quaucune valeur de N nest suf-


fisament grande dans labsolu pour que lon puisse systmatiquement considrer
que N1 (X1 + + XN ) E(X) avec une probabilit raisonnable. Suivant les cas,
une valeur de N gale 500, 5000, ou mme 50 pourra tre suffisante pour obtenir
une approximation correcte. Dans dautres cas, mme une valeur de 5000000 pourra
donner lieu une approximation trs mdiocre. Tout ceci dpend de la loi commune
des variables alatoires Xi que lon ajoute (et naturellement aussi de la manire
prcise dont on dfinit lapproximation, par exemple : quelles valeurs de  et de
sont considres comme satisfaisantes). Nous aborderons cette question de manire
plus systmatique dans le chapitre suivant, ainsi que dans la partie de ce chapitre
consacre aux ingalits de dviation.

Remarquons simplement que, dans les exemples prcdents, plus la variable ala-
toire Xi a tendance fluctuer, plus la variable alatoire N1 (X1 + + XN ) a elle-
mme tendance fluctuer, et ceci se retrouve dans le calcul de la variance de
1
N (X1 + + XN ), qui nous a servi a prouver la loi faible des grands nombres.
Loi des grands nombres 295

3.2.5 Attention lapproximation


Comme toujours lorsque lon considre la question de lapproximation dune
quantit par une autre, il convient dtre prudent, et en tout cas prcis, quant au type
dapproximation utilis. Lune des erreurs les plus frquentes consiste confondre
approximation en valeur absolue et approximation en valeur relative, ce qui peut
conduire diverses aberrations.
Par exemple, si lon choisit un  petit devant 1, mais grand devant E(X), le fait
de savoir quavec une forte probabilit on a N1 (X1 + + XN ) E(X) <  ne

permet en aucun cas daffirmer que N1 (X1 + + XN ) /E(X) est voisin de 1 avec
forte probabilit. Il faudrait pour cela choisir  petit, non seulement devant 1, mais
galement devant E(X), ce qui est dailleurs impossible si E(X) = 0. Voir ce sujet
lexercice 161.
Notons galement que le fait que N1 (X1 + + XN ) = E(X) +  avec  << 1
nentrane certainement pas que X1 + + XN = E(X) + avec << 1. Tout ce
que lon peut dduire est que X1 + + XN = E(X) + N , et, N  peut aussi bien
tre << 1, >> 1, que de lordre de 1, suivant les cas.

3.2.6 Loi forte des grands nombres


Une autre manire dnoncer la loi des grands nombres, qui peut sembler plus
naturelle (mais nest pas mathmatiquement quivalente), est fournie par ce que
lon appelle habituellement la loi forte des grands nombres. Prcisment, celle-ci
affirme que, sous les mmes hypothses que la loi faible,
1
lim (X1 + + XN ) = E(X) avec une probabilit gale 1.
N + N

En dautres termes (cest la dfinition mme de la notion de limite) pour tout


 > 0, on pourra trouver un indice m tel que, pour tout N m, on ait

1
(X1 + + XN ) E(X) .
N

Notez que le typiquement de la formulation de la loi faible a disparu : pourvu


que N soit suffisament grand, on est certain que lcart entre N1 (X1 + + XN ) et
E(X) est infrieur . En revanche, et cest l que rside la subtilit de la formulation
de la loi forte, le suffisament grand est devenu alatoire : le nombre de rptitions
quil est ncessaire deffectuer pour que lcart devienne infrieur  est lui-mme une
variable alatoire, sur la valeur de laquelle on ne peut imposer aucune borne certaine.
En reprenant lexemple des lancers successifs dune pice de monnaie, on voit bien
que, pour tout entier k, il est possible (mme si cest trs improbable lorsque k est
grand) que la pice retombe sur face lors des k premiers lancers, et quil faille donc
296

effectuer strictement plus de k rptitions avant de parvenir un cart infrieur, par


exemple, 0, 1. Ainsi, mme avec cette formulation de la loi des grands nombres,
on ne peut en vritablement chapper au typiquement dans lnonc de la loi des
grands nombres.
Nous ne pousserons pas beaucoup plus cette discussion, si ce nest pour mention-
ner une difficult, la fois technique et conceptuelle, qui intervient dans la formula-
tion de la loi forte des grands nombres. Plaons-nous dans le contexte de lexemple le
plus simple, celui dune rptition de lancers de pile ou face. Pour pouvoir dcrire la
limite de N1 (X1 + + XN ), le modle (, P) doit dcrire la totalit des lancers don-
nant lieu X1 , X2 , . . ., soit une infinit dnombrable de lancers successifs. Lespace
peut alors naturellement tre reprsent par un arbre binaire rgulier de profondeur
infinie, les probabilits conditionnelles associes aux artes tant par exemple prises
toutes gales 1/2. Mais...cet arbre ne possde pas de feuilles, et il ny a donc pas
dventualits lmentaires dans le modle... Si lon cherche effectuer des produits
le long des rayons infinis de larbre, on obtient des probabilits dont la limite est
toujours gale zro... On peut certes tronquer larbre une certaine profondeur,
ce qui nous permet de calculer les probabilits relatives un nombre donn de lan-
cers, mais on ne peut alors rien calculer directement concernant la suite infinie des
lancers (qui intervient pourtant dans la dfinition de la limite que lon cherche
tudier). Il ne sagit pas de difficults anecdotiques, que lon pourrait contourner en
tant simplement astucieux, mais de problmes de fond qui apparaissent ds que lon
sautorise considrer des suite infinies dexpriences alatoires. Une approche satis-
faisante de ce type de problme est fournie par la thorie de Kolmogorov, qui replace
le calcul des probabilits dans le cadre de la thorie mathmatique de la mesure et
de lintgration, mais il sagit malheureusement dune thorie beaucoup trop difficile
pour que nous puissions ne serait-ce que songer laborder dans le cadre de ce cours.
Voici en revanche des illustrations exprimentales reprenant celles effectues pr-
cdemment, mais dans lesprit de la loi forte des grands nombres.
Cette fois, on effectue une simulation dun grand nombre de variables alatoires
X1 , . . . , XN indpendantes et de mme loi, et lon reprsente 1i (X1 + + Xi ) en
fonction de i pour 1 i N . Daprs la loi forte des grands nombres, on sattend
observer la convergence de la suite en question vers E(X). Rpter plusieurs fois
ce type de simulation permet de se convaincre (ou tout au moins de fournir une
illustration) du fait que cette convergence a lieu de manire systmatique. Nous vous
invitons examiner attentivement la diffrence existant entre cette reprsentation et
celle donne prcdemment.
Commenons avec des suites de variables alatoires indpendantes de loi uniforme
sur [0, 1], pour lesquelles on a donc E(X) = 1/2.
Voici une premire reprsentation graphique de 1i (X1 + + Xi ) en fonction de
i obtenue pour i allant de i = 1 i = 50. Les points ont t relis entre eux par des
Loi des grands nombres 297

portions de droite, mais il faut se rappeler quil sagit en ralit de points dont les
coordonnes horizontales sont des nombres entiers.
1.0
0.9
0.8
0.7
0.6
0.5

0 10 20 30 40 50

Conformment nos attentes, la courbe obtenue se rapproche, en gros, de 1/2


mesure que i crot. En recommenant lexprience une deuxime et une troisime
fois, on obtient les deux courbes suivantes, qui prsentent un comportement en gros
comparable (si vous avez limpression contraire, prenez garde lchelle verticale, qui
change dune figure lautre !), mais qui ne sont en aucun cas identiques. Les courbes
prsentent un caractre alatoire, mme si elles suggrent toutes la convergence vers
1/2.
298

0.75
0.70
0.65
0.60
0.55
0.50

0 10 20 30 40 50
0.65
0.60
0.55
0.50
0.45

0 10 20 30 40 50

Voici prsent les courbes obtenues en suivant le mme principe, mais avec i
Loi des grands nombres 299

allant de 1 500.
0.5
0.4
0.3
0.2
0.1

0 100 200 300 400 500


0.5
0.4
0.3
0.2
0.1

0 100 200 300 400 500


300
0.6
0.5
0.4
0.3

0 100 200 300 400 500

En recommenant avec i allant de 1 50000, et en restreignant lchelle verticale


(si bien que certaines portions de la courbe dpassent du cadre de la figure et sont
donc tronques, mais que lon en observe plus prcisment la fin), on obtient les
courbes suivantes.
0.54
0.52
0.50
0.48
0.46

0 10000 20000 30000 40000 50000


Loi des grands nombres 301

0.54
0.52
0.50
0.48
0.46

0 10000 20000 30000 40000 50000


0.54
0.52
0.50
0.48
0.46

0 10000 20000 30000 40000 50000

Globalement, on observe que, dans chaque exprience, les courbes obtenues se


rapprochent de 1/2 lorsque i crot, en prsentant des fluctuations alatoires dampli-
tude de plus en plus faible autour de cette valeur.

Reprenons lexprience, mais avec des variables alatoires de loi uniforme sur
[49, 5; 50, 5],

Voici le trac de 1i (X1 + + Xi ) en fonction de i pour 1 i N , avec N = 500


et N = 50000 (les chelles sont tronques verticalement).
302
4
2
0
2
4

0 100 200 300 400 500


0.8
0.7
0.6
0.5
0.4
0.3
0.2

0 10000 20000 30000 40000 50000

En reprenant les mmes expriences, avec des variables alatoires uniformes sur
[4999, 5; 5000, 5], on obtient les graphiques suivants (trac de 1i (X1 + + Xi ) en
fonction de i pour 1 i N , pour N = 500 puis N = 50000, avec chelles sont
tronques verticalement).
Loi des grands nombres 303

400
200
0
200
400

0 100 200 300 400 500


50
0
50

0 10000 20000 30000 40000 50000

On observe le mme phnomne que dans les simulations prcdentes, savoir


le ralentissement de la convergence mesure que lamplitude des fluctuations de X
augmente.

3.2.7 Robustesse

Nous avons nonc la loi (faible) des grands nombres dans le contexte dune rp-
tition indpendante de modles probabilistes, donnant lieu des variables alatoires
X1 , . . . , XN mutuellement indpendantes, de mme loi, et pour lesquelles lesprance
est dfinie. Il est naturel de sinterroger sur la robustesse de la loi des grands nombres
304

vis--vis de ce cadre particulier. Que se passe-t-il lorsque lon considre des variables
alatoires qui prsentent entre elles une certaine dpendance, ne sont plus exactement
distribues de la mme faon, ou pour lesquelles lesprance nest pas dfinie ?
De manire gnrale, il existe un trs grand nombre de rsultats dont la formula-
tion sapparente celle de la loi des grands nombres que nous avons prsente, et qui
tendent celle-ci dans diverses directions. Plutt quun rsultat unique, le terme de
loi des grands nombres dsigne donc un vaste ensemble de rsultats qui diffrent
par la nature exacte de leurs hypothses et la forme prcise de leurs conclusions.
Tous ont en commun le fait dnoncer que la somme dun grand nombre de variables
alatoires, sous certaines hypothses qui caractrisent la dpendance existant entre
celles-ci, ainsi que lordre de grandeur des valeurs que ces variables peuvent prendre,
conduit, aprs une normalisation adquate (en gnral le nombre de variables pr-
sentes dans la somme), une valeur essentiellement constante et dterministe (non-
alatoire). Dans lnonc que nous avons donn prcdemment, la dpendance entre
les variables est caractrise par le fait que celles-ci sont indpendantes, et lhypo-
thse concernant lordre de grandeur des valeurs prises est que celles-ci possdent
toutes la mme loi, dont lesprance est dfinie.
Dans la discussion qui suit, nous tenterons simplement dillustrer sur quelques
exemples principalement par simulation , la robustesse, ou, au contraire, la non-
robustesse, de la loi des grands nombres, vis--vis de certaines altrations du contexte
simple dans lequel nous lavons nonce.

3.2.8 Lhypothse de rptition indpendante

La loi des grands nombres continue de sappliquer lorsque les variables alatoires
X1 , . . . , XN que lon tudie sont produites au cours dune succession dexpriences
qui ne sont ni exactement indpendantes, ni dcrites individuellement par des mo-
dles exactement semblables, mais satisfont cependant ces hypothses de manire
approche. Lorsque lon scarte trop de ces hypothses en revanche, la loi des grands
nombres cesse en gnral dtre valable.
Donner une formulation mathmatique prcise de ce que peut tre une succession
approximativement indpendante dexpriences approximativement semblables, et
plus encore de prouver la loi des grands nombres dans ce contexte ou tenter de
dterminer prcisment la frontire partir de laquelle la loi des grands nombres ne
sapplique plus dpasse largement le cadre de ce cours.
Nous dcrivons simplement dans ce qui suit trois situations dans lesquelles des
suites de variables alatoires possdant chacune exactement la mme loi, mais pr-
sentant des degrs de dpendance varis, prsentent ou non un comportement du
type dcrit par la loi des grands nombres.
Loi des grands nombres 305

Une pice normale

A titre de comparaison, commenons par une pice dont les lancers successifs
sont dcrits par une suite de variables alatoires indpendantes de loi de Bernoulli
de paramtre 1/2 : P(Xi = P) = P(Xi = F) = 1/2. La proportion de F obtenue au
cours des N premiers lancers peut scrire

f (X1 ) + + f (XN )
TN = ,
N

en posant f (F) = 1 et f (P) = 0.

Voici dabord les histogrammes obtenus en effectuant 1000 simulations de TN ,


avec N = 100, 1000, 10000.

Proportion de F sur 100 lancers


150
100
Effectif

50
0

0.35 0.40 0.45 0.50 0.55 0.60 0.65

Proportion de F
306

Proportion de F sur 1000 lancers


250
200
150
Effectif

100
50
0

0.46 0.48 0.50 0.52 0.54 0.56

Proportion de F

Proportion de F sur 10000 lancers


300
200
Effectif

100
0

0.480 0.485 0.490 0.495 0.500 0.505 0.510 0.515

Proportion de F

A prsent, six exemples de simulation de tracs de i 7 Ti (en resserrant lchelle


verticale pour les trois derniers, de faon pouvoir distinguer prcisment lcart
la valeur limite 1/2).
Loi des grands nombres 307

1.0
0.8
(f(X1)+...+f(Xi))/i

0.6
0.4
0.2

0 2000 4000 6000 8000 10000

i
0.6
(f(X1)+...+f(Xi))/i

0.4
0.2
0.0

0 2000 4000 6000 8000 10000

i
308
(f(X1)+...+f(Xi))/i (f(X1)+...+f(Xi))/i

0.46 0.48 0.50 0.52 0.54 0.0 0.1 0.2 0.3 0.4 0.5

0
0

2000
2000

4000
4000

i
i

6000
6000

8000
8000

10000
10000
(f(X1)+...+f(Xi))/i (f(X1)+...+f(Xi))/i

0.46 0.48 0.50 0.52 0.54 0.46 0.48 0.50 0.52 0.54

0
0
Loi des grands nombres

2000
2000

4000
4000

i
i

6000
6000

8000
8000

10000
10000
309
310

Une pice de monnaie obstine

On suppose que lon a affaire une pice de monnaie obstine possdant la pro-
prit suivante : une fois la pice sortie de sa bote, le premier lancer est effectivement
alatoire, pouvant donner pile ou face avec une probabilit gale 1/2, mais, au cours
de tous les lancers suivants, la pice se souvient du rsultat de son premier lancer, et
sarrange toujours pour retomber exactement du mme ct. Si lon note X1 , . . . , XN
les rsultats des N premiers lancers de la pice, on se trouve ici dans un cas extrme
de non-indpendance : la valeur de Xi+1 est toujours gale la valeur de Xi . En
revanche, les lancers sont tous dcrits individuellement par une loi de Bernoulli de
paramtre 1/2 : P(Xi = P) = P(Xi = F) = 1/2. La proportion de F obtenue au
cours des N premiers lancers peut scrire
f (X1 ) + + f (XN )
TN = ,
N
en posant f (F) = 1 et f (P) = 0.
Bien entendu, la loi des grands nombres ne sapplique pas TN , puisque la
suite des rsultats obtenus est soit exclusivement constitue de P, soit exclusivement
constitue de F.
Rptons un grand nombre de fois (mettons 1000) lexprience consitant sortir
la pice obstine de sa bote et effectuer 100 lancers successifs. Lhistogramme
obtenu pour TN est le suivant :

Proportion de F sur 100 lancers


500
400
300
200
100
0

0.0 0.2 0.4 0.6 0.8 1.0

traduisant le fait que lon obtient soit 0% soit 100% de P, avec une probabilit
de 1/2.
Si lon trace lvolution de Ti en fonction de i pour i variant de 1 N , on obtient
environ la moiti du temps le graphe suivant :
Loi des grands nombres 311

100
80
60
Proportion de F

40
20
0

0 20 40 60 80 100

Nombre de lancers

et lautre moiti du temps le graphe suivant :


1.0
0.5
Proportion de F

0.0
0.5
1.0

0 20 40 60 80 100

Nombre de lancers

A comparer aux graphiques que lon obtenait dans le cadre dune rptition
indpendante !
312

Une pice moins obstine

Considrons prsent une autre pice obstine, conservant galement la mmoire


de ses lancers passs, mais de manire moins stricte que la prcdente. Spcifique-
ment, une fois la pice sortie de sa bote, le premier lancer effectu est alatoire,
donnant pile ou face avec une probabilit gale 1/2. Ensuite, pour tout i 1, tant
donns les rsultats des i premier lancers, le i + 1me lancer se droule de la faon
suivante : la pice reproduit le rsultat du ime lancer avec une probabilit p fixe,
et produit le rsultat inverse avec une probabilit 1 p. Si p est gal 1, la pice
se comporte comme celle tudie dans le paragraphe prcdent. Si p = 0, on obtient
une alternance stricte de P et de F. Nous supposerons dans la suite que 0 < p < 1.
Si 1/2 < p < 1, la pice conserve sa tendance redonner lors dun lancer la valeur
obtenue lissue du lancer prcdent, mais de manire moins stricte que dans le cas
prcdent. Si p = 1/2, on retrouve une suite de rptitions indpendantes de lancers
de Bernoulli. Enfin, si 0 < p < 1/2, la pice a tendance produire lors dun lancer
un rsultat invers par rapport au lancer prcdent.

Les variables alatoires X1 , . . . , XN ne sont donc pas indpendantes lorsque p 6=


1/2, puisque le rsultat obtenu au cours dun lancer affecte la loi de probabilit
attache au lancer suivant. Cependant, il semble clair que, si k est suffisament grand,
le rsultat du lancer i + k doit tre approximativement indpendant du rsultat du
lancer i, car la mmoire du rsultat du lancer i est de plus en plus brouille au fur
et mesure que les lancers se rptent (voir ce sujet lexercice 65). Il existe donc
une certaine forme dindpendance approche entre les rsultats suffisament loigns
dans la squence des lancers.

On peut par ailleurs facilement vrifier que, pris de manire individuelle, les
lancers sont dcrits par une loi de Bernoulli de paramtre 1/2 : P(Xi = P) = P(Xi =
F) = 1/2.

Il se trouve que, quelle que soit la valeur de p ]0, 1[ dans ce modle, la loi des
grands nombres est effectivement vrifie par la proportion de P obtenue aprs N
lancers, que nous notons TN comme dans le paragraphe prcdent.

Prenons par exemple p = 0, 7.

En effectuant 1000 simulations de 100 lancers, on obtient lhistogramme suivant


pour la proportion de F.
Loi des grands nombres 313

p=0.7, 100 lancers


250
200
150
Effectif

100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

Voici maintenant lhistogramme obtenu en effectuant 1000 simulations de 1000


lancers.

p=0.7, 1000 lancers


150
100
Effectif

50
0

0.0 0.2 0.4 0.6 0.8 1.0

Et enfin lhistogramme obtenu en effectuant 1000 simulations de 10000 lancers.


314

p=0.7, 10000 lancers


250
200
150
Effectif

100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

Un exemple de trac de la proportion de F en fonction du nombre de lancers est


donn par le graphique suivant.

p=0.7
1.0
0.9
0.8
Proportion de F

0.7
0.6
0.5
0.4

0 200 400 600 800 1000

Nombre de lancers

On constate bien sur ces graphiques un comportement de type loi des grands
nombres, la proportion de pile se concentrant autour de la valeur 1/2 lorsque lon
effectue un grand nombre de lancers.
En prenant par exemple p = 0, 95, on constate le mme type de phnomne,
mais avec une convergence plus lente se manifester, consquence de la plus forte
similarit entre valeurs successives.
Voici lhistogramme obtenu pour la proportion de F en effectuant 1000 simula-
tions de 100 lancers.
Loi des grands nombres 315

p=0.95, 100 lancers


150
100
Effectif

50
0

0.0 0.2 0.4 0.6 0.8 1.0

Avec 1000 simulations de 1000 lancers :

p=0.95, 1000 lancers


300
250
200
Effectif

150
100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

Avec 1000 simulations de 10000 lancers :


316

p=0.95, 10000 lancers


150
100
Effectif

50
0

0.0 0.2 0.4 0.6 0.8 1.0

La plus forte dpendance entre valeurs successives se traduit donc ici par une
convergence plus lente.
En prenant p = 0, 2, on observe encore constate le mme type de phnomne,
mais avec une convergence qui se manifeste de manire plus rapide. En effet, les
rsultats des lancers successifs ont tendance alterner plus souvent que dans le cas
de lancers indpendants, ce qui stabilise plus rapidement autour de 1/2 la proportion
de F.
Voici lhistogramme obtenu avec 1000 simulations de 100 lancers.

p=0.2, 100 lancers


300
250
200
Effectif

150
100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

Puis 1000 simulations de 1000 lancers :


Loi des grands nombres 317

p=0.2, 1000 lancers


200
150
Effectif

100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

Et enfin 1000 simulations de 10000 lancers :


p=0.2, 10000 lancers
300
250
200
Effectif

150
100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

En conclusion, dans cet exemple, la dpendance entre valeurs successives reste


suffisament modre pour que la loi des grands nombres demeure valable, la vitesse
de convergence tant manifestement affecte par cette dpendance.

Encore une pice obstine

Considrons prsent une pice dont les lancers successifs sont relis entre eux
de la manire suivante. Une fois la pice sortie de sa bote, le premier lancer effectu
est alatoire, donnant pile ou face avec une probabilit gale 1/2. Ensuite, pour
318

tout i 1, tant donns les rsultats des i premier lancers, le i + 1me lancer se
droule de la faon suivante : la pice accorde P une probabilit proportionnelle
1 + Ni (P ) et F une probabilit proportionnelle 1 + Ni (F ), Ni (P ) et Ni (F )
dsignant respectivement les nombres de fois o P et F sont sortis au cours des
i premiers lancers, et > 0 dsignant un paramtre. En dautres termes, chaque
nouveau lancer donnant lieu un F renforce dune valeur gale le poids accord
F dans les futurs lancers, et il en va de mme pour P. On peut vrifier facilement
que, pris de manire individuelle, les lancers sont dcrits par une loi de Bernoulli de
paramtre 1/2 : P(Xi = P) = P(Xi = F) = 1/2.

Voici quelques exemples de simulations effectues avec = 2.

Avec 1000 simulations de 100 lancers, on obtient lhistogramme suivant pour la


proportion de F.

Delta=2, 100 lancers


200
150
Effectif

100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

Avec 1000 simulations de 1000 lancers :


Loi des grands nombres 319

Delta=2, 1000 lancers


200
150
Effectif

100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

Avec 1000 simulations de 10000 lancers :

Delta=2, 10000 lancers


200
150
Effectif

100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

Manifestement, les proportions de F obtenues nont pas tendance se concen-


trer autour dune valeur fixe mesure que N augmente, les histogrammes obtenus
tant en gros identiques pour N = 100, 1000, 10000. La dpendance entre les lan-
cers successifs met donc la loi des grands nombres en dfaut, au moins daprs nos
simulations.
Voici prsent des simulations effectues avec = 0, 2, soit une dpendance plus
faible des lancers vis--vis des rsultats des lancers prcdents.
Avec 1000 simulations de 100 lancers :
320

Delta=0.2, 100 lancers


200
150
Effectif

100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

Avec 1000 simulations de 1000 lancers :

Delta=0.2, 1000 lancers


200
150
Effectif

100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

Avec 1000 simulations de 10000 lancers :


Loi des grands nombres 321

Delta=0.2, 10000 lancers


250
200
150
Effectif

100
50
0

0.0 0.2 0.4 0.6 0.8 1.0

Les histogrammes obtenus sont plus resserrs autour de la valeur 1/2 que dans
le cas = 2, mais on nobserve, ici non plus, aucun resserrement lorsque la valeur
de N crot.

Donnons prsent quelques reprsentations de Ti en fonction de i, dans lesprit


de la loi forte des grands nombres.

Voici trois courbes obtenues en simulant les lancers avec = 2.

Delta=2
1.0
0.8
0.6
Proportion de F

0.4
0.2
0.0

0 200 400 600 800 1000

Nombre de lancers
322

Delta=2
1.0
0.8
0.6
Proportion de F

0.4
0.2
0.0

0 200 400 600 800 1000

Nombre de lancers

Delta=2
1.0
0.8
0.6
Proportion de F

0.4
0.2
0.0

0 200 400 600 800 1000

Nombre de lancers

Voici trois courbes obtenues en simulant les lancers avec = 0.5.


Loi des grands nombres 323

Delta=0.5
1.0
0.8
0.6
Proportion de F

0.4
0.2
0.0

0 200 400 600 800 1000

Nombre de lancers

Delta=0.5
1.0
0.8
0.6
Proportion de F

0.4
0.2
0.0

0 200 400 600 800 1000

Nombre de lancers
324

Delta=0.5
1.0
0.8
0.6
Proportion de F

0.4
0.2
0.0

0 200 400 600 800 1000

Nombre de lancers

De manire remarquable, ces graphiques suggrent que la suite Ti converge effecti-


vement lorsque i tend vers linfini, mais que la limite est une variable alatoire, ce qui
ne correspond bien entendu pas au comportement dcrit par la loi forte des grands
nombres, qui nonce la convergence vers une valeur dterministe (non-alatoire).
Nous vous suggrons de rexaminer ces rsultats la lueur de lexercice 134, afin
dobtenir une comprhension thorique des phnomnes illustrs ici par simulation.

3.2.9 Lexistence de lesprance


Dans les trois exemples prcdents, nous avons considr des sommes de variables
alatoires, certes dpendantes entre elles, mais ne pouvant prendre que les valeurs
0 et 1, et en fait toutes de loi de Bernoulli de paramtre 1/2, ce qui assurait bien
entendu lexistence de lesprance.
Posons-nous prsent la question, dans le cas de rptitions indpendantes dune
variable alatoire, de la robustesse de la loi des grands nombres vis--vis de lexistence
de lesprance. Un exemple classique de loi pour laquelle lesprance nest pas dfinie
est la loi de Cauchy (voir le chapitre Variables alatoires).
La densit de la loi tant symtrique par rapport laxe dquation x = 0, on
pourrait cependant sattendre ce que les valeurs positives et ngatives prises par
les Xi se compensent de manire ce que les valeurs de N1 (X1 + + XN ) soient
concentres autour de la valeur 0. Les simulations suivantes illustrent le fait que ce
nest pas du tout ainsi que les choses se passent.
Voici les histogrammes (tronqus sur lchelle horizontale) obtenus par simulation
pour la loi de N1 (X1 + + XN ), les Xi tant des variables alatoires mutuellement
indpendantes de loi de Cauchy de paramtre s = 1 et ` = 0.
Loi des grands nombres 325

Avec 1000 simulations et N = 100.

loi de (X1+...+XN)/N, N=100


150
100
Effectif

50
0

10 5 0 5 10

Avec 1000 simulations et N = 1000,

loi de (X1+...+XN)/N, N=1000


150
100
Effectif

50
0

10 5 0 5 10

Avec 1000 simulations et N = 10000.


326

loi de (X1+...+XN)/N, N=10000


150
100
Effectif

50
0

10 5 0 5 10

Avec 1000 simulations et N = 100000.

loi de (X1+...+XN)/N, N=100000


150
100
Effectif

50
0

10 5 0 5 10

Certes, les histogrammes sont obtenus ont en gros la forme de pics symtriques
par rapport laxe x = 0, mais lon ne constate aucun phnomne de concentration
de la loi autour dune valeur fixe mesure que N crot.

Si lon trace lvolution de 1i (X1 + + Xi ) en fonction de i pour i variant de 1


N , on obtient par exemple les courbes suivantes, avec N = 1000.
Loi des grands nombres 327

4
3
(X1+...+Xi)/i

2
1
0

0 200 400 600 800 1000

i
3
2
1
(X1+...+Xi)/i

0
1
2
3

0 200 400 600 800 1000

i
328

3
2
(X1+...+Xi)/i

1
0
1

0 200 400 600 800 1000

Ces quelques exemples sont destins illustrer que la loi des grands nombres ne
sapplique plus lorsque lesprance nest pas dfinie.
On notera la diffrence par rapport au comportement observ dans le troisime
exemple de pice obstine : mme si, dans le cas prsent les histogrammes restent
peu prs identiques lorsque N crot, les courbes 1i (X1 + + Xi ) en fonction de i
ne montrent, en revanche, aucun signe de convergence vers une valeur dfinie, ft-
elle alatoire. On notera galement sur les trois derniers tracs le fait que quelques
sauts de la courbe suffisent apporter une contribution importante sa position
finale : quelques valeurs de Xi sont suffisament importantes pour chambouler la
valeur moyenne obtenue sur un jeu pourtant important dobservations !
Il est naturel de se demander ce que signifie concrtement le fait quune quantit
soit modlise par une variable alatoire dont lesprance nest pas dfinie : dans la
plupart des situations relles, les quantits que lon considre sont en ralit bornes,
mme si les bornes correspondantes peuvent prendre des valeurs extrmement leves,
si bien que lesprance devrait toujours tre dfinie. Disons, sans donner beaucoup
plus de prcision, quen pratique, lamplitude des fluctuations des variables alatoires
que lon ajoute peut tre si importante que lon ne peut pas sattendre observer
un comportement du type dcrit par la loi des grands nombres lorsque lon considre
des sommes dun nombre raisonnable de telles variables alatoires. Cette question (
partir de quelle valeur de N peut-on, dans un contexte donn, considrer que la loi
Loi des grands nombres 329

des grands nombres fournit une approximation raisonnable du comportement rel)


est par exemple aborde dans le paragraphe sur les ingalits de concentration et
le chapitre sur le thorme de la limite centrale du chapitre suivant. Elle rejoint la
discussion du paragraphe Quest-ce quun grand nombre ?.

3.2.10 Position de la loi des grands nombres


La loi des grands nombres - celle que nous avons nonce, comme ses diverses
extensions et variantes, donne souvent lieu des interprtations ou des commentaires,
parfois errons, et souvent discutables, et ce, au moins depuis la parution de la
premire preuve formelle de ce rsultat en 1713 dans lArs Conjectandi de Jacques
Bernoulli.
Afin de prciser les choses, voici un bref commentaire visant situer ce rsultat,
sa porte, et les interprtations que lon peut en donner.
Nous nous limiterons, pour simplifier, discuter le cas la loi des grands nombres
pour les indicatrices dvnments, qui est presque le cas gnral, (voir lexercice 91).
Soulignons tout dabord que, dans le cadre de ce cours, la loi des grands nombres
est un thorme de mathmatiques, nonant une proprit prouve de certains ob-
jets mathmatiques, savoir les rptitions indpendantes de modles probabilistes.
Nous avons donn une preuve mathmatique de ce rsultat (moyennant lhypothse
simplificatrice que les variables alatoires considres ont une variance dfinie, qui
est en particulier toujours vrifie dans le cas de fonctions indicatrices).
Lapplication de la loi des grands nombres une situation relle suppose donc
que lon puisse, de manire valable, reprsenter cette situation au moyen dun modle
mathmatique auquel la loi des grands nombres sapplique. A son tour, la question
de la validit dun tel modle, et donc des consquences quil est possible den tirer,
na de sens quune fois prcise la traduction concrte de la notion de probabilit
dans le contexte tudi.
Commenons par nous placer dans une interprtation rigoureusement frquen-
tielle de la probabilit. Pour interprter ainsi la probabilit PN sur N , on doit
considrer un grand nombre de rptitions de la srie des N expriences dcrites
par N . Insistons : chaque rptition dont il est question dans linterprtation
frquentielle de la probabilit sur N est constitue par N rptitions de lex-
prience dcrite par . La probabilit PN sur N est alors cense dcrire, dans la
limite dun grand nombre de rptitions des N expriences rptes dcrites par N ,
la frquence avec laquelle les diffrents lments (1 , . . . , N ) N surviennent.
Bien entendu, la faon dont sont rptes les squences de N expriences doit
tre dcrite prcisment, et il faut disposer dassurances concernant le fait que les
frquences se stabilisent effectivement autour dune valeur limite lorsque lon effec-
tue des rptitions de cette faon. Ce quaffirme la loi des grands nombres dans ce
330

contexte est que, si les frquences limites avec lesquelles apparaissent les lments de
N sont donnes par PN , la frquence limite avec laquelle on observe des squences
de N expriences vrifiant N1 (X1 + + XN ) E(X)  tend vers zro lorsque

N tend vers linfini, pour tout  > 0 fix (ceci pouvant ventuellement tre quantifi
au moyen dingalits de dviation).
En pratique cependant, cest rarement ainsi que lon applique la loi des grands
nombres : on considre gnralement une seule rptition de N expriences, et lon
considre comme plausible le fait que

1
(X1 + + XN ) E(X) < 
N

si  
N
1
P (X1 + + XN ) E(X) 
N

est suffisament petit, cest--dire lorsque N est suffisament grand (ceci pouvant ven-
tuellement tre quantifi au moyen dingalits de dviation). Autrement dit, une
telle application de la loi des grands nombres suppose que lon interprte les fr-
quences de long terme (relatives de nombreuses rptitions de squences de N ex-
priences) comme des mesures de plausibilits individuelles attaches aux diffrents
tirages dune telle squence. Soulignons que le caractre rationnel et la pertinence de
cette interprtation ne sont pas forcment assurs.
A ce stade, largument que nous venons dexposer peut sembler sans objet. En
effet, nous sommes partis de lhypothse selon laquelle, lorsque lon rpte un grand
nombre de fois (dans des conditions contrles) une srie de rptitions de N exp-
riences, dcrite par N , la frquence de long terme des lments de N est dcrite par
PN . Mais ceci entrane automatiquement que, lors de la rptition (dans les mmes
conditions contrles) dun grand nombre dexpriences dcrites par (et non plus
dune srie de N telles expriences), la frquence de long terme avec laquelle un
lment apparat doit tre donne par P(). Nul besoin de loi des grands
nombres pour parvenir ce rsultat : cest une simple consquence de notre hypo-
thse concernant linterprtation frquentielle de la probabilit. Quapporte alors la
loi des grands nombres ? Selon nous, une rponse possible est que la loi des grands
nombres fait entrer ltude des sries de N expriences dans le cadre de la
modlisation probabiliste, et peut ainsi non seulement confirmer le fait que la r-
ptition de N expriences doit conduire, lorsque N est grand, des frquences limites
donnes par P, mais fournir des mesures quantitatives de la plausibilit dun cart
donn par rapport une telle frquence limite, par exemple au moyen dingalits
de dviation.
Dans linterprtation de la probabilit comme mesure de plausibilit attache
aux vnements, la loi des grands nombres stipule simplement que, si lon considre
Loi des grands nombres 331

une rptition de situations que lon envisage comme indpendantes vis--vis des
plausibilits qui en caractrisent les issues, chaque situation tant dcrite par la mme
affectation de plausibilit aux diffrentes issues, on doit considrer comme fortement
plausible, lorsque lon effectue un grand nombre de rptitions, que la frquence avec
laquelle un vnement se produit soit voisine de la plausibilit quon lui attribue.
La porte de ce rsultat dpend naturellement de la pertinence des affectations des
plausibilits aux diffrentes issues.
Voici pour finir une petite liste commente dides, vraies ou fausses, au sujet de
la loi des grands nombres.
La loi des grands nombres est un thorme de mathmatiques. Cest vrai.
Telle que nous lavons nonce, la loi des grands nombres est une proprit
de certains objets mathmatiques, les rptitions indpendantes de modles
probabilistes, et nous en avons donn une preuve (moyennant lhypothse sim-
plificatrice que les variables alatoires considres ont une variance dfinie).
La loi des grands nombres est une loi de la Nature affirmant que, lors dex-
priences rptes, la frquence avec laquelle un vnement se produit tend
vers une valeur limite. Cest faux dans le contexte qui est le ntre ici : la
loi des grands nombres est un rsultat mathmatique portant sur des modles
mathmatiques de situations relles, et non pas une loi au sens dune loi de la
Nature. Lapplication une situation relle de la loi des grands nombres que
nous avons prouve suppose que le modle mathmatique dont elle est dduite
donne une description correcte de la situation considre. Ceci suppose une
interprtation concrte de la notion de probabilit, qui, la plupart du temps,
contient dj le fait que les frquences limites se stabilisent, et na donc pas
de rapport direct avec la loi des grands nombres que nous avons prouve, et
doit tre tablie sur dautres bases. Cependant, on utilise parfois le terme de
loi des grands nombres pour dsigner cette proprit de stabilisation des
frquences. Rappelons que cette proprit de stabilit des frquences lors dun
grand nombre de rptitions nest en aucun cas une loi gnrale, et dpend du
contexte et de la manire dont sont rptes les expriences.
La loi des grands nombres est un thorme qui prouve que, lors dexpriences
rptes, la frquence avec laquelle un vnement se produit tend vers une va-
leur limite. Daprs ce que nous avons dit auparavant, certainement pas. Tout
dpend de la validit du modle dont est dduite la loi des grands nombres, et
la validit de ce modle suppose en gnral dj que les frquences se stabilisent
autour dune valeur limite.
La loi des grands nombres est une vidence. Non, ou alors peut-tre pour
vous seul, car il a fallu les efforts de nombreux mathmaticiens pour en apporter
des preuves gnrales satisfaisantes. Considrer ce rsultat comme vident peut
rsulter dune confusion entre le contenu rel de la loi des grands nombres (un
332

thorme mathmatique) et lexprience concrte ou tout au moins lintuition


selon laquelle, par exemple, la frquence dapparition de pile et face doit se
stabiliser au cours dun grand nombre de lancers.
La loi des grands nombres permet de donner une dfinition rigoureuse de la
probabilit comme limite de la frquence au cours dun grand nombre dexp-
riences rptes. Eh, non ! La loi des grands nombres suppose dfinie la notion
de probabilit (et ce qui laccompagne : indpendance, variable alatoire, etc...),
et, partir dhypothses formules en termes de probabilits (rptitions in-
dpendantes), prouve un rsultat lui-mme formul en termes de probabilits.
On ne peut pas dfinir la probabilit en supposant dj connue la notion de
probabilit !
il est vident que si on lance une pice de monnaie quilibre de manire r-
pte la frquence observe de face (et de pile) doit tre voisine de 1/2. Non
(ou alors peut-tre pour vous seulement). Avez-vous ralis vous-mme ce type
dexpriences ? Que savez-vous de la physique du lancer dune pice de mon-
naie ? Vous pouvez consulter ce sujet larticle de Diaconis et al. cit dans la
bibliographie.
Il est absurde de vouloir prouver la loi des grands nombres partir du for-
malisme de la thorie des probabilits, alors que lon sest dj appuy, pour
justifier ce formalisme, sur une dfinition de la probabilit comme limite de la
frquence au cours dun grand nombre dexpriences rptes. Cest faux. Tout
dabord, le formalisme de la thorie des probabilits est galement justifi par
linterprtation en termes de plausibilit, qui ne fait pas rfrence la notion de
frquence, et dans laquelle la loi des grands nombres a parfaitement sa place.
Dautre part, dans le cadre de linterprtation en termes de frquence, la loi des
grands nombres a un sens bien prcis, qui nest pas redondant avec lhypothse
de stabilit des frquences, comme lexplique la discussion mene plus haut.
la loi des grands nombres nest quun thorme de mathmatiques. Cest faux
dans la mesure o les objets mathmatiques dont elle traite servent de modles
pour dcrire des situations relles. La porte pratique de la loi des grand nombre
est exactement celle des modles auxquels elle peut sappliquer.

3.3 Applications

Dans cette partie, nous prsentons quelques applications concrtes de la loi des
grands nombres, quil sagisse exactement de celle que nous avons nonce, ou plus
largement de rsultats entrant dans la mme catgorie.
Loi des grands nombres 333

3.3.1 Lassurance et la mutualisation du risque


Le principe fondamental de lassurance repose sur la loi des grands nombres.
Considrons par exemple le risque associ aux dgts qui peuvent tre causs un
vhicule au cours dune anne (vol, accident, vandalisme,...) Pour un individu donn,
la perte financire associe un tel risque peut tre reprsente par une variable
alatoire. Avec une assez forte probabilit, le vhicule ne subit aucun dgt, et la va-
riable alatoire reprsentant la perte est donc nulle dans ce cas. Avec une probabilit
trs faible, le vhicule est vol ou compltement dtruit, ce qui reprsente une perte
financire importante, mais peu probable. De petits dgts, reprsentant une perte
moindre, possderont une probabilit plus importante. Globalement, ceci se traduit
par le fait que lesprance de la perte possde une valeur faible en comparaison des
pertes considrables quoccasionnerait un dgt srieux. Par exemple (en euros), la
perte financire pourrait tre modlise par une variable alatoire X de loi :

5 50
P(X = 15000) = , P(X = 1000) = ,
1000 1000
150 795
P(X = 200) = , P(X = 0) = ,
1000 1000
dont lesprance est gale :

5 50 150 795
E(X) = 15000 + 1000 + 200 + 0 = 155,
1000 1000 1000 1000
et possde donc une valeur nettement plus faible que la plupart des pertes possibles.
Cependant, un individu isol nest confront qu une seule ralisation de la
variable alatoire X, relative son propre vhicule, et la valeur moyenne de X na que
peu de sens pour cet individu pris isolment : avec une probabilit faible, mais non-
ngligeable, il doit accepter dtre confront lventualit dune perte considrable,
bien suprieure 155 euros, que rien ne viendra compenser. Il est ainsi soumis un
risque individuel, alatoire, et potentiellement important.
Le principe de lassurance consiste mutualiser les risques attachs un grand
nombre dindividus diffrents, de faon liminer compltement le risque alatoire
individuel, moyennant le versement dune prime fixe lavance. Le montant total
des pertes subies par N individus est gal :

M = X1 + + XN ,

o Xi dsigne la perte subie par lindividu numro i. Si chaque individu accepte de


verser lavance une compagnie dassurance une somme lgrement suprieure
la perte moyenne, par exemple 160 euros, le montant total des sommes collectes par
lassurance slve N 160.
334

En admettant que les pertes des diffrents individus sont indpendantes, la loi
des grands nombres entrane alors que, si N est suffisamment grand, le montant total
M de la perte est infrieur au total des primes collectes : avec une probabilit trs
proche de 1,

1
(X1 + + XN ) 155 < 5,
N

do le fait que :
M < 160 N

avec une trs forte probabilit. Par consquent, largent collect auprs des N indi-
vidus permet de compenser intgralement la perte alatoire subie par chacun des N
individus, et le risque individuel est ainsi annul. Cest le principe de la mutualisation
du risque : la somme des risques individuels associs chaque individu donnant lieu
une valeur totale quasiment certaine, celle-ci peut donc tre value lavance, et
chaque individu na qu payer de faon certaine une somme lgrement suprieure
au risque moyen, pour tre compltement couvert avec une quasi-certitude. (Bien
entendu, les choses sont moins simples en pratique. Par exemple , il peut exister
plusieurs types diffrents de couverture, les assurs peuvent tre rpartis en catgo-
ries correspondant diffrents niveaux de risque, la question de lala moral et des
franchises appliquer doit entrer en ligne de compte, ainsi que des considrations
commerciales,..., mais le principe de base est bien celui de la loi des grands nombres.)
Lvaluation du risque moyen (cest entre autres le mtier des actuaires) est donc
fondamentale pour les compagnies dassurances, et fait galement appel la loi des
grands nombres : en tudiant le montant total des pertes subies par un grand nombre
dindividus, on peut valuer prcisment la valeur moyenne de la perte. La diffrence
entre la prime verse et le risque moyen sexplique au moins par deux contributions
distinctes : la ncessit de garantir que les pertes subies ne dpasseront le montant
des primes collectes quavec une probabilit extrmement faible (il sagit donc de
prciser le  et le ), et, dautre part, les frais de fonctionnement, salaires, provisions,
etc... la charge de la compagnie dassurance (sans oublier les bnfices sil ne sagit
pas dune mutuelle). Evaluer correctement les provisions ncessaires pour rendre suf-
fisament faible le risque dinsolvabilit de la compagnie dassurance est bien entendu
une question importante en pratique !
Par ailleurs, il est clair que tous les risques ne se prtent pas une mutualisation
de ce type : des phnomnes exceptionnels (tels que catastrophes naturelles, guerres,
grandes crises conomiques, pidmies,...), qui affectent simultanment un trs grand
nombre de personnes, voire la totalit dune population, nentreront pas forcment
correctement dans le cadre dcrit ci-dessus (des risques limpact suffisament limit
et affectant suffisament peu de personnes en mme temps).
Loi des grands nombres 335

3.3.2 Sondages
Lorsque lon dcrit une exprience effectivement susceptible dtre rpte ind-
pendamment un grand nombre de fois, la loi des grands nombres fait apparatre la
probabilit comme un caractre physique de lexprience, susceptible dtre mesur :
il suffit de rpter N fois lexprience et de compter le nombre de fois o lvnement
sest ralis pour valuer sa probabilit, cette valuation tant dautant plus prcise
que N est grand. Cest le principe de base des sondages, qui reposent sur le fait
quil suffit de sonder un chantillon de la population suffisament grand (mais trs
petit par rapport la population totale, par exemple : 10 000 personnes pour une
population de 60 millions dindividus) pour valuer les proportions relles au sein de
la population totale.

3.3.3 Mcanique statistique


Un volume ordinaire de gaz notre chelle (par exemple 10 litres), contient
typiquement un trs grand nombre de molcules identiques, de lordre de 1023 . Les
paramtres physiques macroscopiques que lon mesure, tels que la pression, ou la
temprature, ne sont pas des caractristiques dune molcule du gaz en particulier,
mais de lensemble du systme de N molcules qui constitue le gaz, et apparaissent
souvent comme de gigantesques moyennes associes des caractristiques physiques
individuelles des molcules. Par exemple, dans le cas dun gaz parfait (cest--dire
dans lhypothse o les molcules de gaz ninteragissent pas entre elles), lnergie
totale du gaz est :
N
X 1
U= mVi2 ,
2
i=1

o m dsigne la masse dune molcule de gaz, et Vi la vitesse de dplacement de


la particule numro i. Une modlistion probabiliste simple de ce systme physique
consiste supposer que les vitesses Vi sont des variables alatoires mutuellement
indpendantes, puisque les particules ninteragissent pas entre elles. Dans le cadre
de ce modle, la loi des grands nombres explique pourquoi, bien que la vitesse dune
molcule donne soit compltement alatoire, ce que lon peut effectivement obser-
ver en ne prenant en compte quun volume de gaz minuscule, la quantit physique
macroscopique que lon mesure prend une valeur bien dtermine, qui ne change
pas alatoirement chaque nouvelle exprience : la somme des hasards individuels
associs la vitesse de chaque molcule concourt former une valeur quasiment
dterministe, du fait du trs grand nombre de molcules en prsence. La validit de
la loi des grands nombres stend en fait bien au-del de lhypothse trs simplifica-
trice de lindpendance entre les molcules, et joue un rle fondamental en physique
statistique.
336

3.3.4 Mthodes de Monte-Carlo

Le principe gnral des mthodes de Monte-Carlo est dutiliser le hasard simul


pour valuer des quantits qui apparaissent comme lesprance dune variable ala-
toire, en calculant la moyenne dun grand nombre de ralisations indpendantes de
cette variable alatoire. On peut appliquer ces mthodes, soit des modles stochas-
tiques complexes (par exemple en pidmiologie, conomie, physique) pour lesquels
il nest pas possible de mener des calculs explicites (ou mme approchs), soit
des problmes danalyse numrique nayant a priori rien voir avec lalatoire (sys-
tme linaires, quations aux drives partielles, intgrales) mais pour lesquels les
mthodes de Monte-Carlo sont plus efficaces et/ou plus faciles mettre en oeuvre
que dautres. Ces mthodes constituent un outil quasiment indispensable pour la
modlisation et ltude de systmes complexes, et, pour cette raison, leur utilisation
stend la plupart des sciences qui font appel la modlisation.
Voici deux exemples (simples) de leur utilisation :

Le problme de la percolation

Il sagit dun modle stochastique destin tudier la possibilit pour un li-


quide de scouler travers un matriau poreux (par exemple, leau travers le caf
moulu...). On considre pour cela un cube du rseau Z3 , centr en lorigine, de ct
fix. Chaque point du cube est initialement reli par une arte aux autres points du
cube qui se trouvent distance 1 de ce point. La structure des artes de ce cube est
ensuite modifie par une suppression alatoire dartes, chaque arte tant supprime
avec une probabilit p ]0, 1[, indpendamment des autres. On obtient ainsi un cube
dans lequel un certain nombre dartes ont disparu, et la question que lon pose est
la suivante : quelle est la probabilit pour que, dans un cube modifi par ce procd,
lorigine soit encore relie un sommet situ au bord du cube par une suite dartes ?
(Ce qui correspond, dans linterprtation physique du modle, la possibilit pour un
liquide de scouler de lorigine vers les bords.) On ne sait pas calculer explicitement
cette probabilit, et lune des possibilits pour lvaluer numriquement consiste
gnrer un grand nombre de cubes auxquels on fait subir, alatoirement et indpen-
damment des autres, la procdure de suppression des artes dcrite ci-dessus. On
vrifie, pour chaque cube, sil existe un chemin menant de lorigine au bord du cube,
et la proportion de cubes possdant cette proprit fournit, daprs la loi des grands
nombres, une valuation de la probabilit recherche. Plus formellement, appelons
H1 , . . . , HN une suite de cubes ainsi gnre, et, l(H) la fonction qui vaut 1 si lori-
gine du cube H est relie par un chemin au bord du cube, et 0 sinon. Daprs la
loi des grands nombres, la probabilit que nous recherchons est approximativement
Loi des grands nombres 337

gale, lorsque N est grand, :


1
(l(H1 ) + + l(Hn )) .
N

Evaluer un volume

Supposons que nous cherchions valuer le volume dun objet tri-dimensionnel


A, lappartenance dun point de lespace A tant facile tester algorithmiquement.
Par exemple, lensemble des points de lespace dfini par :

A = (x, y, z) [1, 1]3 : x2 + 3y 3 2xy 2 2 , xy 5 7x2 sin(y) 1 .




Dterminer le volume de A nest pas a priori une tche aise, mais, en revanche, il
est trs facile de tester lappartenance dun point de coordonnes (x, y, x) A, en
vrifiant si oui ou non le triplet (x, y, z) vrifie les conditions qui dfinissent A. Pour
valuer le volume de A, une premire tape consiste discrtiser le cube [1, 1]3 dans
lequel A est inscrit en petites cellules, par exemple 1015 cellules cubiques, notes
Ci , de ct 2/100000. Une approximation du volume de A est alors fournie par la
somme des volumes des cellules dont le centre se trouve dans A. En notant gA (Ci ) la
fonction qui vaut 1 lorsque le centre de Ci se trouve dans A, et 0 sinon, on a donc :

101
X5
V ol(A) V ol(Ci )gA (Ci ).
i=1

Bien entendu, il est hors de question deffectuer le calcul complet de cette somme,
pour des raisons de temps dexcution. Lutilisation de la mthode de Monte-Carlo
repose sur le fait que lgalit prcdente peut se rcrire :

101 1
X5 10
X5
15
V ol(A) 10 gA (Ci ) = P(C = Ci )gA (Ci ) = E(gA (C)),
i=1 i=1

o C dsigne une variable alatoire dont la loi est la loi uniforme sur lensemble des
cellules Ci , chacune des 101 5 cellules ayant la mme probabilit dtre choisie. On
peut alors, daprs la loi des grands nombres, valuer le volume de A en gnrant
un grand nombre de ralisations indpendantes de C, C1 , . . . , CN , et en calculant la
moyenne empirique de gA :
N
1 X
vol(A) E(gA (C)) gA (Cj ).
N
j=1

Cette mthode sapplique galement pour calculer une intgrale multiple dans
le cas gnral, son principal intrt par rapport aux autres procds dintgration
338

approche tant quelle conserve la mme forme quelle que soit la dimension de lin-
tgrale valuer, et que son application ne ncessite pas dhypothse sur la rgularit
(continuit, drivabilit,...) de la fonction intgrer. Les deux exemples dutilisation
de la mthode de Monte-Carlo que nous venons de prsenter sont assez rudimentaires,
mais illustrent le principe de base selon lequel une esprance est value exprimen-
talement laide de la loi des grands nombres. Des raffinements considrables ont t
apports cette mthode, visant notamment en amliorer la prcision et la vitesse
de convergence, ainsi qu mieux estimer le temps de calcul ncessaire, la mthode
ne fournissant pas a priori de critre darrt.

De la sociologie suicidaire ?

Enfin, la loi des grands nombres est parfois employe des fins explicatives dans
ltude des phnomnes sociaux, avec tout ce que la modlisation peut avoir de
problmatique dans ce contexte. Elle explique pourquoi des quantits a priori ala-
toires, et qui, dans le cadre dune modlisation probabiliste, apparaissent comme
des frquences de ralisation dun certain vnement au cours dun grand nombre
dexpriences indpendantes, prsentent une valeur approximativement constante.
Par exemple, pourquoi le taux de suicide dans une rgion donne reste-t-il peu
prs fixe dans le temps, alors quil semble impossible dadmettre que les individus se
concertent pour maintenir ce taux une valeur constante ? La loi des grands nombres
fournit une explication de ce phnomne qui a beaucoup intrigu les sociologues de
la fin du XIXme sicle : en admettant que chaque individu a une probabilit fixe
de se suicider, indpendamment des autres, la loi des grands nombres entrane que
le taux de suicide au sein dune population nombreuse est une variable alatoire ap-
proximativement constante. La somme des hasards individuels conduit un rsultat
quasiment certain, du fait du grand nombre dindividus en prsence.

3.4 Ingalits de dviation


Plus tard...

3.5 Convergence de la loi empirique


Plus tard...

3.5.1 Convergence des histogrammes


3.5.2 Le thorme de Glivenko-Cantelli
Plus tard...
Loi des grands nombres 339

3.6 Auto-valuation
noncez prcisment les deux versions de la loi des grands nombres (hypo-
thses, et conclusion).
En quoi la deuxime version entrane-t-elle la premire ?
Quel lien la loi des grands nombres tablit-elle entre loi et loi empirique ? Et
entre moyenne thorique (esprance) et moyenne empirique ?
En quoi la loi des grands nombres nonce-t-elle un comportement typique ?
Quelle diffrence y a-t-il avec un comportement moyen ?
En quoi la loi des grands nombres prouve-t-elle quune certaine quantit ala-
toire est en fait essentiellement constante ?

3.7 Exercices
Exercice 154 H. est passionn par la bourse, et consacre une grande partie de son
temps acheter et vendre des actions sur internet. Tous les mois, le montant de
ses actifs se trouve multipli par un coefficient alatoire. On suppose que les coef-
ficients associs aux mois successifs correspondent des rptitions indpendantes
dune mme variable alatoire , dont la loi est la suivante :

P( = 1, 3) = 1/2 , P( = 0, 75) = 1/2.

Quelle est lesprance de ? Selon vous, comment la fortune de H. volue-t-elle


long terme ?

Exercice 155 Chez Jojo, dans le tiroir de la commode, se trouvent trois pices de
monnaie. Jojo se livre lexprience suivante : il ouvre le tiroir, choisit au hasard
lune des trois pices, et effectue 10000 lancers. Il remet ensuite la pice dans le ti-
roir, aprs avoir soigneusement not la proportion de face obtenue. Il recommence
lexprience le lendemain, et obtient une valeur compltement diffrente pour la pro-
portion de face. Ces expriences contredisent-elles la loi des grands nombres ?

Exercice 156 M. C., marabout de son tat, propose ses clients de dterminer le
sexe de leur enfant natre ds sa conception. Pour gage de son talent, il propose
mme de rembourser les honoraires perus, au cas o il se tromperait. Cette propo-
sition engage-t-elle rellement la fiabilit de ses prdictions ? Justifiez.

Exercice 157 Toutes les dix secondes, Jojo peut (ou non) penser envoyer un cour-
rier lectronique son amie Hildegarde, de son lieu de travail. Celle-ci est extrme-
ment jalouse, et Jojo sait bien que si, par malheur, il scoulait une journe sans
quil lui ft parvenir le moindre message, les consquences en seraient incalculables...
340

Sachant que les journes de travail de Jojo durent huit heures, et que, au cours des
trente derniers jours, Jojo a envoy en moyenne 2,3 messages par jour son amie,
pouvez-vous estimer la probabilit pour que lirrparable se produise aujourdhui ? Et
au cours des trois prochains jours ?

Exercice 158 Dans ldition de demain du prestigieux journal Jojo Gazette,


deux correcteurs diffrents ont relev lun 42 erreurs, lautre 54 erreurs, seules 12
erreurs ayant t releves la fois par lun et lautre des deux correcteurs. Sur la
base de ces donnes, pouvez-vous proposer une estimation du nombre total derreurs
dans le journal ?

Exercice 159 On cherche sonder la population au sujet dun comportement dordre


priv, et le caractre embarassant, au moins pour une minorit de personnes, de la
question pose, amne douter de la sincrit des rponses. En admettant que la
question pose possde une rponse binaire de type oui/non, on se propose de proc-
der de la manire suivante. Avant dtre interroge, chaque personne lance un d
six faces, dont elle seule connat le rsultat. Si elle obtient un chiffre diffrent de six,
elle doit rpondre le contraire de la vrit lorsquelle est interroge. Si elle obtient
un six, elle doit en revanche rpondre correctement. Comment, partir des rsul-
tats ainsi obtenus, peut-on obtenir linformation souhaite ? Pourquoi cette mthode
devrait-elle inciter les personnes interroges rpondre sincrement ? Plus gnrale-
ment, en admettant que lon puisse fixer une valeur arbitraire x (entre 0 et 1) la
probabilit dobtenir un six, comment peut-on fixer au mieux la valeur de x dans ce
problme ?

Exercice 160 Prouvez, partir de la loi des grands nombres que nous avons non-
ce (pour des variables alatoires valeurs dans R) un rsultat analogue pour des
variables alatoires valeurs dans Rd .

Exercice 161 On considre une variable alatoire X prenant la valeur N avec une
probabilit de 1/N , et la valeur 0 avec probabilit 1 1/N . Quelle est lesprance de
X ? Considrons X1 , . . . , XN des ralisations indpendantes de X. Est-il raisonnable
de considrer la variable alatoire N1 (X1 + + XN ) comme typiquement proche de
cette esprance lorsque N est grand ?
Chapitre 4

La courbe en cloche

4.1 Introduction
Ce chapitre est consacr ltude des lois de probabilit gaussiennes. Lintrt de
cette tude est tout sauf purement thorique, car les lois gaussiennes interviennent
dans de trs nombreux de modles de situations concrtes.
Aprs avoir prsent les principales caractristiques de cette famille de distribu-
tions, nous prsenterons une classe de situations dune importance fondamentale, et
dans lesquelles les lois gaussiennes apparaissent de manire quasiment universelle,
savoir la description des fluctuations des sommes dun grand nombre de variables
alatoires indpendantes.
Diverses illustrations et applications suivent, avant daborder la question plus
complexe, mais trs importante galement, des lois gaussiennes mutli-dimensionnelles.

4.2 Les lois gaussiennes unidimensionnelles


On appelle courbe en cloche, ou plus correctement courbe gaussienne 1 , toute
fonction dfinie sur R de la forme :

(x m)2
 
1
m,v (x) = exp ,
2v 2v

o m R et v > 0. Celle-ci dfinit une densit de probabilit sur R, et la loi


gaussienne de paramtres m et v est la loi (continue) de probabilit possdant la
densit m,v (on emploie parfois galement pour la dsigner le terme de loi normale,
afin de souligner son importance, ou encore de loi de Laplace-Gauss 2

1. Du nom de lillustre mathmaticien Carl Friedrich Gauss (17771855).


2. Du nom du non moins illustre mathmaticien Pierre-Simon Laplace (17491827).
342

La gaussienne de paramtres m = 0 et v = 1 est appele la gaussienne standard,


ou encore gaussienne centre rduite, du fait que, comme nous le verrons, elle possde
une esprance gale 0 et une variance gale 1.
Pour vrifier quil sagit bien dune densit de probabilit (la positivit tant
vidente), il convient de vrifier la condition de normalisation :
Z +
m,v (u)du = 1.

Cette galit se ramne lautre, bien connue (voir votre cours danalyse de premier
cycle) : Z +
2
ex /2 dx = 2,

qui nest autre que la condition de normalisation pour la gaussienne 0,1 . Moyennant
un changement de variables dcrit un peu plus loin, on peut en dduire la condition
de normalisation pour toute gaussienne m,v ( vous de faire la vrification !)
La courbe reprsentative dune telle fonction prsente effectivement laspect dune
cloche (en gros !), et les deux paramtres m et v dterminent prcisment la forme de
la cloche. On vrifie facilement que le point m est celui o m,v prend son maximum,
le sommet de la cloche : cest celui o (x m)2 est minimal, car gal 0. Qui plus
est, on note que la cloche est symtrique par rapport laxe x = m, ce que lon
vrifie rigoureusement en tablissant la relation (immdiate au vu de la dfinition de
m,v ) : pour tout y R,

m,v (m + y) = m,v (m y).

La valeur de m dtermine ainsi la position horizontale de la cloche. La valeur de v


tant fixe, on note que les courbes reprsentatives des fonctions a,v , a dcrivant R se
dduisent les unes des autres par des translations horizontales. Plus rigoureusement,
on vrifie que, pour tout couple a1 , a2 , et tout y R,

a2 ,v (y) = a1 ,v [y (a2 a1 )].

On peut donc ramener, par translation horizontale, ltude de la gaussienne m,v


celle de la gaussienne 0,v . Le paramtre v dtermine, lui, la taille de la cloche.
On tablit prcisment que, pour tous v1 , v2 > 0, et tout y R,
!
p y
0,v2 (y) = v1 /v2 0,v1 p .
v2 /v1

Si lon prend comme rfrence la courbe 0,1 , que lon appelle gaussienne stan-

dard la courbe 0,v sen dduit donc par une dilatation de coefficient v sur lchelle

horizontale, suivie dune dilatation dun facteur 1/ v sur lchelle verticale. Ainsi,
La courbe en cloche 343

plus v est grand, plus la cloche est plate et tale, plus v est petit, plus la cloche est
haute et resserre.

On note que la condition de normalisation

Z +
m,v (u)du = 1

impose ncessairement que la cloche ne puisse pas diminuer de hauteur sans slargir,
ou augmenter de hauteur sans devenir plus troite.

Les pages suivantes contiennent quelques reprsentations graphiques destines


illustrer ces proprits.

Gaussienne , m=0 v=1


0.7
0.6
0.5
0.4
f(x)

0.3
0.2
0.1
0.0

4 2 0 2 4

x
344

Gaussienne , m=1 v=1


0.7
0.6
0.5
0.4
f(x)

0.3
0.2
0.1
0.0

4 2 0 2 4

Gaussienne, m=0 v=3,24


0.7
0.6
0.5
0.4
f(x)

0.3
0.2
0.1
0.0

4 2 0 2 4

x
La courbe en cloche 345

Gaussienne, m=0 v=0,036


0.7
0.6
0.5
0.4
f(x)

0.3
0.2
0.1
0.0

4 2 0 2 4

Ces transformations gomtriques permettant de passer dune gaussienne une


autre ont galement une interprtation trs importante vis--vis des variables ala-
toires dont les courbes gaussiennes reprsentent les densits. Nous retiendrons le
rsultat fondamental suivant : pour tous nombres rels a 6= 0 et b, si X suit une
loi gaussienne de paramtres m et v, alors la variable alatoire :

aX + b

suit une loi gaussienne de paramtres m0 = am + b et v 0 = a2 v. En


particulier, la variable alatoire

X m

v

suit une loi gaussienne de paramtres 0 et 1 (gaussienne standard).


Cette proprit rsulte de la formule de changement de variables donne dans le
chapitre Variables alatoires.
Les paramtres m et v, quant eux, nont pas seulement une signification gom-
trique en rapport avec les courbes gaussiennes, mais possdent galement une signifi-
cation trs importante vis--vis des variables alatoires dont les courbes gaussiennes
reprsentent les densits. De manire prcise : si X est une variable alatoire
continue de loi gaussienne de paramtres m et v, m est gal lesprance
de X, et v sa variance. En dautres termes :

E(X) = m, V(X) = v.

Pour prouver ces deux galits, on utilise la formule donnant lesprance dune va-
346

riable alatoire de loi continue, et lon doit donc prouver que :


Z +
y m,v (y)dy = m

et Z +
(y m)2 m,v (y)dy = v.

La preuve de ces galits est laisse en exercice (pour lesprance, la fonction


intgrer possde une primitive vidente, et, pour la variance, une intgration par
parties permet de conclure).
En vertu de la symtrie de la cloche par rapport son sommet (ce qui entrane
dailleurs facilement que m = E(X)), une variable alatoire gaussienne X possde
donc la proprit remarquable selon laquelle P(X < m) = P(X > m) = 1/2 (en
gnral lesprance dune variable alatoire nest pas sa mdiane). Qui plus est, m
correspond galement au mode (le sommet de la cloche).
De plus, la loi dune variable alatoire gaussienne est entirement dtermine
par la connaissance de son esprance et sa variance (rappelons quen gnral, deux
variables alatoires possdant mme esprance et mme variance nont pas la mme
loi, voir lexercice 77).
Notez que la signification gomtrique des paramtres m et v saccorde avec celle
de lesprance et de la variance dune variable alatoire en tant quindicateurs de
position et de dispersion respectivement. Gomtriquement, m indique la localisation
de la cloche, donc la zone o la variable alatoire a une probabilit non-ngligeable
de prendre ses valeurs. De mme, plus v est grande, plus la cloche est large, et plus
la variabilit de la variable alatoire correspondante est leve ( linverse, plus v
est faible, plus la cloche est troite, et plus les valeurs prises par la variable sont
localises proximit de m). Les paramtres m et v jouent prcisment le rle de
paramtres dchelle et de position puisque, comme nous lavons not prcdemment,

si X suit une loi gaussienne de paramtres 0 et 1, m + vX suit une loi gaussienne
de paramtres m et v.
La loi gaussienne centre rduite sert donc de rfrence pour tudier la distribu-
tion des lois gaussiennes gnrales.
Par exemple, on a lingalit
Z 2
0,1 (u)du & 0, 95.
2

En termes de variables alatoires, ceci signifie quune variable alatoire X qui suit
une loi gaussienne standard vrifie :

P(X [2, 2]) & 0, 95.


La courbe en cloche 347

En utilisant la transformation permettant de passer dune gaussienne de paramtres


m et v une gaussienne standard, ceci se traduit, pour une variable alatoire Y
gaussienne de paramtres m et v par :

 
Y m
P(Y [m 2 v, m + 2 v]) = P [2, 2] = P(X [2, 2]) & 0, 95.
v

Par consquent, avec une probabilit suprieure 95%, une variable alatoire
suivant une loi gaussienne prend une valeur qui scarte de son esprance de moins
de deux carts-types.
linverse, en utilisant lingalit :
Z 1
0,1 (u)du . 0, 7,
1

on obtient que
P(X
/ [1, 1]) & 0, 3
et que

P(Y [m v, m + v]) . 0, 7.
Ainsi, avec une probabilit suprieure 30%, une variable alatoire suivant une
loi gaussienne prend une valeur qui scarte de son esprance de plus dun cart-type.
Ces deux ingalits ne sont donns qu titre dexemples, et parce quelles sont
faciles retenir, on peut en obtenir autant que lon veut, pour trois carts-types, un
demi cart-type, etc...
Il est noter quil nexiste pas de formule explicite en termes de fonctions l-
mentaires permettant de calculer, en fonction de a et b, les intgrales dfinissant
Z b
P(X [a, b]) = m,v (u)du.
a

En revanche, on dispose de mthode numriques rapides et prcises pour les calculer,


ainsi que de tables collectant leurs valeurs.
Plus prcisment, on dispose de moyens numriques permettant deffectuer les
oprations suivantes avec une prcision satisfaisante :
tant donn x R, calculer lintgrale
Z a
0,1 (u)du,

tant donn q ]0, 1[, trouver x R tel que


Z x
0,1 (u)du = q.

348

Rappelons pour finir le rsultat trs important de lexercice 130 : si X et Y sont


deux variables alatoires indpendantes, X suivant une loi gaussienne de
paramtres m et v, Y suivant une loi gaussienne de paramtres m0 et v 0 ,
X + Y suit une loi gaussienne de paramtres m + m0 et v + v 0 .
Notez que la partie non-banale de ce rsultat est que la loi de X +Y est gaussienne
(lesprance de X + Y est toujours gale m + m0 , et, X et Y tant supposes
indpendantes, la variance de X +Y est ncessairement gale v +v 0 . Voir galement
ce sujet lexercice 169 et la remarque ?? sur le mme sujet dans le paragraphe
traitant des lois gaussiennes multidimensionnelles.

4.3 Le thorme de la limite centrale


4.3.1 Cadre et nonc
On se place dans le mme cadre que celui dans lequel nous avons nonc la loi
faible des grands nombres au chapitre prcdent, que nous rappelons rapidement.
On considre donc un espace de probabilit (, P), une variable alatoire X dfinie
sur et valeurs dans R, lespace de probabilit (N , PN ) dcrivant N rptitions
indpendantes de (, P), et X1 , . . . , XN les variables alatoires correspondant X
dans chacune des ralisations successives.
De manire plus prcise, les variables alatoires Xi sont dfinies par N par
Xi ((1 , . . . , N )) = X(i ).
On remarque encore une fois que, partant de nimporte quel modle probabiliste
sur lequel est dfinie une famille de variables alatoires Y1 , . . . , YN mutuellement
indpendantes et possdant chacune la mme loi, on peut se ramener la situation
dcrite ci-dessus en considrant le modle-image de (Y1 , . . . , YN ).
Nous ferons lhypothse que E(X) et V(X) sont dfinies, ce qui constitue
une restriction par rapport lnonc de la loi des grands nombres, pour laquelle on
supposait simplement lexistence de E(X). Nous supposerons galement que V(X) 6=
0, ce sans quoi les variables alatoires considres sont en fait constantes, et leur tude
de peu dintrt ! Nous utiliserons dans la suite la notation SN = X1 + + XN .
Le thorme de la limite centrale snonce alors de la manire suivante : lorsque
N tend vers linfini, la loi de la variable alatoire

SN E(SN )
p
V(SN )

tend vers une loi gaussienne centre rduite (m = 0 et v = 1).


Nous navons pas dfini prcisment ce que signifie la convergence dune suite de
lois de probabilits. Un nonc totalement prcis du thorme de la limite centrale
La courbe en cloche 349

est le suivant : pour tout intervalle I R, on a


" # Z
SN E(SN )
lim PN p I = 0,1 (u)du,
N + V(SN ) I

o 0,1 est la densit de la loi gaussienne centre rduite, soit 0,1 (u) = (2)1/2 exp(x2 /2).
Par un calcul dj effectu au chapitre prcdent, on vrifie que
(
E(SN ) = N E(X)
V(SN ) = N V(X)

Le thorme de la limite centrale peut donc se rcrire sous la forme :


" # Z
X 1 + + X N E(X)
lim PN p N I = 0,1 (u)du.
N + N V(X) I

Dans la suite, nous utiliserons la notation

SN E(SN )
N = p .
V(SN )

Remarque 13 On ne suppose pas dans les hypothses du thorme que la variable


X est elle-mme de loi gaussienne : toute loi pour laquelle lesprance et la variance
sont dfinies fait laffaire. Dans le cas particulier o X est de loi gaussienne, la
proprit selon laquelle la loi dune somme de variables gaussiennes indpendantes
est elle-mme gaussienne montre que, pour tout N , la loi de N est exactement
la loi gaussienne centre rduite, alors que le thorme ci-dessus nnonce quune
convergence lorsque N tend vers linfini. En ce sens, la loi gaussienne constitue en
quelque sorte un point fixe pour le thorme de la limite centrale, et fournit un dbut
dexplication au fait que, quelle que soit la loi initiale de X, la loi limite de N est
gaussienne.

Avant tout commentaire, nous donnons dans ce qui suit quelques illustrations
graphiques de ce rsultat.

Remarque 14 Dans ce chapitre, nous utilisons principalement la reprsentation


graphique des fonctions de rpartition, plutt que les histogrammes, non pas parce
que lun de ces modes de reprsentation est, de manire gnrale, prfrable lautre,
mais pour viter davoir grer la question du choix de la largeur des classes des
histogrammes, ce qui ajouterait, selon nous, la complexit de lexpos, les questions
dchelle tant absolument cruciales dans ce chapitre et ne pouvant donc pas tre
traites la lgre. De plus, cela permet de varier quelque peu les plaisirs...
350

4.3.2 Des illustrations lorsque la loi de X1 + + XN est connue


explicitement

Lorsque la loi de la somme X1 + + XN est connue de manire explicite, ce


qui nest pas le cas en gnral, on peut effectuer une comparaison directe entre la
N N E(X) et la loi gaussienne de paramtres m = 0 et v = 1.
loi de X1 ++X
N V(X)

Nous prsentons dans ce qui suit quatre exemples classiques (loi de Bernoulli, loi
de Poisson, loi exponentielle, carr de gaussienne) pour lesquels un tel calcul explicite
est possible. Notons que dans le cas trivial o la loi de X est elle-mme gaussienne,
on vrifie immdiatement que la limite dans lnonc du thorme est en fait une
galit, valable pour tout N .

Les graphiques suivants reprsentent la fonction de rpartition

!
N X1 + + XN N E(X)
x 7 P p x
N V(X)

(en traits pleins) et celle de la gaussienne de paramtres m = 0 et v = 1, savoir


Rx
x 7 0,1 (u)du (en traits intermittents), sur lintervalle [3, +3]. Cet intervalle
reprsente pour la gaussienne 0,1 une probabilit de prsence de plus de 99, 7%,
et cest typiquement pour des valeurs se trouvant dans cet intervalle que lon utilise
lapproximation fournie par le thorme de la limite centrale (voir la partie Prcision
de lapproximation fournie par le thorme de la limite centrale et Attention
lchelle pour une discussion ce ce point).

Variables alatoires de loi de Bernoulli

Dans cet exemple, on considre des variables alatoires X1 , . . . , XN indpen-


dantes, possdant toutes la loi de Bernoulli de paramtre p. La loi de X1 + + XN
est naturellement connue dans ce cas : il sagit dune loi binomiale de paramtres n
et p.

Les quatre graphiques suivants correspondent p = 0, 3 et N successivement gal


10, 40, 400 et 1600.
La courbe en cloche 351

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
352

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Voici prsent quatre graphiques correspondant p = 0, 5 et N successivement


La courbe en cloche 353

gal 10, 40, 400 et 1600.


1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
354

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Voici enfin quatre graphiques correspondant p = 0, 005 et N successivement


La courbe en cloche 355

gal 10, 40, 400 et 1600.


0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
356

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

On constate visuellement la convergence nonce par le thorme de la limite


La courbe en cloche 357

centrale, ainsi que le fait que la rapidit de celle-ci dpend manifestement de la loi
de X.

Variables alatoires de loi de Poisson

Dans cet exemple, on considre des variables alatoires X1 , . . . , XN indpendantes


possdant toutes une loi de Poisson de paramtre . La loi de X1 + +XN est connue
dans ce cas : il sagit dune loi de Poisson de paramtre N (voir lexercice 117).

Les quatre graphiques suivants correspondent = 2 et N successivement gal


10, 40, 400 et 1600.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
358

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 359

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Les quatre graphiques suivants correspondent = 0, 002 et N successivement


gal 10, 40, 400 et 1600.
360

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 361

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
362

Variables alatoires de loi exponentielle

Dans cet exemple, on considre des variables alatoires X1 , . . . , XN indpendantes


et possdant toutes la loi exponentielle de paramtre . La loi de X1 + + XN est
connue dans ce cas : il sagit dune loi dite Gamma (voir exercice 128) de paramtres
a = n et s =

Les quatre graphiques suivants illustrent le cas = 3 et N successivement gal


5, 10, 40 et 400.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
La courbe en cloche 363

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
364

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Carrs de variables alatoires gaussiennes

Dans cet exemple, on part de variables alatoires G1 , . . . , GN indpendantes et


possdant toutes la loi gaussienne de paramtres m = 0 et v = 1, et lon pose
X1 = G21 , X2 = G22 , . . . , XN = G2N . La loi de X1 + + XN est connue dans ce cas :
il sagit dune loi du chi-deux n degrs de libert (voir lexercice 129).

Les quatre graphiques suivants illustrent les cas o N est successivement gal
5, 10, 40 et 400.
La courbe en cloche 365

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
366

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 367

4.3.3 Des illustrations lorsque la loi de X1 + +XN nest pas connue


explicitement

Lorsque la loi de X1 + +XN nest pas connue de manire explicite, on peut par
exemple y avoir accs par simulation, en effectuant un grand nombre de simulations
consistant chacune tirer N variables alatoires indpendantes X1 , . . . , XN de mme
loi que X. On peut alors comparer la loi empirique de X1 ++X N N E(X) la loi
N V(X)
limite gaussienne nonce par le thorme de la limite centrale.

Puissances de variables alatoires de loi uniforme sur [0, 1].

Dans cet exemple, on considre des variables alatoires U1 , . . . , UN indpen-


dantes et possdant toutes la loi uniforme sur [0, 1], et lon pose X1 = U14 , X2 =
U24 , . . . , xN = UN
4.

Les graphiques suivants illustrent lapproximation de la fonction de rpartition


de la loi gaussienne ralise par la fonction de rpartition associe la loi empirique
obtenue en effectuant 1000 simulations de N , o N est successivement gal 10,
40, 400 et 1600.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
368

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 369

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

A priori, dans lapprciation de la proximit entre les fonctions de rpartitions


empiriques prsentes et la fonction de rpartition de la loi gaussienne, il convient
de sparer les deux sources dcarts que peuvent tre lerreur dapproximation entre
N N E(X) , dune part, et lerreur
la loi thorique et la loi empirique de X1 ++X
N V(X)
X1 ++XN N E(X)
dapproximation entre la loi thorique de et la gaussienne de
N V(X)
paramtres m = 0 et v = V(X) dautre part. Nous vous renvoyons notamment
la discussion du chapitre prcdent sur le thorme de Glivenko-Cantelli pour la
question de lapproximation entre fonction de rpartition empirique et thorique.

4.3.4 Deux erreurs frquentes


Une premire erreur frquente dans lutilisation du thorme de la limite centrale
consiste oublier le fait quil ne sagit que dun rsultat asymptotique, et affirmer
N E(SN )
que S suit exactement une loi gaussienne centre rduite, alors que, sauf
V(SN )
dans le cas o les Xi sont elles-mmes de loi gaussienne, ceci nest vrai qu une
certaine approximation prs, dautant meilleure que N est grand. Remplacer direc-
N E(SN )
tement dans un raisonnement ou un calcul la loi de S par une loi gaussienne
V(SN )
sans tenir compte de lapproximation ainsi commise peut avoir des consquences
parfois dltres sur la validit de celui-ci, et il est indispensable de sinterroger sur
la qualit de lapproximation fournie par lutilisation du thorme de la limite cen-
370

trale lorsque lon considre une valeur dfinie de N et non pas seulement une limite
lorsque N tend vers linfini. Ce point sera rediscut dans les paragraphes Attention
lchelle et Quantification de la convergence.
Une second erreur consiste interprter le rsultat fourni par le thorme de la
limite centrale comme signifiant que, avec une probabilit gale 1, on a
SN E(SN )
lim p = G, (4.1)
N + V(SN )
G tant une variable alatoire de loi gaussienne centre rduite. Une telle proprit
nest pas a priori en contradiction avec le thorme de la limite centrale, mais elle est
N E(SN )
nanmoins totalement fausse, car la suite de variables alatoires S na pas
V(SN )
de limite lorsque N tend vers linfini. Avant dexpliquer ce point, vous pouver noter
lanalogie existant entre les noncs du thorme de la limite centrale et de la loi
faible des grands nombres : ils noncent tous les deux une proprit de la loi jointe
de (X1 , . . . , XN ) lorsque N tend vers linfini, tandis que lnonc de la loi forte des
grands nombres et lnonc (4.1) faux, rptons-le, dans notre contexte se rfrent
la loi de toute la suite infinie (X1 , X2 , . . .) (qui ne peut dailleurs pas vraiment tre
dfinie dans le cadre des espaces de probabilit discrets, comme nous lavons dj
not au chapitre prcdent).
i E(Si )
Tout dabord, voici quelques simulations reprsentant i = S en fonction
V(Si )
de i. Le moins que lon puisse dire est quelles ne suggrent pas quil y ait conver-
gence vers une valeur dtermine lorsque i tend vers linfini. Les graphiques suivant
correspondent la situation o X suit une loi de Bernoulli de paramtre 1/2.
Les trois premiers montrent des simulations pour i variant de 1 10000, les trois
suivants pour i variant de 1 100000.
1
0
gamma(i)

1
2

0 2000 4000 6000 8000 10000

i
La courbe en cloche 371

0.5
0.0
0.5
gamma(i)

1.0
1.5
2.0

0 2000 4000 6000 8000 10000

i
1.0
0.5
0.0
gamma(i)

0.5
1.0
1.5

0 2000 4000 6000 8000 10000

i
372
2
1
gamma(i)

0
1

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

i
1.5
1.0
0.5
gamma(i)

0.0
0.5
1.0
1.5

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

i
La courbe en cloche 373

2
1
gamma(i)

0
1

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

Il est galement facile de comprendre en thorie pourquoi un nonc tel que (4.1)
ne peut pas tre valable, au moyen du raisonnement suivant (que nous prsentons de
manire informelle, mais quil est possible de rendre parfaitement rigoureux). Si (4.1)
tait valable, on devrait avoir le fait que SmmE(Sm ) G pour toute valeur de m
mV(X)
suffisament grande. Par consquent, en choisissant N suffisament grand, on devrait
avoir le fait que
S2N 2N E(X) SN N E(X)
p p . (4.2)
2N V(X) N V(X)
En crivant le fait que S2N = S2N SN + SN , on en dduirait, aprs un petit calcul
(faites-le !) que

S2N SN N E(X) SN N E(X)


p (1 1/ 2) p . (4.3)
2N V(X) N V(X)

SN N E(X)
Daprs le thorme de la limite centrale, la loi de est approximativement
N V(X)
une loi gaussienne centre rduite. Dautre part, en notant que S2N SN est ga-
lement une somme de N variables alatoires indpendantes et de mme loi que X,
SN N E(X)
le thorme de la limite centrale entrane que la loi de S2N est aussi ap-
N V(X)
N N E(X) S2N SN N E(X)
proximativement une loi gaussienne centre rduite. Or S et
N V(X) N V(X)
sont deux variables alatoires indpendantes (la premire sexprime en fonction de
XN +1 , . . . , X2N , et la deuxime en fonction de X1 , . . . , XN ). Ceci est clairement en
contradiction avec la relation (4.3), qui exprime ( une approximation prs) ces deux
variables en fonction lune de lautre (deux variables alatoires indpendantes ne
peuvent sexprimer en fonction lune de lautre, sauf tre constantes, ce qui nest
374

pas le cas ici puisque les variables alatoires considres possdent des lois approxi-
mativement gaussiennes).

4.3.5 Preuve du thorme de la limite centrale


Donner une preuve rigoureuse du thorme de la limite centrale dpasse le niveau
mathmatique de ce cours. Nous pouvons nanmoins donner une ide de preuve,
quitte admettre un certain nombre de points techniques.
Pas encore fait.
Nous vous renvoyons aux diffrents ouvrages dintroduction la thorie math-
matique des probabilits pour des preuves de ce rsultat.

4.3.6 Le thorme de la limite centrale et la loi des grands nombres


La loi des grands nombres entrane que, sous les hypothses du thorme limite
central, on peut crire
X1 + + XN
= E(X) + N ,
N
o le terme derreur N est une quantit alatoire, mais petite, au sens o, lorsque
N est grand, N est petit avec une trs forte probabilit Une question naturelle
est alors de dterminer prcisment quel est lordre de grandeur exact de ce petit
terme correctif N lorsque N est grand, et cest justement ce que fait le thorme de
la limite centrale. En reprenant les notations nous ayant servi noncer celui-ci, on
constate que lidentit ci-dessus se rcrit :

SN N E(X)
N = .
N
On voit ainsi, en reprenant les notations de la partie prcdentes, que
r
V(X)
N = N .
N
Le thorme de la limite centrale affirme donc que la variable alatoire
s
N
N
V(X)

est, lorsque N est grand, approximativement distribue selon une loi gaussienne
centre rduite i.e. de paramtres m = 0 et v = 1. En un sens un peu vague, on peut
affirmer que les valeurs de N restent, lorsque N est grand, de lordre de lunit :
quoiqualatoires, ces valeurs sont approximativement distribues suivant une loi de
probabilit qui ne dpend ni de N , ni de la loi de X. Toujours en restant assez vague,
on peut donc affirmer que lordre de grandeur des valeurs prises par N lorsque
La courbe en cloche 375
q
N est grand est V(X) N . Le terme en N au dnominateur quantifie linfluence de
N sur la dispersion autour de zro des valeurs que peut prendre N lorsque N est
grand. Toujours de manire vague, on peut donc dire que, vis--vis de N , la vitesse
de convergence dans la loi des grands nombres est de lordre de 1N . (Et lon peut
noter au passage quune telle vitesse de convergence est habituellement considre
comme mdiocre dans un contexte numrique o lon souhaite, autant que possible,
avoir une vitesse de convergence au moins exponentielle en le nombre ditrations
p
effectues). Le terme en V(X) illustre, quant lui, le fait que la convergence dans
la loi des grands nombres a lieu dautant plus lentement que les fluctuations de X,
telles que mesures par sa variance, sont importantes, ce que nous avions dj observ
empiriquement dans les simulations effectues au chapitre prcdent. q
Insistons bien sur le fait que, mme si nous avons utilis lidentit N = V(X)
N N
pour affirmer que lordre de grandeur des valeurs prises par N sont de lordre de
q
V(X)
N , les valeurs de N sont alatoires, et peuvent parfois sloigner considrable-
ment de 1 (en valeur absolue),q si bien que N peut tre en ralit beaucoup plus
V(X)
grand, en valeur absolue, que N , mais elles ne peuvent le faire quavec une
faible probabilit, car la loi de N est approximativement une loi gaussienne centre
rduite.
Par exemple, lorsque N est suffisament grand, la probabilit pour que N soit
compris entre 2 et 2 est denviron 95%, denviron 97,5 % pour que N soit compris
entre 3 et 3, denviron 68% pour que N soit compris entre 1 et 1.
Voici, pour fixer les ides, dix valeurs simules (tronques 8 dcimales) dune
variable alatoire gaussienne centre rduite, cest--dire, dans notre contexte, dix va-
leurs que lon pourrait obtenir pour N lorsque N est grand : 0,15452532 ; 1,41194894 ;
0,08843478 ; -1,24517492 ; -0,07274697 ; 1,41970892 ; -0,60299238 ; -1,09537318 ; 0,70421432 ;
0,04185794.
Illustrons notre propos par un exemple simul, en simulant, par exemple, 1000
variables alatoires indpendantes X1 , . . . , X1000 de loi de Poisson de paramtre =
2. Rappelons que lon a alors E(X) = V(X) = = 2.
Exprience 1 : on trouve S1000 = X1 + . . . + X1000 = 2042. On a donc
2042
1000 = 2 = 0, 042 , 1000 0, 94.
1000
Exprience 2 : on trouve cette fois S1000 = X1 + . . . + X1000 = 1936. On a donc
1936
1000 = 2 = 0, 064 , 1000 1, 43.
1000
Exprience 3 : on trouve cette fois X1 + . . . + X1000 = 2075. On a donc
2075
1000 = 2 = 0, 075 , 1000 1, 68.
1000
376

Reprenons lexprience, mais avec cette fois une somme de 100000 variables ala-
toires au lieu de 1000.
Exprience 4 : on trouve S10000 = X1 + . . . + X100000 = 200972. On a donc

200972
100000 = 2 = 0, 00972 , 10000 1, 69.
100000

Exprience 5 : on trouve cette fois X1 + . . . + X100000 = 200645. On a donc

200645
100000 = 2 = 0, 00645 , 100000 0, 46.
100000

Exprience 6 : on trouve cette fois X1 + . . . + X100000 = 199551. On a donc

199551
100000 = 2 = 0, 00449 , 100000 0, 31.
100000

On constate que, dans ces six expriences, la valeur absolue de N est relativement
petite. Conformment la loi des grands nombres, dans chacune des expriences

X1 + + XN
E(X) = 2,
N

q meilleure que N est grand. Lorsque lon observe


lapproximation tant dautant
N
la loupe de grossissement V(X) les petites valeurs prises par N , on obtient des
valeurs qui sont toujours de lordre de lunit, que N = 1000 ou que N = 100000,
mais qui diffrent compltement dune exprience lautre. Ceci q reflte le caractre
N
alatoire de N , cest--dire de N , observ avec le grossissement V(X) .
Si lon effectue maintenant non plus deux ou trois expriences, mais un grand
nombre dexpriences, par exemple 5000, on met en vidence non seulement le fait
que les valeurs de N , bien qualatoires, restent de lordre de grandeur de lunit
lorsque N est grand, mais galement le fait que celles-ci sont distribues, au moins
approximativement, selon une loi gaussienne centre rduite.
Voici donc les histogrammes (gradus verticalement en densit) des valeurs si-
mules de 1000 , 10000 et 100000 , avec 5000 simulations effectues pour chaque his-
togramme, et en superposition la densit gaussienne 0,1 (pour changer un peu des
fonctions de rpartition !).
La courbe en cloche 377

Loi empirique de gamma1000 5000 simulations


0.4
0.3
0.2
0.1
0.0

4 2 0 2 4

Loi empirique de gamma10000 5000 simulations


0.4
0.3
0.2
0.1
0.0

4 2 0 2 4
378

Loi empirique de gamma100000 5000 simulations


0.4
0.3
0.2
0.1
0.0

4 2 0 2 4

En conclusion, le thorme de la limite centrale permet de dcrire le compor-


tement de lcart entre SN /N et E(X) dans la loi des grands nombres. Lordre de
grandeur
q (vis--vis de N et de la loi de X) de cet cart est, lorsque N est grand,
V(X)
N . Observ lchelle de cet ordre de grandeur, cet cart est alatoire et sa loi
est approximativement une loi gaussienne centre rduite.

4.3.7 Attention lchelle


Le thorme de la limite centrale dcrit le comportement de la variable alatoire
SN = X1 + + XN ramene ce que lon pourrait appeler lchelle naturelle
de ses fluctuations autour de son esprance (nous parlerons simplement par la suite
dchelle naturelle des fluctuations, ou tout simplement dchelle naturelle) : SN
est centre, de manire pouvoir tudier les fluctuations quelle prsente autour de
son esprance, puis rduite, cest--dire divise par son cart-type de manire
ramener lcart-type de ces fluctuations 1, quelle que soit la valeur de N . On peut
noter quune transformation affine applique SN , ou, ce qui revient au mme, aux
SN E(SN )
variables Xi , ne modifie pas la valeur de N = , qui demeure donc inchange
N V(X)
par ce type doprations.

Remarque 15 En fait, il nest pas vident a priori que lopration consistant cen-
trer puis rduire SN ramne celle-ci sur une chelle naturelle pour tudier sa loi,
cest--dire la transforme en une variable alatoire dont la dispersion est de lordre
de lunit. Si lcart-type de SN donnait une indication compltement errone de
lordre de grandeur des valeurs de SN E(SN ), ou encore, si E(SN ) donnait une
indication totalement errone de la localisation des valeurs de SN , et nous savons,
La courbe en cloche 379

daprs le chapitre Variables alatoires que ceci peut se produire dans certains cas
SN E(SN )
considrer naurait en fait rien de pertinent. (Nous vous invitons de plus
N V(X)
consulter ce sujet le paragraphe consacre la non-robustesse du thorme de la
limite centrale lorsque les variables alatoires considres ne possdent plus de va-
riance.) Une consquence importante du thorme de la limite centrale est justement
que ces deux indicateurs : E(SN ) et V(SN ) fournissent des indications fiables, au
moins dans la limite o N tend vers linfini, lorsque SN est une somme de variables
alatoires indpendantes et de mme loi (pour laquelle esprance et variance sont
dfinies).

Le thorme de la limite centrale affirme donc que, SN , une fois ramene son
chelle naturelle, suit approximativement une loi gaussienne centre rduite lorsque
N est grand. Le caractre gaussien de la loi dune variable alatoire tant conserv
par changement dchelle affine, on pourrait donc sattendre ce que SN , observe sur
nimporte quelle chelle, possde une loi approximativement gaussienne. Cependant,
SN E(SN )
le fait que la loi de ne soit quapproximativement gaussienne pour de
N V(X)
grandes valeurs de N , et non pas exactement (mme si cette approximation est
dautant meilleure que N est grand) limite fortement la porte de cette remarque.
Illustrons ceci dans la situation o X suit une loi de Bernoulli de paramtre
p = 1/2, et donc o SN suit la loi binomiale de paramtres N et 1/2. Le thorme
de la limite centrale nous permet de nous attendre ce que, par exemple, la loi
de 10000 = S10000505000 soit approximativement une loi gaussienne centre rduite.
Numriquement, on peut par exemple calculer que
Z 1,5
10000
P [0, 5 10000 1, 5] 0, 247 tandis que 0,1 (u)du 0, 242,
0,5

ou
Z 0,5
P10000 [0, 9 10000 0, 5] 0, 131 tandis que 0,1 (u)du 0, 124,
0,9

ou encore
Z 1,2
10000
P [10000 1, 2] 0, 117 tandis que 0,1 (u)du 0, 115.

En appliquant le changement dchelle affine x 7 100x 10000 , on obtient que


100 10000 devrait possder approximativement une loi gaussienne de paramtres
m = 0 et v = 1002 = 10000. Numriquement, on peut calculer que
Z 1,5
P10000 [0, 5 100 10000 1, 5] = 0 tandis que 0,100 (u)du 0, 004,
0,5
380

ou
Z 0,5
10000
P [0, 9 100 10000 0, 5] = 0 tandis que 0,100 (u)du 0, 0016,
0,9

ou encore
Z 1,2
10000
P [100 10000 1, 2] 0, 496 tandis que 0,100 (u)du 0, 495.

Les probabilits calcules pour la loi exacte de 100 10000 et pour une loi gaus-
sienne de paramtres m = 0 et v = 1002 = 10000 sont certes voisines, mais on
constate que, dans les deux premiers cas, il serait catastrophique dutiliser lapproxi-
mation par une loi gaussienne comme une estimation fiable de lordre de grandeur
des probabilits auxquelles on sintresse : elles valent exactement 0, et non pas 0,004
ou 0,0016. Tout simplement, dans notre exemple, le changement dchelle effectu
fait apparatre le caractre discret de la variable alatoire SN , qui ne peut prendre
que des valeurs entires. A une chelle o ce caractre discret est visible, il est clai-
rement absurde dassimiler la loi de SN une loi continue gaussienne. Si lon en
revient la variable alatoire 10000 , les probabilits que nous venons de calculer se
rcrivent : P10000 [0, 005 10000 0, 015], P10000 [0, 009 10000 0, 005], et
enfin P10000 [10000 0, 012]. Les deux premires probabilits correspondent des
intervalles de trs petite taille, et font donc intervenir la loi de 10000 une chelle
trop fine pour que lapproximation par une loi gaussienne centre rduite produise
des rsultats fiables (par exemple au sens dune faible erreur relative sur le calcul des
probabilits de la forme PN (N I)).
Bien entendu, le thorme de la limite centrale, qui est un rsultat asymptotique,
nonce le fait que, pour tout intervalle I R, on a
Z
N
lim P [N I] = 0,1 (u)du,
N + I

sans faire aucune diffrence entre un intervalle tel que [0, 5; 1, 5] et [0, 005; 0, 0015].
Le calcul ci-dessus suggre simplement que, si lon cherche extrapoler des va-
leurs grandes mais finies de N le rsultat asymptotique valable lorsque N +
nonc par le thorme de la limite centrale, lapproximation par une loi gaussienne
peut ncessiter, pour tre fiable, des valeurs de N plus importantes pour des in-
tervalles de petite taille que pour des intervalles dont la largeur est de lordre de
lunit. On peut chercher rendre compte de ce fait dans un cadre asymptotique
en tudiant le comportement lorsque N tend vers linfini de probabilits de la forme
PN [N IN ], o la taille de lintervalle IN peut donc varier avec N . Pour syst-
matiser lexemple prcdent, dans lequel X suit une loi de Bernoulli de paramtre
p = 1/2, on voit facilement que lintervalle IN = [0, 2 (N/2)1/2 ; 0, 4 (N/2)1/2 ]
est tel que PN [N IN ] = 0 du fait que SN ne peut prendre que des valeurs
La courbe en cloche 381

entires, tandis que IN 0,1 (u)du = (N 1/2 ). La meilleure manire daborder cor-
R

rectement cette question est dtudier de manire quantitative la convergence vers la


gaussienne dans le thorme de la limite centrale, ce qui fait lobjet du paragraphe
suivant.

4.3.8 Quantification de la convergence dans le thorme de la limite


centrale
Tel que nous lavons formul, le thorme de la limite centrale est un rsultat
asymptotique, valable seulement dans la limite o N tend vers linfini. Cependant,
en pratique, on lutilise avec des valeurs finies et supposes grandes de N , pour
approcher la loi de SN par une loi gaussienne. Les illustrations prcdentes montrent
que, pour une valeur donne de N , la prcision de lapproximation par une loi gaus-
sienne dpend de la loi de X, et, de mme que pour la loi des grands nombres, il
nexiste pas de nombre N grand dans labsolu, et qui permettrait de garantir une
certaine qualit dapproximation pour toutes les lois de X possibles. Pour prciser
cette question, commenons par noncer un rsultat : sous les mmes hypothses
que celles de lnonc du thorme de la limite centrale, et en ajoutant le
fait que lesprance E |X E(X)|3 existe, on a lingalit suivante (appe-
le ingalit de Berry-Essen, nous renvoyons par exemple louvrage de Shyriaev
cit dans la bibliographie pour une preuve de ce rsultat).
 
3
|X
" # Z
x E E(X)|
SN E(SN ) 0, 8
x R, PN x 0,1 (u)du .

p
V(SN ) N V(X)3/2
(4.4)
Au prix dune (petite) hypothse supplmentaire par rapport lnonc du tho-
rme de la limite centrale, on peut donc obtenir une borne non-asymptotique et
explicite concernant lapproximation de la loi de N par une loi gaussienne.
Une borne sur les probabilits du type PN (N ]a, b]) sen dduit immdiate-
ment, en crivant que PN (N ]a, b]) = PN (N b) PN (N a).
Remarquons tout de suite que la borne suprieure (4.4) ne fait pas intervenir x,
et quelle constitue donc une borne sur le pire cart, cest--dire
Z x
N
sup P (N x) 0,1 (u)du .
xR

Clairement, N tant fix, on peut toujours, en choisissant x suffisament petit, faire


Rx
en sorte que les probabilits PN (N x) et 0,1 (u)du soit aussi petites quon
le souhaite, et donc que la borne (4.4), qui ne fait pas intervenir x, soit arbitrai-
rement imprcise. Pour ntre pas prcise pour toutes les valeurs de x, cette borne
fournit nanmoins une borne suprieure quant lordre de grandeur des valeurs
382

Rx
de N ncessaires lobtention dune approximation donne de 0,1 (u)du par
PN (N x), et, qui plus est, pour des valeurs de x demeurant de lordre de lunit,
cette borne fournit en gnral le bon ordre de grandeur. De nombreuses amliora-
tions
de cette borne existent, incluant
des dveloppements asymptotiques prcis de
N Rx
P (N < x) 0,1 (u)du par rapport x et N , mais il sagit de questions

trop avances pour que nous les abordions ici. Nous vous renvoyons, par exemple,
louvrage de Feller (Tome 2) cit dans la bibliographie, pour en apprendre davantage
ce sujet. Nous vons invitons galement traiter lexercice 168.

4.3.9 Robustesse du thorme de la limite centrale


Nous avons nonc le thorme de la limite centrale dans un cadre identique ce-
lui de la loi faible des grands nombres du chapitre prcdent, en ajoutant lhypothse
que la loi de X devait possder une variance.
Comme dans le cas de la loi des grands nombres, le thorme de la limite centrale
reste valable condition que les variables alatoires Xi restent approximativement
indpendante, et que lordre de grandeur des valeurs quelles peuvent prendre soit
suffisament bien contrl (ce qui correspond dans notre nonc lexistence de les-
prance et de la variance de X).
Nous ne tenterons pas plus que dans le chapitre sur la loi des grands nombres de
formuler prcisment ce que peuvent tre ces conditions, mais nous nous contenterons
dillustrer sur quelques exemples la robustesse, ou la non-robustesse, du rsultat
nonc par le thorme de la limite centrale.

Lhypothse de rptition indpendante

Nous reprendrons ici les trois (plus une normale) pices obstines du chapitre
prcdent. Pour viter de pnibles renvois au chapitre prcdent, et quitte nous
rpter, nous reprenons en dtail les descriptions de chacune des pices considres.

Une pice normale

A titre de comparaison pour la suite, voici ce que lon obtient avec une pice
normale, dont les lancers sont indpendants et suivent une loi de Bernoulli de
paramtre 1/2 : P(Xi = F) = 1/2. La nombre total de F obtenu au cours des N
premiers lancers peut scrire

SN = f (X1 ) + + f (XN ),

en posant f (F) = 1 et f (P) = 0.


Chacun des trois graphiques suivant correspond la loi empirique obtenue avec
1000 simulations de N lancers, avec successivement N = 100, N = 1000, N =
La courbe en cloche 383

10000, centre puis rduite, avec en superposition la fonction de rpartition de la loi


gaussienne standard.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
384

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 385

Une pice de monnaie obstine

On suppose que lon a affaire une pice de monnaie obstine possdant la pro-
prit suivante : une fois la pice sortie de sa bote, le premier lancer est effectivement
alatoire, pouvant donner pile ou face avec une probabilit gale 1/2, mais, au cours
de tous les lancers suivants, la pice se souvient du rsultat de son premier lancer, et
sarrange toujours pour retomber exactement du mme ct. Si lon note X1 , . . . , XN
les rsultats des N premiers lancers de la pice, on se trouve ici dans un cas extrme
de non-indpendance : la valeur de Xi+1 est toujours gale la valeur de Xi . En
revanche, les lancers sont tous dcrits individuellement par une loi de Bernoulli de
paramtre 1/2 : P(Xi = P) = P(Xi = F) = 1/2. La nombre total de F obtenu au
cours des N premiers lancers peut scrire

SN = f (X1 ) + + f (XN ),

en posant f (F) = 1 et f (P) = 0. Pas plus que la loi des grands nombres, le thorme
de la limite centrale ne peut sappliquer SN , qui prend la valeur 0 avec probabilit
1/2, et N avec probabilit 1/2. Par exemple, le graphique ci-dessous reprsente la
fonction de rpartition de la loi empirique de lchantillon obtenu en effectuant 1000
simulations de S10000 , centre et rduite. En pointills, la fonction de rpartition de
la loi gaussienne standard.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
386

Une pice moins obstine

Considrons prsent une autre pice obstine, conservant galement la mmoire


de ses lancers passs, mais de manire moins stricte que la prcdente. Spcifique-
ment, une fois la pice sortie de sa bote, le premier lancer effectu est alatoire,
donnant pile ou face avec une probabilit gale 1/2. Ensuite, pour tout i 1, tant
donns les rsultats des i premier lancers, le i + 1me lancer se droule de la faon
suivante : la pice reproduit le rsultat du ime lancer avec une probabilit p fixe,
et produit le rsultat inverse avec une probabilit 1 p. Si p est gal 1, la pice
se comporte comme celle tudie dans le paragraphe prcdent. Si p = 0, on obtient
une alternance stricte de P et de F. Nous supposerons dans la suite que 0 < p < 1.
Si 1/2 < p < 1, la pice conserve sa tendance redonner lors dun lancer la valeur
obtenue lissue du lancer prcdent, mais de manire moins stricte que dans le cas
prcdent. Si p = 1/2, on retrouve une suite de rptitions indpendantes de lancers
de Bernoulli. Enfin, si 0 < p < 1/2, la pice a tendance produire lors dun lancer
un rsultat invers par rapport au lancer prcdent.

Les variables alatoires X1 , . . . , XN ne sont donc pas indpendantes lorsque p 6=


1/2, puisque le rsultat obtenu au cours dun lancer affecte la loi de probabilit
attache au lancer suivant. Cependant, il semble clair que, si k est suffisament grand,
le rsultat du lancer i + k doit tre relativement indpendant du rsultat du lancer
i, car la mmoire du rsultat du lancer i est de plus en plus brouille au fur et
mesure que les lancers se rptent (voir ce sujet lexercice 65). Il existe donc une
certaine forme dindpendance approche entre les rsultats suffisament loigns dans
la squence des lancers.

On peut par ailleurs facilement vrifier que, pris de manire individuelle, les
lancers sont dcrits par une loi de Bernoulli de paramtre 1/2 : P(Xi = P) = P(Xi =
F) = 1/2.

Il se trouve que, quelle que soit la valeur de p ]0, 1[ dans ce modle, le thorme
de la limite centrale est effectivement vrifi par le nombre de P obtenu aprs N
lancers, que nous notons SN comme dans le paragraphe prcdent.

Pour lillustrer, nous prsentons des graphiques reprsentant pour diverses va-
leurs de p et de N la fonction de rpartition de la loi empirique de lchantillon
obtenu en effectuant 1000 simulations de SN , centre et rduite. En pointills, la
fonction de rpartition de la loi gaussienne standard.

Prenons par exemple p = 0, 7 et N = 100.


La courbe en cloche 387

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Puis p = 0, 7 et N = 1000.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
388

Et enfin p = 0, 7 et N = 10000.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Avec maintenant p = 0, 95 et N = 100.


La courbe en cloche 389

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Puis p = 0, 95 et N = 1000.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
390

Et enfin p = 0, 95 et N = 10000.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

A prsent p = 0, 2 et N = 100.
La courbe en cloche 391

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Puis p = 0, 2 et N = 1000.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
392

Et enfin p = 0, 2 et N = 10000.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Encore une pice obstine

Considrons prsent une pice dont les lancers successifs sont relies de la
manire suivante. Une fois la pice sortie de sa bote, le premier lancer effectu
est alatoire, donnant pile ou face avec une probabilit gale 1/2. Ensuite, pour
tout i 1, tant donns les rsultats des i premier lancers, le i + 1me lancer se
droule de la faon suivante : la pice accorde P une probabilit proportionnelle
1 + Ni (P ) et F une probabilit proportionnelle 1 + Ni (F ), Ni (P ) et Ni (F )
dsignant respectivement les nombres de fois o P et F sont sortis au cours des
i premiers lancers, et > 0 dsignant un paramtre. En dautres termes, chaque
nouveau lancer donnant lieu un F renforce dune valeur gale le poids accord
F dans les futurs lancers, et il en va de mme pour P. On peut vrifier facilement
que, pris de manire individuelle, les lancers sont dcrits par une loi de Bernoulli de
paramtre 1/2 : P(Xi = P) = P(Xi = F) = 1/2.
Comme prcdemment nous prsentons des graphiques reprsentant pour di-
verses valeurs de et de N la fonction de rpartition de la loi empirique de
lchantillon obtenu en effectuant 1000 simulations de SN , centre et rduite. En
pointills, la fonction de rpartition de la loi gaussienne standard.
Voici quelques exemples de simulations effectues avec = 2.
La courbe en cloche 393

Pour N = 100.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Pour N = 1000.
394

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Pour N = 10000.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
La courbe en cloche 395

Voici prsent des simulations effectues avec = 0, 2, soit une dpendance plus
faible des lancers vis--vis des rsultats des lancers prcdents. La diffrence avec une
loi gaussienne, quoique relle, tant plus difficile observer, nous simulons cette fois
des chantillons de taille 50000 plutt que de taille 1000.

Pour N = 100.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Pour N = 1000.
396

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Pour N = 10000.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
La courbe en cloche 397

Lexistence de la variance

Dans les trois exemples prcdents, nous avons considr des sommes de variables
alatoires, certes dpendantes entre elles, mais ne pouvant prendre que les valeurs
0 et 1, et en fait toutes de loi de Bernoulli de paramtre 1/2, ce qui assurait bien
entendu lexistence de lesprance et de la variance.

Posons-nous prsent la question, dans le cas de rptitions indpendantes dune


variable alatoire, de la robustesse du thorme de la limite centrale vis--vis de
lexistence de la variance de X. Du fait que V(X1 + + XN ) = + si V(X) = +,
N E(SN )
lnonc selon lequel S suit approximativement une loi gaussienne lorsque N
V(SN )
est grand, na plus de sens, et lon ne peut plus ramener SN une chelle naturelle
pour ses fluctuations en la centrant et en la rduisant comme nous lavions fait
jusqu prsent. Il existe nanmoins une telle chelle naturelle, dfinie diffremment,
et lobservation de SN sur cette chelle ne conduit pas une loi gaussienne, mais
une loi dont la variance nexiste pas.

Nous vous renvoyons aux ouvrages dintroduction la thorie des probabilits


pour en apprendre plus sur le comportement de SN en labsence de variance dfinie.

Pour prendre un exemple, si lon choisit X de la forme X = signe(C) |C|0,8 , o


C suit une loi de Cauchy de paramtre s = 1 et ` = 0, on se trouve dans le cas o
E(X) est dfinie, mais sans que V(X) le soit. Il est toujours possible, tant donn un
chantillon simul de valeurs de SN , de centrer et de rduire la loi empirique associe
cet chantillon (puisque les valeurs de lchantillon sont en nombre fini, lesprance
et la variance de cette loi sont toujours dfinies).

Voici quelques exemples de ce que lon obtient en procdant de cette manire,


avec des chantillons de taille 1000 :

Pour N = 100, N = 1000, N = 10000 puis N = 100000.


398

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 399

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

On constate que les lois obtenues ne correspondent manifestement pas des lois
400

gaussiennes centres rduites, contrairement la situation qui prvalait dans le cas


o la variance tait finie. Les graphes ci-dessus suggrent en fait quil pourrait y avoir
convergence, mais vers une loi diffrente dune loi gaussienne. La situation est plus
complique quil ny parat, car les valeurs de la variance empirique par lesquelles nous
avons normalis nos variables fluctuent considrablement dune simulation lautre,
ce qui ne permet pas de parler dune chelle dtermine laquelle on ramnerait la
loi tudie en procdant comme nous lavons fait. Voici par exemple quatre valeurs
successivement obtenues pour la variance de la loi empirique de SN en effectuant
1000 simulations, et pour N = 1000 : 2200,527 ; 1472,161 ; 2992,175 ; 11496,97.
Augmenter la taille des chantillons dans lespoir de mieux stabiliser cette valeur
nest gure efficace. Toujours avec N = 1000, mais cette fois avec 20000 simulations,
voici encore quatre valeurs successivement obtenues pour la variance de la loi empi-
rique de SN : 4204,347 ; 7855,702 ; 47786,29 ; 7700,53... Ceci est bien entendu li au
fait que la variance (thorique) de SN nest pas dfinie, et que la variance de la loi
empirique ne peut se stabiliser autour de quelque valeur finie que ce soit.
Comme dans le chapitre prcdent, on peut noter que, concrtement, le fait que
la variance dune variable alatoire (dont on peut presque toujours prouver quelle
est en fait borne, mme si les bornes sont gigantesques) nest pas dfinie signifie
plutt ici que lon ne peut observer un comportement du type de celui dcrit par le
thorme de la limite centrale pour un nombre raisonnable de termes dans la somme
que lon considre.

4.3.10 Le thorme de la limite centrale et le caractre universel


( ?) de la loi gaussienne
Le thorme de la limite centrale stipule que, observes sur leur chelle naturelle,
les sommes dun grand nombre de variables alatoires indpendantes et de mme loi
possdant une esprance et une variance, prsentent une distribution de probabilit
approximativement gaussienne.
Il est tout--fait remarquable que ce soit toujours la loi gaussienne qui intervienne
dans ce rsultat, quelle que soit la loi des variables alatoires que lon additionne
(pour peu quelle possde une esprance et une variance), mme si celle-ci na au
dpart aucun rapport avec une loi gaussienne. La loi gaussienne possde donc, en
ce sens, un caractre universel, car elle intervient systmatiquement lorsque lon a
affaire des sommes dun grand nombre de variables alatoires indpendantes et de
mme loi. 3
3. Notons au passage, pour les lecteurs que lintrt dune preuve mathmatique de la loi des
grands nombres, par rapport au recours la simple intuition, aurait laisss sceptiques, que lon
obtient ici, en poursuivant ltude mathmatique du comportement asymptotique des sommes de
variables alatoires indpendantes, un rsultat dune grande porte, que lintuition seule et non
formalise serait bien en peine datteindre.
La courbe en cloche 401

Or, dans une grande varit de situations concrtes, on peut sattendre ce


que les quantits que lon tudie se prsentent effectivement comme le rsultat de
laddition dun grand nombre de termes alatoires, approximativement indpendants
et du mme ordre de grandeur.
Par consquent, en prenant en compte la robustesse du thorme de la limite
centrale (voir le paragraphe Robustesse du thorme de la limite centrale sur cette
question), et le fait quil nest souvent pas ncessaire que le nombre de variables mises
en jeu soit trs lev pour que lon observe une assez bonne approximation par une
loi gaussienne, il est naturel de sattendre ce quun grand nombre de quantits
prsentent une distribution de probabilit dcrite, au moins approximativement, par
une loi gaussienne.
De fait, dans de nombreux domaines, il est trs courant de modliser au moins
en premire approximation , des variables quantitatives continues sous la forme
dun terme constant auquel sajoute un terme de fluctuation gaussien dcrivant la
variabilit de cette quantit.
Prcisons un peu le rle que peut jouer le thorme de la limite centrale dans ce
contexte.
un rle de suggestion : si, sans pour autant disposer dun grand nombre de
donnes, ou de connaissances pralables approfondies, on peut raisonnable-
ment penser que la quantit tudie apparat comme la somme dun grand
nombre de variables alatoires approximativement indpendantes et de mme
loi possdant une esprance et une variance, alors le thorme de la limite
centrale suggre quil peut tre pertinent, au moins en premire approxima-
tion, de tenter de modliser la distribution de cette quantit au moyen dune
loi gaussienne. Bien entendu, cette modlisation doit, autant que possible, tre
ensuite confronte avec les donnes recueillies, et plus gnralement les connais-
sances acquises, sur la quantit considre. Par ailleurs, il ne sagit pas de la
seule raison pouvant suggrer lutilisation dune loi gaussienne dans un modle,
dautres proprits de cette loi 4 de celle-ci pouvant conduire la slectionner
dans certains contextes.
un rle dexplication : si la distribution observe dune quantit apparat, au
moins approximativement, comme gaussienne, le thorme de la limite cen-
trale suggre comme une explication possible le fait que cette quantit rsulte
de laddition dun grand nombre de variables alatoires approximativement in-
dpendantes et de mme loi possdant une esprance et une variance. Ce nest
bien entendu pas la seule explication possible, et il ne sagit que dune sugges-

4. Par exemple ses proprits de maximisation dentropie, ou disotropie spatiale, voir les exer-
cices 166 et 167. Ou encore, la possibilit quelle offre de mener explicitement un certain nombre
de calculs, ce qui, avant lavnement des ordinateurs modernes et de leurs puissantes capacits de
calcul, la rendaient parfois la seule utilisable en pratique.
402

tion dexplication tant quelle na pas t effectivement valide par la mise en


vidence de ces variables alatoires et la vrification des proprits quon leur
prte.
Avant de donner des illustrations concrtes dapparition de la loi gaussienne, men-
tionnons le fait quelle a t considre comme tellement omniprsente quon lui a
galement attribu le nom de loi normale. Pour citer une boutade attribue Henri
Poincar 5 propos de lutilisation de la loi gaussienne : Tout le monde y croit ce-
pendant, car les exprimentateurs simaginent que cest un thorme mathmatique,
et les mathmaticiens que cest un fait exprimental.

4.4 Des exemples concrets


Pour illustrer le fait que la loi gaussienne apparat effectivement dans certaines
situations relles, mais quelle napparat pas non plus de manire systmatique, nous
prsentons dans ce qui suit plusieurs jeux de donnes relles (tous issus de la base
de donnes MASS du logiciel R).
Dans tous les exemples qui suivent, il est clair quune grande quantit de facteurs
interviennent dans la formation des quantits tudies. Quant dterminer si cest
effectivement le thorme de la limite centrale qui explique lapparition de la loi
gaussienne dans les exemples o celle-ci est observe, ou quel cart par rapport aux
hypothses de ce thorme pourrait expliquer le caractre non-gaussien des autres
exemples, nous nous en remettons principalement votre propre sagacit.
Prcisment, nous comparons dans ce qui suit les lois empiriques associes des
chantillons de valeurs mesures la loi gaussienne centre rduite, aprs les avoir
centres, puis rduites. Dans linterprtation frquentielle de la probabilit, qui nest
pas a priori garantie dans nos exemples il faudrait en savoir bien davantage sur la
manire dont les donnes ont t collectes , mais qui constitue le cadre dans lequel
nous nous placerons par dfaut, la loi empirique associe un grand chantillon four-
nit une approximation de la loi thorique de la quantit sur laquelle portent les don-
nes mesures. Pour juger quel point lcart observ entre une telle loi empirique et
la loi gaussienne peut tre attribu un cart entre la loi thorique (centre rduite)
et la loi gaussienne centre rduite, ou plutt des fluctuations dchantillonnage,
lies au fait que lon ne considre que des chantillons comportant un nombre fini de
donnes, et se traduisant par le fait quil existe presque toujours un cart entre la loi
empirique associe aux donnes et la loi thorique, il est ncessaire de faire des hypo-
thses supplmentaires sur le processus dchantillonnage (quil faudrait elles-mmes
valider) : par exemple supposer que les valeurs mesures peuvent tre considres
comme issues de ralisations indpendantes de la loi thorique. Ce type de question

5. Henri Poincar (18541912).


La courbe en cloche 403

saborde normalement dans le cadre mthodologique des tests statistiques, qui sera
dcrit dans le chapitre Statistique. Vous pouvez galement consulter avec profit
le paragraphe traitant du thorme de Glivenko-Cantelli dans le chapitre prcdent.
Nous nous contenterons, titre dillustration, de comparer succintement et graphi-
quement les carts observs entre les lois empiriques associes aux donnes et la loi
gaussienne, des carts observs entre les lois empiriques associes des chan-
tillons de mme taille que les chantillons de donnes, mais constitus de simulations
de variables alatoires indpendantes et de loi gaussienne.

4.4.1 Des exemples approximativement gaussiens

la vitesse de la lumire !

Pour commencer, un exemple historique : une liste de 100 mesures de la vitesse


de la lumire dans lair (en km/s), releves au cours de la clbre exprience de
Michelson (1879), qui permit de montrer que, contrairement aux prdictions de la
mcanique newtonienne, la vitesse de la lumire tait la mme dans tous les rf-
rentiels, ouvrant ainsi la voie la thorie de la relativit restreinte dEinstein. (Ces
donnes proviennent darticles de A. Weekes et S. Stigler repris dans la base de
donnes MASS du logiciel R).

Le graphique ci-dessous reprsente la fonction de rpartition de la loi empirique


de lchantillon constitu par les 100 mesures, centre et rduite. En pointills, la
fonction de rpartition de la loi gaussienne standard.
404

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Les deux fonctions de rpartition semblent raisonnablement proches, ce qui ac-


crdite le fait que les mesures sont approximativement distribues selon une loi gaus-
sienne. A titre de comparaison, voici plusieurs graphiques obtenus en appliquant
le mme traitement un chantillon simul de 100 variables alatoires gaussiennes
centres rduites indpendantes.
La courbe en cloche 405

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
406

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Ces trois graphiques sont bien entendu diffrents les uns des autres, ce qui illustre
les variations de la loi empirique lorsque lon considre des chantillons de taille mo-
dre. Cependant, chacun de ces graphiques semble plus proche des deux autres quil
ne lest de celui associ aux donnes mesures, ce qui peut amener douter du fait
que celles-ci puissent tre exactement modlises au moyen dune loi gaussienne. Pour
bien faire, il faudrait naturellement simuler un grand nombre de tels graphiques,
afin de vrifier si le graphique obtenu avec nos donnes mesures est rellement aty-
pique par rapport lensemble de ceux-ci, alors que nous nous sommes contents de
trois exemples. Cest exactement le principe des tests statistiques, qui ncessite bien
entendu une dfinition plus prcise et quantitative de lcart que le simple fait que
nos yeux (et notre cerveau) nous suggrent une diffrence. Nous nous restreindrons
cependant ici ces trois exemples, en renvoyant au chapitre Statistique pour un
traitement plus abouti de ce type de question.

Revenant nos donnes, on constate quune petite remarque permet de mieux


comprendre ce qui se passe : en fait, les valeurs mesures dont nous disposons (en
km/s) ont manifestement t arrondies la dizaine. Si lon simule 100 variables
alatoires gaussiennes de mme esprance et de mme variance que la loi empirique
associe aux 100 mesures, et quon leur fait subir le mme type darrondi, on obtient
les graphiques suivants :
La courbe en cloche 407

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
408

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

qui ressemblent beaucoup plus que les trois graphiques prcdents au graphique
obtenu avec les valeurs mesures 6 .
Nous verrons, dans le chapitre Statistique, des moyens systmatiques de tester
ladquation entre des valeurs mesures et un modle en tenant compte des variations
possibles de la loi empirique rsultant de lchantillonnage. Nous nous sommes ici
contents dun traitement on ne peut plus informel de cette question. Par ailleurs,
cet exemple fait apparatre le caractre crucial de la qualit des donnes (et, en
particulier, du traitement quelles peuvent avoir subi).

Des Indiennes

Prenons un autre exemple : des mesures de la pression sanguine diastolique (en


millimtres de mercure) chez 287 femmes de la tribu indienne Pima, ges de plus de
21 ans et vivant prs de la ville de Phoenix, Arizona, tats-Unis dAmrique. (Ces
donnes proviennent dun article de J. Smith et coll. repris dans la base de donnes
MASS du logiciel R).
6. Des histogrammes dont la largeur des classes serait macroscopique devant lordre de grandeur
des arrondis effectus ne feraient pas apparatre la diffrence que nous avons constate sur les
fonctions de rpartition. Cest la fois un avantage (cette question darrondi nest pas forcment
pertinente lchelle laquelle on entend dcrire la vitesse) et un inconvnient, car lutilisation
exclusive dhistogrammes, sans examen des donnes elles-mmes pourrait nous faire passer ct
de cette proprit des donnes.
La courbe en cloche 409

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Ici encore, les donnes ont manifestement t arrondies, car les 287 mesures sont
toutes des nombres entiers ( deux chiffres), dont 273 sont des nombres pairs. Le
mme type de remarque que prcdemment sapplique donc. Voici les six graphiques
correspondants : les trois premiers associes des chantillons de 287 variables ala-
toires gaussiennes simules, les trois suivants des chantillons de 287 variables
alatoires gaussiennes simules et convenablement arrondies.
410

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 411

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
412

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 413

Des crabes

Encore un exemple : des mesures de la taille du lobe frontal (exprime en milli-


mtres) chez le crabe Leptograpsus variegatus, effectues sur 200 spcimens.

(Ces donnes proviennent dun larticle de N. Campbell et J. Mahon repris dans


la base de donnes MASS du logiciel R).
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Ici encore, les donnes ont t manifestement t arrondies la premire dci-


male. Le mme type de remarque que prcdemment sapplique donc. Voici les six
graphiques correspondants : les trois premiers associes des chantillons de 200
variables alatoires gaussiennes simules, les trois suivants des chantillons de 200
variables alatoires gaussiennes simules et convenablement arrondies.
414

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 415

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
416

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 417

4.4.2 Des exemples non gaussiens, mme approximativement

Nous donnons dans ce qui suit des exemples de donnes dans lesquelles la loi
empirique des donnes diffre grossirement dune gaussienne.

Tout dabord, notons quun grand nombre de quantits ne peuvent videmment


pas possder une distribution gaussienne, notamment toutes les quantits possdant
un caractre discret lchelle o on les observe. Dans la suite, nous donnons des
exemples de quantits continues dont la distribution, une fois ramene son chelle
naturelle, pourrait a priori tre dcrite par une gaussienne, mais ne lest manifeste-
ment pas.

Une loi de probabilit peut diffrer dune loi gaussienne de bien des manires, mais
il nest pas inutile de caractriser, mme grossirement, le type de proprit dune loi
gaussienne qui nest pas satisfaite par les donnes. Trois proprits fondamentales de
la loi gaussienne sont par exemple : son caractre unimodal, son caractre symtrique,
et, si les deux prcdentes proprits sont vrifies, la forme prcise de la fonction
qui dlimite la cloche.

Un geyser fidle

Cet exemple est constitu par une liste de mesures des dures inter-ruptions (en
minutes) du geyser dnomm The Old Faithful dans le parc du Yellowstone aux
tats-Unis, ralises en continu pendant deux semaines au mois daot 1985. Cette
liste comporte 272 mesures.

(Ces donnes proviennent dun article de W. Hrdle repris dans la base de donnes
MASS du logiciel R).

Le graphique ci-dessous reprsente la fonction de rpartition de la loi empirique


de lchantillon constitu par les 272 mesures, centre et rduite. En pointills, la
fonction de rpartition de la loi gaussienne standard.
418

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Cette fois, mme en tenant compte du fait que les donnes ont manifestement t
arrondies (les dures en minutes sont toutes des nombres entiers), il ne semble pas
que lcart observ entre la fonction de rpartition gaussienne et celle des donnes
puisse tre mis sur le compte de fluctuations de la loi empirique associe un chan-
tillonnage de taille finie. Une mthode pour quantifier ce fait de manire correcte et
prcise serait deffectuer un test statistique, mais nous nous contenterons ici, comme
dans les exemples prcdents, de comparer avec trois graphiques correspondant
272 variables alatoires gaussiennes simules et arrondies dune manire comparable.
Les donnes prsentes tant structures, il semble malgr tout moins pertinent que
dans les exemples prcdents de simplement comparer nos donnes avec des chan-
tillons de simulations indpendantes de variables alatoires gaussiennes. Tenter de
tenir compte correctement du caractre structur des donnes, et de son ventuelle
influence, pour aborder cette question dpasse de loin le niveau de ce que nous sou-
haitons prsenter ici, mais il nest certainement pas inutile de mentionner ce point,
afin au moins de souligner que, de manire gnrale, des mthodes gnrales et stan-
dardises ignorant une partie de la structure sous-jacentes un phnomne que lon
tudie, ne sont pas forcment les plus pertinentes.
La courbe en cloche 419

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
420

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

En reprsentant un histogramme des donnes relatives au geyser, la situation


sclaire quelque peu.
50
40
30
20
10
0

40 50 60 70 80 90 100

En effet, on constate que la distribution des donnes est grossirement bimodale,


et viole donc le caractre unimodal de la loi gaussienne.
En revanche, si lon spare les donnes en deux groupes, selon que les dures sont
La courbe en cloche 421

suprieures ou infrieures 65 minutes, et que lon reprsente les lois empiriques


centres et rduites associes chacun de ces deux groupes de donnes, on obtient
les deux graphiques suivants.

Pour le groupe des 175 donnes suprieures (strictement) 65 minutes :


1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Pour le groupe des 97 donnes infrieures (ou gales) 65 minutes :


422

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

On constate quil napparat pas a priori draisonnable de reprsenter la dis-


tribution des donnes comme un mlange de deux lois gaussiennes de paramtres
diffrents, correspondant une loi gaussienne pour les faibles dures, et une autre
loi gaussienne pour les fortes dures. Il ny a pas de raison a priori pour quune loi
multimodale puisse toujours tre reprsente comme un mlange de lois gaussiennes,
mais cette proprit remarquable de notre exemple mritait dtre souligne. Qui plus
est, elle suggre une raison gnrale permettant de sattendre ce quune quantit ne
soit pas dcrite par une loi gaussienne : lexistence de plusieurs sous-populations au
sein de la population chantillonne, la quantit tudie tant effectivement dcrite
par une loi gaussienne au sein de chaque sous-famille, ces gaussiennes nayant pas
les mmes paramtres dune famille lautre.
Pour prendre un exemple familier, la rpartition de quantits morphologiques
telles que le poids ou la taille dans les populations humaines doit clairement tre
bimodale du fait de lexistence de deux groupes bien distincts quant leur morpho-
logie : les hommes et les femmes.
Par ailleurs, rinsistons sur le fait que les donnes que nous avons utilises dans
cet exemple sont des donnes structures, car elles correspondent des mesures qui
se succdent dans le temps. Cette structure nest pas prise en compte lorsque que
lon ne considre que la loi empirique, et une analyse plus pousse de ces donnes
devrait obligatoirement faire appel aux techniques spcifiques permettant danalyser
La courbe en cloche 423

des sries chronologiques sujet fort intressant mais qui dpasse le niveau de ce
cours.

Voici, juste pour le plaisir, le trac des dures inter-ruptions dans lordre de
leur succession (les valeurs successives ont t relies entre elles par des segments de
droite).
90
80
70
60
50

0 50 100 150 200 250

Analyses durine

Cette fois, un exemple de mesures de la concentration de GAG (un compos


chimique) dans les urines de 314 enfants gs de 0 17 ans (effectues dans un
but dtalonnage : pouvoir dterminer, par comparaison, le caractre normal ou non
dune concentration mesure chez un enfant donn.)

(Ces donnes proviennent dun article de S. Prosser repris dans la base de donnes
MASS du logiciel R).

Le graphique ci-dessous reprsente la fonction de rpartition de la loi empirique


de lchantillon constitu par les 314 mesures, centre et rduite. En pointills, la
fonction de rpartition de la loi gaussienne standard. Suivent trois exemples de gra-
phiques obtenus par simulation de 314 variables gaussiennes arrondies de manire
comparable aux donnes.
424

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 425

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Sans commentaire ! Voici maintenant un histogramme associ aux donnes, qui


426

fait trs clairement apparatre la violation du caractre symtrique de la loi gaus-


sienne.

GAG
100
80
60
Effectif

40
20
0

0 10 20 30 40 50 60

Notons que, dans cet exemple, nous disposons de la donne de lge des enfants,
en plus de la valeur mesure de la concentration de GAG, et il existe clairement une
forte association entre ces deux quantits, comme le montre le graphique suivant, qui
reprsente les 314 paires (ge en annes, concentration en GAG).
La courbe en cloche 427

50
40
30
GAG

20
10
0

0 5 10 15

Age

Si lon se restreint, par exemple, aux 132 mesures de GAG effectues sur des
enfants de strictement plus de 5 ans, pour lesquels une certaine homognit dans la
distribution de la concentration en GAG est suggre par le graphique ci-dessus, on
obtient le graphique suivant :
428

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

4.4.3 Phynances !

Nous nous attaquons maintenant une liste de 2780 donnes correspondant aux
variations quotidiennes de lindice Standard and Poors 500 au cours des annes 1990
1999 (restreintes au jours douverture des marchs).

Comme prcdemment, la fonction de rpartition empirique suivie de trois com-


paraisons avec des simulations de 2780 variables alatoires gaussiennes indpendantes
(sans arrondi cette fois, les donnes comportant 9 dcimales !).
La courbe en cloche 429

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

On note la grande rgularit des courbes obtenues, mettre en rapport avec le


grand nombre de donnes disponibles.
430

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

3
3

2
2

1
1

0
0

1
1

2
2

3
3
La courbe en cloche 431

1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Ici encore, du fait que les donnes sont structures en temps, la comparaison avec
des gaussiennes simules indpendantes perd bien entendu un peu de sa pertinence.

Voici un histogramme associ aux valeurs mesures.


432

SP500
600
400
Effectif

200
0

8 6 4 2 0 2 4

Lhistogramme illustre ce que lon pouvait dj observer sur le premier graphique,


savoir que, mme si la distribution des valeurs, une fois centre et rduite, est
clairement unimodale et symtrique, au moins approximativement, la forme de la
cloche qui lui est associe ne correspond pas une courbe gaussienne, mais une
cloche plus resserre.
Cependant dans ce cas, et cest une observation dune porte certaine dans de
nombreux exemples de modlisation partir de donnes relles, on peut obtenir
une distribution qui se rapproche bien davantage dune gaussienne en effectuant une
transformation non-linaire bien choisie sur les donnes. Voici par exemple le gra-
phique obtenu en considrant la loi empirique des donnes centres, puis transformes
par lapplication x 7 signe(x) |x|0.76 , puis rduites. La distribution ainsi obtenue
ne sidentifie pas parfaitement une loi gaussienne, mais nen est pas si loigne,
surtout si lon prend en compte le nombre lev de donnes disponibles. Dans les
faits, il est rare que, lorsque lon dispose dun nombre de donnes suffisant pour esti-
mer trs prcisment la loi associe aux donnes, cette loi concide exactement avec
une gaussienne, mme si elle en est trs proche (lorsque lon ne dispose que dun
nombre limit de donnes, on ne peut estimer trs prcisment la loi associe aux
donnes, et lon ne peut donc pas aussi facilement la diffrencier dune gaussienne
lorsquun cart entre ces deux lois existe). Ceci appelle encore une remarque : en
pratique, nous ne sommes pas forcment intresss par le fait que les variables tu-
La courbe en cloche 433

dies suivent exactement une loi gaussienne, notre but tant plutt dutiliser cette
loi comme une bonne approximation pour valuer les quantits (typiquement, des
probabilits) dintrt. Par consquent, un cart rel entre la loi gaussienne et les
variables tudies ne signifie pas forcment quil faut renoncer utiliser la loi gaus-
sienne pour dcrire celles-ci. Simplement, il faut sassurer que lcart est suffisament
faible pour que les quantits auxquelles on sintresse nen soient pas significative-
ment affectes. Bien entendu, aucun ncart nest faible ou important dans labsolu :
tout dpend des quantits que lon cherche calculer partir dune approximation
par une loi gaussienne. Nous vous renvoyons galement la discussion donne dans
la partie Attention lchelle.
1.0
0.8
0.6
0.4
0.2
0.0

3 2 1 0 1 2 3

Nous ne rsistons pas au plaisir dajouter un trac des donnes dans lordre de
leur succession (les valeurs successives ont t relies entre elles par des segments de
droite).
434

SP500
4
2
0
2
4
6

0 500 1000 1500 2000 2500

4.5 Quelques applications du TCL


4.5.1 Sondages
Le fait que le thorme de la limite centrale permette de prciser lordre de
grandeur de lerreur dans la loi des grands nombres fait quil intervient de manire
systmatique lorsque la loi des grands nombres est employe pour estimer une cer-
taine quantit. Pour prendre un exemple trs simple, supposons que lon sonde la
population pour dterminer la proportion p dindividus ayant telle caractristique
particulire (par exemple : la proportion de personnes utilisant de prfrence les
transports en commun des moyens de transport individuel pour se rendre sur leur
lieu de travail). Un modle trs simple de sondage est le suivant : on interroge N
personnes, choisies alatoirement selon la loi uniforme dans la population tudie.
En appelant Xi la variable alatoire prenant la valeur 1 lorsque la rponse la ques-
tion pose est oui, et 0 lorsque celle-ci est non, les variables X1 , . . . , XN sont
alors des variables alatoires indpendantes, possdant toutes la loi de Bernoulli de
paramtre p.
Lestimation de p obtenue par le sondage est alors gale N 1 (X1 + + XN ).
Daprs la loi des grands nombres, on sattend ce que, typiquement, N 1 (X1 +
+ XN ) p lorsque N est grand, et le thorme de la limite centrale
q affirme que
lerreur destimation, soit N 1 (X1 + + XN ) p, est de la forme p(1p)
N N , o
N suit approximativement une loi gaussienne centre rsuite lorsque Nq est grand.
p(1p)
En supposant par exemple que p = 1/2 et N = 500, on obtient que N
2, 2%. Par consquent, on peut sattendre ce que, avec une probabilit denviron
La courbe en cloche 435

95%, lerreur destimation soit comprise entre 4, 4% et 4, 4%. De mme, on peut


sattendre ce que, avec une probabilit de plus de 30%, lerreur dapproximation soit
suprieure (en valeur absolue) 2, 2%. (Ce ne sont l que deux exemples particuliers,
lapproximation par la loi gaussienne fournissant une approximation de la totalit de
la loi de probabilit de lerreur.)

Si lon doublait le nombre de personnes interroges, les intervalles calculs ver-



raient leur taille divise par 2, soit environ 95% de probabilit davoir une erreur
comprise entre 3, 1% et 3, 1%, et plus de 30% de probabilit davoir une erreur
comprise entre 1, 5% et 1, 5%.

(Au passage, vous pouvez comparer cette incertitude, invitable du fait du prin-
cipe mme du sondage, avec lamplitude des variations qui sont systmatiquement
commentes et interprtes par les mdias, dans les sondages dopinion).

Plusieurs remarques :

si lon disposait de plusieurs sondages indpendants, on pourrait obtenir une


estimation plus prcise en regroupant entre eux les diffrents rsultats obtenus
(comment ?) ;
le calcul ci-dessus fait intervenir de manire cruciale la taille de lchantillon
tudi (N ), mais pas la taille de la population sonde ;
en pratique, les sondages effectus par les instituts menant des tudes dopi-
nion ne saccordent pas avec le modle de tirage alatoire employ ici (dautre
mthodes, moins difficiles et/ou moins coteuses mettre en pratique sont em-
ployes, telle la mthode des quotas, qui consiste sassurer que lchantillon
utilis comprend des quotas dindividus possdant diverses caractristiques,
par exemple : quotas dhommes et de femmes, de travailleurs salaris, de per-
sonnes de plus de 60 ans, etc...), et le calcul derreur que nous avons men ici
ne sapplique donc pas directement ; cependant, lchantillonnage alatoire est,
en gros, le seul pour lequel on puisse obtenir des estimations rigoureuses de
lerreur ;
nous avons suppos ici un sondage avec uniquement deux rponses possibles
(oui ou non), mais la mthode peut bien entendu se gnraliser un sondage
comportant un nombre quelconque de modalits de rponse ; soulignons que
la mthode qui consisterait ignorer les non-rponses pour ne considrer dans
lestimation fournie que les rponses effectivement formules est grossirement
erronne, car elle ignore la dpendance pouvant exister entre le fait de ne pas
rpondre et la caractristique tudie par le sondage, ce qui fait que lon ne peut
plus utiliser le modle selon lequel les rponses utilises pour lestimation sont
dcrites par des variables alatoires indpendantes de Bernoulli de paramtre
gal la proportion recherche.
436

4.5.2 Mthodes de Monte-Carlo


Pas encore crit ici...

4.6 Lois gaussiennes multidimensionnelles Vecteurs ala-


toires gaussiens
A faire

4.6.1 Vecteurs gaussiens et rgression linaire


Exemple historique de Galton.

4.6.2 Le principe du test du chi-deux

4.7 Exercices
Exercice 162 (Marche au hasard)
Un ivrogne se promne en titubant dans une ruelle troite...
1) On modlise ses dplacements de la manire suivante : chaque pas est effectu vers
lavant avec probabilit 1/2, vers larrire avec probabilit 1/2, indpendamment des
autres pas, et lon suppose que la taille des pas est constante (par exemple 80cm).
Que pouvez vous dire de la position de livrogne aprs un grand nombre de pas ?
quelle distance se trouve-t-il de son point de dpart ?
2) On suppose prsent quun vent violent balaye la rue, soufflant toujours dans
la mme direction, ce qui fait que la probabilit deffectuer un pas contre le vent
est maintenant de 0, 4, et celle deffectuer un pas dans le sens du vent est de 0, 6.
Comment le rsultat prcdent est-il modifi ?

Exercice 163 La compagnie arienne Air-Jojo pratique, comme nombre de ses concur-
rentes, la surrservation, cest--dire que, pour un vol donn, le nombre de places ven-
dues est suprieur au nombre total de places disponibles dans lavion, la compagnie
comptant sur le fait quun certain nombre de passagers annulent finalement leur d-
part, et souhaitant remplir au maximum ses avions. En supposant par exemple quun
vol dispose de 300 places, et que chaque passager a, indpendamment des autres, une
probabilit de 0, 1 dannuler son dpart, pouvez-vous estimer le nombre maximum K
de places que la compagnie peut vendre pour que le nombre de passagers prsents au
dpart de lavion soit infrieur ou gal au nombre total de places disponibles avec une
probabilit de plus de 90%. Quelle est alors la probabilit que plus de 10 passagers ne
puissent pas monter dans lavion ?
La courbe en cloche 437

Exercice 164 Des bits dinformation sont transmis le long dune ligne tlphonique,
chaque bit ayant une (faible) probabilit p dtre mal transmis et invers, indpen-
dament des autres. Si le nombre total de bits transmis est N , quelle est la loi de la
variable alatoire X comptant le nombre de bits mal transmis ? Que peut-on dire de
la loi de X lorsque N est grand ? Quen est-il dans les exemples suivants :
N = 106 et p = 1/10 ;
N = 107 et p = 1/100 ;
N = 106 et p = 106 ;
N = 106 et p = 107 ;
N = 10 et p = 1/10 ;
N = 10 et p = 106 ;
N = 100 et p = 1/10.

Exercice 165 On effectue des lancers avec une pice de monnaie, suppose honnte.
Appelons X le nombre de face obtenu aprs 1000 lancers. Quelle doit tre approxi-
mativement la valeur de X/1000. quel cart par rapport cette valeur peut-on
sattendre ?

Exercice 166 On considre une variable alatoire Y = (X1 , . . . , Xd ) sur Rd , o


d 2, possdant une loi continue dfinie par une densit f : Rd R+ . On sup-
pose que les coordonnes X1 , . . . , Xd de Y forment une famille de variables alatoires
mutuellement indpendantes, que f est continue et peut se mettre sous la forme
f (x) = g(||x||). Dans quel contexte ces hypothses peuvent-elles intervenir ? Mon-
trer que, sous ces hypothses, les Xi sont chacune distribues selon une mme loi
gaussienne, vrifiant en outre m = 0.

Exercice 167 Si S est un sous-ensemble fini de R, quelle est la loi de probabilit


sur S possdant la plus grande entropie ? Mme question en se restreignant aux lois
de probabilit possdant une esprance nulle et une variance unit. En dduire (au
moins heuristiquement) une caractrisation de la loi gaussienne.

Exercice 168 Supposons que X suive une loi de Bernoulli de paramtre p = 1/2,
et X1 , . . . , XN des variables alatoires indpendantes de mme loi que X. Pour N
fix, que pouvez-vous dire du comportement de PN (N ) lorsque  tend vers
zro. Mme question avec PN (N ) ? Pouvez-vous donner une borne infrieure
R 
sur PN (N ) 0,1 (u)du ? Comparez celle-ci avec la borne suprieure

fournie par lingalit de Berry-Essen.

Exercice 169 Montrez sans calcul, mais en vous appuyant sur le thorme de la
limite centrale, que la somme de deux variables alatoires indpendantes et suivant
chacune une loi gaussienne, possde elle-mme une loi gaussienne.
438

Exercice 170 (La taille de lempereur de Chine) Il tait une fois... un tailleur ayant
eu lhonneur dtre choisi pour confectionner un habit destin lempereur de Chine.
Seul problme : pour des raisons dtiquette, il tait absolument impossible que lem-
pereur se laisse mesurer par quiconque, et encore moins par un tailleur. La solution
choisie fut la suivante : plutt que de mesurer directement lempereur, on demanda
un grand nombre de ses sujets quelle tait la taille quils estimaient tre celle de
lempereur, et lon prit la moyenne des rponses obtenues. Un modle simple et clas-
sique (signal + bruit gaussien centr) pourrait tre le suivant : la taille de lempereur
estime par une personne donne est gale la vritable taille de lempereur, plus
une erreur dont la loi est suppose gaussienne, desprance nulle, et de variance v
inconnue.
p
En supposant que (v) = 10cm et que lon interroge 100 millions de personnes,
quelle est la prcision avec laquelle on peut connatre la taille de lempereur ?
Ce rsultat vous semble-t-il pertinent ?

Exercice 171 Revenons sur le problme de Galton (voir Exercice 141).


Il apparat que les couples (taille du pre, taille du fils) considrs par Galton
pouvaient tre dcrits par une loi gaussienne bidimensionnelle avec une covariance
non-nulle.
- ellipse (interprtation gomtrique de la loi gaussienne bidimensionnelle)
- pourquoi une telle loi pourrait-elle apparatre dans ce domaine
- en quoi ceci claire-t-il les proprits constates dans lexemple simul ?
Chapitre 5

Bibliographie

Cette bibliographie compte plusieurs types dentres : les ouvrages dont la lecture
est recommande pour travailler ce cours (ouvrages dintroduction et/ou de vulga-
risation), les ouvrages ou articles de rfrence, plus spcialiss, cits sur des points
prcis en rapport avec le cours, et/ou pouvant tre utiliss pour un vaste approfon-
dissement, et enfin les ouvrages nappartenant pas aux deux catgories prcdentes,
mais nanmoins utiliss pour laborer le cours.
Nous citons entre autres parmi les rfrences quelques bons ouvrages dintroduc-
tion la thorie mathmatique des probabilits, sans prtention lexhaustivit.

5.1 Ouvrages recommands pour travailler ce cours.


H. Tijms. "Understanding probability".

Scientific reasoning : the bayesian approach, C. Howson et P. Urbach. Open


Court, 1993. (Ouvrage sur lapproche baysienne et le raisonnement en univers
incertain.)
Louverture au probable, I. Hacking, M. Dufour, Armand Colin, 2001. (Ouvrage
traitant des diffrents aspects du raisonnement probabiliste.)
Chemins de lalatoire, D. Dacunha-Castelle. Flammarion, 1996. (Ouvrage de
vulgarisation sur les probabilit et leurs applications.)
Hasard et chaos, D. Ruelle. Odile Jacob, 1991. (Ouvrage de vulgarisation
davantage tourn vers la physique.)
Le Jeu de la science et du hasard : la statistique et le vivant, D. Schwartz.
Flammarion, 1999. (Comme son nom lindique, ouvrage de vulgarisation plus
concern par les applications au vivant.)
Probabilits, N. Boccara. Ellipses, 1998. (Ouvrage dintroduction aux probabilits.)
Une initiation aux probabilits, R. Isaac. Vuibert, 2005 (Ouvrage
dintroduction aux probabilits.)
440

Contes et dcomptes de la statistique, C. Robert. Vuibert, 2003. (Ouvrage


dintroduction la statistique.)
How to lie with Statistics, D. Huff. W. W. Norton, 1993. (Comme son nom
lindique... Un must..)
Flaws and Fallacies in Statistical Thinking, S. Campbell. Dover publications,
2004. (Les piges des statistiques : exemples concrets.)
Introduction to Probability, C.M. Grinstead et J.L. Snell. Disponible ladresse
http://www.dartmouth.edu/~chance/teaching_aids/books_articles/probability_book/book.html
(Excellent ouvrage dintroduction aux probabilits, dans lesprit de ce cours.)
An introduction to probabilistic modeling, P. Brmaud. Springer. (Ouvrage
dintroduction aux probabilits, plus mathmatique que les prcdents.)
Chance News, Adresse : http://www.dartmouth.edu/~chance/chance_news/news.html
(Un site consacr au raisonnement probabiliste. Innombrables exemples concrets..)
En passant par hasard... Les probabilits de tous les jours, G. Pags, C.
Bouzitat, F. Carrance, F. Petit. Vuibert. (Des exemples concrets, tudis la
lumire de modles probabilistes simples et traits de manire dtaille.)
Modles alatoires. Applications aux sciences de lingnieur et du vivant,
J.-F. Delmas, B. Jourdain. Springer. (Des exemples dutilisation de modles
probabilistes dans des applications dun niveau plus avanc que celles abordes dans
ce cours, traits de manire dtaille.)

5.2 Ouvrages et articles de rfrence.


Probability, A.N. Shiryaev. Springer, 1996. (Un ouvrage classique dintroduction
la thorie mathmatique des probabilits.)
An Introduction to Probability Theory and Its Applications. Vol. 12,
W. Feller. Wiley. (Un double ouvrage classique dintroduction la thorie mathma-
tique des probabilits.)
Probability and measure, P. Billingsley. Wiley. (Un ouvrage classique dintro-
duction la thorie mathmatique des probabilits.)
Probability : Theory and Examples, R. Durrett. Duxbury Press. (Un ouvrage
classique dintroduction la thorie mathmatique des probabilits.)
Probability and Random Processes, G.R. Grimmett et D.R. Stirzaker.Clarendon
Press. (Un ouvrage classique dintroduction la thorie mathmatique des probabili-
ts.)
Probability with martingales, D. Williams. Cambridge Mathematical Text-
books. (Un ouvrage classique dintroduction la thorie mathmatique des probabili-
ts.)
Probabilits en vue des applications (2 tomes), V. Girardin et N. Limnios,
Vuibert. (Un ouvrage en langue franaise dintroduction la thorie mathmatique
Bibliographie 441

des probabilits et de la statistique.)


Simulation modeling and analysis, M. Law, W. Kelton. Mc Graw Hill, 2000.
(Un ouvrage classique sur la simulation et la modlisation.)
Randomized Algorithms, R. Motwani et P. Raghavan, Cambridge University
Press, 1995. (Une rfrence excellente et accessible sur lalgorithmique randomise.)
The art of computer programming. Vol. 2 : Seminumerical algorithms,
D. Knuth. Addison-Wesley, 1998. (Une rfrence incontournable en la matire (en
plusieurs volumes). Si vous navez jamais feuillet ces ouvrages, il nest que temps de
le faire !)
Constructing a logic of plausible inference : a guide to Coxs Theorem,
K.S. Van Horn, International Journal of Approximate Reasoning 34, no. 1 (Sept.
2003), pp. 3-24. Disponible ladresse http://leuther-analytics.com/bayes/papers.html
(Un article expliquant comment retrouver les rgles du calcul des probabilits partir
de considrations trs gnrales sur la cohrence du raisonnement en univers incer-
tain. .)
Sum the odds to one and stop, Thomas Bruss, The Annals of Probability 28,
no. 3 (2000), pp. 1384-1391. (Un article dcrivant la solution dune classe gnrale
de problmes darrt optimal.)
Dynamical Bias in the Coin Toss, P. Diaconis, S. Holmes, R. Montgomery,
SIAM Review 49, no. 2 (2007), pp. 211-235. Cet article est disponible ladresse
http://stat.stanford.edu/~cgates/PERSI/papers/headswithJ.pdf
Dynamics of coin tossing is predictable, J. Strzako, J. Grabski, A. Ste-
faski, P. Perlikowski, T. Kapitaniak, Physics Reports 469 (2008), pp. 59-92. (Deux
articles tudiant le processus physique du lancer de pice de monnaie.)
Le suffrage universel inachev, M. Balinski. Belin, 2004. (Un ouvrage sur les
questions darithmtique lectorale.)
Initiation la physique quantique, V. Scarani. Vuibert, 2003. (Comme son
nom lindique. Sans formalisme.)
The MacTutor History of Mathematics archive, Lune des adresses est
http://www-groups.dcs.st-and.ac.uk/~history/ (Un site de rfrence pour, entre autres,
les biographies des mathmaticiens clbres rencontrs dans ce cours.)
The first-digit phenomenon, T. Hill, American Scientist, 86, 358363, 1998.
Disponible ladresse http://www.math.gatech.edu/~hill/publications/cv.dir/1st-fig.pdf
(Un article de rfrence sur la loi de Benford.)
Elements of Information Theory, T. Cover et J. Thomas, Wiley, 1991. (Un
ouvrage de rfrence sur la thorie de linformation.)
Game Theory Text, T. Ferguson. Ouvrage en ligne disponible ladresse
http://www.math.ucla.edu/~tom/Game_Theory/Contents.html (Un cours dintroduction la
thorie des jeux.)
442

The Elements of Statistical Learning, T. Hastie, R. Tibshirani et J. Fried-


man, Springer, 2001. (Un ouvrage de rfrence sur lapprentissage et la rgression
statistiques.)
Judgment Under Uncertainty : Heuristics and Biases, D. Kahneman,
P. Slovic, A. Tversky, Cambdrige University Press, 1982.
Choices, Values, and Frames. D. Kahneman, A. Tversky, Cambridge Uni-
versity Press, 2000. (Deux ouvrages de rfrences sur les biais psychologiques affec-
tant, entre autres, notre perception intuitive des probabilits.)
From association to causation via regression, D. Freedman. Technical Re-
port No. 408, Statistics Department, Univ. of California, Berkeley, 1994. (Un article
de rflexion critique sur lutilisation de la rgression pour infrer des relations de
cause effet.)

Anda mungkin juga menyukai