Statistique Et Probabilites 6e Ed Cours Et Exercices Corriges

9782100745401-lecoutre-lim.
qxd 12/04/16 9:14 Page III
Statistique
et probabilits
Cours et exercices corrigs

Jean-Pierre Lecoutre
Matre de confrences honoraire luniversit Panthon-Assas (Paris II)
6e dition
9782100745401-lecoutre-lim.qxd 12/05/16 7:58 Page IV
Dunod, 2016
11 rue Paul Bert, 92240 Malakoff
www.dunod.com
ISBN 978-2-10-075259-1
9782100745401-lecoutre-avp.qxd 09/05/16 7:36 Page V
Avant-propos
Ce manuel de cours est destin principalement aux tudiants de la Licence
conomie et gestion mais peut tre utile toute personne souhaitant connatre et
surtout utiliser les principales mthodes de la statistique infrentielle. Il corres-
pond au programme de probabilits et statistique gnralement enseign dans
les deux premires annes de Licence (L1 et L2). Cette 6e dition sest enrichie
dexercices nouveaux. Le niveau mathmatique requis est celui de la premire
anne de Licence, avec quelques notions (sries, intgrales multiples...) souvent
enseignes seulement en deuxime anne.
Si une grande partie de louvrage est consacre la thorie des probabilits,
lordre des termes retenu dans le titre veut signifier quil ne sagit que dun outil
au service de la statistique. Ce nest quun passage oblig pour donner des bases
rigoureuses la mthode statistique. On peut le concevoir comme un ensemble
de rgles grammaticales, parfois difficiles et fastidieuses retenir, mais qui per-
mettent de rdiger des textes clairs, rigoureux et sans ambiguits, mme si lon
na pas conscience quils ont t crits dans le respect de ces rgles. La partie
statistique correspond aux deux derniers chapitres destimation et de tests dhy-
pothses.
Les fondements thoriques de la statistique tant parfois dlicats, nous avons
choisi de prsenter sans dmonstration les principales proprits ncessaires
Dunod. Toute reproduction non autorise est un dlit.
une utilisation judicieuse des mthodes statistiques, en les illustrant systmati-

quement dexemples. De mme, afin de ne pas alourdir les noncs de tho-
rmes, les conditions techniques de leur validit ne sont pas prsentes dans leur
dtail, parfois fastidieux, et qui risque de masquer lessentiel qui est la propri-
t nonce. Notre souci constant a t de faciliter la comprhension, pour pou-
voir passer aisment au stade de lutilisation, sans cependant pour cela sacrifier
la rigueur. La traduction anglaise des termes les plus usuels figure entre paren-
thses.
Chaque chapitre se conclut par des exercices corrigs permettant de contr-
ler lacquisition des notions essentielles qui y ont t introduites. Faire de nom-
breux exercices est certainement le meilleur moyen darriver la comprhension
de certaines notions quelquefois difficiles. Rappelons cette maxime chinoise :
Avant-propos V
9782100745401-lecoutre-avp.qxd 09/05/16 7:36 Page VI
Jentends et joublie. Je vois et je retiens. Je fais et je comprends. En fin de cha-

pitre se trouvent galement quelques complments ; soit de notions mathma-
tiques utilises dans celui-ci, la combinatoire par exemple, soit de proprits
comme lexhaustivit, trs importantes et utiles, mais hors du programme dune
Licence dconomie ou de gestion. Avec ces complments, cet ouvrage peut
convenir aussi aux tudiants des coles de management.
VI STATISTIQUE ET PROBABILITS
9782100745401-lecoutre-tdm.qxd 09/05/16 7:38 Page VII
Table des matires

Avant-propos V
Notations XIII
Introduction 1
1. Notion de probabilit 5
I. Modle probabiliste 5
A. Ensemble fondamental 5
B. Algbre et tribu dvnements 7
C. Probabilit 9
II. Probabilits conditionnelles 13
III.Thorme de Bayes 15
IV. Indpendance en probabilit 17
retenir 19
Complments : lments de combinatoire 19
A. Permutations avec rptition 19
B. Permutations sans rptition ou arrangements 20
C. Permutations avec rptition de n objets,
dont k seulement sont distincts 21
D. Combinaisons (sans rptition) 22
E. Combinaisons avec rptition 23
F. Partitions 24
Exercices 25
noncs 25
Corrigs 27
2. Variable alatoire 35
I. Variable alatoire relle discrte 36
A. Dfinition 36
B. Loi de probabilit 37
C. Fonction de rpartition 38
D. Moments dune v.a. discrte 40
Table des matires VII

9782100745401-lecoutre-tdm.qxd 09/05/16 7:38 Page VIII
II. Variable alatoire relle continue 47

A. Dfinition 47
B. Loi de probabilit 47
C. Proprits de la fonction de rpartition 47
D. Loi continue 48
E. Loi absolument continue 49
F. Moments dune v.a. absolument continue 52
G. Changement de variable 54
retenir 56
Complments 57
A. Application mesurable 57
B. Densit 58
C. Support 58
Exercices 59
noncs 59
Corrigs 61
3. Lois usuelles 69
I. Lois usuelles discrtes 69
A. Loi de Dirac 69
B. Loi de Bernoulli 70
C. Loi binmiale 71
D. Loi hypergomtrique 74
E. Loi de Poisson 76
F. Loi gomtrique ou de Pascal 78
G. Loi binmiale ngative 79
II. Lois usuelles continues 80
A. Loi uniforme 80
B. Loi exponentielle 82
C. Loi normale ou de Laplace-Gauss 83
D. Loi gamma 88
E. Loi du khi-deux 89
F. Loi bta 90
G. Loi log-normale 92
H. Loi de Pareto 92
Complments : fonctions gnratrices 92
A. Fonction gnratrice dune v.a. discrte positive 92
B. Fonction gnratrice dune loi absolument continue 94
Exercices 96
noncs 96
Corrigs 99
VIII STATISTIQUE ET PROBABILITS

9782100745401-lecoutre-tdm.qxd 09/05/16 7:38 Page IX
4. Couple et vecteur alatoires 107

I. Couple de v.a. discrtes 108
A. Loi dun couple 108
B. Lois marginales 108
C. Lois conditionnelles 108
D. Moments conditionnels 110
E. Moments associs un couple 111
F. Loi dune somme 112
II. Couple de v.a. continues 114
A. Loi du couple 114
B. Lois marginales 117
C. Lois conditionnelles 118
D. Moments associs un couple 119
E. Rgression 120
F. Loi dune somme 121
III. Vecteur alatoire 123
IV. Lois usuelles 125
A. Loi multinomiale 125
B. Loi normale vectorielle 127
retenir 132
Complments 133
A. Application mesurable 133
B. Changement de variable 133
Exercices 135
noncs 135
Corrigs 138
5. Loi empirique 149

I. chantillon dune loi 150

II. Moments empiriques 151
A. Moyenne empirique 151
B. Variance empirique 151
C. Moments empiriques 153
III. chantillon dune loi normale 153
A. Loi de Student 154
B. Loi de Fisher-Snedecor 155
IV. Tests dadquation 156
A. Test du khi-deux 156
B. Test de Kolmogorov-Smirnov 159
Table des matires IX

9782100745401-lecoutre-tdm.qxd 09/05/16 7:38 Page X
retenir 161
Complments 161
A. Statistique dordre 161
B. Thorme de Fisher 163
Exercices 164
noncs 164
Corrigs 165
6. Comportement asymptotique 169

I. Convergence en probabilit 170
A. Ingalit de Markov 170
B. Ingalit de Bienaym-Tchebychev 171
C. Ingalit de Jensen 171
D. Convergence en probabilit 172
E. Loi des grands nombres 175
II. Convergence en loi 177
A. Dfinition 177
B. Lien avec la convergence en probabilit 177
C. Proprit 177
D. Thorme de Slutsky 178
E. Conditions suffisantes de convergence en loi 178
F. Thorme central limite 178
G. Limite dune suite image 179
H. Convergence des moments empiriques 180
I. Convergence des lois usuelles 181
retenir 185
Complments 185
A. Convergence presque sre 185
B. Convergence presque complte 187
Exercices 189
noncs 189
Corrigs 190
7. Estimation 195
I. Dfinition dun estimateur 196
II. Proprits dun estimateur 198
A. Biais dun estimateur 199
B. Convergence dun estimateur 200
C. Estimateur optimal 201
X STATISTIQUE ET PROBABILITS
9782100745401-lecoutre-tdm.qxd 09/05/16 7:38 Page XI
III. Mthodes de construction dun estimateur 206

A. Mthode du maximum de vraisemblance 206
B. Mthode des moments 208
IV. Estimation par intervalle de confiance 209
A. Exemple introductif 209
B. Principe de construction 210
C. Intervalle pour une proportion 212
D. Intervalles associs aux paramtres de la loi normale 216
retenir 223
Complments 223
A. Ingalit de Frchet-Darmois-Cramer-Rao 223
B. Statistique exhaustive 224
C. Famille exponentielle 227
D. Amlioration dun estimateur 229
Exercices 231
noncs 231
Corrigs 235
8. Tests dhypothses 253

I. Concepts principaux en thorie des tests 254
II. Mthode de Bayes 257
III. Mthode de Neyman et Pearson 259
A. Principe de la rgle de Neyman et Pearson 259
B. Hypothses simples 260
C. Hypothses multiples 262
IV. Test dindpendance du khi-deux 264
retenir 265
Complments 266
Exercices 267
noncs 267
Corrigs 270
Tables statistiques 287
Index 301
Table des matires XI

9782100745401-lecoutre-tdm.qxd 09/05/16 7:38 Page XII
9782100745401-lecoutre-not.qxd 09/05/16 7:39 Page XIII
Notations
ensemble fondamental
P () ensemble des parties de
A,Ac complmentaire de A
A algbre ou tribu de parties de
card A cardinal de A
( np ) coefficient binmial
[x] partie entire de x
ln x logarithme nprien de x
1 A indicatrice de A
Cov(X,Y ) covariance de X et Y
f.r. fonction de rpartition
v.a. variable alatoire
densit de la loi N (0,1)
f.r. de la loi loi N (0,1)
C ensemble des nombres complexes
t
A matrice transpose de A
In matrice unit dordre n

X P la v.a. X suit la loi de probabilit P
B(n, p) loi binmiale de paramtres n et p
P () loi de Poisson de paramtre
N (m, ) loi normale dans R , desprance m et dcart type
Nn (,) loi normale dans Rn , de vecteur esprance et de matrice variances-
covariances
Tn loi de Student n degrs de libert
n2 loi du khi-deux n degrs de libert
F(n,m) loi de Fisher-Snedecor n et m degrs de libert
emv estimateur du maximum de vraisemblance
Notations XIII
9782100745401-lecoutre-not.qxd 09/05/16 7:39 Page XIV
9782100745401-lecoutre-int.qxd 09/05/16 7:41 Page 1
Introduction
La statistique a une origine trs ancienne, se rduisant initialement une col-
lecte dobservations, notamment le dnombrement des hommes (recensement).
On mentionne des oprations de recensement il y a plus de 4000 ans en Chine,
en Msopotamie ou en gypte et la Bible en cite plusieurs, dans le Livre des
Nombres par exemple. Cependant, le terme statistique est apparu assez rcem-
ment, vers le milieu du XVIIe sicle ; il vient du latin statisticus, relatif ltat
(status), et est employ alors dans un sens purement descriptif de recueil ou de
collection de faits chiffrs, les statistiques. Le mot employ au singulier
avec larticle dfini, la statistique, voque la mthode utilise ensuite pour
tendre des rsultats et dgager des lois (linfrence). Il sagit donc dans ce sens
dun moyen scientifique danalyse et de comprhension du phnomne tudi,
sappliquant trs largement lconomie et toutes les sciences sociales et de la
nature.
Cette discipline concerne donc tous ceux qui ont relever, prsenter, analy-
ser ou utiliser une information dont la masse peut tre volumineuse. On peut
la dfinir comme un ensemble de mthodes dont le but est de traiter des don-
nes, les statistiques, relatives un certain domaine dtude. Elle traite gale-
ment de la manire de recueillir ces donnes, auprs de qui et sous quelle forme
(thorie des sondages). Son objectif peut se rsumer de la faon suivante : dga-
ger, partir de donnes observes sur quelques individus dune population, des
rsultats valables pour lensemble de la population.
Cela consistera par exemple remplacer des donnes nombreuses par des
indicateurs (rsums) les plus pertinents possibles : rsum clair avec le mini-
mum de perte dinformation, permettant de dgager plus facilement un dia-
gnostic. Il sagit alors de la statistique descriptive qui recouvre les moyens
de prsenter ces donnes et den dcrire les principales caractristiques, en les
rsumant sous forme de tableaux ou de graphiques. Il sagira ensuite de les
interprter. La description statistique se propose de mettre en vidence cer-
taines permanences ou lois statistiques, qui peuvent ventuellement conduire
des prvisions (lment essentiel de ltude des sries chronologiques). Une
rgle qui transforme un ensemble de donnes en une ou plusieurs valeurs num-
Introduction 1
riques se nomme une statistique, le terme tant cette fois utilis avec larticle
indfini.
Le dbut de la mthodologie statistique peut se situer au XVIIe sicle
qui verra galement lclosion dun outil fondamental pour une formalisation
tout fait rigoureuse, la thorie des probabilits, qui est lanalyse mathmatique
des phnomnes dans lesquels le hasard intervient. Le calcul des probabilits
a commenc avec Blaise Pascal, Pierre Fermat, Christian Huygens et
Jacques Bernoulli par lanalyse des jeux dits de hasard. Le mot hasard est
dailleurs emprunt larabe az-zahr (jeu de ds, alea en latin) au XIIe sicle,
do est venue cette expression jeu de hasard au XVIe sicle. La thorie des pro-
babilits servira ensuite doutil de base un ensemble de mthodes ou de rgles
objectives permettant dutiliser des donnes pour fixer la prcision avec laquel-
le on estime certains paramtres (thorie de lestimation) ou on teste certaines
hypothses (thorie des tests) : la Statistique mathmatique (ou infrentielle).
Ceci permet dobtenir une mesure objective de la distance entre un modle sta-
tistique, traduit par une famille P de lois de probabilit indexe par un para-
mtre parcourant un ensemble donn , et un ensemble de donnes obser-
ves.
Tout ceci peut se synthtiser au moyen du schma suivant :
Importance de la manire de les collecter

Donnes
(thorie des sondages)
Prsentation des donnes recueillies

(statistique descriptive)
Catalogue de modles probabilistes disponibles et

Modlisation outils ncessaires la dduction
(thorie des probabilits)
Statistique mathmatique :
un modle statistique paramtrique (P ; )
induction ou infrence statistique
estimation : quelle est le valeur de ?
test : est-ce que = 0 ou = 1 ?
2 STATISTIQUE ET PROBABILITS
Il reste prciser dans quel cadre cette formalisation laide de modles

alatoires sera ncessaire. Toute dmarche scientifique ncessite la ralisation
de certaines expriences que lon peut regrouper en deux grandes catgories.
Pour certaines dentre elles, si elles sont renouveles dans des conditions tota-
lement identiques, elles produiront le mme rsultat, qui devient donc prvi-
sible. Il sagit de phnomnes dterministes, o les faits sont rgis par des lois
universelles physiques (par exemple laugmentation de la pression dun gaz
provoque une diminution de son volume, ce que traduit la loi de Mariotte :
Pression Volume = constante ; leau porte 100 degrs Celsius se trans-
forme en vapeur...). Le rsultat est entirement dtermin par les conditions de
lexprience : on peut prvoir le phnomne qui va se produire.
Par contre, dautres expriences ont toujours un rsultat imprvisible (lan-
cer dun d ou dune pice de monnaie) : effectues dans des conditions tota-
lement identiques elles donneront des rsultats diffrents. Le rsultat est non
prvisible et on dit quil est d au hasard, cette expression tant utilise pour
la premire fois par Fnelon en 1695, le mot hasard tant compris maintenant
au sens absolu et philosophique comme sans volution prvisible , oppo-
ser dterministe. Dans son Essai philosophique sur les probabilits (1814),
Laplace considre en effet que le dterminisme ne laisse aucune place au
hasard : ltat de lunivers un instant donn dtermine son tat tout
autre instant ultrieur. Ainsi, quand on jette en lair une pice de monnaie, les
lois de la mcanique classique dterminent, en principe, avec certitude si elle
retombera sur pile ou face. Le rsultat nest pas d au hasard, mais la mani-
re dont elle a t lance en lair et la faon dont elle va retomber sur une cer-
taine surface ; mais la trajectoire dcrite par cette pice avant de retomber sur
pile est tellement complexe quil nest pas possible de prvoir son issue. Le
phnomne ne relve pas du dterminisme entendu au sens de la possibilit de
prdiction, par le calcul ou la loi mathmatique1. Dans un mmoire de 1774,
Laplace nonce que le hasard na aucune ralit en lui-mme : ce nest
quun terme propre dsigner notre ignorance... La notion de probabilit tient
cette ignorance . Retenir un modle probabiliste est donc simplement
un aveu de notre ignorance, de notre incapacit fournir un modle physique

dcrivant une ralit trop complexe. On parle alors dpreuve ou dexprience
alatoire et le rsultat obtenu sera un vnement. Les outils appropris dans ce
cadre sont ceux de la statistique mathmatique, la base de cette discipline
tant la thorie des probabilits, que nous devrons donc tudier dans les six
premiers chapitres de cet ouvrage, comme pralable aux deux chapitres des-
timation et de tests dhypothses.
1. Dans Science et mthode publi en 1908, Henri Poincar exprime que hasard et dterminis-
me sont rendus compatibles par limprdictibilit long terme. Les relations entre hasard et
dterminisme ont t dans les annes 1980 lobjet dune controverse anime entre les math-
maticiens Ren Thom et Ilya Prigogine. Ltude rcente des systmes dynamiques montre que
lon ne peut pas confondre dterminisme et prdictibilit. En effet, une lgre perturbation
des conditions initiales dun tel systme mathmatiquement dterministe peut empcher de pr-
voir son volution future.
Introduction 3
9782100745401-lecoutre-C01.qxd 09/05/16 7:45 Page 5
1. Notion
de probabilit
A
u cours de ce chapitre, nous allons donner la dfinition dun cer-
tain nombre de termes du vocabulaire utilis dans un contexte
non dterministe et indiquer comment construire le modle ad-
quat. La notion essentielle introduite tant bien sr celle de probabilit,
avec la notion dindpendance dvnements qui lui est associe et qui
joue un rle trs important en statistique. La reprsentation formelle du
modle probabiliste sous-jacent est presque toujours absente dans un
problme concret de statistique. Cependant, cette formalisation rigou-
reuse est indispensable pour obtenir les outils thoriques ncessaires la
rsolution dun tel problme statistique.

Objectif du chapitre : montrer que le modle probabiliste est choisi en
fonction du but que lon poursuit, qui se rsume essentielle-
ment la construction du modle dchantillonnage, base de la
modlisation statistique.
Concepts cls tudis : probabilit, probabilit conditionnelle, indpen-

dance.
I. Modle probabiliste
A. Ensemble fondamental
Avant toute formalisation, le rsultat dune exprience alatoire sappelle v-
nement. La quantification des chances quun tel vnement a de se raliser
Notion de probabilit 5
correspond la notion intuitive de probabilit. Pour raliser cette quantification,

il est ncessaire de dcrire au pralable, trs prcisment, lensemble des rsul-
tats possibles, appels vnements lmentaires. Cet ensemble exprimental
sappelle ensemble fondamental (ou univers) et est not traditionnellement .
Exemple 1.1
Jet dun d six faces numrotes : = {1, 2, 3, 4, 5, 6} .
Exemple 1.2
On tire une boule dans une urne contenant une boule noire, deux
blanches et cinq rouges et lensemble fondamental retenu est
= {noire, blanche, rouge} .
Chaque lment reprsente donc un vnement lmentaire, et toute
partie A (ou A P() ) sera un vnement. Parfois on dit que est len-
semble des ventualits possibles et les vnements lmentaires sont alors les
singletons, cest--dire les ensembles rduits un seul lment {} , qui sont
effectivement en toute rigueur des vnements, puisque appartenant P() , ce
qui nest pas le cas du point .
Exemple 1.3
lexprience du jet de d on associe = {1, 2, 3, 4, 5, 6} ; lvnement
A = {1, 2} traduit, cest--dire reprsente symboliquement, le rsultat
obtenir un rsultat infrieur ou gal 2 .
Lensemble dpend videmment de lexprience considre, mais aussi du
choix de celui qui construit le modle, et par l prsente donc un certain arbi-
traire.
Exemple 1.4
Dans lexprience du jet de d on peut choisir galement
= { pair, impair} ou = {{1, 2, 3,} , {4, 5, 6}} .
Exemple 1.5
Si on tire une carte dun jeu de 32 cartes, on peut retenircomme ensembles
fondamentaux = {7, 8, 9, 10, V, D, R, As} ou = tr e` f le, carreau,
cur, pique} ou = {rouge, noir} .
Cet ensemble peut tre fini ou infini, continu ou discret.
Exemple 1.6
On lance une pice jusqu obtenir pile, lvnement retenu tant le
nombre de jets effectus :
= {1, 2, . . . , n, . . .} = N
ensemble infini dnombrable.
Exemple 1.7
On observe la dure de vie dune lampe :
= [0, +[ = R+
ensemble infini non dnombrable.
Lensemble retenu est bien sr une abstraction et peut parfois contenir des
vnements qui ne se produiront jamais dans la ralit.
Exemple 1.8
On mesure la taille dun individu choisi au hasard dans une population et
on retient = R+ ; cet ensemble contient des trs grandes tailles qui
nexistent bien sr pas dans la ralit, mais en raison de la difficult de
fixer une valeur maximale de la taille pour dfinir lensemble fondamen-
tal, cest le choix qui parat le moins arbitraire.
B. Algbre et tribu dvnements

Un vnement tant un lment de P() obit la thorie des ensembles. Nous
allons indiquer dans le tableau ci-aprs comment certaines notions ensemblistes
sexpriment, ou se traduisent, en termes dvnements.
Ensemble vnement
On a observ le rsultat et A Lvnement A est ralis.
A=B Les vnements A et B sont identiques.
AB Lvnement A implique lvnement B.
vnement impossible.
vnement certain.
AB Un au moins des deux vnements est ralis.
AB Les deux vnements A et B sont raliss.

AB = Les vnements A et B sont incompatibles.
A = A ou Ac Lvnement A nest pas ralis.
Le couple (, P()) sappelle un espace probabilisable.

Cependant, mme si est fini, le cardinal de P() est 2card , qui peut tre
un nombre trs grand. Dans ce cas, il peut tre souhaitable de ne considrer
quune famille restreinte A de parties de , A P() . Pour que le rsultat des
oprations ensemblistes (union, intersection, complmentaire) soit encore un
vnement, il est ncessaire que cette famille dvnements retenue soit ferme,
ou stable, vis--vis de ces oprations, cest--dire quil soit bien un lment de
la famille (par exemple, si on retient la famille des nombres impairs, elle nest
pas stable pour laddition puisque le rsultat est un nombre pair). De plus, les
vnements certain , , et impossible , , doivent galement appartenir
cet ensemble. Ainsi, on associera une preuve alatoire un ensemble non vide
de parties de , not A, qui vrifiera :
C1 pour tout A A alors A A ;
C2 pour tout A A et tout B A alors A B A .
Il y a fermeture pour le complmentaire et lunion. Cet ensemble A sappel-

le une algbre de parties de . Bien entendu, grce aux lois de Morgan, on a une
dfinition quivalente en remplaant la condition C2 par :
C2 pour tout A A et tout B A alors A B A .
Exemple 1.9
Lalgbre la plus lmentaire est rduite A = {, } .
Exemple 1.10
partir dun vnement quelconque A , on peut constituer lalgbre :

A = , A, A,
Exemple 1.11
On peut gnrer une algbre partir dune partition. partir de la par-
tition de = {a, b, c, d} en trois ensembles {a, b} , {c} , {d} on construit
lalgbre :
A = {, {a, b} , {c} , {d} , {a, b, c,} , {a, b, d} , {c, d} , }
avec card A = 23 .
Exemple 1.12
Lalgbre la plus complte est bien entendu P() .
Proprits dune algbre
P1 La famille tant non vide, on en conclut que :

A, A
P2 Si A j A pour 1 j n , on dmontre par rcurrence que :

n
Aj A
j=1
. P3 Si A j A pour 1 j n , on dmontre galement par passage au com-

plmentaire que :
n
Aj A
j=1
Cependant, certaines expriences peuvent se drouler indfiniment (au moins

thoriquement), comme par exemple lancer un d jusqu obtenir le chiffre 6. Si
An reprsente lvnement obtenir le chiffre 6 au n-me lancer , lvnement
obtenir le chiffre 6 scrira A =
n=1 An . On a donc besoin de renforcer la
proprit P2 de fermeture pour lunion finie par une condition de fermeture pour
lunion dnombrable, soit :
C3 si An A pour tout n N alors :

An A
n=0
condition qui exprime que toute union dnombrable dvnements est encore un
vnement. Lensemble A auquel on impose les conditions C1 et C3 sappelle
alors une algbre ou tribu dvnements.
NB : On aurait pu remplacer dans la condition C3 lunion par lintersec-
tion (par passage au complmentaire lunion se transforme en intersec-
tion). Bien entendu toute algbre finie est une algbre.
Cependant, dans les cas simples o est un ensemble fini, ou ventuelle-
ment infini dnombrable, on peut retenir comme tribu des vnements P()
tout entier. Ce nest que dans les autres cas que lon est amen considrer des
ensembles A plus rduits que P() qui est alors trop vaste. Le couple form de
lensemble fondamental et de la tribu dvnements associe A sappelle un
espace probabilisable. Cette terminologie signifie que lon va pouvoir associer
une probabilit, note P, ce modle (, A ).
C. Probabilit
Une fois dfini lensemble des vnements auxquels on sintresse, on va
essayer de traduire par un nombre leurs possibilits de ralisation. Cela
revient affecter une mesure de croyance chaque vnement, cest--dire
un degr de certitude que lon a que lvnement se produise ou non. Afin de
correspondre la notion intuitive, une probabilit sera un nombre associ un
vnement, compris entre 0 et 1, pour pouvoir se convertir en pourcentage de
chances ; lvnement certain se voit attribuer la probabilit 1 et lvne-
ment impossible la probabilit 0. Nous verrons dans lexemple 6.6 que cette
dfinition axiomatique est adapte la ralit, puisque la frquence observe
dun vnement a pour limite sa probabilit ainsi dfinie. Dautre part, si deux
vnements sont incompatibles, cest--dire ne peuvent pas se raliser simulta-

nment, la probabilit de ralisation de lun des deux sera la somme de leurs
probabilits respectives (par exemple pour un jet de d P(1 ou 2) = P(1)
+P(2) = 1/6 + 1/6 = 1/3) . Do la dfinition suivante :
Dfinition
On appelle probabilit P sur (, A ) une application P : A [0,1] telle
que :
(i) P() = 1 ;
(ii) pour toute suite An dvnements incompatibles, soit An A avec
Am An = pour m = n :

P An = P(An )
n=0 n=0
proprit dite de additivit.
Remarque
Pour toute suite dvnements quelconques, cest--dire non disjoints, on
a lingalit de Boole :

P An P (An )
n=0 n=0
Une probabilit est donc une application qui un vnement va associer un

nombre. Le triplet (, A, P) sappelle un espace probabilis. Comme cons-
quences de la dfinition on dduit les proprits suivantes.
Proprits
P1 Lvnement impossible est de probabilit nulle :

P() = 0
P2 La probabilit de lvnement complmentaire dun vnement quel-
conque A sobtient par :
P(A) = 1 P(A)
P3 Si un vnement en implique un autre, sa probabilit est plus petite :
A B P(A) P(B)
P4 La probabilit de lunion de deux vnements sobtient par la formule

de Poincar :
P(A B) = P(A) + P(B) P(A B)
Cas o est fini

Si = {1 , . . . , n } , la donne de n nombres pi , 1 i n , associs chacun

n
des vnements lmentaires par pi = P ({i }) , tels que 0 pi 1 et pi = 1 ,
suffit dterminer une probabilit P sur (, P ()) par : i=1

P(A) = { pi /i A}
cest--dire que la probabilit dun vnement quelconque A de P () est dfi-

nie comme la somme des probabilits de tous les vnements lmentaires qui
y sont inclus.
Cas particulier : quiprobabilit
Il sagit dun cas assez frquent o tous les vnements lmentaires ont la
mme probabilit, ce qui correspond la loi uniforme discrte dfinie par :
1
pi = , 1i n
n
Cette particularit est souvent sous-entendue ou prcise par laffirmation
que les rsultats de lexprience sont obtenus au hasard. On obtient alors :
1 1 card A
P(A) = = card A =
A
n n card
i
puisque n = card . Ce rsultat snonce souvent sous la forme trs dangereu-

se de la rgle nonce par Laplace au XVIIIe sicle :
nbre de cas favorables
P(A) =
nbre de cas possibles
un cas favorable tant un vnement lmentaire qui ralise A . On est alors
ramen un simple problme de dnombrement. Mais il faut bien faire attention
que cette rgle ne sapplique que dans le cas d quiprobabilit des vnements
lmentaires. Si en jouant au loto il y a deux vnements possibles, gagner ou
non le gros lot, il ny a malheureusement pas une chance sur deux pour lv-
nement favorable qui est de le gagner ! Cette rgle ne peut donc en aucun cas
servir de dfinition pour une probabilit.

Attention ! Cest ici quil est important de bien prciser lensemble fon-
damental . Si par exemple on lance deux pices de monnaie identiques,
on pourrait tre tent de retenir comme ensemble fondamental
= {P P, P F, F F} mais dans ce cas il ny aurait pas quiprobabilit des
vnements lmentaires, car P P ou F F ne peut tre obtenu que dune
seule faon alors que P F peut tre obtenu de deux faons distinctes, le
rsultat pile pouvant tre ralis sur une pice ou lautre. Ces vnements
ont donc respectivement comme probabilit 1/4, 1/4 et 1/2. Il vaut donc
mieux faire comme si les pices taient distinctes et retenir
= {P P, P F, F P, F F} o les vnements lmentaires sont quipro-
bables.
Remarques
1. Dans le cas o est fini, on peut toujours construire un espace proba-
bilis tel que chaque vnement lmentaire, au sens de singleton,
ait une probabilit nulle. Par exemple pour = {a, b, c} on
choisit A = {, {a} , {b, c} , } et la probabilit P dfinie par
P({a}) = 0, P({b, c}) = 1 , ce qui correspond au cas de deux vnements
indiscernables, avec un seul vnement lmentaire.
2. De mme on peut construire un espace probabilis tel que chaque v-
nement lmentaire, toujours au sens de singleton, ait une probabilit
gale 1. Dans lensemble prcdent la probabilit P est alors dfinie par
P({a}) = 1 et P({b, c}) = 0 .
3. Mme dans le cas o les vnements A et B ne sont pas disjoints on
peut avoir lgalit P(A B) = P(A) + P(B) ; il suffit pour cela que
P(A B) = 0 . Par exemple, dfinissons sur = {a, b, c} la probabilit P
par P({a}) = P({b}) = 1/2 et P({c}) = 0 . Avec A = {a, c} et B = {b, c}
on obtient P(A) = P(B) = 1/2 et P(A B) = P() = 1 = 1/2 + 1/2
= P(A) + P(B) et pourtant A B = {c} = .
Terminons ce paragraphe par deux exemples, paradoxaux premire vue.
Exemple 1.13
Dans un tournoi exhibition de tennis, Djokovic doit affronter Nadal et
Federer au cours de trois sets successifs o ses deux adversaires alterne-
ront. Il remportera ce tournoi sil gagne deux sets conscutifs. Il considre
que la probabilit p de battre Federer est suprieure celle q de battre
Nadal : p > q . Quel adversaire va-t-il choisir daffronter en premier ?
Pour une succession Fed-Nadal-Fed, sa probabilit de gain est :
p1 = pq + (1 p)qp .
Pour une succession Nadal-Fed-Nadal, cette probabilit est :
p2 = qp + (1 q) pq = p1 + pq( p q) > p1 .
Il doit donc choisir daffronter le joueur le plus fort en premier, ce para-
doxe sexpliquant par le fait quil a plus de chances de le battre une fois
sur deux parties que sur une seule.
Exemple 1.14
Dterminons la rpartition la plus probable de six atouts entre deux par-
tenaires de bridge. Il y a ( 26
13
) rpartitions possibles des 26 cartes des deux
joueurs. Les dnombrements des rpartitions de six atouts, et donc des
vingt non-atouts, entre les deux joueurs sont indiques dans le tableau ci-
aprs :
(1, 5) (2, 4) (3, 3) (0, 6)
2 ( 61 ) ( 20
12
) 2 ( 62 ) ( 20
11
) ( 63 ) ( 20
11
) 2 ( 20
13
)
ce qui correspond aux probabilits :
117 390 286 12

P{(1, 5)} = , P{(2, 4)} = , P{(3, 3)} = , P{(0, 6)} =
805 805 805 805
Cest donc la rpartition (2, 4) qui est la plus probable.
On demande maintenant de rpondre la mme question dans le cas o
les deux partenaires ont fourni aux deux premiers tours datout. Les
seules rpartitions initiales possibles sont alors (2, 4) et (3, 3) , donnant
respectivement les rpartitions (0, 2) et (1, 1) aprs deux tours datout. Il
reste ( 22
11
) rpartitions quiprobables entre les deux joueurs, les rparti-
tions restantes des deux atouts, et donc des vingt non-atouts, ayant comme
probabilits :
( 20 ) 10 ( 21 )( 20 ) 11
P{(0, 2)} = 2 11
= , P{(1, 1)} = 10
=
( )
22
11
21 ( )
22
11
21
La rpartition la plus probable a posteriori, cest--dire aprs les deux
tours datouts, est donc issue de la moins probable des deux a priori.
II. Probabilits conditionnelles

On considre lespace probabilis (, A, P) et un vnement particulier B de
A tel que P(B) > 0 . La connaissance de la ralisation de B modifie la probabi-
lit de ralisation dun vnement lmentaire, puisque lensemble des rsultats
possibles est devenu B et non plus .
Exemple 1.15
lissue dun jet de d on sait que le rsultat est suprieur trois et on
sintresse lvnement A = obtenir une face paire . Initialement on
avait P(A) = 3/6 = 1/2 ; maintenant est devenu |B = {4, 5, 6} et
P(A|B) = 2/3 > 1/2 .
Cette nouvelle probabilit, note P(.|B) , est dfinie sur la tribu condition-
nelle :
A|B = {A B/A A}
par :
P(A B)
P(A|B) =
P(B)
Seuls les vnements ayant une partie commune avec B peuvent se raliser
et la figure 1.1 visualise cette situation o lensemble fondamental est devenu B
et donc seule la part de A incluse dans B est prise en compte dans le calcul de
la probabilit conditionnelle.
A A
B B
Figure 1.1
Vrifions que cette application de A dans R , dfinie par

(A) = P(A B)/P(B) est bien une probabilit. On a bien entendu (A) 0
et comme A B B on a galement (A) 1 . Dautre part :
P( B) P(B)
() = = =1
P(B) P(B)
donc vrifie la premire condition de la dfinition.
Enfin, si An A avec Am An = pour m = n , alors :

1
P(An B)
An = P (An B) = = (An )
n=0
P(B) n=0 n=0
P(B) n=0
donc la condition 2 est aussi vrifie.
Exemple 1.16
On tire sans remise deux cartes successivement dun jeu de 52 et on
cherche la probabilit de tirer un as au deuxime coup sachant que lon
en a obtenu un au premier. Avec des notations videntes :
P(A1 A2 ) (4 3)/(52 51) 3 1
P(A2 |A1 ) = = = =
P(A1 ) 4/52 51 17
alors que la probabilit non conditionnelle est :
43 48 4 4 1
P(A2 ) = P(A1 A2 ) + P(A1 A2 ) = + = = P(A1 ) =
52 51 52 51 52 13
donc valeur plus leve (avoir tir un as au premier coup diminue la pro-
babilit den tirer un au second).
Exemple 1.17
On lance trois fois une pice de monnaie et on considre les vnements
A = obtenir au moins deux face et B = obtenir face au premier coup .
Lensemble fondamental retenu est = {P, F}3 , ensemble des triplets
ordonns, bien que lordre des rsultats nintervienne pas, mais pour
quil y ait quiprobabilit des vnements lmentaires, soit

P({}) = 1/8 puisque card = 23 = 8 . Ces vnements scrivent
A = {F F P, F P F, P F F, F F F} et B = {F F F, F F P, F P F, F P P} , avec
card A = card B = 4 donc P(A) = P(B) = 4/8 = 1/2 . Calculons
maintenant la probabilit conditionnelle P(A|B). On a A B = {F F P,
F P F, F F F} donc card A B = 3 et P(A B) = 3/8 . Ainsi :
P(A B) 3 1
P(A|B) = = >
P(B) 4 2
la probabilit conditionnelle a ici augment.
La formule de dfinition de la probabilit conditionnelle peut aussi scrire,
si P(A) > 0 :
P(A B) = P(B)P(A|B) = P(A)P(B|A)
et sappelle parfois formule des probabilits composes ; elle se gnralise par
rcurrence :
P(A1 A2 . . . An ) =P(A1 )P(A2 |A1 )P(A3 |A1 A2 )
. . . P(An |A1 A2 . . . An 1 )

n
k 1
=P(A1 ) P Ak | Ai
k=2 i=1
Exemple 1.18
Dans une urne qui contient deux boules rouges et trois noires, quatre per-
sonnes tirent successivement une boule sans la remettre ; la premire qui
tire une rouge gagne. Calculons la probabilit de gain de chaque person-
ne A, B, C et D :
2
P (A) = P (R1 ) =
5
3 2 3
P (B) = P(N1 )P(R2 |N1 ) = =
5 4 10
3 2 2 1
P (C) = P(N1 )P(N2 |N1 )P(R3 |N1 N2 ) = =
5 4 3 5
3 2 1 2 1
P (D) = P(N1 )P(N2 |N1 )P(N3 |N1 N2 )P(R4 |N1 N2 N3 ) = =

5 4 3 2 10
III. Thorme de Bayes

Nous allons voir partir dun exemple dans quelles conditions on peut tre
amen utiliser la formule, ou thorme, de Bayes.
Exemple 1.19
Considrons une exprience alatoire qui se droule en deux tapes : on
tire au sort entre deux urnes U1 et U2 , avec des probabilits respectives
de 1/5 et 4/5 puis on tire une boule dans lurne choisie. Leurs composi-
tions respectives sont 6 blanches, 4 noires et 3 blanches, 7 noires. La pro-
babilit a priori de U1 est donc 1/5. Sa probabilit a posteriori, sachant
quon a obtenu une boule blanche, va tre plus leve car la probabilit
de tirer une blanche dans U1 est plus forte que dans U2 .
On a :
P(U1 B)
P(U1 |B) =
P(B)
avec :
1 6 3
P(U1 B) = P(U1 )P(B|U1 ) = =
5 10 25
P(B) = P(B U1 ) + P(B U2 )
= P(U1 )P(B|U1 ) + P(U2 )P(B|U2 )
1 6 4 3 9
= + =
5 10 5 10 25
ainsi :
3/25 1 1
P(U1 |B) = = > P(U1 ) =
9/25 3 5
Cet exemple peut se traiter par application de la formule de Bayes que nous
allons tablir en considrant un systme complet dvnements, cest--dire une
partition de en vnements {A1 , . . . , An } de probabilits strictement positives,
P(Ai ) > 0 pour 1 i n , et incompatibles deux deux, i.e. avec Ai A j =

n
pour i = j et P(Ai ) = 1 . On suppose que les probabilits des vnements
i=1
inclus dans chacun des Ai sont connues et on va donc dcomposer un vnement
quelconque B sur ce systme :

n
n
B = B= B Ai = (Ai B)
i=1 i=1
On aboutit ainsi la formule de la probabilit totale :

n
n
P(B) = P(Ai B) = P(Ai )P(B|Ai )
i=1 i=1
Ceci va nous permettre de calculer les probabilits a posteriori P(Ai |B) ,

aprs ralisation dun vnement B , partir des probabilits a priori
P(Ai ),1 i n :
P(Ai B) P(Ai )P (B|Ai )
P(Ai |B) = = n
P(B)
P(A j )P(B|A j )
j=1
rsultat appel formule de Bayes ou parfois thorme de Bayes.
Exemple 1.20
On tire au sort entre trois urnes dont les compositions sont indiques dans
le tableau ci-aprs. Sachant quon a obtenu une boule rouge, on se pose la
question de savoir quelle est la probabilit quelle provienne de lurne U2 .
Rouge Bleue Verte

U1 3 4 1
U2 1 2 3
U3 4 3 2

3
3
1 3 1 4
P(R) = P(R Ui ) = P(Ui )P(R|Ui ) = + +
i=1 i=1
3 8 6 9
La probabilit a posteriori de lurne U2 tant donc :
P(U2 )P(R|U2 ) 1/6
P(U2 |R) = =
P(R) 3/8 + 1/6 + 4/9
12 36 71
= = < = P(U2 )
71 213 213
IV. Indpendance en probabilit

Dfinition
Deux vnements A et B sont dits indpendants, relativement la proba-
bilit P, si :
P(A B) = P(A)P(B)
La probabilit de ralisation simultane de deux vnements indpendants

est gale au produit des probabilits que chacun de ces vnements se produise
sparment. En consquence, si P (B) > 0 :
P(A B) P(A)P(B)
P(A|B) = = = P(A)
P(B) P(B)
la ralisation dun vnement ne modifie pas la probabilit de ralisation de
lautre.
Attention ! Ne pas confondre indpendance avec incompatibilit, car
dans ce dernier cas A B = et P(A B) = 0 .
Exemple 1.21
On jette un d rouge et un d vert et on considre les vnements
A = le d vert marque 6 , et B = le d rouge marque 5 . Il nous faut
dmontrer que ces deux vnements sont indpendants (bien entendu ce
rsultat est vident, il ny a pas dinfluence dun d sur lautre !).
Lensemble fondamental retenu est = E E, avec E = {1, 2, 3, 4, 5, 6} ,
sur lequel il y a quiprobabilit : P({}) = 1/62 . Comme A = {6} E ,
B = E {5} et A B = {(6, 5)} on obtient :
card A 6 1
P (A) = = 2 =
card 6 6
card B 6 1
P (B) = = 2 =
card 6 6
card (A B) 1
P (A B) = = 2 = P(A)P(B)
card 6
et les vnements A et B sont donc bien indpendants.
Indpendance mutuelle
Si lon considre n vnements Ai, avec n > 2 , il y a lieu de distinguer lind-
pendance deux deux qui impose :
P(Ai A j ) = P(Ai )P(A j ), 1 i = j n
de lindpendance mutuelle, condition plus forte qui scrit :
P(Ai1 Ai2 . . . Aik ) = P(Ai1 )P(Ai2 ) . . . P(Aik ), 2 k n,
pour tous les sous-ensembles {i 1 , . . . , i k } de {1, 2, . . . , n} , ce qui correspond :
n

n n n
=2 n
= 2n 1 n
k=2
k 0 1
conditions qui doivent tre ralises.
Exemple 1.22
On lance deux pices de monnaie distinctes et on sintresse aux vnements
A = obtenir pile sur la pice 1 , B = obtenir pile sur la pice 2 et
C = obtenir pile sur une seule pice . chaque pice est attach le
mme ensemble fondamental E = {P, F} et lexprience lensemble
= E E. On peut crire A = {P} E = {P P, P F} donc P(A) = 2/4 ,
B = E {P} = {P P, F P} donc P(B) = 2/4 et C = {P F, F P} donc
P(C) = 2/4. On considre maintenant les vnements deux deux :
A B = {P P} donc P(A B) = 1/4 = P(A)P(B), A C = {P F} donc
P(A C) = 1/4 = P(A)P(C) et B C = {F P} donc P(B C) = 1/4
= P(B)P(C) , ces vnements sont indpendants deux deux. Mais
A B C = donc P(A B C) = 0 = P(A)P(B)P(C) et ces vne-
ments ne sont pas indpendants dans leur ensemble.
retenir
Le modle associ une exprience alatoire est arbitraire et doit tre
choisi le plus simple possible, compte tenu du problme rsoudre. Il est
trs souvent souhaitable de retenir un ensemble fondamental tel que les v-
nements lmentaires soient quiprobables, mme si dans la ralit on ne
peut pas les distinguer, car le calcul des probabilits est alors ramen un
problme de dnombrement.
Une probabilit est une application et non pas un nombre. Il faut tou-
jours vrifier que la somme des probabilits des vnements lmentaires
est gale un et, dans le cas dun nombre fini dvnements, ne pas calcu-
ler la probabilit du dernier en retranchant un la probabilit de tous les
autres, car cela exclut cette vrification permettant de dceler ventuelle-
ment une erreur dans le calcul de ces probabilits.
Lindpendance de deux vnements est dfinie relativement une pro-
babilit. Lindpendance mutuelle dun nombre quelconque dvnements
est une condition plus forte que lindpendance de ces vnements pris seu-
lement deux deux.
La notion dindpendance est distinguer de celle de non-causalit, la
condition P (A|B C) = P (A|B) se traduisant par C ne cause pas A .
Complments :
lments de combinatoire
Dans le cas particulier o il y a quiprobabilit sur un ensemble fini dvnements l-

mentaires, nous avons vu ( I, C) que le calcul dune probabilit se ramenait un pro-
blme de dnombrement. Ce type de problmes est parfois trs complexe et ncessite de
connatre quelques lments de combinatoire, permettant dexprimer par une formule le
nombre de configurations ayant des proprits donnes. Examinons les configurations
usuelles.
A. Permutations avec rptition

Une permutation avec rptition de r objets pris parmi n est une suite ordonne de r
lments choisis parmi n, et pouvant se rpter.
Exemple 1.23
Un mot de six lettres est une permutation avec rptition de six objets choisis
parmi un ensemble, lalphabet, de 26 lments : coucou, habile, garage...
h a b i l e
1 2 3 4 5 6
Une telle permutation peut tre reprsente par les r objets rangs dans des cases
numrotes de 1 r. Pour chacune de ces r cases, il y a n choix possibles de lobjet
ranger, donc le nombre total de ces permutations est :
Pnr = nr
Exemple 1.24
Le nombre de mots possibles de trois lettres est 263 = 17 576 .
Cela correspond au cardinal de lensemble fondamental associ r tirages avec

remise (schma binmial) dans une urne contenant n objets distincts (ou ventuellement
considrs comme tels de faon justement obtenir des vnements quiprobables) et
tenant compte de lordre des tirages.
Cest aussi le nombre dapplications quelconques dun ensemble E r lments
dans un ensemble F n lments, une application quelconque pouvant tre dfinie
comme un rangement de r objets dans n botes, chaque bote pouvant contenir zro, un
ou plusieurs objets.
E(r) F(n)
B. Permutations sans rptition ou arrangements

Une permutation sans rptition, ou arrangement, de r objets pris parmi n est une suite
ordonne de r lments choisis parmi n, et qui ne peuvent pas se rpter.
Exemple 1.25
Le quint est un exemple darrangement de cinq chevaux pris parmi tous les par-
tants de la course.
Une telle permutation peut tre reprsente par les r objets rangs dans des cases
numrotes de 1 r. Pour la premire case il y a n choix possibles, pour la deuxime il
ny en a plus que n 1, et pour la r-me il nen reste plus que n r + 1 ; le nombre dar-
rangements est donc : n!
Arn = n (n 1) . . . (n r + 1) =
(n r)!
Cela correspond au cardinal de lensemble fondamental associ r tirages sans remi-
se (schma hypergomtrique) dans une urne contenant n objets distincts et tenant comp-
te de lordre des tirages.
Cest aussi le nombre dapplications injectives dun ensemble E r lments dans
un ensemble F n lments, une application injective pouvant tre dfinie comme un
rangement de r objets dans n botes, chaque bote ne pouvant contenir que zro ou un
objet. Il faut bien sr que n = card F card E = r .
Exemple 1.26
Le nombre de tiercs dans lordre avec quinze partants est :
A315 = 15 14 13 = 2 730
Permutation : il sagit du cas particulier n = r .

Une permutation est donc une suite ordonne de n objets distincts ; le nombre de per-
mutations est :
Pn = Ann = n!
Exemple 1.27
Le classement de cinq candidats une preuve forme une permutation, il y en a
5! = 120 .
Cest aussi le nombre de bijections dun ensemble E n lments dans un ensemble F

n lments.
C. Permutations avec rptition de n objets,

dont k seulement sont distincts
Il sagit dune suite ordonne de n objets choisis dans k classes distinctes, le nombre
dobjets de la classe i tant n i , 1 i k, avec bien sr n 1 + . . . + n k = n. Prenons
lexemple de n boules numrotes, extraites sans remise dune urne, et de k couleurs dis-
tinctes. Il y a n! tirages ordonns possibles ; mais si on efface les numros des n 1 boules
rouges par exemple, les n 1 ! permutations de ces boules conduisent la mme permuta-
tion, donc le nombre de permutations distinctes devient n!/n 1 ! Il en est bien sr de mme
pour toutes les autres couleurs et par consquent le nombre de permutations est :
n!
n1! . . . nk !
Exemple 1.28
Cherchons le nombre de mots diffrents forms avec les lettres du mot barbare. Il
y a sept lettres, mais seulement quatre catgories distinctes, soit un nombre de
mots distincts gal : 7!
= 630
2!2!2!1!
Cest aussi le nombre de partitions de n objets en k classes deffectifs n i ,1 i k,

fixs. Dans le cas particulier o il ny a que deux classes, on obtient le coefficient bin-
mial ( nn1 ) qui reprsente le nombre de sous-ensembles n 1 lments que lon peut ex-
traire dun ensemble n lments.
D. Combinaisons (sans rptition)

Une combinaison est un sous-ensemble non ordonn de r objets choisis dans un
ensemble qui en contient n. Ces sous-ensembles sont au nombre de :

n Ar n!
= n =
r r! r! (n r)!
Exemple 1.29
Le nombre de tiercs dans le dsordre avec quinze chevaux au dpart est :
( 15
3
) = 455
Le sous-ensemble choisi dfinit bien sr le sous-ensemble restant et donc :

n n
=
r n r
Exemple 1.30
On joue au poker das avec quatre ds identiques et on souhaite calculer la pro-
babilit des diffrents rsultats possibles. Bien que les ds ne soient pas distincts,
nous retenons comme ensemble fondamental = E 4, o E = {1, 2, 3, 4, 5, 6}
est lensemble des rsultats associs un d particulier ; ainsi tous les vne-
ments lmentaires sont quiprobables et ont mme probabilit 1/64 . En effet, un
rsultat est une permutation de quatre objets choisis parmi six. Un carr est un
rsultat de la forme (aaaa) avec six choix possibles pour la hauteur :
6 1
=
P(carr e) = 3
64 6
Un brelan est un rsultat de la forme (aaab) avec six choix pour la hauteur a,
cinq choix pour b et quatre places possibles, soit :
654 20
P (brelan) = = 3
64 6
Une double paire est un rsultat de la forme (aabb) avec ( 62 ) choix possibles pour
les paires et une permutation de quatre objets dont deux seulement sont distincts,
4!
soit 2!2! et :
15
P (double paire) = 3
6
Une paire est un rsultat de la forme (aabc) avec six choix possibles pour la hau-
teur, ( 52 ) choix possibles pour les hauteurs qui laccompagnent et un nombre de
4!
permutations de quatre objets dont trois distincts , soit :
2!1!1!
120
P ( paire) = 3
6
Le nombre de rsultats quelconques (abcd) est le nombre de permutations sans
rptition de quatre objets pris parmi six, do :
6543 60
P (quelconque) = 4
= 3
6 6
216
On vrifie bien que la somme des probabilits est gale 3 = 1 .
6
Tous les sous-ensembles que lon peut extraire dun ensemble E n lments peu-
vent contenir 0, 1, . . . , n lments, do la relation :

n n n
card P(E) = 2n = + + ... +
0 1 n
Enfin, parmi les sous-ensembles r lments, il y a ceux qui contiennent un objet
particulier, en nombre ( nr 11 ), et ceux qui ne le contiennent pas, en nombre ( n r 1 ), do
la relation :
n n1 n1
= +
r r 1 r
qui permet de construire le triangle de Pascal.
E. Combinaisons avec rptition

Une combinaison avec rptition est un sous-ensemble non ordonn de r objets choisis
dans un ensemble qui en contient n et qui peuvent se rpter.
Exemple 1.31
Les r objets tirs avec remise dans une urne qui en contient n distincts forment
une combinaison avec rptition puisque seule compte la nature des objets tirs,
indpendamment de lordre des tirages.
Une telle combinaison sera reprsente sous la forme (x1 , . . . , xn ) o xi , 1 i n,

reprsentera le nombre dobjets i appartenant au sous-ensemble, avec bien sr xi 0 et
x1 + . . . + xn = r . Elle peut tre symbolise par une suite forme dobjets et de spa-
rateurs / avec x1 objets avant le premier sparateur, x2 objets entre le premier et le
deuxime /. . ., xn objets aprs le (n 1)-me /. Elle est donc caractrise par la place
des r objets dans la suite des r + n 1 symboles.
1 2 3 n2 n1
x1 x2 xn 1 xn
Par exemple, la combinaison constitue de deux objets de la catgorie 1, dun objet de

la catgorie 3 et de trois objets de la catgorie 4 scrit (2, 0, 1, 3) ou 2 + 0 + 1 + 3 = 6
reprsente sous la forme symbolique : // / . Rciproquement, la suite
de symboles / / / reprsente une combinaison dun objet de la catgo-
rie 2, de trois objets de la catgorie 3 et de deux objets de la catgorie 4. Il y a donc une
bijection entre une combinaison et une telle suite, et le nombre de combinaisons avec
rptition est donc gal au nombre de rangements des r objets (ou des n 1 spara-
teurs /) dans les r + n 1 cases, soit :

r + n1
Cnr =
r
F. Partitions
Le nombre de partitions de n objets en r classes deffectifs non fixs est appel nombre
de Stirling de deuxime espce et se calcule partir de la rcurrence :
r
Sn+1 = Snr 1 + r Snr , 1<r <n
avec bien sr Sn1 = 1 et
Sn2 = 2 1 . Les partitions de n + 1 objets en r classes se
n1
dcomposent en effet en celles o le (n + 1) -me objet constitue une classe lui tout
seul, il y en a Snr 1 , et celles o on lintgre une classe dj forme, il y en a r Snr .
Une surjection dun ensemble E n lments dans un ensemble F r lments cor-
respond un rangement de n objets dans r botes dont aucune nest vide, cest--dire
une partition de ces n objets en r classes, o lordre des classes intervient. une parti-
tion donne correspondent r! surjections distinctes, donc le nombre total de surjections
est r!Snr .
Le nombre de partitions de nobjets distincts en k classes dont n j ont le mme effec-
tif j, 1 j k, (avec bien sr kj=1 jn j = n ) est :
n!
(1!)n1 (2!)n2 . . . (k!)nk n 1 ! . . . n k !
Exercices
noncs
Exercice n1
Une machine fabrique des objets qui sont classs en dfectueux, cods 0, et non dfec-
tueux, cods 1. On prlve toutes les heures les trois derniers objets produits par cette
machine. On demande de prciser lensemble fondamental associ cette exprience et
dcrire les vnements suivants : A = le premier objet est dfectueux ; B = le der-
nier objet est non dfectueux ; C = les premier et dernier objets sont dfectueux ;
D = aucun objet nest dfectueux ; E = deux objets sont dfectueux ; F = au
plus un objet est dfectueux .
Exercice n2
Soit = {a, b, c} et considrons les ensembles A1 = {, {a}, {b, c}, } et
A2 = {, {b}, {a, c}, }. Montrer que ce sont des tribus sur . Les ensembles A1 A2
et A1 A2 sont-ils des tribus sur ?
Exercice n3
Soit = N et A la famille des parties A de telles que A est fini ou bien A est fini.
Montrer que A est une algbre mais pas une algbre. On pourra considrer les
ensembles An = {2n}, n N .
Exercice n4
On effectue deux tirages successifs dans une urne qui contient une boule blanche et deux
boules noires identiques. La premire boule tire n'est pas remise dans l'urne, mais est
remplace par une boule de l'autre couleur (blanche si on a tir une noire et vice-versa).
1) Construire l'ensemble fondamental associ cette exprience alatoire, en tenant
compte de l'ordre des tirages.
2) Montrer que l'ensemble des parties de dfini par :
A = {,{(N N )} ,{(B N ) ,(N B)} ,}
est une tribu. La notation (B N ) reprsente par exemple l'vnement lmentaire tirer
une boule blanche, puis une noire .
3) Dterminer la probabilit de chacun des vnements lmentaires constituant .
Exercice n5
On lance un d quatre fois de suite et le joueur A marque 1 point si le chiffre obtenu est 1
ou 2 ; sinon c'est le joueur B qui marque un point. Le joueur qui gagne la partie est celui
qui a le plus de points l'issue de ces quatre lancers. Calculer la probabilit de gain de
chaque joueur, en prcisant l'ensemble fondamental retenu pour modliser ce problme.
Exercice n6
Une urne contient une boule blanche et une boule noire. On effectue des tirages avec
remise dans cette urne jusqu obtenir une boule blanche, ajoutant une boule noire aprs
chaque tirage dune boule noire. Calculer la probabilit deffectuer n tirages, n N .
Exercice n7
Un laboratoire a mis au point un test rapide de dpistage du VIH (responsable du SIDA)
mais qui nest pas totalement fiable. Il est positif avec une probabilit de 0,99 si le patient
est effectivement atteint et avec une probabilit de 0,01 si le patient nest pas atteint. On
tire au hasard un individu dans une population o 4% sont porteurs du VIH. Calculer la
probabilit quil ne soit pas atteint sachant que le test a t positif.
Exercice n8
Le professeur Tournesol cherche ses gants quil pense avoir rangs avec une probabilit
p dans sa commode. Si cest le cas, il les a mis au hasard dans lun des 4 tiroirs. Sachant
quil ne les a pas trouvs dans les 3 premiers, calculer la probabilit quils soient dans le
quatrime.
Exercice n9
On effectue deux tirages successifs avec remise dans une premire urne qui contient
autant de boules noires que de boules blanches. On place ensuite dans une seconde urne
vide deux boules de la mme couleur que celles qui ont t tires.
1) Indiquer les diffrentes compositions possibles de cette urne et la probabilit associe.
2) On effectue ensuite des tirages successifs avec remise dans cette seconde urne. On
note pn la probabilit que cette urne contienne deux boules blanches, sachant que lon na
obtenu que des boules blanches au cours des n premiers tirages. Calculer p1 , p2 , puis pn
pour n 2 et ensuite la limite de pn quand n devient infini. Cette limite tait-elle prvi-
sible ?
Exercice n10
On jette ensemble cinq ds identiques et chaque coup on enlve les as (chiffre 1) qui
sont sortis avant de relancer les autres ds. Quelle est la probabilit dobtenir un poker
das, cest--dire cinq as, en trois coups au plus ?
Exercice n11
Un document contient quatre erreurs et chaque relecture la probabilit de dtection
dune erreur ayant subsist est de 1/3. Quelle est la probabilit pn quil ne subsiste aucune
faute aprs n relectures, n N ?
Exercice n12
Un tudiant doit rpondre un questionnaire choix multiple o cinq rponses sont pro-
poses une question, une seule tant correcte. Quand lvnement A = ltudiant a
bien travaill dans lanne est ralis, la rponse est fournie avec exactitude. Dans le
cas contraire, ltudiant rpond au hasard. Si lvnement B = il a fourni la rponse
correcte est ralis, calculer la probabilit P(A|B) en fonction de p = P(A) .
Exercice n13
Dans la rue principale de Champignac, chacun des deux feux de circulation successifs est
vert les deux tiers du temps. Si vous roulez la vitesse rglementaire de 50 km/h, aprs
avoir franchi le premier feu au vert, vous trouverez le second au vert trois fois sur quatre.
Si vous grillez le premier feu au rouge, calculez la probabilit que le second soit aussi au
rouge si vous roulez toujours la vitesse rglementaire de 50 km/h, en prcisant len-
semble fondamental retenu pour ce problme.
Exercice n14
Deux joueurs de tennis sentranent au service, le joueur A servant une fois sur trois et le
joueur B deux fois sur trois. Leurs pourcentages de russite au service sont respective-
ment de 90 % et de 60 %.
1) Si vous assistez un service russi au cours de cet entranement, quelle est la proba-
bilit p B quil sagisse du joueur B ?
2) Calculer cette probabilit p B en fonction du pourcentage p de russite du joueur B.
Pour quelle valeur de p B cette probabilit est-elle gale 1/2 ?
3) Que vaut p B dans le cas o les joueurs A et B ont le mme pourcentage de russite au
service ? Le rsultat tait-il prvisible ?
Exercice n15
Soit = {a, b, c, d} avec quiprobabilit des vnements lmentaires sur P(). Les
vnements A = {a, b},B = {a, c} et C = {a, d} sont-ils indpendants ?
Exercice n16
Les vnements A et B tant indpendants, montrer que les vnements A et B ainsi que
A et B sont aussi indpendants. Si lvnement C est indpendant de A et de B, est-il
aussi indpendant de A B ? Lvnement C est-il indpendant de A B ?
Exercice n17
On effectue trois lancers successifs dune pice de monnaie. Les vnements
A = {F F F, P F F, F P P, P P P}, B = {F F P, F P P, P P F, P P P} et C = {F F P,
F P F, P F P, P P P} sont-ils indpendants ?
Exercice n18
Problme de rencontres. Lors dun bal auquel participent n couples, le choix de sa cava-
lire pour la premire danse se fait au hasard. La probabilit de danser avec sa femme est
donc 1/n, valeur faible si n est grand. Cependant, on demande de montrer que la proba-
bilit quil y ait au moins une rencontre entre un danseur et sa femme est suprieure la
probabilit quil ny en ait pas.
Exercice n19
Avant le tirage au sort des quarts de finale de la Ligue des Champions de football il reste
4 quipes anglaises. Calculer la probabilit p qu'il y ait au moins un quart de finale qui
oppose 2 quipes anglaises.
Corrigs
Exercice n1
On choisit comme ensemble fondamental = {0, 1}3 , cest--dire lensemble des tri-
plets ordonns, bien que lordre soit sans importance, car cela permet dobtenir des v-
nements lmentaires quiprobables et facilite donc le calcul ultrieur des probabilits.
Les vnements indiqus scrivent alors : A = {0} {0, 1}2 , B = {0, 1}2 {1},
C = {0} {0, 1} {0} = {(000), (010)} , D = {(111)} , E = {(001), (010), (100)} ,
F = {(111), (110), (101), (011)}.
Exercice n2
Si on note A1 = {a} et A2 = {b} , les deux ensembles considrs scrivent
Ai = , Ai , Ai , , avec i = 1, 2, et sont donc des tribus sur . Lensemble
A1 A2 = {, } est la tribu grossire et A1 A2 = {, {a}, {b}, {a, c}, {b, c}, }
/ A1 A2 .
nest pas une tribu car {a, c} {b, c} = {c}
Exercice n3
La famille A est non vide puisquelle contient par exemple les ensembles An . Par dfi-
nition, elle est ferme pour le passage au complmentaire. Si deux lments A et B de
la famille sont finis alors A B lest aussi ; si lun des deux nest pas fini alors A B
nest pas fini mais son complmentaire lest, comme intersection de deux ensembles dont
lun est fini. Ainsi dans les deux cas A B appartient A qui est aussi ferme pour
lunion donc est une algbre.
Mais lunion dnombrable nN An = 2N est lensemble des entiers pairs qui nest pas
fini. Son complmentaire est lensemble des entiers impairs, qui nest pas fini non plus,
et donc cet ensemble nappartient pas la famille A. Il ny a pas fermeture pour lunion
dnombrable donc cette algbre nest pas une -algbre.
Exercice n4
1) L'ensemble fondamental est constitu de tous les vnements lmentaires possibles,
crits sous la forme de couples dont la premire lettre dsigne la couleur de la premire
boule tire et la seconde la couleur de la boule extraite ensuite. Si la premire boule tire
est blanche, l'urne ne contient plus que des boules noires et le seul vnement possible
est donc reprsent par le couple ordonn (B N ) . Si la premire boule tire est noire, la
composition de l'urne est {B,B,N } et il y a alors deux vnements possibles, (N B) et
(N N ) . On a donc :
= {(B N ) ,(N B) ,(N N )}
2) L'ensemble
A est un ensemble non vide de parties de qui peut s'crire
A = ,A,A, en ayant pos A = (N N ) . Il est facile de voir qu'il est ferm pour
l'union et le passage au complmentaire, donc est une algbre. Comme A comporte un
nombre fini d'lments cette algbre est aussi une -algbre, ou tribu.
3) D'aprs la question 1 :
1 2 2 2 1
P (B N ) = 1 P (N B) = P (N N ) =
3 3 3 3 3
Exercice n5
Si on note A l'vnement le joueur A a marqu un point , l'ensemble fondamental est :
4
= A,A

Il n'y a pas quiprobabilit ici car P (A) = 26 et P A = 46 . Pour que le joueur A gagne,
il faut qu'il marque 3 ou 4 points et il en est de mme pour le joueur B. Les probabilits
de gain de chaque joueur sont donc :
3 4
1 2 1 1
P (AG) = 4 + =
3 3 3 9
3 4
2 1 2 16
P (BG) = 4 + =
3 3 3 27
La somme de ces probabilits n'est pas gale 1 car les joueurs peuvent marquer 2 points
chacun et tre ex-aequo :
2 2
4 1 2 8
P (E X) = =
2 3 3 27
Exercice n6
Effectuer n tirages correspond lvnement, not Bn , obtenir une boule blanche au
n-me tirage et des boules noires tous les tirages prcdents . Nous obtenons ainsi :
1
P(B1 ) =
2
1 1
P(B2 ) =
2 3
...
1 2 n1 1 1
P(Bn ) = ... =
2 3 n n+1 n(n + 1)
Exercice n7
En notant T + le test est positif et A le patient est atteint , les hypothses se tra-
duisent par P(T + |A) = 0,99 et P(T + |A) = 0,01 . La probabilit demande est :
P(A T + ) 0,96 0,01 8
P(A|T + ) = = =
P(T + ) 0,04 0,99 + 0,96 0,01 41
Exercice n8
On note C lvnement les gants sont rangs dans la commode , 4 ils sont dans le
tiroir 4 et 3 ils ne sont pas dans les 3 premiers tiroirs . La probabilit cherche scrit
P(4|3) et se calcule par la formule de Bayes. Comme P(3|C) = 1/4 et P(3|C) = 1 on
obtient :
P(4 3) P(4) p/4 p
P(4|3) = = = =
P(3) P(3) p/4 + 1 p 4 3p
Exercice n9
1) Lensemble fondamental associ ces deux tirages indpendants est = {B,N }2 .
Il y a 3 compositions possibles de cette urne avec P(B B) = P(N N ) = 1/4 et
P(B N ) = 2/4.
2) On utilise la formule de Bayes pour calculer p1 = P(B B|B1 ), avec P(B1 |B B) = 1,
P(B1 |N N ) = 0 et P(B1 |N B) = 1/2 ; ainsi p1 = 1/2 . On obtient de la mme faon
p2 = 2/3 puis pour n 2 :
P(B B) 1
pn = =
P(B B) + P(B1 . . . Bn |B N )/2 1 + 1/2n1
Quand n devient infini pn 1, rsultat prvisible car si on ne tire que des boules
blanches, cest sans doute quil ny a pas de boule dune autre couleur dans lurne.
Exercice n10
Soit Ni , 1 i 5 , le nombre de jets ncessaires pour obtenir un as avec le d i. Le
poker das est obtenu en moins de trois coups si max{Ni /1 i 5} 3, vnement qui
est quivalent :
5
{Ni 3}
i=1
Tous ces vnements sont indpendants et ont la mme probabilit :

3 3 k 1 3
5 1 5
P(Ni 3) = P(Ni = k) = = 1
k=1 k=1
6 6 6
La probabilit demande est donc :

3 5
5
1 = 0,013
6
Exercice n11
Pour quune faute ne soit pas corrige il faut quelle ait subsist chaque relecture, ce
qui se produit avec une probabilit (2/3)n ; pour chaque faute la probabilit dtre corri-
ge est donc 1 (2/3)n et la probabilit de correction des quatre erreurs est par cons-
quent :
n 4
2
pn = 1
3
Bien sr pn tend vers un quand n devient infini, avec p4 = 0,41 ; p6 = 0,69 ; p8 = 0,85
et p10 = 0,93.
Exercice n12
Il suffit dappliquer la formule de Bayes :
P(A B) P(A)P(B|A) p 5p
P(A|B) = = = =
P(B) P(A)P(B|A) + P(A)P(B|A) p + (1 p)/5 4p + 1
On peut noter que P (A|B) P (A) = p, avec bien sr P (A|B) = 0 si p = 0 et

P (A|B) = 1 si p = 1. Dans tous les autres cas P (A|B) > P (A).
Exercice n13
Lensemble fondamental est constitu des couples ordonns dont les lments symboli-
sent la couleur des premier et second feux :
= {V1 V2 ,V1 R2 ,R1 V2 ,R1 R2 }
Nous noterons :
p1 = P(V1 V2 ) p2 = P(V1 R2 ) p3 = P(R1 V2 ) p4 = P(R1 R2 )
Les hypothses se traduisent par :

P(V1 ) = p1 + p2 = P(V2 ) = p1 + p3 = 2/3
P(V2 |V1 ) = 3/4
On en dduit :
1
p1 = P(V1 V2 ) = P(V1 )P(V2 |V1 ) =
2
puis p2 = p3 = 1/6 et donc p4 = 1/6 .
On peut alors calculer :
P(R1 R2 ) 1
P(R2 |R1 ) = =
P(R1 ) 2
Exercice n14
1) Si on note R lvnement russir son service , on obtient :
P(B R) 2 0,6 4
p B = P(B|R) = = =
P(R) 0,9 + 2 0,6 7
2) On obtient cette fois :

2p
pB =
0,9 + 2 p
avec p B = 1/2 pour p = 0,45.
3) Si les joueurs ont le mme taux de russite :
2p 2
pB = = = P(B)
p + 2p 3
Exercice n15
En raison de lquiprobabilit :
P(A) = P(B) = P(C) = 1/2 et P(A B) = P({a})= 1/4 = P(A)P(B),
P(A C) = P({a}) = 1/4 = P(A)P(C) et P(B C) = P({a}) = 1/4 = P(B)P(C)
donc les vnements A, B et C sont indpendants deux deux. Par contre :
1
P(A B C) = P({a}) = = P(A)P(B)P(C)
4
et ils ne sont pas mutuellement indpendants.
Exercice n16
On obtient :
P(A B) = P(A) P(A B) = P(A) P(A)P(B)
= P(A)[1 P(B)] = P(A)P(B)
donc les vnements A et B sont indpendants. De mme :
P(A B) = P(B) P(A B) = P(B) P(A)P(B)

= P(B) [1 P(A)] = P(A)P(B)
donc A et B sont aussi indpendants.
On peut crire :
P {(A B) C} = P(A C) + P(A B C)

= P(A C) + P(B C) P(A B C)
= [P(A) + P(B)] P(C) P(A B C)
= P(A B)P(C) + P(A B)P(C) P(A B C)
donc pour quil y ait indpendance de C avec A B il faudrait que

P(A)P(B)P(C) = P(A B C) , cest--dire que A, B et C soient mutuellement
indpendants, ce qui nest pas le cas en gnral. Dans lexercice prcdent on a dailleurs
P(A B) = P({a, b, c}) = 3/4 avec P {(A B) C} = P({a}) = 1/4 = P(A B)
P(C) = 3/8 ce qui montre que A B nest pas indpendant de C. De mme, daprs ce
qui prcde, pour que C soit indpendant de A B, il faut que C soit aussi indpendant
de A B, ce qui nest pas le cas en gnral comme le montre galement lexercice pr-
cdent puisque P(A B) = 1/4 et P(C) = 1/2 avec P(A B C) = 1/4
= P(A B)P(C) .
Exercice n17
On obtient P(A B) = P({F P P,P P P}) = 1/4 = P(A)P(B) , P(B C) = P({F F P,
P P P}) = 1/4 = P(B)P(C) et P(A C) = P({P P P}) = 1/8 = P(A)P(C) donc ces
vnements ne sont pas indpendants deux deux et a fortiori ne sont pas mutuellement
indpendants, bien quici P(A B C) = P({P P P}) = 1/8 = P(A)P(B)P(C) .
Exercice n18
Notons par Ai lvnement le danseur i se retrouve avec sa femme . Lvnement il
y a au moins une rencontre est donc i=1
n
Ai . Sa probabilit sobtient partir de la for-
mule de Poincar (cf. I, C) pour n vnements :

n
n
pn = P Ai = ( 1)k+1 P(Ai1 . . . Aik )
i=1 k=1 {i 1 , ..., i k }{1, ..., n}
Si chaque danseur est reprsent par une case numrote de 1 n, lvnement

Ai1 . . . Aik correspond une permutation o les femmes de ces danseurs sont pla-
ces dans les cases i 1 , . . . , i k . Comme toutes les permutations sont quiprobables :
(n k)!
P(Ai1 . . . Aik ) =
n!
Par ailleurs, le nombre de sous-ensembles {i 1 , . . . , i k } extraits de {1, . . . , n} est gal

( nk ), donc :

n (n k)! 1
P Ai 1 . . . Ai k = =
{i 1 , ..., i k }{1, ..., n}
k n! k!
et :

n
( 1)k+1
pn = .
k=1
k!
La probabilit quil y nait aucune une rencontre est donc :

n
( 1)k+1
n
( 1)k 1
qn = 1 pn = 1 = = 0,36788 .
k=1
k! k=0
k e
On obtient bien des valeurs plus petites que 1/2, sauf q2 = 0,5. Les autres valeurs sont :
1 3
q3 = = 0,3333 ; q4 = = 0,375 ;
3 8
11 265
q5 = = 0,3667 ; q6 = = 0,3681
30 720
...
Exercice n19
Il y a quiprobabilit de tous les quarts de finale qui sont au nombre de :
8!
= 105
(2!)4 4!
car il s'agit du nombre de partitions de 8 quipes distincts en 4 matchs de mme effectif
2 (cf. Complments F).
Pour chaque quipe anglaise, le nombre d'associations possibles avec une quipe non
anglaise est successivement 4, puis 3, puis 2, puis 1. Il y a donc 4! = 24 quarts de fina-
le qui ne comportent pas de match entre quipes anglaises. On obtient donc :
24 81
p = 1 p0 = 1 =
105 105
On peut calculer la probabilit des autres vnements lmentaires. Deux quarts de fina-
le entre quipes anglaises correspondent 2 partitions de 2 sous-groupes de 4 (quipes
anglaises et non anglaises ) en matchs de mme effectif 2, soit un nombre de possibilits :
4! 4!
=9
(2!) 2! (2!)2 2!
2
La probabilit de deux quarts de finale entre quipes anglaises est donc :

9
p2 =
105
Enfin, il y a ( 42 ) choix de matchs entre 2 quipes anglaises et ( 42 ) choix de matchs entre
2 quipes non anglaises. Il ne reste ensuite que 2 faons de choisir les 2 autres quarts de
finale en associant une des 2 quipes anglaises restantes une des 2 quipes non
anglaises restantes. Cela correspond au nombre de quarts de finale :

4 4
2 = 72
2 2
La probabilit d'un seul match entre quipes anglaises est donc :
72
p1 =
105
On retouve bien p = p1 + p2 .
2. Variable alatoire
L
e besoin de calculs, comme par exemple celui de la moyenne asso-
cie aux diffrents rsultats possibles dune preuve alatoire,
impose que ce rsultat, symbolis ou non par un nombre, soit mis
sous forme numrique. C'est pourquoi on souhaitera presque toujours
traduire par une valeur numrique l'vnement ralis. Pour un lancer
de pice de monnaie, on peut retenir par exemple comme codage des
rsultats : pile 0, face 1. Pour un lancer de d, il y a un codage
naturel puisque le rsultat a ici un caractre numrique :
face 1 1, . . . , face 6 6 ; mais on peut bien sr envisager d'autres
codages, comme par exemple noter par zro tout rsultat pair et par un
tout rsultat impair, d'o les nouvelles associations : face 1 1,
face 2 0, . . . , face 6 0.
Bien entendu la valeur numrique associe un rsultat est arbitraire et
correspond un codage des vnements qui va se faire au moyen d'une
certaine application, note usuellement X , qui va associer un nombre
chaque vnement lmentaire, soit :
X :R
Le rsultat ayant un caractre alatoire, la valeur numrique X ()

associe a aussi un caractre alatoire. Il serait donc intressant de pou-

voir calculer la probabilit que X prenne une certaine valeur ou appar-
tienne un certain intervalle. Pour pouvoir dfinir cette probabilit sur
l'ensemble image = X () R , il faut pouvoir revenir en arrire sur
l'ensemble de dpart puisque la probabilit est dfinie sur (,A). Il va
donc falloir imposer une certaine condition cette application qui sera
alors appele variable alatoire (v.a., random variable) si elle est ralise.
Cette terminologie est d'ailleurs assez maladroite puisque cette variable
est en l'occurrence une fonction !
Considrons l'exemple suivant o l'ensemble fondamental est
= {a,b,c,d}. La partition = {{a},{b},{c,d}} engendre l'algbre
A = {,{a},{b},{c,d},{a,b},{a,c,d},{b,c,d},} . Les vnements c et d
Variable alatoire 35
tant supposs indiscernables, on dfinit une probabilit P par

P({a}) = 1/4,P({b}) = 1/2 et P({c,d}) = 1/4. On dfinit alors une
application X : R par X (a) = X (d) = 1 et X (b) = X (c) = 0. La
probabilit que X prenne la valeur 0 est la probabilit de {b,c} qui n'est
pas un lment de A , donc n'est pas un vnement, et par consquent
on ne peut pas calculer cette probabilit. Cette application n'est donc pas
une v.a.
Pour la facilit de l'expos, il sera utile de distinguer le cas o X () est
dnombrable, la v.a. X tant alors dite discrte, de celui o X () est un
ensemble non dnombrable de R (gnralement un intervalle, pouvant
tre R tout entier, ou une runion d'intervalles), la v.a. tant dite conti-
nue. La loi de probabilit d'une v.a., qui peut toujours tre dfinie par sa
fonction de rpartition, le sera plutt par les probabilits individuelles
dans le cas discret et par la densit dans le cas continu. Nous dfinirons
les deux caractristiques numriques principales d'une distribution, l'es-
prance, caractristique de valeur centrale, et la variance, caractristique
de dispersion.

Objectif du chapitre : retenir que dans les cas usuels la loi d'une variable
alatoire est dtermine par les probabilits des points dans le
cas discret, par la densit dans le cas continu, et que cette loi est
souvent caractrise par les deux premiers moments qui sont
l'esprance, caractristique de valeur centrale, et la variance,
caractristique de dispersion autour de cette valeur centrale.
Concepts cls tudis : variable alatoire, fonction de rpartition, densit
de probabilit, esprance mathmatique, variance, cart type.
I. Variable alatoire relle discrte

A. Dfinition
On appelle v.a. discrte dfinie sur (,A) une application X : R telle que
X () est dnombrable (en gnral X () est fini ou X () N ou X () Z
et dans tous les cas X () est en correspondance bijective avec N ) et telle que
pour tout x rel :
X 1 (x) = { / X () = x} A
ce qui exprime tout simplement que X 1 (x) est un vnement.
Remarque
Si A = P () , toute application X sera une v.a. puisque X 1 (x) P ()
pour tout x rel.
B. Loi de probabilit
La proprit rsultant de la dfinition d'une v.a. va nous permettre de dfinir la
probabilit de chacune de ses valeurs possibles x X () par :

PX (X = x) = P X 1 (x) = P { / X () = x}
Exemple 2.1
Si on associe la valeur 1 au rsultat impair d'un jet de d :
X 1 (1) = {1,3,5} , la probabilit de la valeur 1 sera P({1,3,5}) = 1/6
+1/6 + 1/6 = 1/2.
Cette nouvelle probabilit, dfinie cette fois sur = X () et note PX , s'ap-
pelle la probabilit image de P par X . La relation prcdente peut s'crire sch-
matiquement PX (x) = (P X 1 )(x) . Nous allons vrifier que PX est bien une
probabilit dfinie sur . Tout d'abord, l'ensemble d'arrive de cette application
est celui de P, donc [0,1] . D'autre part :

PX ( ) = P X 1 ( ) = P() = 1;
enfin, si An , avec Am An = pour m =/ n:

PX An = P X 1 An =P X 1 (An ) = P X 1 (An )
n=0 n=0 n=0 n=0

= PX (An )
n=0
Trs souvent dans la suite, par souci de simplification mais par abus de nota-
tion, nous noterons P les probabilits images PX .
L'ensemble = X () tant dnombrable, il existe une bijection permet-
tant de reprsenter ses lments par l'ensemble des xi ,i N . La loi de probabi-
lit PX de X est alors dfinie par les probabilits individuelles :

pi = PX (X = xi ) = P X 1 (xi ) , i N
On appelle alors distribution ou loi de probabilit de la v.a. X l'ensemble des
couples (xi , pi )iN . Si X ne prend qu'un petit nombre de valeurs, cette distribu-
tion est gnralement prsente dans un tableau.
Exemple 2.2
La loi uniforme associe un lancer de d six faces numrotes est pr-
sente dans le tableau ci-aprs :
xi 1 2 3 4 5 6
pi 1/6 1/6 1/6 1/6 1/6 1/6 1
Cas particuliers
Variable certaine
Il s'agit d'une v.a. qui est constante, i.e. qui prend la mme valeur connue a quel
que soit le rsultat de l'preuve :
PX (X = a) = 1
La masse totale de probabilit est concentre en a ; on parle de loi de Dirac
associe cette variable certaine.
Variable indicatrice
Soit A A un vnement quelconque ; on appelle v.a. indicatrice de cet v-
nement A, la v.a. dfinie par :

1 si A
X () =
0 si A
et note X = 1 A . Ainsi :
PX (X = 1) = P {/ A} = P(A)

PX (X = 0) = P / A = P(A) = 1 P(A)
C. Fonction de rpartition
On appelle fonction de rpartition de la v.a. X, la fonction F dfinie pour x rel
par :
F(x) = PX {X < x} = P{ / X () < x}
Il faut noter que beaucoup d'ouvrages utilisent la dfinition anglo-saxonne
o F(x) = PX {X x}. C'est une fonction en escalier, constante par morceaux,
continue gauche, dfinie ici par :

F(x) = { pi /xi < x}
c'est--dire que c'est la somme des poids de tous les points qui sont strictement
gauche de x. Les proprits de F seront tudies dans le cas d'une v.a. conti-
nue.
Si par exemple X prend les valeurs x1 < x2 < . . . < xn , on aura F(x) = 0
pour x x1 , puis le graphe de F prsentera un saut en chaque point xi , jusqu'
la valeur F(x) = 1 pour x > xn .
F(x) 1
pn
p2
p1
x1 x2 0 x3 xn 1 xn x
Figure 2.1
On peut dduire de F les probabilits individuelles par : pi = F (xi+1 ) F (xi )

pour 1 i n 1 et pn = 1 F (xn ) .
Exemple 2.3
Variable certaine : F(x) = 0 pour x a et F(x) = 1 pour x > a.
F(x)
0 a x
Figure 2.2
Exemple 2.4
Variable indicatrice : F(x) = 0 pour x 0 , saut de hauteur PX (X = 0)
= 1 p avec F(x) = 1 p pour 0 < x 1, puis saut de hauteur
PX (X = 1) = p, puis F(x) = 1 pour x > 1.
F(x)
1p
0 1 x
Figure 2.3
Exemple 2.5
Jet de d : F(x) = 0 pour x 1 , puis sauts de hauteur PX (X = i) = 1/6
aux points i = 1,. . . ,6 puis F(x) = 1 pour x > 6.
F(x)
1
3/6
1/6
0 1 2 3 4 5 6 x
Figure 2.4
D. Moments dune v.a. discrte

1) Esprance mathmatique
Dfinition
On appelle esprance mathmatique (expected value) de la v.a. X la quan-
tit, si elle existe :

E(X) = pi xi
iN
Il s'agit d'une moyenne en probabilit, ou moyenne pondre, des valeurs xi

que peut prendre la v.a. X, par les probabilits correspondantes pi . Chaque pro-
babilit pi peut aussi s'interprter comme la masse ponctuelle du point i d'abs-
cisse xi et E (X) est alors le centre de gravit, ou barycentre, de ces points
affects de masses. C'est une valeur numrique constante qui est la valeur
moyenne, en probabilit, de X. Notons que si X prend ses valeurs entre x1 et xn ,
on aura bien sr x1 E(X) xn .
Si X ne prend qu'un nombre fini de valeurs, le calcul de E(X) peut se faire
l'aide du tableau de la distribution comme ci-aprs :
xi
pi 1
pi xi E(X)
Exemple 2.6
Si X est la v.a. qui code 0 le rsultat pile et 1 le rsultat face d'un lancer
de pice de monnaie :
1 1 1
E(X) = 0 PX (X = 0) + 1 PX (X = 1) = 0 + 1 =
2 2 2
la valeur moyenne en probabilit de X est 1/2, bien que X ne prenne
jamais cette valeur.
Exemple 2.7
Pour une v.a. indicatrice :
E(X) = 0 PX (X = 0) + 1 PX (X = 1) = P(A) = p
Exemple 2.8
Pour le jet de d :
1 6
7
E(X) = i = = 3,5
6 i=1 2
Exemple 2.9
Dans le cas de la loi uniforme sur X () = {x1 ,. . . ,xk } , c'est--dire avec
quiprobabilit de toutes les valeurs pi = 1/k , on obtient :
1 k
E(X) = xi
k i=1
et dans ce cas E(X) se confond avec la moyenne arithmtique simple x
des valeurs possibles de X (cependant la notation x pour l'esprance est
proscrire en gnral car ce n'est que dans ce cas particulier que
E(X) = x).
l'origine des probabilits, la quantit E(X) a t introduite pour traduire

la notion de gain moyen, ou esprance de gain, la v.a. X reprsentant la valeur
du gain un certain jeu.
Exemple 2.10
Deux joueurs A et B jouent avec un d, le joueur B gagnant les mises si
le rsultat est suprieur ou gal trois ; sinon, c'est A qui gagne. La ques-
tion est de savoir quelles doivent tre les mises respectives a et b de ces
deux joueurs pour que le jeu soit quitable.
Les gains respectifs de ces deux joueurs sont reprsents par les v.a. :

a + b 2/6 a + b 4/6
XA = XB =
0 4/6 0 2/6
soit les esprances de gain E(X A ) = (a + b)/3 et E(X B ) = 2(a + b)/3 .
Le jeu est considr comme quitable si la mise est gale l'esprance de
gain, ce qui conduit aux conditions (a + b)/3 = a et 2(a + b)/3 = b
d'o b = 2a , rsultat intuitivement vident puisque le joueur B a deux fois
plus de chances de gagner.
Proprits
Les proprits de l'oprateur esprance mathmatique sont celles du signe

somme.
P1 Si on ajoute une constante une v.a., il en est de mme pour son esp-
rance :
E(X + a) = E(X) + a, a R
rsultat qui se dduit de :

pi (xi + a) = pi xi + a
i i
P2 Si on multiplie une v.a. par une constante, il en est de mme pour son
esprance :
E(a X) = a E(X), a R
il suffit d'crire :

pi axi = a pi xi
i i
P3 L'esprance d'une somme de deux v.a. est la somme des esprances
(bien sr si elles existent) :
E(X + Y ) = E(X) + E(Y ).
La premire esprance fait intervenir deux v.a. distinctes et se calcule donc
par rapport la loi du couple (X,Y ) qui est dfinie par les probabilits :
pi j = P(X,Y ) (X = xi ,Y = yj ), i I, j J
.
Les deux autres esprances se calculent par rapport aux lois marginales de
X et Y qui s'obtiennent par sommations de la loi du couple :

pi. = pi j = PX (X = xi )
j

p. j = pi j = PY (Y = yj )
i
On calcule alors :

E(X + Y ) = pi j (xi + yj ) = pi j xi + pi j yj
i, j i, j i, j

= xi pi j + yj pi j = pi. xi + p. j yj
i j j i i j
On peut rsumer ces trois proprits en disant que l'oprateur esprance

mathmatique est linaire :
E(X + Y ) = E(X) + E(Y ), R, R
Remarques
L'esprance d'une constante relle a est gale la valeur de cette constan-
te : E (a) = a.
Si g est une fonction continue quelconque, alors :

E [g (X)] = pi g (xi )
iN
2) Variance
Il s'agit d'un indicateur mesurant la dispersion des valeurs xi que peut prendre la
v.a. X, autour de la moyenne en probabilit E(X) et dfini par :

V (X) = pi [xi E(X)]2
iN
lorsque cette quantit existe.
C'est l'esprance mathmatique du carr de la v.a. centre X E(X) :
V (X) = E [X E(X)]2
moment centr d'ordre deux. On note cette quantit V (X) = X2 , X dsignant
alors l'cart type (standard deviation) de X qui s'exprime dans les mmes units
de mesure que la variable.
Exemple 2.11
Lancer de pice :

0 (pile) 1/2
X=
1 (face) 1/2
On avait calcul E(X) = 1/2, d'o :
2 2
1 1 1 1 1 1 1
V (X) = 0 + 1 = + =
2 2 2 2 8 8 4
Exemple 2.12
Pour la v.a. indicatrice :
V (X) = E(X p)2 = p(1 p)2 + (1 p)(0 p)2
= p(1 p)(1 p + p) = p(1 p)
Exemple 2.13
Pour la loi uniforme sur X () = {x1 ,. . . ,xk } nous avions obtenu
E(X) = x , d'o :
k
1 k
V (X) = pi (xi x) =
2
(xi x)2
i=1
k i=1
et la variance se confond ici avec la variance empirique des valeurs pos-

sibles de X.
Cet indicateur de dispersion vient complter l'information sur la distribution,
fournie par la valeur moyenne.
Exemple 2.14
Considrons les deux distributions suivantes :
X 2 4 6 Y 4 3 33
1/4 1/4 1/2 1/2 1/3 1/6
Elles ont comme valeurs moyennes :

1 33
E(X) = + 1 + 3 = 4,5 et E(Y ) = 2 + 1 + = 4,5
2 6
donc mme centre de distribution. Par contre :
3 385
E(X 2 ) = 1 + 4 + 18 = 23 et E(Y 2 ) = 8 + 3 + 121 =
2 2
d'o V (X) = 11/4 et V (Y ) = 689/4 , valeur trs suprieure qui indique
une dispersion de Y autour de sa moyenne beaucoup plus grande que
celle de X.
Proprits
P1 Par dfinition :
V (X) 0
avec :
V (X) = 0 pi [xi E(X)] = 0 i N xi = E(X) i N
la variance ne peut tre nulle que si X = E(X) avec une probabilit gale
un, i.e. si X est une v.a. certaine : PX {X = E(X)} = 1 .
P2 Pour tout rel a :
V (X + a) = V (X)
c'est--dire que le moment centr d'ordre deux est invariant par translation ou
changement d'origine.
Ceci provient du fait que X + a E(X + a) = X E(X) .
V (a X) = a 2 V (X)
un changement d'chelle modifie la variance ; ceci est d au fait que
[a X E(a X)]2 = a 2 [X E(X)]2 .
P4 Pour le calcul de la variance, il est souvent prfrable d'utiliser la for-
mule dveloppe :
V (X) = E(X 2 ) E 2 (X)
qui se dduit des proprits de linarit de l'oprateur esprance :

V (X) = E X 2 2X E(X) + E 2 (X) = E(X 2 ) 2E 2 (X) + E 2 (X)
= E(X 2 ) E 2 (X)
P5 Si X et Y sont deux v.a. indpendantes, alors :

V (X + Y ) = V (X) + V (Y )
cette proprit se dduisant du fait que dans ce cas E(X Y ) = E(X)E(Y ) , que
l'on dmontre aisment partir de la condition d'indpendance qui s'crit :
P(X,Y ) {X = xi ,Y = yj } = PX {X = xi }PY {Y = yj } i I, j J
ou pi j = pi. p. j avec les notations du paragraphe prcdent. En effet :

E(X Y ) = pi j xi yj = pi. xi p. j yj = E (X) E (Y )
i j i j
et alors :
V (X + Y ) = E(X + Y )2 [E(X + Y )]2

. = E X 2 + E(Y 2 ) + 2E(X Y ) E 2 (X) E 2 (Y ) 2E(X)E(Y )
= V (X) + V (Y ) + 2 [E(X Y ) E(X)E(Y )]
On dfinit la covariance par Cov(X,Y ) = E(X Y ) E(X)E(Y ) et on a
donc dans le cas gnral :
V (X + Y ) = V (X) + V (Y ) + 2Cov(X,Y )
Remarque
Considrons la fonction g dfinie pour t rel par :

g(t) = E(X t)2 = pi (xi t)2
i
C'est un polynme du second degr en t, de drive :

g (t) = 2 pi (xi t) = 2 [E(X) t]
i
qui s'annule en changeant de signe pour t = pi xi = E(X) ; comme
i
g (t) = 2 > 0 , g est minimum pour t = E(X) , ce minimum tant la
variance de X. Ainsi, E(X) est solution du problme :
min E(X t)2
tR
On peut galement retenir comme caractristique de valeur centrale la
mdiane Md, notamment dans le cas o l'esprance nexiste pas, nombre
qui se dfinit par :
1
P (X < Md) P (X Md) .
2
Elle vrifie aussi :
E |X Md| = inf E |X t|
tR
3) Moments non centrs et centrs
On appelle moment non centr d'ordre r N la quantit, lorsqu'elle existe :

m r (X) = pi xir = E(X r ).
iN

Le moment centr d'ordre r N est :

r (X) = pi [xi E(X)]r = E [X E(X)]r .
iN
Notons que ce moment centr peut s'exprimer, partir de la formule du bin-

me, en fonction des moments non centrs m r ,m r1 ,. . . ,m 1 . Les premiers moments
sont :
m 1 (X) = E(X),1 (X) = 0,2 (X) = m 2 (X) m 21 (X) = V (X)
II. Variable alatoire relle continue

A. Dfinition
On appelle v.a. relle dfinie sur (,A) une application X : R telle que
pour tout intervalle I R on ait :
X 1 (I ) = { / X () I } A
Cela exprime que l'image inverse d'un intervalle quelconque est un vne-
ment. Il suffit en fait de vrifier que pour tout rel x :
X 1 (],x[) A
Exemple 2.15
La dure de vie d'une lampe ou le salaire d'un individu tir au sort dans
une population sont reprsents par des v.a. continues.
B. Loi de probabilit
Elle est dtermine ici par la fonction de rpartition (f.r.) F, dfinie pour tout x
rel par :

F(x) = PX (X < x) = P X 1 (],x[) = P { / X () < x}
qui reprsente la probabilit que X soit strictement gauche de x.
C. Proprits de la fonction de rpartition

P1 Elle est croissante au sens large.
En effet, pour x < y on a (X < x) (X < y) et par consquent
F(x) = PX (X < x) PX (X < y) = F(y) .
P2 Elle prend ses valeurs entre 0 et 1 :

0 F(x) 1 avec lim F(x) = 0 et lim F(x) = 1
x x+
En effet, F(x) est une probabilit et quand x l'intervalle ],x[

devient et X 1 () = ; quand x +, l'intervalle ],x[ devient R et
X 1 (R) = .
P3 Elle est continue gauche :

lim F(x h) = F(x)
h0+
car l'intervalle ],x h[ ne contient jamais le point x et devient donc l'in-

tervalle ],x[ quand h 0+ .
On peut tablir que ces trois proprits sont caractristiques d'une fonction
de rpartition. Si on retient la dfinition F (x) = PX (X x) , cette fonction F
est alors continue droite.
Par contre, pour tout h > 0 l'intervalle ],x + h[ contient toujours le
point x et devient l'intervalle ],x] = ],x[ {x} quand h 0+ . Par
consquent :
lim F(x + h) = F(x) + PX (X = x)
h0+
Ainsi, aux points x de discontinuit de F, son graphe prsente un saut de hau-

teur PX (X = x) : voir figure 2.5.
PX (X = x)
Figure 2.5
P4 La probabilit de l'intervalle [a,b[ , pour a < b, se calcule par :

PX (a X < b) = F(b) F(a)
On a en effet ],b[ = ],a[ [a,b[ donc :
PX (X < b) = PX (X < a) x+ PX (a X < b).
D. Loi continue
Si la fonction F est continue, i.e. continue droite, on dit que X est une
variable alatoire relle continue. Dans ce cas, pour tout rel x :
PX (X = x) = 0
c'est--dire que la probabilit d'un point est toujours nulle, ce qu'on traduit en
disant que la loi est diffuse. Dans le cas o certains points ont une probabilit
non nulle on dit que la loi est mixte, comportant une partie continue et une par-
tie discrte correspondant ces points.
Exemple 2.16
Considrons la f.r. F dfinie par :

0 si x 0

x

si 0<x 1
F (x) = x4

1<x 2

si

2
1 si 2<x
Cette fonction est continue pour x = 0 et x = 2 . Par contre, si elle est
bien continue gauche en x = 1 , comme toute f.r., avec lim F (1 h)
1 h0+
= F (1) = , elle n'est pas continue en ce point car :
4
1 1
lim F (1 + h) = lim (1 + h) = = F (1) + PX (X = 1)
h0 + +
h0 2 2
et par consquent il s'agit d'une loi mixte, avec une partie continue sur les
intervalles ],1[ et ]1,+[, et une partie discrte concentre au point
1
1 avec PX (X = 1) = .
4
Exemple 2.17
On peut donner galement un exemple plus concret, qui est celui d'une
v.a. X reprsentant la dure de vie d'une ampoule qui suit une loi expo-
nentielle (cf. chap. 3, II, B). S'il y a une probabilit p > 0 que cette am-
poule claque lorsqu'on l'allume, la f.r. de X est alors dfinie par :

0 si x 0
F (x) =
p + (1 p) (1 ex ) si x > 0
avec donc une masse non nulle au point x = 0 :

lim F (0 + h) = p = PX (X = 0)
h0+
E. Loi absolument continue

La valeur moyenne de la probabilit d'un intervalle de longueur h > 0 est :
1 F(x + h) F(x)
PX (x X < x + h) =
h h
et reprsente donc une densit moyenne, puisqu'tant le poids (probabilit)

de l'intervalle, divis par sa longueur. Si on fait tendre cette longueur vers 0, la
limite, si elle existe, reprsentera la probabilit d'un intervalle de longueur infi-
niment petite dx. Ce sera le cas si F admet une drive f :
1
lim [F(x + h) F(x)] = F (x) = f (x)
h0 h
Dans ce cas, l'quivalent de la probabilit du point x pour une loi discrte

peut s'crire symboliquement PX (x X < x + dx) = f (x)dx , la fonction
f = d F/dx tant appele densit de probabilit de la v.a. X dont la loi est alors
qualifie d'absolument continue. Dans ce cas la loi de X est dtermine par sa
densit f puisque F est dfinie comme la primitive de f qui s'annule pour
x = :
x
F(x) = f (t)dt

f(t)
F(x)
F(X)
0 x t
Figure 2.6
NB : On peut trouver des exemples, assez complexes, o F est continue

et strictement croissante mais n'admet pas de densit, c'est--dire de cas
o la loi est continue mais pas absolument continue. Dans la pratique, les
lois usuelles que nous rencontrerons seront soit discrtes, soit dfinies par
une densit.
Proprits
P1 Une densit est positive :

f 0 ;
proprit immdiate puisque f est la drive d'une fonction croissante au sens
large.
. P2 Une densit est intgrable sur R , d'intgrale gale un :

+
f (t)dt = 1 ;

ceci provient du fait que F(+) = 1.

Ces deux proprits sont caractristiques d'une densit de probabilit,
c'est--dire que toute fonction positive et intgrable sur R dfinit une loi de
probabilit.
P3 La probabilit d'un intervalle s'obtient en intgrant la densit sur cet
intervalle :
x2
PX {X [x1 ,x2 ]} = f (t)dt.
x1
En effet : x2 x1
PX (x1 X x2 ) = F(x2 ) F(x1 ) = f (t)dt f (t)dt

x2
= f (t)dt + f (t)dt
x1
f(t)
x1 0 x2 t
Figure 2.7
F. Moments dune v.a. absolument continue

1) Esprance mathmatique
Elle est dfinie par :
+
E(X) = x f (x)dx

lorsque cette intgrale gnralise existe, c'est--dire est convergente. Les pro-
prits de l'esprance sont celles de l'intgrale et sont identiques au cas discret,
i.e. il s'agit d'un oprateur linaire :
Proprits
E(X + a) = E(X) + a
E(a X) = a E(X)
P3 Si X et Y sont deux v.a. qui admettent une esprance :
E(X + Y ) = E(X) + E(Y )
2) Variance
Elle est dfinie par :
+
V (X) = E [X E(X)] = 2
[x E(X)]2 f (x)dx

= E(X 2 ) E 2 (X) = (X) 2
lorsque cette intgrale gnralise existe. Ses proprits sont identiques au cas
discret :
Proprits
P1 C'est une quantit positive :
V (X) 0
avec V (X) = 0 X est une v.a. certaine (donc une v.a. discrte !).
V (X + a) = V (X)
V (a X) = a 2 V (X)
P4 Si X et Y sont deux v.a. indpendantes admettant une variance :

V (X + Y ) = V (X) + V (Y )
3) Moments non centrs et centrs

Le moment non centr d'ordre r N de X est la quantit, lorsqu'elle existe :
+
m r (X) = E(X r ) = x r f (x)dx

Le moment centr d'ordre r N de X est la quantit, lorsqu'elle existe :

+
r (X) = E [X E(X)]r = [x E(X)]r f (x)dx

a) Paramtres d'asymtrie
L'asymtrie d'une distribution peut se caractriser par le moment centr d'ordre
trois.
La distribution est :
symtrique si 3 = 0 ;
dissymtrique tale vers la droite si 3 > 0 ;
dissymtrique tale vers la gauche si 3 < 0.
3 > 0 3 = 0 3 < 0
Figure 2.8
Pour obtenir un paramtre indpendant des units, on considre les coeffi-

cients de symtrie (skewness) :
de Pearson :
2
1 = 33
2
de Fisher :
3
1 = 3

b) Paramtres d'aplatissement
Ils sont calculs partir du moment centr d'ordre quatre ; ce sont les coeffi-
cients d'aplatissement (kurtosis), invariants aussi par changement d'chelle ou
d'origine :
de Pearson :
4
2 =
4
de Fisher :
4
2 = 2 3 = 3
4
Le terme de comparaison est ici la loi normale standard pour laquelle
2 = 3 , avec 2 > 0 pour une distribution plus aplatie que la distribution nor-
male de mme moyenne et de mme cart type.
G. Changement de variable
On cherche dterminer la loi de probabilit de la v.a. Y = h(X) , connaissant
la fonction de rpartition (f.r.) de la v.a. X. Ceci se fera sans difficult si h est
une application relle continue et bijective, donc inversible. La f.r. de Y est en
effet dfinie par :
G(y) = PY (Y < y) = PX {h(X) < y}
Nous allons alors distinguer deux cas :
h est croissante :
h(X) < y X < h 1 (y)

et G(y) = PX X < h 1 (y) = F h 1 (y)
X h1(y)
h(X)
Figure 2.9
h est dcroissante :
h(X) < y X > h 1 (y)

et G(y) = PX X > h 1 (y) = 1 F h 1 (y)
h1(y) X
h(X)
Figure 2.10
Si X admet une densit f et que h est de plus drivable, on peut dterminer la

densit g = dG/dy de Y par drivation. Dans le premier cas (h > 0) :

dF dh 1 (y) f h 1 (y)
g(y) = = 1
du u=h 1 (y) dy h [h (y)]
Dans le second cas (h < 0) :

dF dh 1 (y) f h 1 (y)
g(y) = = 1
du u=h 1 (y) dy h [h (y)]
Dans les deux cas la densit de Y peut s'crire sous la mme forme :

f h 1 (y)
g(y) = 1
|h [h (y)]|
Remarque
Mme dans le cas o la fonction h n'est pas inversible, on peut parfois
dterminer la loi de Y = h(X) . Considrons par exemple h(x) = x 2 ; la

fonction h n'est pas injective car h(x) = h(x) pour tout x rel et cepen-
dant on peut dterminer la loi de la v.a. positive Y = X 2 , car pour y > 0 :

X2 < y y < X < y

d'o G(y) = PY (Y < y) = PX y < X < y = F y F y .
Bien entendu pour y 0 on a G(y) = 0 . Si X admet une densit f, alors
Y admet comme densit pour y > 0 :
1
g(y) = f y + f y
2 y
x2
y y
Figure 2.11
retenir
Une variable alatoire (v.a.) X est une application qui un vnement
fait correspondre un nombre.
La loi de probabilit d'une v.a. peut toujours tre dfinie par sa fonction
de rpartition (f.r.) F, o F (x) reprsente la probabilit de toutes les
valeurs strictement infrieures au rel x.
Si l'ensemble des valeurs possibles de X est dnombrable, i.e. s'il existe
une bijection permettant de le reprsenter par l'ensemble des xi ,i N, la
v.a. est dite discrte et sa loi est dfinie par l'ensemble des couples
(xi , pi )iN avec pi = PX (X = xi ) .
Si l'ensemble des valeurs possibles de X est un sous-ensemble non
dnombrable de R , la v.a. X est dite continue. Dans le cas o sa f.r. F est
drivable, sa loi est dfinie par sa densit de probabilit f qui est la fonction
drive de F : f = F .
Les deux principales caractristiques d'une distribution de probabilit
sont :
l'esprance mathmatique E (X) qui est une caractristique de valeur
centrale :
+
E (X) = pi xi ou E (X) = x f (x) dx

iN
la variance V (X) qui est une caractristique de dispersion autour du

centre :

. V (X) = E [X E (X)]2 = E X 2 E 2 (X)
Le calcul de la variance s'effectue presque toujours partir de la for-
mule dveloppe : esprance du carr moins carr de l'esprance.
Principales proprits de ces moments :
a R, b R, E (a X + b) = a E (X) + b
V (a X + b) = a V (X) ;
2
R, R, E (X + Y ) = E (X) + E (Y )
et, si les v.a. X et Y sont indpendantes, alors :

V (X + Y ) = 2 V (X) + 2 V (Y )
Pour dterminer la loi de probabilit de la v.a. Y = h (X) , mme dans
le cas o la loi de X est dfinie par sa densit, il est presque toujours prf-
rable de dterminer au pralable sa fonction de rpartition, et ventuelle-
ment de driver ensuite pour obtenir la densit.
Complments
A. Application mesurable
La notion de variable alatoire relle peut tre dfinie de faon gnrale, sans distinction
entre les cas continu et discret, en introduisant la notion d'application mesurable. Pour
cela, nous dfinissons sur l'espace mtrique R sa tribu borlienne, note B , qui est la
tribu engendre par les intervalles ouverts (ou ferms), c'est--dire la plus petite tribu
contenant cette famille d'intervalles. Une variable alatoire relle X est alors dfinie
comme une application mesurable de (,A) dans (R,B) , c'est--dire telle que :
B B, X 1 (B) A
En fait, pour vrifier que X est bien une application mesurable, il suffit de vrifier
cette condition pour une famille particulire d'intervalles, comme celle des ouverts de la
forme ],x[ , c'est--dire de vrifier que :
x R, X 1 (],x[) A
Notons comme proprit utile que toute application continue de (R,B) dans (R,B)
est mesurable.
B. Densit
Si la loi de probabilit PX d'une v.a. X admet une densit, celle-ci est la drive de la
fonction de rpartition de cette loi. Cependant, la dfinition d'une densit ne se fait pas
partir de cette notion analytique de drivabilit, mais partir de notions plus complexes
que nous allons voquer. Cela ncessite d'introduire la mesure de Lebesgue sur (R,B) ,
qui est la mesure diffuse prolongeant la notion de longueur, la mesure de l'intervalle
]a,b] tant dfinie par (]a,b]) = b a. Si pour tout borlien B B tel que
(B) = 0 on a PX (B) = 0 , on dit que la loi de probabilit PX de X est absolument
continue par rapport la mesure de Lebesgue et alors cette loi admet une densit.
C. Support
Le support d'une loi PX est l'ensemble de tous les points x tels que tout intervalle ouvert
contenant x a une probabilit positive :
> 0, PX {]x ,x + [} > 0
Exemple 2.18
Soit PX la loi de probabilit dfinie sur l'ensemble des rationnels Q = {qn }nN
1
par PX (qn ) = . C'est une loi discrte mais dont le support est pourtant R car
2n
tout intervalle ]x ,x + [ contient au moins un rationnel, quel que soit
> 0 et par consquent PX (]x ,x + [) > 0 pour tout x R.
Exercices
noncs
Exercice n1
Soit l'ensemble fondamental = {a,b,c} et la tribu associe A = {,{a,b},{c},} ,
les vnements a et b tant indiscernables. On dfinit l'application relle X sur par
X (a) = 1 , X (b) = 2 et X (c) = 3 .
1) S'il y a quiprobabilit des vnements lmentaires, peut-on dfinir la loi de proba-
bilit de X ?
2) Si la probabilit P est dfinie sur (,A) par P({c}) = 1 et si on dfinit l'application
Y sur par Y () = 3 pour tout de , calculer P(X = Y ) . Peut-on en conclure que
X et Y ont mme loi de probabilit ?
Exercice n2
Soit l'ensemble fondamental = {a,b,c,d,e} et la partitition = {{a,b},{c,d},{e}}
sur laquelle on dfinit la probabilit P par P({a,b}) = 2/5 , P({c,d}) = 1/5 et
P({e}) = 2/5 . Deux applications f et g sont dfinies sur par f (a) = f (b) = g(c)
= g(d) = g(e) = 2 , f (c) = f (d) = g(a) = g(b) = 2 et f (e) = 0 . Peut-on dfi-
nir la loi de probabilit de l'application X = f /g ?
Exercice n3
Vous participez un jeu o vous avez la probabilit p de remporter une partie. Si vous
gagnez deux parties conscutives le jeu s'arrte et vous emportez un gain de 40 4N
euros, N tant le nombre total de parties joues. Le nombre maximum de parties joues
est fix quatre et vous donnez votre adversaire dans ce jeu la somme de 25 euros en
cas de perte. Ce jeu vous parat-il quitable ?
Exercice n4
Une urne contient cinq boules, deux qui portent le numro 1 et trois qui portent le num-
ro 2. On effectue deux tirages successifs sans remise dans cette urne. On appelle conci-
dence le fait de tirer une boule de numro i au i-me tirage, avec i = 1,2. Dterminer
la loi de probabilit de la variable alatoire X qui reprsente le nombre de concidences
observes, puis calculer E (X) et V (X) .
Exercice n5
Une urne contient une boule qui porte le numro 0, deux qui portent le numro 1 et quatre
qui portent le numro 3. On extrait simultanment deux boules dans cette urne.
Dterminer la loi de probabilit de la variable alatoire X qui reprsente la somme des
numros obtenus puis calculer E (X) et V (X) .
Exercice n6
On considre n urnes qui contiennent chacune a boules noires et b boules blanches. On
tire au hasard une boule de lurne U1 que lon place ensuite dans lurneU2 . Puis, on tire
au hasard une boule de lurne U2 que lon place ensuite dans lurne U3 . Et ainsi de suite,
la boule tire de lurne Un1 tant place dans lurne Un . On note pn la probabilit de
tirer une boule noire de lurne Un . Calculer p1 , p2 et en dduire par rcurrence la valeur
de pn .
Exercice n7
La fonction de rpartition F d'une v.a. X est dfinie par :
0 si x 1

1 1/(1 2) si 1<x 2

1 1/(2 3) si 2<x 3
F(x) =
...
...

1 1/n(n + 1) si n < x n+1
... ...
1) Calculer les probabilits pn = P(X = n),n N .
2) Calculer E(X) et V (X) .
Exercice n8
Soit X une v.a. de fonction de rpartition F dfinie par :

e x /3 pour x 0
F(x) =
1 pour x >0
La loi de X est-elle continue ?
Exercice n9
Soit X une variable alatoire de densit nulle en dehors de [1,1] et dont lexpression
pour x [1,1] est :
3
f (x) = 1 |x|
4
Dterminer la fonction de rpartition de X.
Exercice n10
Soit X une variable alatoire de densit f (x) = x pour x [0,1], f (x) = 2 x pour
x [1,2] et nulle en dehors de ces intervalles.
1) Dterminer la fonction de rpartition de X et en dduire la mdiane de cette loi.
2) Calculer P{|X 1| < x} pour x rel quelconque.
Exercice n11

1 3 1 1 3
Soit X une variable alatoire de densit f (x) = pour x , , et x , ,
2 2 2 2 2
et nulle en dehors de ces deux intervalles.
Dterminer la fonction de rpartition de X.
Exercice n12
Soit X une v.a. de densit :
2 x
1 si 0 x a
f (x) = a a
0 sinon
o a est un rel strictement positif.
1) Dterminer la fonction de rpartition (f.r.) de X.

2) Calculer E (X) et V (X) .
3) Soit X 1 ,. . . ,X n des v.a. indpendantes, de mme loi que X. Dterminer la f.r., puis la
densit, de la v.a. Mn = max {X 1 ,. . . ,X n } .
Exercice n13
Soit X une v.a. de densit f continue et strictement positive, de fonction de rpartition F.
Exprimer l'aide de f et F la densit et la fonction de rpartition de chacune des v.a. sui-
vantes.
1) Y = a X + b, a R , b R .
2) Z = |X| .
3) T = ln|X| .
4) U = F(X) .
5) V = [X] , partie entire de X.
Exercice n14
1 3
Soit X une variable alatoire de densit f (x) = + x 2 pour x [1,1] et nulle en
dehors de cet intervalle. 4 4
1) Dterminer la densit de la v.a. Y = X 2 .

2) Calculer E(Y ).
Corrigs
Exercice n1
1) On a X 1 (1) = {a} / A donc l'application X n'est pas une v.a. et on ne peut donc pas
lui associer une loi de probabilit.
2) On a :
P(X = Y ) = P({ / X () = Y ()}) = P({c}) = 1
donc ces deux applications sont gales avec une probabilit gale 1 (vnement cer-
tain). L'application Y est constante, avec Y 1 (3) = , donc c'est une variable alatoire
certaine : P(Y = 3) = 1. Cependant on ne peut pas en conclure que la loi de X est la
mme, puisque X n'est pas une variable alatoire et que cette notion n'a donc pas de sens.
Exercice n2
L'algbre engendre par la partition est :
A = {,{a,b},{c,d},{e},{a,b,e},{c,d,e},{a,b,c,d},}
L'application X ne peut prendre que les valeurs 1, 0 et 1 avec :

X 1 (1) = { / f () = g()} = {a,b} ({c,d} {c,d,e})
= {a,b,c,d} A
1
X (0) = { / f () = 0} = {e} A
1
X (1) = { / f () = g()} = ({a,b} {c,d,e}) ({c,d} {a,b})
=A
Donc X est bien une variable alatoire dont la loi de probabilit est dfinie par :
2 3
PX (X = 0) = P({e}) = et PX (X = 1) = P({a,b,c,d}) =
5 5
Exercice n3
Si le nombre de parties joues est deux ou trois, c'est que vous avez gagn les deux der-
nires parties et donc P(N = 2) = p 2 et P(N = 3) = qp 2 o q = 1 p . Vous avez
gagn, vnement not E + , l'issue de quatre parties avec une probabilit qui est :
P({N = 4} E + ) = pqp2 + q 2 p2 = qp2

La probabilit de perdre l'issue des quatre parties joues est :
P = 1 P(N = 2) P(N = 3) P({N = 4} E + )

L'esprance de gain ce jeu est alors :

4
E(G) = (40 4k)P({N = k} E + ) 25P
k=2
= 32 p2 + 28qp2 + 24qp2 25(1 p2 2qp2 )

= 57 p2 + 102qp2 25 = 102 p3 + 159 p2 25
Le jeu est considr comme quitable si cette esprance est nulle puisqu'il n'y a pas de
mise initiale. L'esprance est bien sr une fonction croissante de p, de valeur 25 pour
p = 0 et 32 pour p = 1. Pour p = 1/2 on obtient E(G) = 2 , donc le jeu sera consi-
dr comme quitable pour une valeur de p un peu infrieure 1/2.
Exercice n4
Le nombre possible de concidences est 0,1 ou 2. Aucune concidence correspond au tira-
ge d'une boule 2, puis d'une boule 1 :
3 2 3
P (X = 0) = P (21) = =
5 4 10
Une concidence unique peut se produire au premier ou au second tirage :
2 1 3 2 4
P (X = 1) = P (11) + P (22) = + =
5 4 5 4 10
Pour deux concidences :
2 3 3
P (X = 2) = P (12) = =
5 4 10
On calcule ensuite aisment :
4 6 4 12 16 6 3
E (X ) = + =1 E X2 = + = V (X ) = =
10 10 10 10 10 10 5
Exercice n5
On note (i, j) l'vnement avoir tir les boules i et j ; pour i = j il y a une seule
faon d'obtenir ce couple et deux pour i = j. On obtient ainsi :
P (X = 0) = P (0,0) = 0,
1 2 2
P (X = 1) = P (0,1) = 2 = ,
10 9 45
4
P (X = 2) = P (0,2) + P (1,1) = ,
45
10
P (X = 3) = P (0,3) + P (2,1) = ,
45
11
P (X = 4) = P (2,2) + P (3,1) = ,
45
12 6
P (X = 5) = P (3,2) = , P (X = 6) =
45 45
On en dduit :
160 16
E (X ) = 4 E X2 = V (X ) =
9 9
Exercice n6
On obtient :
a
p1 =
a+b
p2 = P(N2 N1 ) + P(N2 B1 ) = P(N1 )P(N2 |N1 ) + P(B1 )P(N2 |B1 )
a+1 a a
= p1 + (1 p1 ) =
a+b+1 a+b+1 a+b
De la mme manire :
a+1 a
pn = pn1 + (1 pn1 )
a+b+1 a+b+1
Par rcurrence, si on suppose que pn1 = p1 on en dduit alors pn = p1 .
Exercice n7
1) On obtient :
1 1
p1 = P(X = 1) = P(X < 2) = F(2) = 1 =
2 2
1
p2 = P(X = 2) = P(X < 3) P(X < 2) = F(3) F(2) =
3
et plus gnralement pour n 2 :

1 1
pn = P(X < n + 1) P(X < n) = 1 1
n(n + 1) n(n 1)
2
=
n(n 2 1)
2) On obtient comme esprance :

1
2 1 1 1
E(X) = npn = + = +
n=1
2 n=2 (n 1)(n + 1) 2 n=2 n 1 n + 1

1 1 1 1 1 1
= + 1 + + + ...
2 3 2 4 3 5

1 1 1 1 1 1
+ + +
n3 n1 n2 n n1 n+1

1 1
+ + ...
n n+2
1 1
= +1+ =2
2 2
Par dfinition :

1
2n
E(X 2 ) = n 2 pn = +
n=1
2 n=2 (n 1)(n + 1)
Or le terme gnral de cette srie est quivalent 2/n , terme de la srie harmonique
divergente, donc cette variable alatoire n'admet pas de moment d'ordre deux.
Exercice n8
Par dfinition F(0) = 1/3 et, comme toute fonction de rpartition, on vrifie que F est
continue gauche en ce point :
1 h 1
F(0 h) = e = F (0) quand h 0+
3 3
Par contre F(0 + 0) = 1 , donc F est discontinue droite. La loi est mixte, avec un seul
point de probabilit non nulle :
P(X = 0) = F(0 + 0) F(0) = 2/3
Exercice n9
On a F(x) = 0 pour x 1 et F(x) = 1 pour x 1. Pour 1 x 0 :

3 x 1
F(x) = (1 + t)1/2 dt = (1 + x)3/2
4 1 2
Pour 0 x 1 :
x
3 1
F(x) = F(0) + (1 t)1/2 dt = 1 (1 x)3/2
4 0 2
Exercice n10
1) On a F(x) = 0 pour x 0 et F(x) = 1 pour x 2. Pour 0 x 1 :
x
x2
F(x) = tdt =
0 2
Pour 1 x 2 :
x
x2
F(x) = F(1) + (2 t)dt = + 2x 1
1 2
La mdiane est le centre de symtrie de la distribution soit Md = 1.
2) On a h(x) = P(|X 1| < x) = 0 pour x 0 et pour x > 0 :
h(x) = P(1 x < X < 1 + x) = F(1 + x) F(1 x)
Ainsi h(x) = 1 si x 1 et pour 0 x 1 :
h(x) = 2x x 2
Exercice n11
On a F(x) = 0 pour x 3/2 ; pour 3/2 x 1/2 :
x
1 x 3
F(x) = du = +
3/2 2 2 4
Pour 1/2 x 1/2 :

1 1
F(x) = F =
2 2
Pour 1/2 x 3/2 :
x
1 1 x 1
F(x) = + du = +
2 1/2 2 2 4
Et enfin, F(x) = 1 pour x 3/2 .
Exercice n12
1) La f.r. F de X est nulle pour x 0, a pour valeur 1 pour x a et a pour expression,
quand 0 x a :
x
2 x t 2 t2 2x x
F (x) = 1 dt = t = 1
a 0 a a 2a 0 a 2a
2) On obtient :
a
2 x2 2 a2 a3 a
E (X) = x dx = =
a 0 a a 2 3a 3
On calcule de mme :

2 a
x3 2 a3 a4 a2
E X 2
= x
2
dx = =
a 0 a a 3 4a 6
On en dduit la variance :
a2
V (X) = E X 2 E 2 (X) =
18
3) On calcule la f.r. de Mn :

n
n
G (x) = P (Mn < x) = P (X i < x) = P (X i < x) = F n (x)
i=1 i=1
On obtient la densit par drivation :

g (x) = G (x) = n F n1 (x) f (x)
Donc pour 0 x a :
n
2 x n1 x
g (x) = n x n1 1 1
a 2a a
Exercice n13
La mthode la plus simple consiste dterminer la fonction de rpartition (f.r.) de la nou-
velle variable, puis la driver pour obtenir la densit.
1) Par dfinition :
G(y) = P(Y < y) = P(a X + b < y) = P(a X < y b)

Pour pouvoir exprimer cette probabilit l'aide de la f.r. de X, il faut distinguer deux cas
suivant le signe de a.
Si a > 0 :
yb yb
G(y) = P X < =F
a a

1 y b
g(y) = G (y) = f
a a
Pour a < 0 :

yb yb
G(y) = P X > =1 F
a a

1 y b
g(y) = G (y) = f
a a
Ainsi, pour a R , la densit de Y peut s'crire :

1 yb
g(y) = f
|a| a
2) La f.r. de Z est dfinie par H (z) = P(Z < z) = P(|X| < z) , donc H (z) = 0 pour
z 0. Pour z > 0 :
H (z) = P(z < X < z) = F(z) F(z)

h(z) = H (z) = f (z) + f (z)
Remarquons que le changement de variable s'est effectu l'aide de la fonction :

x |x| qui n'est pas injective et cependant nous avons pu dterminer la loi de |X|. La
densit de Z prsente une discontinuit pour z = 0 puisque h(z) 2 f (0) > 0 quand
z 0+ , alors que bien sr H est continue, avec H (z) F(0+ ) F(0 ) = 0
= H (0).
3) On obtient :
K (t) = P(T < t) = P(ln|X| < t) = P(|X| < et ) = H (et ) = F(et ) F(et )

k(t) = K (t) = et f (et ) + f (et )
4) La fonction F tant drivable est bien sr continue ; comme de plus elle est strictement
monotone, elle admet une fonction rciproque F 1 dfinie sur [0,1] et aussi strictement
monotone, donc pour 0 u 1 :

P(U < u) = P {F(X) < u} = P{X < F 1 (u)} = F F 1 (u) = u
La variable U = F(X) suit donc une loi uniforme sur [0,1] .
5) La variable V est bien sr valeurs entires, avec pour v N :
P(V = v) = P([X] = v) = P(v X < v + 1) = F(v + 1) F(v).

Pour v entier ngatif, on a P([X] = v) = P(v < X v + 1) , ce qui ne change rien
pour la valeur de cette probabilit puisque la loi de X est continue. Ainsi, pour tout
v Z , P(V = v) = F(v + 1) F(v).
Exercice n14
1) La fonction de rpartition G de Y est nulle pour y 0 et pour y > 0 :

G(y) = P y < X < y = F y F y
La densit sobtient par drivation, soit pour y > 0 :

1 1 + 3y
g(y) = f y + f y =
2 y 4 y
2) On obtient :

1 1 7
E(Y ) = y + 3y y dy =
4 0 15
3. Lois usuelles
S
i on amliore la comprhension et lanalyse dun phnomne com-
plexe par lintroduction dun modle qui la simplifie, celui-ci ne
doit cependant pas tre trop loign de la ralit. Nous allons pr-
senter ici les principaux modles qui peuvent tre retenus pour une
modlisation alatoire. Ce catalogue des lois usuelles distingue enco-
re entre lois discrtes et lois admettant une densit de probabilit.

Objectif du chapitre : prsenter les principales lois de probabilit pouvant
tre retenues dans la modlisation statistique.
Concepts cls tudis : variable de Bernoulli, schma binmial, schma
hypergomtrique, loi de Poisson, loi uniforme, loi exponen-
tielle, loi normale, loi du khi-deux.
I. Lois usuelles discrtes

A. Loi de Dirac
Soit a R un point fix. On appelle loi de Dirac, note a , la loi de la v.a. cer-
taine X qui est constante, prenant la mme valeur a quel que soit le rsultat de
l'preuve :
X () = a,
Lois usuelles 69
Ainsi :
X () = {a} ,PX (X = a) = P { / X () = a} = P() = 1

0 si x a
F(x) =
1 si x > a
Le graphe de F prsente un saut de valeur 1 au point de discontinuit a, qu'on

appelle chelon de Heaviside.
F(x)
0 a x
Figure 3.1
Bien entendu, on obtient comme moments :

E(X) = a et V (X) = 0.
Rappelons que c'est la seule v.a. dont la variance est nulle.
B. Loi de Bernoulli
Soit A A un vnement quelconque ; on appelle v.a. indicatrice de l'vne-
ment A, la v.a. dfinie par X = 1 A , c'est--dire :

1 si A
X () = 1 A () =
0 si A
Ainsi X () = {0,1} avec :
PX (X = 0) = P { / X () = 0} = P(A) = 1 P(A)
PX (X = 1) = P { / X () = 1} = P(A)
On dit que X suit une loi de Bernoulli de paramtre p = P(A), ce qu'on crit
symboliquement X B(1, p) ou sous la forme suivante :

1 p
X=
0 q =1 p
La fonction de rpartition est dfinie par :

0 si x 0
F (x) = q si 0 < x 1
1 si 1 < x
F(x)
1
p
q
0 1 x
Figure 3.2
Exemple 3.1
Dans une population de n individus, on associe chacun d'eux une v.a.
de Bernoulli, indicatrice de possession d'un certain caractre A :

1 si i possde le caractre A
Xi =
0 si i ne possde pas le caractre A
Le paramtre p = P(A) reprsente la proportion d'individus de la popu-
lation qui possdent ce caractre A .
Les moments de cette loi sont :

E(X) = 1 P(A) + 0 P(A) = P(A) = p
E(X 2 ) = 12 P(A) + 02 P(A) = P(A)
V (X) = E(X 2 ) E 2 (X) = P(A) P 2 (A) = P(A)P(A) = pq
3 (X) = p(1 p)3 + (1 p)(0 p)3 = p(1 p)(1 2 p)
C. Loi binmiale
Si on effectue n preuves successives indpendantes o on note chaque fois la
ralisation ou non d'un certain vnement A, on obtient une suite de la forme
A A A A A . . . A A A . cet vnement lmentaire on associe le nombre X ()
de ralisations de A. On dfinit ainsi une v.a. X qui suit une loi binmiale de
Lois usuelles 71
paramtres n et p = P(A), caractrise par X () = {0,1,. . . ,n} et pour

k X () :
n k
PX (X = k) = p (1 p)nk
k
n
car est le nombre d'chantillons de taille n comportant exactement k v-
k
nements A, de probabilit pk , indpendamment de l'ordre, et donc n k vne-
ments A , de probabilit (1 p)nk . On crit X B(n, p). Pour calculer facile-
ment les moments de cette loi, nous allons associer chaque preuve
i,1 i n, une v.a. de Bernoulli :

1 si A est ralis
Xi =
0 si A est ralis
On peut alors crire :

X = X1 + X2 + . . . + Xn
d'o on dduit aisment :

n
n
E(X) = E Xi = E(X i ) = np
i=1 i=1
et :

n
n
V (X) = V Xi = V (X i ) = npq
i=1 i=1
car les v.a. X i sont indpendantes.

On vrifie bien que c'est une loi de probabilit :
n n
n k
PX (X = k) = p (1 p)nk = [ p + (1 p)]n = 1
k=0 k=0
k
Le calcul direct des moments de X peut s'effectuer partir de la dfinition

gnrale, mais de faon beaucoup plus laborieuse :
n
n k n
n!
E(X) = k p (1 p)nk = k pk q nk
k=0
k k=1
k!(n k)!
n
n!
= pk q nk
k=1
(k 1)!(n k)!

n
(n 1)!
n1
n 1 j n1 j
= np pk1 q nk = np p q
k=1
(k 1)!(n k)! j=0
j
= np( p + q)n1 = np
Pour obtenir E(X 2 ) par un procd de calcul identique, on passe par l'inter-
mdiaire du moment factoriel E [X (X 1)] = E(X 2 ) E(X) :

n
n!
E [X (X 1)] = k(k 1) pk q nk
k=0
k!(n k)!

n
(n 2)!
= n(n 1) p2 pk2 q nk
k=2
(k 2)!(n k)!

n2
n 2
= n(n 1) p2 p j q n2 j = n(n 1) p2 ( p + q)n2
j=0
j
= n(n 1) p 2
on en dduit alors E(X 2 ) = n(n 1) p2 + np, puis :

V (X) = n 2 p2 + np(1 p) n 2 p2 = npq.
Exemple 3.2
Le nombre de rsultats pile apparus au cours de n jets d'une pice de
monnaie suit une loi B(n,1/2) :
n

n 1 k 1 nk k
PX (X = k) = = n , 0kn
k 2 2 2
avec E(X) = n/2 et V (X) = n/4.
Exemple 3.3
Le nombre N de boules rouges apparues au cours de n tirages avec remise
dans une urne contenant deux rouges, trois vertes et une noire suit une loi
binmiale B(n,1/3) :

n 2 k 4 nk n 2nk
PN (N = k) = = , 0kn
k 6 6 k 3n
avec E(N ) = n/3 et V (N ) = 2n/9.

Remarques
Si X 1 B(n 1 , p) et X 2 B(n 2 , p), les v.a. X 1 et X 2 tant indpen-

dantes, alors X 1 + X 2 B(n 1 + n 2 , p) . Ceci rsulte de la dfinition
d'une loi binmiale puisqu'on totalise ici le rsultat de n 1 + n 2 preuves
indpendantes.
Les tables de la loi binmiale ne sont fournies que pour p < 1/2 . Pour
une valeur p > 1/2 , on utilise le rsultat suivant :
n k
PX (X = k) = PX (n X = n k) = p (1 p)nk
k
n
= (1 p)nk pk
nk
qui exprime que n X B(n,1 p), loi qui est tabule puisque
1 p < 1/2.
Lois usuelles 73
D. Loi hypergomtrique
On effectue n tirages sans remise dans une urne contenant N objets dont N A
objets A. On note X () le nombre d'objets A tirs l'issue de l'vnement l-
mentaire . Les tirages successifs sont ici dpendants puisque la composition
de l'urne est diffrente aprs chaque tirage, dpendant des tirages prcdents.
Dans le schma binmial du paragraphe prcdent on peut aussi considrer que
l'on effectue n tirages avec remise dans une urne dont la composition est telle
que N A /N = p. Les preuves successives sont alors indpendantes.
Dans le schma hypergomtrique ici, ces n tirages sans remise sont quiva-
lents un seul tirage de n objets et il y a donc quiprobabilit de chacun des
N
chantillons possibles. Pour calculer la probabilit d'obtenir k objets A il
n
faut donc dnombrer tous les chantillons qui contiennent exactement k des N A
NA
objets A, il y en a chacun d'eux contenant simultanment n k objets A ,
k
N NA
il y en a .
nk
N
N NA
NA
nk
n
k
Figure 3.3
Ainsi, pour tout entier k tel que 0 k n :

N A N N A
k nk
PX (X = k) = N
n
il faut bien entendu aussi que k N A (nombre total d'objets A) et n k N N A
(nombre d'objets A ) d'o les conditions :
max{0,n (N N A )} k min{n,N A } .
Pour vrifier qu'il s'agit bien d'une loi de probabilit, on utilise le rsultat sui-
vant de combinatoire :
m
r s r + s
=
k=0
k mk m
obtenu en effectuant le produit :

r
r k s
s j r s
r s j+k
(1 + x)r (1 + x)s = x x = x
k=0
k j=0
j k=0 j=0
k j
et en identifiant avec les termes de :

r+s
r + s m
(1 + x)r+s = x
m=0
m
n
N A N N A N
On en dduit que = , ce qui permet de conclure que
k nk n

n k=0
PX (X = k) = 1. La loi hypergomtrique dpend des trois paramtres N, n
k=0
et N A et on crit symboliquement X H(N ,n,N A ).
Pour calculer plus facilement les moments de cette loi, nous allons supposer
que chacun des objets A est numrot et nous allons leur associer une v.a. indi-
catrice de tirage :

1 si lobjet Ai est tir
Xi = , 1 i NA
0 sinon
Ces variables permettent d'crire :

NA
X= Xi
i=1
mais notons qu'ici les v.a. X i ne sont pas indpendantes. Elles suivent la mme
loi de Bernoulli dont le paramtre est la probabilit de tirage d'un objet A parti-
N
culier. Chaque chantillon a la mme probabilit 1/ ; les chantillons qui
N 1 n
contiennent l'objet Ai sont au nombre de , donc :
n1
N 1
n1
n
P(X i = 1) = =
N N
n
On en dduit facilement que :

NA
n
E(X) = E(X i ) = N A = np
i=1
N
ayant pos p = P(A) = N A /N .
Pour calculer V (X), il est ncessaire de dterminer la loi des couples
(X i ,X j ) puisque ces variables ne sont pas indpendantes. Le nombre d'chan-
N 2
tillons qui contiennent simultanment les objets Ai et A j est , donc :
n2
Lois usuelles 75
N 2
n2 n(n 1)
P(X i = 1,X j = 1) = =
N N (N 1)
n
Ainsi : n(n 1)
E(X i X j ) = P(X i = 1,X j = 1) =
N (N 1)
et :
n(n 1) n2
Cov(X i ,X j ) = E(X i X j ) E(X i )E(X j ) = 2
N (N 1) N
n(N n)
= <0
N 2 (N 1)
Par consquent :

NA
NA
V (X) = V Xi = V (X i ) + Cov(X i ,X j )
i=1 i=1 i=
/ j
n N n n(N n)
= NA N A (N A 1) 2
N N N (N 1)

N n NA NA
=n 1
N 1 N N
Soit en posant q = 1 p = 1 N A /N :
N n
V (X) = npq
N 1
Si la taille N de la population est grande vis--vis de la taille n de l'chan-
tillon, on a l'approximation :
N n 1 n/N
=
1
N 1 1 1/N
et :
V (X)
npq
qui est l'expression de la variance de la loi binmiale B(n, p) , c'est--dire du cas
de tirages indpendants (cas limite d'une population de taille infinie). Pour n/N
petit et N grand on peut utiliser la loi binmiale (plus simple) comme approxi-
mation de la loi hypergomtrique (cf. chap. 6, II, I, 2).
E. Loi de Poisson
Une v.a. X suit une loi de Poisson de paramtre > 0 si c'est une variable
valeurs entires, X () = N , donc avec une infinit de valeurs possibles, de pro-
babilit :
k
PX (X = k) = e , kN
k!
loi qui ne dpend que d'un seul paramtre rel positif, avec l'criture symbolique
X P ().
Le dveloppement en srie entire de l'exponentielle :

k

e =
k=0
k!
permet de vrifier que :

PX (X = k) = 1
k=0
On peut dterminer quel est l'entier le plus probable en formant le rapport :

PX (X = k) k (k 1)!
= = , k1
PX (X = k 1) k! k1 k
ce qui montre que pour tous les entiers k infrieurs on a PX (X = k) >
PX (X = k 1) , donc PX (X = k) est croissant, puis dcroissant pour les
entiers k > , le maximum tant atteint pour l'entier k = [] . Pour [] = 0 , les
valeurs de PX (X = k) sont dcroissantes partir de la valeur maximale qui est
PX (X = 0). Dans le cas particulier o est entier, il y a deux valeurs de pro-
babilit maximale qui est PX (X = ) = PX (X = 1).
Le calcul de l'esprance mathmatique se dduit du dveloppement en srie
entire de l'exponentielle :

k
k1
E(X) = k PX (X = k) = e = e = .
k=0 k=1
(k 1)! k=1
(k 1)!
Pour calculer la variance nous n'allons pas calculer E(X 2 ) mais le moment
factoriel E [X (X 1)] qui s'obtient plus facilement, selon la mthode prc-
dente :

k
E [X (X 1)] = k(k 1)PX (X = k) = e k(k 1)
k=0 k=2
k!
k2

= 2 e = 2
k=2
(k 2)!
On en dduit :
V (X) = E(X 2 ) E 2 (X) = E [X (X 1)] + E(X) E 2 (X) =
Remarques
Si deux variables suivent des lois de Poisson et sont indpendantes,
X P () et Y P (), alors leur somme suit aussi une loi de Poisson :
Lois usuelles 77
X + Y P ( + ).
Le moment factoriel d'ordre trois s'obtient aisment et permet d'en ddui-
re le moment centr d'ordre trois :
E [X (X 1)(X 2)] = 3 = E(X 3 ) 3E(X 2 ) + 2E(X)
d'o on dduit :
3 = E [X E(X)]3 = E(X 3 ) 3E(X 2 )E(X) + 2E 3 (X) = > 0

donc loi dissymtrique droite.
F. Loi gomtrique ou de Pascal

On effectue des preuves successives indpendantes jusqu' la ralisation d'un
vnement particulier A et on note X le nombre (alatoire) d'preuves effectues.
On dfinit ainsi une v.a. valeurs entires de loi gomtrique, ou de Pascal.
chaque preuve est associ l'ensemble fondamental = {A,A} et l'vne-
ment {X = k} pour k N est reprsent par une suite de k 1 vnements A,
termine par l'vnement A :
. . . A A
A A

k1
Si on pose p = P(A), la probabilit de cet vnement est :

PX (X = k) = (1 p)k1 p

En utilisant la srie entire x k = 1/(1 x) pour |x| < 1 , puis en dri-
k=0
vant, on en dduit kx k1 = 1/(1 x)2 , ce qui permet de vrifier que

k=1
PX (X = k) = 1 . Ceci permet galement d'obtenir l'esprance :

k=0

p 1
E(X) = kpq k1 = =
k=1
(1 q)2 p
o on a pos q = 1 p. Le calcul de la variance se fait partir du moment fac-

toriel :

E [X (X 1)] = k(k 1) pq k1 = pq k(k 1)q k2
k=2 k=2
2 pq 2q
= = 2
(1 q)3 p
d'o on dduit :
q
V (X) = E [X (X 1)] + E(X) E 2 (X) =
p2
G. Loi binmiale ngative

On effectue cette fois des preuves successives indpendantes jusqu' ce que n
vnements A soient raliss et on note Y le nombre (alatoire) d'preuves effec-
tues. L'vnement {Y = y}, pour tout entier y n , est reprsent par une suite
de la forme :
A A A . .

. A A . . . A A
y1
qui comporte n 1 ralisations de l'vnement A au cours des y 1 premires

preuves et qui se conclut par un vnement A. On en dduit la probabilit indi-
viduelle :
y 1 n
PY (Y = y) = p (1 p) yn , yn
n1
Pour obtenir sans calculs les moments de Y, nous allons dcomposer la suite
des preuves en n squences se terminant toutes par un vnement A, associant
chacune de ces squences une v.a. de Pascal X i ,1 i n, qui reprsente le
nombre d'preuves ncessaires pour que le i-me vnement A soit ralis, en
comptant partir de la ralisation du prcdent A :
A A .

. . A A A A .

. . A A . . . A A .

. . A A
X1 X2 Xn
Ceci permet de dfinir la loi de Y, dite loi binmiale ngative, comme somme
de lois de Pascal indpendantes et de mme paramtre p :
Y = X1 + . . . + Xn
On en dduit alors facilement :
n nq
E(Y ) = n E(X 1 ) = et V (Y ) = nV (X 1 ) =
p p2
Pour la loi binmiale, le nombre d'preuves est fix et on observe le nombre
alatoire d'vnements raliss. Pour la loi binmiale ngative, au contraire, le
nombre de ralisations d'vnements est fix et c'est le nombre d'preuves
ncessaires pour les obtenir qui devient alatoire.
Lois usuelles 79
II. Lois usuelles continues

A. Loi uniforme
Une v.a. X suit une loi uniforme continue si sa densit est constante sur un inter-
valle fini [a,b] , tant donc de la forme :

k si x [a,b]
f (x) =
0 sinon
On crit X U ([a,b]) . Compte tenu du graphe de la densit, on appelle
+ cette loi distribution
aussi b rectangulaire. La constante k doit tre telle que
f (x)dx = 1 soit kdx = k(b a) = 1 , ce qui impose k = 1/(b a).
a
La densit a pour valeur sur l'intervalle [a,b] l'inverse de sa longueur :
1
f (x) = , x [a,b]
ba
f(x)
1/(b a)
a b x
Figure 3.4
Dterminons la fonction de rpartition de X :

si x < a :
x
F(x) = 0dt = 0

si a x < b :

a x
1 x a
F(x) = 0dt + dt =
a ba ba
si b x :

a b
1 x
ba
F(x) = 0dt + dt + 0dt = =1
a ba b ba
On obtient donc :

0 si x < a
x a
F(x) = si a x < b
ba

1 si b x
F(x)
0 a b x
Figure 3.5
Le fractile d'ordre p ]0,1[ , qui est dfini par F(x p ) = p, a pour valeur ici
x p = a + (b a) p.
La densit est discontinue en a et b mais la loi est absolument continue et la
fonction de rpartition est bien sr continue en ces points.
Dans le cas particulier o a = 0 et b = 1, on a X U ([0,1]) avec :

1 si x [0,1]
f (x) =
0 sinon

0 si x < 0
F(x) = x si 0 x < 1
1 si 1 x
La probabilit d'un intervalle [x1 ,x2 ] inclus dans [a,b] est proportionnelle
sa longueur :
x2 x2
1 x2 x1
PX (x1 < X < x2 ) = f (x)dx = dx =
x1 b a x1 ba
Calculons l'esprance :
+ b
1 b
1 x2 b+a
E(X) = x f (x)dx = xdx = =
ba a ba 2 a 2
Lois usuelles 81
c'est--dire que le centre de la distribution est le milieu de l'intervalle, rsultat

prvisible puisque la loi est uniforme sur cet intervalle. Dans le cas particulier
o a = 0 et b = 1 on obtient E(X) = 1/2.
Calculons maintenant la variance :
+ b 3 b
1 1 x
E(X ) =
2
x f (x)dx =
2
x dx =
2
ba a ba 3 a
1 2
= (b + ab + a 2 )
3
(b a)2
V (X) = E(X 2 ) E 2 (X) =
12
Donc V (X) = 1/12 dans le cas de la loi uniforme sur [0,1] .
B. Loi exponentielle
La loi exponentielle de paramtre > 0 est celle d'une variable positive de den-
sit :
x
e si 0 x
f (x) =
0 si x < 0
f(x)
0 x
Figure 3.6
La variable associe X est souvent utilise pour reprsenter une dure de vie
(dure de vie d'un matriel donn, dure de chmage, dure d'hospitalisation . . .) .
On crit X E () . Sa fonction de rpartition est bien sr nulle pour x 0, et
pour x > 0 on obtient :
x
x
F(x) = et dt = et 0 = 1 e x
0
F(x)
1
0 x
Figure 3.7
On calcule l'esprance en intgrant par parties :

+
x

x +
+
1
E(X) = xe dx = xe + e x dx =
0
0
0
On calcule de mme, en intgrant par parties, le moment d'ordre deux :
+ +
+ 2 2
E(X 2 ) = x 2 e x dx = x 2 e x 0 + 2 xe x dx = E(X) = 2
0 0
d'o on dduit :
1
V (X) =
2
C. Loi normale ou de Laplace-Gauss

C'est la loi d'une variable alatoire X valeurs dans R , de densit :
1 (x m)2
f (x) = exp
2 2 2
qui est dfinie par deux paramtres m et > 0 dont nous verrons l'interprta-
tion un peu plus loin. On note X N (m, ) . Bien entendu, s'agissant d'une den-
sit de probabilit, on en dduit la valeur de l'intgrale suivante :
+
2 2
e(xm) /2 dx = 2

Les remarques suivantes vont nous permettre de prciser le graphe de f.

Remarques
1. On peut constater que f (2m x) = f (x) , ce qui indique que le
graphe de f est symtrique par rapport la droite verticale x = m.
Lois usuelles 83
2. L'expression (x m)2 est minimum pour x = m , ce qui va corres-

pondre un maximum pour f de valeur :
1
f (m) =
2
3. Pour calculer facilement la drive, considrons :
1
ln f (x) = ln 2 2 (x m)2
2
D'o en drivant :
f (x) 1
= 2 (x m) et 2 f (x) = (m x) f (x)
f (x)
Et en drivant nouveau :
2 f (x) = f (x) + (m x) f (x)
d'o on dduit :
4 f (x) = (m x)2 f (x) 2 f (x) = (m x )(m x + ) f (x)
donc f s'annule en changeant de signe pour x = m et
x = m + , ce qui correspond deux points d'inflexion pour le graphe
de f.
4. Enfin, quand x devient infini, alors f (x) 0 donc l'axe des abscisses
est asymptote au graphe.
Toutes ces remarques permettent de tracer le graphe en cloche de la den-
sit f.
f(x)
2mx 0 m m m+ x
Figure 3.8
+
L'intgrale x f (x)dx est convergente en raison de la prsence de l'ex-

ponentielle, donc E(X) existe et sa valeur ne peut tre que m en raison de la
symtrie de la densit par rapport cette valeur. Vrifions-le en crivant :
+ +
E(X) = x f (x)dx = (x m + m) f (x)dx

+ +
=m f (x)dx + (x m) f (x)dx

+
=m+ (x m) f (x)dx

l'intgrande tant une fonction impaire de x m = u , l'intgrale est nulle puis-

qu'elle est convergente et qu'on intgre une fonction impaire sur un intervalle
centr l'origine. On retrouve bien l'interprtation du premier paramtre comme
moyenne de la loi :
E(X) = m.
Pour calculer le moment d'ordre deux, on fait le changement de variable
u = (x m)/ :
+
1 (x m)2
E(X ) =
2
x 2 exp dx
2 2 2
+
1 2
= ( 2 u 2 + 2m u + m 2 )eu /2 du
2
+
2 2
= u 2 eu /2 du + m 2
2
que l'on intgre par parties :

2
+ +
2 ueu /2 2 2
E(X ) =
2
+ eu /2 du + m 2 = 2 + m 2
2
2
d'o :
V (X) = 2
le second paramtre tant donc l'cart type . On obtient aussi E(X m)3 = 0,
comme d'ailleurs tous les autres moments centrs impairs qui sont nuls, et
E(X m)4 = 3 4 .
Loi normale centre rduite (loi normale standard)
En faisant le changement de variable U = (X m)/ , c'est--dire en centrant
et en rduisant, on obtient une v.a. de loi standard, de moyenne nulle E(U ) = 0
et de variance unit V (U ) = E(U 2 ) = E(X m)2 / 2 = V (X)/ 2 = 1 ,
Lois usuelles 85
donc de densit :
1 2
(u) = eu /2
2
+
2 /2
On peut donc en dduire la valeur de l'intgrale eu du = 2.

On obtient les drives partir du logarithme, ln(u) = ln 2 u 2 /2 :
(u) = u(u) et (u) = (u) u (u) = (u 2 1)(u)

La valeur maximale de est (0) = 1/ 2 = 0,3989 et les valeurs
dcroissent rapidement, avec par exemple (2) = 0,0540 et (4) = 0,0001.
La fonction de rpartition est dfinie par :
x
1 2 /2
(x) = eu du
2
et n'est pas exprimable au moyen d'une fonction usuelle. Les valeurs de sont
fournies dans les tables statistiques (table 1) pour x 0. Pour x < 0, on utilise
le fait que est une fonction paire, (u) = (u), c'est--dire que la loi est
symtrique par rapport au centre de distribution 0, soit : P(U < x)
= P(U > x), ce qui se traduit pour la f.r. par (x) = 1 (x).
x m x
Figure 3.9
De cette symtrie dcoule galement la probabilit d'un intervalle centr

l'origine :
P(|U | < a) = P(a < U < a) = (a) (a) = 2(a) 1, a > 0
Ceci permet par exemple de dterminer l'intervalle interquartile, c'est--dire
l'intervalle centr l'origine et qui contient 50 % de la masse totale. On doit
trouver la valeur de a telle que P(|U | < a) = 1/2, soit 2(a) 1 = 1/2 ou
(a) = 0,75. Il s'agit donc du fractile d'ordre 0,75 de la loi normale standard,
dont la valeur est lue dans la table 2 des fractiles : a = Q 3 = 0,6745
2/3.
Rappelons que le fractile d'ordre p ]0,1[ est la valeur u p telle que (u p ) = p ,
soit u p = 1 ( p). De mme, on peut calculer la probabilit P(|U | < a) des
intervalles centrs l'origine, pour les valeurs entires de a. Ainsi :
2(1) 1 = 0,68268, 2(2) 1 = 0,95450, 2(3) 1 = 0,9973 ; il n'y a
pratiquement plus de masse de probabilit au-del de la valeur 4 puisque :
P(|U | > 4)
6 105 . La figure 3.10 ci-aprs synthtise ces rsultats pour
une loi quelconque, partir de l'quivalence :
x m
a < < a m a < x < m + a

f(x)
m 23 m + 23
m3 m2 m m m+ m+2 m+3
0 50 % x
68 %
95 %
99,7 %
Figure 3.10
Pour dterminer les valeurs de la f.r. d'une loi normale quelconque, on se

ramne la loi standard qui est tabule, partir de :

X m x m x m
F(x) = P(X < x) = P < =P U<

x m
=

Convolution de lois normales

La convolution (somme) de deux lois normales indpendantes est encore une loi
normale : si X N (m 1 ,
1 ) et Y N (m 2 ,2 ) sont des v.a. indpendantes, alors
X + Y N (m 1 + m 2 , 12 + 22 ).
Lois usuelles 87
D. Loi gamma
Une v.a. X suit une loi gamma de paramtres p > 0 et > 0 si c'est une v.a.
positive dont la densit est de la forme :
p x p1
f (x) = e x , x 0
( p)
la fonction gamma tant dfinie pour tout p > 0 par :

+
( p) = ex x p1 dx
0
On crit X ( p,). Parmi les nombreuses proprits de la fonction , on

montre en intgrant par parties que pour tout p > 1 :
( p) = ( p 1)( p 1)
Donc, pour p entier strictement positif on en dduit que :
( p) = ( p 1)!
Le calcul des moments s'effectue aisment par le changement de variable

y = x :
+ +
p x p 1 dy
E(X) = e x dx = ey y p
( p) 0 ( p) 0
1 ( p + 1) p
= =
( p)
p + +
1 dy
E(X 2 ) = e x x p+1 dx = ey y p+1 2
( p) 0 ( p) 0
1 ( p + 2) p( p + 1)
= 2 =
( p) 2
p
V (X) = 2 .

tudions la loi de la v.a. Y = X :

y y
G(y) = P(Y < y) = P( X < y) = P X < =F

o F est la f.r. de X ; la densit de Y est obtenue par drivation :
1 y p1 y y p1 1 y p1
g(y) = f = e = e y , y>0
( p) ( p)
et on reconnat la densit d'une loi ( p,1) que nous noterons simplement ( p) .

Les moments s'obtiennent partir de ceux de X en faisant = 1 :
E(Y ) = V (Y ) = p
On a donc les quivalences suivantes entre les lois gammas 1 et 2 para-
mtres :
Y
X ( p, ) Y = X ( p) X = ( p, )

Convolution de lois gammas
La convolution (somme) de deux lois gammas indpendantes est encore une loi
gamma : si X ( p,) et Y (q,) sont des v.a. indpendantes, alors la v.a.
somme X + Y ( p + q,).
La famille des lois gammas contient comme cas particuliers deux lois usuelles,
l'une dj tudie qui est la loi exponentielle de paramtre > 0 , obtenue pour
p = 1 et qui est donc la loi (1,) de densit e x pour x > 0. Cette remarque
peut tre utile en statistique dans le cas de v.a. X 1 ,. . . , X n indpendantes et de
mme loi exponentielle de paramtre , avec :
n
Sn = X i (n, ) et Sn (n)
i =1
La seconde est la loi du khi-deux, trs utilise en statistique et que nous allons
tudier maintenant.
E. Loi du khi-deux
La loi du khi-deux n degrs de libert, note n2 , est la loi (n/2,1/2) o n est
un entier positif, donc de densit pour x > 0 :
1
f (x) = ex/2 x n/21
2n/2 (n/2)
Ses moments se dduisent de ceux de la loi gamma :
n/2 n/2
E(n2 ) = = n et V (n2 ) = = 2n
1/2 1/4
Remarques
En appliquant les quivalences ci-dessus entre lois gammas pour = 12 ,
on peut passer de la loi gamma non tabule la loi du khi-deux qui est
tabule :

1 1
Y = X ( p) X = 2Y p, 22p
2 2
Lois usuelles 89
Pour des v.a. exponentielles comme ci-dessus on en dduit 2 Sn 2n

2
.
Il existe galement un lien avec la loi normale qui explique son importance
en statistique. Si X N (m, ) alors :
2
X m
12

En effet, la v.a. U = (X m)/ suit une loi N (0,1) et si on pose Y = U 2 ,

sa f.r. est dfinie pour y > 0 par :

G(y) = P(Y < y) = P( y < U < y) = ( y) ( y)
et sa densit est donc :

1 y ey/2
g(y) = y + y = =
2 y y 2 y

c'est--dire, puisque (1/2) = , la densit d'une loi (1/2,1/2) ou loi 12 .
Ceci permet notamment de retrouver l'expression du moment d'ordre
quatre de la loi normale, puisque de V [(X m)/ ]2 = 2 on en dduit par
la formule dveloppe de la variance E(X m)4 E 2 (X m)2 = 2 4 puis
E(X m)4 = 3 4 .
Convolution de lois du khi-deux
La convolution (somme) de deux lois du khi-deux indpendantes est encore une
loi du khi-deux : si X n2 et Y m2 sont des v.a. indpendantes alors la v.a.
X + Y n+m 2
. Il s'agit simplement de la proprit relative aux lois gammas.
Des deux proprits prcdentes nous allons dduire une autre proprit qui
indique comment s'introduit cette loi dans les chantillons gaussiens : si
X 1 ,. . . ,X n sont des v.a. indpendantes et de mme loi N (0,1) , alors
X 12 + . . . + X n2 suit une loi du khi-deux n degrs de libert. Cette proprit
pourrait d'ailleurs servir de dfinition de cette loi, sans rfrence la famille des
lois gammas. Le nombre de degrs de libert correspond au nombre de variables
indpendantes qui sont intervenues dans sa construction ; si ces variables taient
lies par k relations, le nombre de degrs de libert serait alors n k.
F. Loi bta
Il existe deux familles de lois btas qui se dduisent de la famille des lois gammas.
1) Loi bta de seconde espce

Si X et Y sont deux v.a. indpendantes de lois respectives ( p) et (q), alors la
v.a. Z = X/Y suit une loi bta de seconde espce de paramtres p > 0 et
q > 0 , note I I ( p,q) , et de densit pour z > 0 :

1 z p1
f (z) =
B( p,q) (1 + z) p+q
o :
( p)(q)
B( p,q) = .
( p + q)
Des proprits de la fonction on dduit aisment les moments de Z :

+
1 zp B( p + 1,q 1) p
E(Z ) = dz = = , q>1
B( p,q) 0 (1 + z) p+q B( p,q) q 1
+
1 z p+1 B( p + 2,q 2)
E(Z 2 ) = dz =
B( p,q) 0 (1 + z) p+q B( p,q)
p( p + 1)
= , q>2
(q 1)(q 2)
p( p + q 1)
V (Z ) = , q>2
(q 1)2 (q 2)
2) Loi bta de premire espce

La loi bta de premire espce est galement dfinie par un rapport de lois gam-
mas ou partir de la loi prcdente ; c'est celle de la v.a. valeurs dans [0,1] :
X Z
T = =
X +Y 1+ Z
sa densit pour 0 t 1 est :
1
f (t) = t p1 (1 t)q1
B( p,q)
on crit T I ( p,q). Notons que :
1
t p1 (1 t)q1 dt = B( p,q)
0
On obtient comme moments :

1
1 B( p + 1,q) p
E(T ) = t p (1 t)q1 dt = =
B( p,q) 0 B( p,q) p+q
1
1 B( p + 2,q) p( p + 1)
E(T 2 ) = t p+1 (1 t)q1 dt = =
B( p,q) 0 B( p,q) ( p + q)( p + q + 1)
pq
V (T ) =
( p + q) ( p + q + 1)
2
Lois usuelles 91
G. Loi log-normale
La v.a. positive X suit une loi log-normale de paramtres m et > 0 si la v.a.
lnX suit une loi N (m, ) ; sa f.r. vrifie donc pour x > 0 :

lnX m lnx m
F(x) = P(X < x) = P(lnX < lnx) = P <

lnx m
=

sa densit est donc pour x > 0 :

1 lnx m 1 1
f (x) = = exp 2 (lnx m)2
x x 2 2
H. Loi de Pareto
C'est une loi qui est utilise notamment dans la modlisation de la distribution
des revenus d'une population ou en thorie des assurances. Sa densit est dfi-
nie pour x x0 > 0 , x0 pouvant s'interprter comme le revenu minimum, en
fonction d'un paramtre > 0 :
x0 +1
f (x) =
x0 x
Complments : fonctions gnratrices

La notion de fonction gnratrice peut tre utile parfois pour calculer plus facilement les
moments de certaines lois de probabilit.
A. Fonction gnratrice dune v.a. discrte positive

Si X est une v.a. discrte positive dont la loi de probabilit est dfinie par l'ensemble des
couples (xk , pk ) , o k parcourt un ensemble d'indices K N , on peut dfinir sur [0,1]
sa fonction gnratrice par :

G X (u) = E u X = pk u xk
kK
Pour 0 u 1, la srie qui dfinit G X est uniformment convergente puisque

| pk u xk | pk et que pk = 1. Par ailleurs, G X (0) = 0 et G X (1) = 1 . Un cas par-
kK
ticulier intressant est celui d'une variable valeurs entires, soit X () = K N , o
G X est dfinie pour tout u C tel que |u| 1 par :

G X (u) = E u X = pk u k
kK
Exemple 3.4
Loi de Dirac (masse en a) : G X (u) = u a .
Exemple 3.5
Loi de Bernoulli : G X (u) = pu + q.
Exemple 3.6
n
n
Loi binmiale : G X (u) = pk (1 p)nk u k = ( pu + q)n .
k=0
k
Exemple 3.7

k k
Loi de Poisson : G X (u) = e u = e(u1) .
k=0
k!
Exemple 3.8

pu
Loi gomtrique : G X (u) = pq k1 u k = pu (qu)k1 = .
k=1 k=1
1 qu
Il y a une correspondance biunivoque entre loi de probabilit et fonction gnratrice,

due l'unicit du dveloppement en srie entire de Taylor :
G (k) (0)
G X (u) = pk u k = X
uk
kN kN
k!
ce qui permet d'obtenir par exemple la loi de probabilit partir de la fonction gnra-
trice, par les relations :
G X (0) = p0 et G (k)
X (0) = k! pk pour k N
Si X 1 ,. . . ,X n sont des v.a. mutuellement indpendantes, alors :

n
X 1 +...+X n
G X 1 +...+X n (u) = E(u )=E u Xi
i=1

n
n
= E u Xi = G X i (u)
i=1 i=1
Exemple 3.9
La loi binmiale ngative de paramtres n et p peut s'crire comme somme de n
lois gomtriques indpendantes, donc, d'aprs l'exemple 3.8 :
Lois usuelles 93
n
pu
G X (u) =
1 qu
La fonction gnratrice est surtout utile pour dterminer les moments factoriels :
[k] = E [X (X 1) . . . (X k + 1)] , k N
(k)

puisqu'on obtient G X (u) = j ( j 1) . . . ( j k + 1) p j u jk et par consquent
G (k)
X (1) = [k] .
j=k
Exemple 3.10
(k)
Pour la loi de Poisson, G X (u) = e eu donc G X (u) = k e eu et
[k] = .
k
La fonction gnratrice des moments factoriels est donc dfinie par :

uk
G X (1 + u) = [k]
k=0
k!
La fonction gnratrice des moments pour une v.a. discrte X est dfinie par :

HX (u) = E eu X = G X (eu ) = pk euxk
kK
uX
En dveloppant en srie entire e , on obtient en effet :

uk k
uk
HX (u) = E eu X = E X = mk
k=0
k! k=0
k!
k (k)
d'o on dduit m k = E X = H X (0) pour k N , avec m 0 = 1.
Exemple 3.11

Pour la loi de Bernoulli, H X (u) = E eu X = G X (eu ) = peu + 1 p , donc
HX(k) (u) = peu et m k = p pour tout k N .
B. Fonction gnratrice dune loi absolument continue

La fonction gnratrice des moments, pour une v.a. X de densit f, est dfinie par :

+
HX (u) = E eu X = eux f (x) dx

lorsque cette intgrale gnralise existe.
Exemple 3.12
Si X E () :
+

HX (u) = e(u)x dx = , pour u < .
0 u
Pour |u| < on obtient donc :

1
uk
k! uk
HX (u) = = =
1 u/ k=0
k k=0
k k!
k!
donc m k = pour tout k N .
k
Si X 1 ,. . . ,X n sont des v.a. mutuellement indpendantes, alors :

u(X +...+X n ) n
HX 1 +...+X n (u) = E e 1 =E e u Xi
i=1

n
n
= E eu X i = HX i (u)
i=1 i=1
Exemple 3.13
Dans l'exemple 3.12, on a calcul la fonction gnratrice des moments de la loi
exponentielle de paramtre , qui est aussi la loi (1,) . En additionnant p
variables indpendantes de ce type, on obtient la loi ( p,) dont la fonction
gnratrice est donc :
p
1
H X (u) =
1 u/
La fonction gnratrice des moments centrs est dfinie par :

M X (u) = eum 1 HX (u) = E eu(Xm 1 )
que l'on dtermine partir du dveloppement en srie entire :

uk
eu(Xm 1 ) = (X m 1 )k
k=0
k!
pour obtenir :

uk
M X (u) = k
k=0
k!
qui permet de dduire les moments centrs partir de cette fonction par :
k = E (X m 1 )k = M X(k) (0)
Exemple 3.14
Pour la loi exponentielle de paramtre on a m 1 = 1/ et donc :
1
(u/)k
u j
M X (u) = eu/ =1+
1 u/ k=2
k! j=0

(1)k u j+k
=1+
k=2 j=0
k!

n! n
(1)k un
=1+
n=2
k=2 k!
n n!

u2 u3 n
(1)k u n
=1+ 2 + 3 +
2 3 n=4 k=2
k! n
Lois usuelles 95
On obtient ainsi :
1 2 n! n
(1)k
2 = , 3 = et n = , n2
2 3 n k=2 k!
Exercices
noncs
Exercice n1
1) Vous effectuez un voyage en avion bord dun biracteur qui peut poursuivre son vol
avec un seul racteur qui fonctionne. Les racteurs fonctionnent de faon indpendante
et ont chacun une probabilit p de tomber en panne au cours du vol. Calculer en fonction
de p la probabilit B que votre vol ait pu se poursuivre jusqu sa destination.
2) Dans le cas dun quadriracteur, qui peut poursuivre son vol avec au moins deux rac-
teurs qui fonctionnent, calculer en fonction de p la probabilit Q que votre vol ait pu se
poursuivre jusqu sa destination.
3) Pour quelles valeurs de p le biracteur est-il plus sr que le quadriracteur ? Calculer
1
B et Q pour p = .
2
Exercice n2
Au casino, un joueur dcide de miser sur un mme numro (ou srie de numros), jus-
qu' ce qu'il gagne. Sa mise initiale est a > 0 , le numro qu'il joue a la probabilit p de
sortir chaque partie et il rapporte k fois la mise, k N . Calculer l'esprance math-
matique du gain G de ce joueur qui double sa mise chaque partie.
Exercice n3
Une urne contient une boule blanche et une boule noire.
1) On effectue des tirages avec remise jusqu' obtention d'une boule blanche. Dterminer
la loi de probabilit du nombre N de tirages, puis calculer E(N ) et V (N ).
2) Mmes questions si on remet une boule noire en plus aprs chaque tirage d'une boule
noire. Calculer alors P(N > n), n N .
Exercice n4
Vous avez besoin dune personne pour vous aider dmnager. Quand vous tlphonez
un ami, il y a une chance sur quatre quil accepte. Soit X la variable alatoire qui repr-
sente le nombre damis que vous devrez contacter pour obtenir cette aide. Dterminer la
loi de probabilit de X puis calculer P(X 3) et E(X).
Exercice n5
Lors dun examen oral, on vous demande de tirer les trois sujets que vous aurez traiter
dans une urne qui en contient dix. Parmi ces dix sujets, il y en a 3 que vous ne connais-
sez pas. Soit X la variable alatoire qui reprsente le nombre de sujets qui vous seront
inconnus lissue de ce tirage. Calculer les probabilits des diffrentes valeurs possibles
de X et en dduire E(X).
Exercice n6
Pour tre slectionn aux Jeux olympiques, un athlte doit russir deux fois dpasser
les minima fixs par sa fdration. Il a une chance sur trois de russir chaque preuve
laquelle il participe. On note X la variable alatoire qui reprsente le nombre
dpreuves auxquelles il devra participer pour tre slectionn.
1) Dterminer la loi de probabilit de X.
2) Si cet athlte ne peut participer qu quatre preuves maximum, quelle est la probabi-
lit quil soit slectionn ?
Exercice n7
Soit X une v.a. de loi binmiale de paramtres n = 20 et p = 0,1.
1) Calculer les probabilits suivantes : P(X = 5),P(X 2),P(X < 4),P(X = 1,5) ,
P(3 X 4) et P(2 < X 8).
2) Dterminer les valeurs de x telles que P(X x) 0,75.
3) Calculer P(X = 16) dans le cas o p = 0,9.
Exercice n8
Si X est une v.a. de loi de Poisson de paramtre = 5 , calculer les probabilits
P(X = 6),P(X < 4),P(X 5) et P (/2 < X < 2) puis dterminer les valeurs
de x telles que P(X < x) 0,95.
Exercice n9
Un commentateur sportif affirmait que le gain du match de double en coupe Davis (v-
nement not D), tait gnralement synonyme de victoire. Le pays gagnant est celui qui
remporte le plus de matchs, la rencontre comportant 4 matchs en simple et un match en
double. On fait l'hypothse que pour ces 5 matchs chaque pays a la mme probabilit de
l'emporter. Dterminer la loi de probabilit de la v.a. X qui reprsente le nombre de matchs
gagns par une quipe. En dduire la probabilit que le pays gagnant ait effectivement
remport le match de double. Calculer alors la probabilit qu'un pays ait remport le
match de double, sachant qu'il a gagn. Que penser de l'affirmation de ce commentateur ?
Exercice n10
Si U est une v.a. de loi normale standard, calculer P(U < 2),P(1 < U < 0,5) et
P(4U 3) puis dterminer u 0 et v0 tels que P(|U | < u 0 ) = 0,82 et
P(U < v0 ) = 0,61.
Exercice n11
Soit X une v.a. de loi normale telle que P(X < 3) = 0,1587 et P(X > 12) = 0,0228 .
Calculer P(1 < X < 10).
Exercice n12
que P(X < 2) = 0,0668 et P(X 12) = 0,1587
Si X est une v.a. de loi normale telle
calculer la valeur de a telle que P [X E(X )]2 < a = 0,95.
Exercice n13
Une v.a. X suit une loi uniforme dans l'intervalle [0,1] .
Exprimer la probabilit que X appartienne l'intervalle [x 1 ,x 2 ] en fonction des rels x 1
et x 2 tels que x 1 < x 2 .
Lois usuelles 97
Exercice n14
Soit X une variable alatoire dont la densit a pour expression, pour x > 0 :
1 (ln x)2
f (x) = exp avec > 0
x 2 2
Dterminer la loi de probabilit de la variable alatoire Y = ln X.
Exercice n15
Soit X une variable alatoire dont la densit a pour expression, pour x > :

1 x
f (x) = exp

et nulle sinon, o et sont deux rels strictement positifs.
1) Calculer E(X) et V (X) puis dterminer la fonction de rpartition F de X.
2) Dterminer la loi de probabilit de la v.a. m n = min{X 1 ,. . . ,X n } , o X 1 ,. . . ,X n sont
des v.a. indpendantes et de mme loi que X.
Exercice n16
Si T est une v.a. positive reprsentant une dure de vie, on dit qu'elle vrifie la proprit
de non-vieillissement si pour tout t > 0 et h > 0 :
P (T > t + h|T > t) = P (T > h)

Montrer que la loi de Pascal et la loi exponentielle de paramtre > 0 vrifient cette pro-
prit, c'est--dire sont des lois sans mmoire.
Exercice n17
Si F et f sont respectivement la f.r. et la densit d'une v.a. positive, on dsigne par taux de
panne la fonction h dfinie pour x > 0 par :
f (x)
h(x) =
1 F(x)
Dterminer cette fonction h pour la loi exponentielle de paramtre > 0 et pour la loi
de Weibull de densit f (x) = x 1 exp( x ) pour x > 0 , o et sont deux
paramtres positifs.
Exercice n18
Calculer l'esprance et la variance d'une loi log-normale de paramtres m et > 0.
Exercice n19
Soit X 1 ,. . . ,X n des v.a. indpendantes de densit f et de f.r. F. Dterminer les f.r. puis
les densits des v.a. m n = min {X i /1 i n} et Mn = max {X i /1 i n} .
Appliquer ce rsultat au cas particulier de la loi uniforme sur [0,1] , puis calculer dans
ce cas E(m n ) et E(Mn ).
Exercice n20
Dterminer les moments non centrs d'ordre k, k N , de la loi de Pareto de para-
mtres > 0 et x0 > 0.
Corrigs
Exercice n1
1) On note Pi lvnement le racteur i est tomb en panne au cours du vol , avec
i = 1,2. On obtient :
= P P1 P2 = 1 P(P1 P2 ) = 1 p2
2) Le nombre de racteurs qui tombent en panne au cours du vol est une variable ala-
toire X qui suit une loi binmiale de paramtres 4 et p. Ainsi :
Q = P(X 2) = 1 P(X = 3) P(X = 4) = 1 4 p3 (1 p) p4

= 1 4 p3 + 3 p4
3) On obtient :
Q B = p2 (1 p)(1 3 p)
donc le biracteur est plus sr que le quadriracteur pour p > 1/3 .

1 12 1 11
On vrifie que B = > Q = .
2 16 2 16
Exercice n2
Si N est le nombre de parties joues, l'vnement {N = n} , n N , signifie que le
joueur a perdu les n 1 premires parties et que son numro est sorti la dernire ; cette
v.a. suit donc une loi de Pascal de paramtre p :
P(N = n) = (1 p)n1 p
l'issue de ces n parties, le joueur reoit k fois sa mise, soit k2n1 a , aprs avoir mis au
cours de ces parties : a + 2a + 22 a + . . . + 2n1 a = a(1 + 2 + 22 + . . . + 2n1 )
= a (2n 1) . Son gain est alors : gn = k2n1 a (2n 1) a = a + (k 2)2n1 a.
L'esprance de gain est donc :

E(G) = gn P(N = n) = a + (k 2)ap 2n1 (1 p)n1
n=1 n=1

= a + (k 2)ap (2q)n1
n=1
o on a pos q = 1 p . Si q 1/2, la srie est divergente et cette esprance est infi-

nie. Si q < 1/2 , c'est--dire p > 1/2 , on obtient :
p kp 1
E(G) = a + (k 2)a = a
1 2q 2p 1
Pour k = 2 par exemple, E(G) = a, c'est--dire que l'esprance de gain du joueur est
gale sa mise initiale.
Lois usuelles 99
Exercice n3
1) Les tirages sont effectus jusqu' ce que l'on obtienne une boule blanche, donc la
variable N suit une loi de Pascal de paramtre p = 1/2 puisque c'est la probabilit de
tirer une boule blanche :
1
P(N = n) =
2n
D'aprs les rsultats du cours : E(N ) = V (N ) = 2.
2) Si on note respectivement Bi et Ni les vnements tirer une boule blanche et tirer une
boule noire au i-me tirage, i N , la loi de la variable entire N est dfinie par :
1
P (N = 1) = P(B1 ) =
2
1 1
P (N = 2) = P(N1 B2 ) =
2 3
...
1 2 n1 1 1
P (N = n) = P(N1 . . . Nn1 Bn ) = ... =
2 3 n n+1 n(n + 1)
Ainsi :
1
1
1
E(N ) = + n =
2 n=2 n(n + 1) n=2
n
srie harmonique divergente, donc l'esprance est infinie. A fortiori la variance n'existe
pas non plus.
On obtient :
n
P (N > n) = 1 P(N n) = 1 P(N = k)
k=1
n
1 1 1 1
=1 =
2 k=2 k k+1 n+1
Exercice n4
La v. a. X suit une loi gomtrique (de Pascal) ; pour tout entier k 1 :
3k1
P(X = k) =
4k
On obtient ensuite :

3
37
P(X 3) = P(X = k) =
k=1
64
Le paramtre de cette loi est 1/4 donc E(X) = 4 .
Exercice n5
La v. a. X suit une loi hypergomtrique ; pour tout entier 0 k 3 :

4 6
k 3k
P(X = k) =
10
3

On obtient ensuite :
1 1 3 1
P(X = 0) = P(X = 1) = P(X = 2) = P(X = 3) =
6 2 10 30
1 3 1
E(X) = + + = 1,2
2 5 10
4
En utilisant la formule du cours on retrouve E(X) = 3 = 1,2.
10
Exercice n6
1) Il sagit de la loi binmiale ngative ; pour tout entier k 2 :
2k2
P(X = k) = (k 1)
3k
2) La probabilit dtre slectionn est :

4
11
P(X 4) = P(X = k) =
k=2
27
Exercice n7
1) Par lecture de la table 3 on obtient : P(X = 5) = 0,0319,P(X 2) = 0,6769 ,
P(X < 4) = 0,8670,P(X = 1,5) = 0, P(3 X 4) = 0,2799 et P(2 < X 8)
= 0,9999 0,6769 = 0,3230.
2) La condition P(X < x) 0,25 quivalente P(X x 1) 0,25 conduit
x 1 1 ou x 2.
n
3) Si X B (n, p) on a Pp (X = x) = p x (1 p)nx et Pp (X = n x)
n n x
= pnx (1 p)x = q x (1 q)nx o on a pos q = 1 p. Par consquent
nx x
Pp (X = x) = P1 p (X = n x) , soit en appliquant ce rsultat : P0,9 (X = 16)
= P0,1 (X = 4) = 0,0898.
Exercice n8
Par lecture de la table 4 on obtient : P(X = 6) = 0,1462,P(X < 4) = 0,2650 ,
P(X 5) = 0,5595 et P(/2 < X < 2) = P(X 6) P(X 1) = 0,7218. On lit
P(X < 10) = 0,9682 donc x 10.
Exercice n9
La v.a. X suit une loi binmiale de paramtres 5 et 1/2. Un pays est gagnant si X 3 ;
la probabilit demande est donc :

5
5
P {D (X 3)} = P {D (X = k)} = P (X = k) P {D |X = k }
k=3 k=3
Si un pays a gagn k matchs, tous les choix parmi les cinq rencontres sont quiprobables,
donc :
( k1
4
)
P {D |X = k } =
( k5 )
Lois usuelles 101

Ainsi :

5
( 5 ) ( k1
4
) 11
P {D (X 3)} = k
=
k=3
25 ( k5 ) 25
On en dduit :
P {D (X 3)} 11/25 11
P {D |G } = = =
P (X 3) 1/2 16
L'affirmation de ce commentateur parat fonde puisque cette probabilit est suprieure

1/2. Cependant, s'il affirmait que le gain du premier match en coupe Davis est gnra-
lement synonyme de victoire on obtiendrait la mme probabilit. C'est le fait d'avoir
emport un match (quel qu'il soit) qui renforce videmment la probabilit de gagner !
Exercice n10
Par lecture des tables 1 et 2 on obtient : P(U < 2) = 1 (2) = 0,0228,
P(1 < U < 0,5) = (0,5) [1 (1)] = 0,6915 0,1587 = 0,5328,
P(4U 3) = 1 (0,75) = (0,75) = 0,7734 ;
P(|U | < u 0 ) = (u 0 ) (u 0 ) = 2(u 0 ) 1 = 0,82 d'o (u 0 ) = 0,91
et u 0 = 1,3408 ; P(U < v0 ) = (v0 ) = 0,61 et v0 = 0,2793.
Exercice n11

Nous allons d'abord dterminer les valeurs de m = E(X) et = V (X). La premi-
re valeur tant infrieure 0,5 on considre son complment 1, soit ici
1 0,1587 = 0,8413 , valeur dans la table 1 de (1). De mme
1 0,0228 = 0,9772 = (2) . En centrant et rduisant on a donc :

X m 3m
P < = 1 (1) = (1)

X m 12 m
P < = (2)

soit :
3m 12 m
= 1 et =2

ce qui conduit m = 6 et = 3 , puis :

5 X 6 4
P(1 < X < 10) = P < <
3 3 3
= (1,33) [1 (1,67)] = 0,8607.
Exercice n12
Dans la table 1 on constate que 1 0,0668 = 0,9332 = (1,5) donc P(X < 2) =
(1,5) ; de mme
1 0,1587 = 0,8413 = (1) . Donc en centrant sur E(X) = m
et rduisant par V (X) = :


X m 2m
P < = (1,5)

X m 12 m
P < = (1)

2m 12 m
soit = 1,5 et = 1 d'o m = 8 et = 4. On sait que la v.a.
2
X m
suit une loi 12 donc a/ 2 est le fractile d'ordre 0,95 de cette loi 12 , lu

dans la table 5, soit a/ 2 = 3,841 et a = 61,44.
Exercice n13
Si f est la densit de cette loi uniforme, cette probabilit se calcule par :
x2
p = P {X [x 1 ,x 2 ]} = f (t) dt
x1
La densit a pour valeur 1 dans l'intervalle [0,1] et 0 en dehors. La valeur de p est donc
gale la longueur de la partie commune des intervalles [0,1] et [x 1 ,x 2 ] . Elle est indi-
que dans le tableau suivant, en fonction de la position de x 1 et x 2 :
x2 < 0 x1 < 0 < x2 < 1 x1 < 0 < 1 < x2 0 < x1 < x2 < 1 0 < x1 < 1 < x2 1 < x1
0 x2 1 x2 x1 1 x1 0
Exercice n14
La v.a. Y a pour fonction de rpartition :
G(y) = P(ln X < y) = P(X < e y ) = F(e y )
o F est la f.r. de X. La densit obtenue par drivation est :
1 y2
g(y) = e y f (e y ) = exp
2 2
qui est la densit de la loi normale centre de variance .
Exercice n15
X
1) On dtermine la f.r. de la v.a.U = :

G(u) = P(U < u) = P(X < u + ) = F(u + )
o F est la f.r. de X. Par drivation on obtient la densit de U :
g(u) = f (u + ) = eu
pour u > 0. Cest donc la loi exponentielle avec G(u) = 1 eu pour u > 0, et
E(U ) = V (U ) = 1. On en dduit E(X) = + , V (X) = 2 et pour x > :
Lois usuelles 103


x x
F(x) = G = 1 exp

2) La v.a. m n a pour fonction de rpartition :

n
H (y) = P(m n < y) = 1 P (X i > y) = 1 [1 F(y)]n
i=1
Sa densit est donc :

n y
h(y) = n[1 F(y)]n1 f (y) = exp n

pour y > .
Exercice n16
Pour la loi de Pascal on a pour t N :

pq t
P(T > t) = P(T = k) = p q k1 = pq t qk = = qt
k=t+1 k=t+1 k=0
1q
Par consquent, pour h N :

P {(T > t + h) (T > t)} P(T > t + h)
P(T > t + h|T > t) = =
P(T > t) P(T > t)
= q h = P(T > h)
ce qui tablit que c'est une loi sans mmoire.

Pour la loi exponentielle de paramtre , on a pour t > 0 :
+
+
P(T > t) = e x dx = e x t = et
t
d'o pour h > 0 :
P(T > t + h) e(t+h)

P(T > t + h|T > t) = = = e h = P(T > h)
P(T > t) et
ce qui prouve la proprit de non-vieillissement.
Exercice n17
La f.r. de la loi exponentielle vrifie 1 F(x) = e x pour x > 0, donc :
e x
h(x) = =
e x
la loi exponentielle est taux de panne constant, en plus d'tre sans mmoire comme
nous l'avons vu dans l'exercice prcdent.
Pour la loi de Weibull, si x > 0 :
x
x
F(x) = t 1 et dt = exp (t ) 0 = 1 exp ( x )
0

et :
h(x) = x 1
on retrouve bien le rsultat obtenu pour la loi exponentielle en faisant = 1.
Exercice n18
On calcule l'esprance de X de loi log-normale de paramtres m et en faisant le chan-
gement de variable y = lnx :
+
1 1
E(X ) = exp (lnx m)2 d x
2 0 2 2
+
1 1
= e y exp (y m)2 d y
2 2 2
+
1 1 2
= exp y 2(m + 2 )y + m 2 d y
2 2 2
! +
1 1 1 2
= exp (m + )
2 2
m 2
exp y (m + 2 ) d y
2 2 2
2 2
!
1 1
= exp (2m 2 + 4 ) 2 = exp(m + 2 /2)
2 2 2
On obtient de la mme faon :

2
E(X 2 ) = exp 2m + 2 2 et V (X) = (e 1)exp 2m + 2
Exercice n19
Pour dterminer la f.r. de m n , on considre l'vnement :

n
{m n y} = {X i y}
i=1
De mme, pour que Mn soit infrieur z il faut et il suffit que tous les X i soient inf-
rieurs z, ce qui s'crit :

n
{Mn < z} = {X i < z}
i=1
On en dduit, du fait de l'indpendance des X i et de l'identit de leur loi :

n
G(y) = P(m n < y) = 1 P {X i y} = 1 [1 F(y)]n
i=1

n
H (z) = P(Mn < z) = P (X i < z) = F n (z)
i=1
Les densits correspondantes s'obtiennent par drivation :
g(y) = n f (y) [1 F(y)]n1

h(z) = n f (z)F n1 (z)
Lois usuelles 105

Dans le cas particulier de la loi uniforme sur [0,1] , on obtient :
G(y) = 1 (1 y)n et g(y) = n(1 y)n1 , 0y1

H (z) = z n
et h(z) = nz n1
, 0z1
On calcule alors l'esprance :
1 1
E(m n ) = n y (1 y)n1 dy = n (1 u) u n1 du
0 0
1 1
n 1
=n u n1
du n u n du = 1 =
0 0 n+1 n+1
obtenue en faisant le changement de variable u = 1 y. De mme :
1
n
E(Mn ) = n z n dz =
0 n+1
Remarquons ici que :
G(y) = P(m n < y) = 1 H (1 y) = P(Mn > 1 y) = P(1 Mn < y)

ce qui montre que les v.a. m n et 1 Mn ont la mme loi de probabilit et donc que
E(m n ) = 1 E(Mn ).
Exercice n20
Le moment non centr d'ordre k de la loi de Pareto de paramtres et x0 est :
+ +
x k
E(X k ) = x0 x k1 dx = x0 = xk
x0 k x0 k 0
condition que k < . Seuls existent les moments d'ordre infrieur . Par exemple,
pour = 2, la loi admet une esprance mais pas de variance. Pour > 2 , on obtient :

V (X) = x02
( 2) ( 1)2

4. Couple
et vecteur alatoires
C
omme nous avons associ un nombre une exprience alatoire,
dans certains cas nous pouvons tre amen en associer plusieurs.
Par exemple, le jet de deux ds distincts ne peut pas tre cod avec
une seule valeur numrique. De mme, un individu dune population
donne, on peut associer son revenu et sa consommation. On est alors
amen associer de telles preuves alatoires deux, voire plusieurs
valeurs numriques, au moyen donc de plusieurs applications qui seront
des v.a. pouvant tre regroupes dans un vecteur, ce qui conduit la
gnralisation en multidimensionnel de la notion de variable alatoire
relle : un vecteur alatoire. Pour la commodit de lexpos nous com-
mencerons par tudier le cas bidimensionnel, celui dun couple alatoire,
en distinguant toujours les cas discret et continu. Nous verrons ensuite
comment se gnralisent les moments associs un vecteur alatoire et
prsenterons deux lois particulires, la loi multinomiale et la loi normale
vectorielle.

Objectif du chapitre : gnraliser les notions de variable alatoire, desp-
rance et de variance au cas multidimensionnel ; dfinir les lois
conditionnelles, la fonction de rgression et la convolution de
deux lois.
Concepts cls tudis : loi marginale, loi conditionnelle, rgression,
convolution, covariance, indpendance, matrice de variances-
covariances.
Couple et vecteur alatoires 107

I. Couple de v.a. discrtes

A. Loi dun couple
Un couple de v.a. discrtes est constitu de deux v.a. discrtes X et Y dont len-
semble des valeurs possibles peut scrire respectivement sous la forme {xi }iI
et {yj } jJ , o I et J sont des ensembles dindices inclus dans N , pouvant
dailleurs tre N tout entier. On convient de ne faire figurer que des valeurs de
probabilit strictement positive. Comme dans le cas unidimensionnel, la loi dun
couple discret est dfinie
par lensemble des valeurs possibles, soit ici
xi ,yj ; (i, j) I J , et par les probabilits associes :

pi j = P(X,Y ) X = xi ,Y = yj
B. Lois marginales
la loi dun couple sont associes deux lois marginales qui sont les lois de cha-
cun des lments du couple pris sparment, dfinies par lensemble des valeurs
possibles et les probabilits associes obtenues par sommation, soit :

PX (X = xi ) = P(X,Y ) X = xi ,Y = yj = pi j = pi.
jJ jJ

PY Y = yj = P(X,Y ) X = xi ,Y = yj = pi j = p. j
iI iI
Si la loi du couple est prsente dans un tableau, ces lois sont obtenues dans
les marges, par sommation de ligne ou de colonne.
X xi
Y
yj pi j p. j

pi. 1
C. Lois conditionnelles
On peut galement associer deux lois conditionnelles la loi dun couple, cest-
-dire la loi dune variable, lautre ayant une valeur fixe (loi dans une ligne ou

dans une colonne donne). Par exemple, pour Y = yj fix, la loi conditionnelle
de X est dfinie par lensemble des valeurs possibles et les probabilits asso-
cies :
P X = xi ,Y = yj pi j
P X = xi |Y = yj = = = pij
P Y = yj p. j
on vrifie que cest bien une loi de probabilit sur X = {xi ; i I } :

j 1
pi = pi j = 1
iI
p. j iI
Exemple 4.1
La loi dun couple (X,Y ) est donne par le tableau suivant :
X
Y 2 0 2
1 0,1 0,2 0,1 0,4
2 0,2 0,2 0,2 0,6
0,3 0,4 0,3 1
La loi conditionnelle de X pour Y = 1 figure dans le tableau ci-aprs :
X|Y = 1 2 0 2
0,1 0,2 0,1

1
0,4 0,4 0,4
Rappelons que les deux v.a. X et Y sont indpendantes si pour tout i I et

tout j J :
P(X = xi ,Y = yj ) = P(X = xi )P(Y = yj )
Dans ce cas, bien entendu, les lois conditionnelles sont confondues avec les
lois marginales ; par exemple :
pi. p. j
P X = xi |Y = yj = pij = = pi.
p. j
Cest lun des seuls cas o la donne des lois marginales permet de recons-
tituer la loi du couple.

D. Moments conditionnels
Aux lois conditionnelles sont associs des moments conditionnels, comme par
de Y pour X = xi fix, qui est lesprance
exemple lesprance conditionnelle
de la loi dfinie par les couples yj , pij ; j J , soit :

E (Y |X = xi ) = yj P Y = yj |X = xi = yj pij
jJ jJ
Le graphe de cette esprance conditionnelle en fonction de xi sappelle cour-

be de rgression (non linaire) de Y en X .
Exemple 4.2
Dans lexemple 4.1 prcdent, la loi conditionnelle de Y pour X = 2 est
donne par le tableau suivant :
Y |X = 2 1 2
0,1 0,2
1
0,3 0,3
On peut calculer, partir de ce tableau, lesprance conditionnelle :

1 2
E (Y |X = 2) = (1) +2 =1
3 3
Notons que E (Y |X) est une fonction de X , donc une variable alatoire dis-
crte dont la loi de probabilit est dfinie par lensemble des valeurs possibles,
soit ici {E (Y |X = xi ) ; i I } , et les probabilits associes pi. = P (X = xi ) .
On peut donc calculer la valeur moyenne de cette v.a., soit :

E [E (Y |X)] = pi. E (Y |X = xi )

iI

= pi. yj P Y = yj |X = xi
iI jJ
pi j
= pi. yj pij = yj pi. = yj pi j
iI jJ iI jJ
pi. jJ iI

= p. j yj
jJ
= E(Y )

On peut galement calculer la variance conditionnelle :

V (Y |X = xi ) = E [Y E (Y |X = xi )]2 |X = xi

= E Y 2 |X = xi E 2 (Y |X = xi )
2
= pij yj E (Y |X = xi )
jJ
On peut tablir que la variance totale de Y peut se dcomposer laide de ces

deux premiers moments conditionnels :
V (Y ) = E [V (Y |X)] + V [E (Y |X)]
E. Moments associs un couple

Si h : R2 R est une application continue, elle dfinit une variable alatoire
relle dont on peut calculer les moments, comme par exemple lesprance :

E [h (X,Y )] = pi j h xi ,yj
iI jJ
Dans le cas particulier o h(X,Y ) = [X E(X)] [Y E(Y )] on dfinit

ainsi la covariance de X et Y :
Cov (X,Y ) = E {[X E(X)] [Y E(Y )]} = E(X Y ) E(X)E(Y )

Nous avons vu dans le chap. 2, I, D, 2 que si les v.a. X et Y sont indpen-
dantes, alors E(X Y ) = E(X)E(Y ) et par consquent Cov(X,Y ) = 0 .
Cependant, il faut faire attention au fait que la rciproque est en gnral fausse,
cest--dire que si la covariance de deux v.a. est nulle, elles ne sont pas forc-
ment indpendantes.
Exemple 4.3
Considrons le couple (X,Y) dont la loi est dfinie par le tableau ci-
aprs :
X 1 0 1
Y
1 1/8 1/8 1/8
0 1/16 1/8 1/16
1 1/8 1/8 1/8

Les lois de X et Y sont symtriques par rapport 0, donc E(X) =

E(Y ) = 0 et :
1 1 1 1
Cov(X,Y ) = E(X Y ) = 1 + (1) + (1) + 1 = 0
8 8 8 8
et cependant ces deux variables ne sont pas indpendantes puisque par
exemple :
P(X = 1,Y = 1) = 1/8 =
/ P(X = 1)P(Y = 1) = 5/16 3/8 .
On appelle coefficient de corrlation linaire de deux v.a. X et Y le nombre

rel : Cov(X,Y )
= Corr(X,Y ) =
V (X) V (Y )
cest un nombre tel que 1 1 , avec :
|| = 1 a R , b R : Y = aX + b
cest--dire quun coefficient de corrlation de valeur absolue gale un est lin-
dication dune liaison affine entre les deux variables.
F. Loi dune somme

Si X et
Y sont deux v.a. discrtes de lois respectives {(xi , pi ) ; i I } et
yj ,q j ; j J , la v.a. Z = X + Y est aussi une v.a. discrte dont la loi de
probabilit
est dfinie par lensemble des valeurs possibles, soit ici
xi + yj ; i I, j J , et les probabilits associes :

P (Z = z k ) = P X = xi ,Y = yj /xi + yj = z k
Dans le cas gnral cette loi ne peut donc tre dfinie que par la donne de
la loi du couple (X,Y ) .
Cas particulier : X et Y sont indpendantes.
On parle alors de convolution des lois de X et Y , qui est dfinie par :

P (Z = z k ) = P(X = xi )P(Y = z k xi )

iI

= P Y = yj P X = z k yj
jJ
En gnral, beaucoup des termes des sommations prcdentes

sont nuls
car
il faut tenir compte des restrictions z k xi Y = yj ; j J et
z k yj X = {xi ; i I } .
Exemple 4.4
Convolution de deux lois binmiales.
Soit X et Y deux v.a. indpendantes, de lois respectives B(n 1 , p) et
B(n 2 , p) . La v.a. S = X + Y est valeurs dans S = {0,1,. . . ,n 1 + n 2 }

avec pour s S :

s
{S = s} = {(X = x) (Y = s x)}
x=0
Ainsi :

s
P (S = s) = P(X = x)P(Y = s x)
x=0

n1
s
n2

n 1 x
= x
p q psx q n2 s+x
x=0
x s x
s

s n 1 +n 2 s n1 n2 n 1 + n 2 s n1 +n2 s
=pq = pq
x=0
x sx s
ce qui indique que S = X + Y suit une loi binmiale B(n 1 + n 2 , p) . Le

rsultat :
s

n1 n2 n1 + n2
=
x=0
x sx s
exprime que le nombre de sous-ensembles de s lments extraits dun

ensemble comportant n 1 lments dune sorte et n 2 lments dune autre
est obtenu partir des sous-ensembles associs de x lments de la pre-
mire sorte et de s x lments de lautre, avec x variant de 0 s (voir
figure 4.1).
n2
n1
s
sx
x
Figure 4.1
Nous allons tablir maintenant que la loi dune variable conditionnelle-

ment une valeur fixe de la somme est une loi hypergomtrique. La loi
de X , conditionnellement S = s par exemple, est dfinie pour
x {0,1,. . . ,n 1 } par :

P(X = x)P(S = s|X = x)

P(X = x|S = s) =
P(S = s)
P(X = x)P(Y = s x)
=
P(S = s)

n1 x n 1 x n2
p q psx q n2 s+x
x sx
=

n1 + n2
ps q n1 +n2 s
s

n1 n2
x sx
=

n1 + n2
s
Exemple 4.5
Convolution de lois de Poisson
Si X et Y sont deux v.a. indpendantes de lois de Poisson respectives
P () et P () , alors Z = X + Y est une v.a. valeurs dans N , avec
pour tout entier k :

P(Z = k) = P(X = x)P(Y = y) = P(X = x)P(Y = k x)
x+y=k xN

k
k
x kx
= P(X = x)P(Y = k x) = e e
x=0 x=0
x! (k x)!
e (+)
k
k! e(+)
= x kx = ( + )k
k! x=0
x!(k x)! k!
On retrouve bien comme rsultat : X + Y P ( + ) .
II. Couple de v.a. continues

A. Loi du couple
Si X et Y sont deux v.a. relles continues, la loi de probabilit du couple (X,Y )
est dtermine par sa fonction de rpartition F , dfinie sur R2 par :
F(x,y) = P(X < x,Y < y)
La valeur F(x,y) reprsente la probabilit de la zone hachure indique
dans la figure 4.2.

y
M(x,y)
0 x
Figure 4.2
Lapplication F est croissante au sens large par rapport chacune des deux
variables et telle que 0 F(x,y) 1 , avec pour valeurs limites
F(,y) = F(x,) = 0 pour tout x rel et pour tout y rel, et
F(+,+) = 1 .
Si F est deux fois drivable par rapport aux deux variables, alors la loi de
(X,Y ) est dite absolument continue, de densit f dfinie par :
2 F(x,y)
f (x,y) =
x y
La fonction de rpartition se calcule alors par intgration :

x y
F(x,y) = f (u,v)dudv

Exemple 4.6
La loi de (X,Y ) est dfinie par la densit :

ey si 0 x y
f (x,y) =
0 sinon
Les valeurs de la f.r. F vont tre dtermines selon la zone dapparte-

nance du point (x0 ,y0 ) , en intgrant la densit f sur lintersection du
domaine o elle est non nulle avec la partie du plan gauche et au-des-
sous du point (voir figure 4.3). On obtient de faon vidente :
F(x0 ,y0 ) = 0 si x0 0 ou y0 0

y
y=x
y0
0 x x0 y0 x1 x
Figure 4.3
Si maintenant le point (x0 ,y0 ) est dans la zone o la densit f est stric-
tement positive, soit 0 x0 y0 :
x0 y0 x=x0 y=y0
F(x0 ,y0 ) = f (x,y)dxdy = ( ey dy)dx
x=0 y=x
x0 x0
[ey ]xy0 dx = (ex ey0 )dx = [ex ]00 x0 ey0
x
=
0 0
= 1 ex0 x0 ey0
Enfin, si 0 y0 x1 , on peut voir sur la figure 4.3 que :
F(x1 ,y0 ) = F(y0 ,y0 ) = 1 ey0 y0 ey0

En rsum :

0 si x 0 ou y 0
F(x,y) = 1 ex xey si 0 x y
1 ey yey si 0 y x
Comme dans cet exemple, la densit se prsente souvent sous la forme sui-
vante :
. . . si (x,y) D
f (x,y) =
0 si (x,y) / D
cest--dire que la densit est non nulle seulement lintrieur dun certain
domaine D . Lexpression de la f.r. du couple (X,Y ) se dtermine alors en dpla-
ant le point M(x,y) du bas gauche vers le haut droite, conformment la
figure 4.4 ci-aprs.

M(x,y)
1
D
M(x,y) M(x,y)
M(x,y)
0
Figure 4.4
Lorsque lon quitte le domaine sur lhorizontale de M (mme ordonne) ou

sur la verticale de M (mme abscisse), la valeur de F en ces points extrieurs
D est la mme quau point dintersection de lhorizontale ou de la verticale avec
la frontire de D .
B. Lois marginales
Les fonctions de rpartition marginales de X et Y sont dfinies partir de la f.r.
du couple par :
FX (x) = P(X < x) = F(x,+)
FY (y) = P(Y < y) = F(+,y)
cest--dire en faisant tendre y , respectivement x, vers plus linfini. Dans le cas

dune loi absolument continue, les densits marginales sont alors obtenues par
drivation de ces f.r. marginales.
Cependant, si la loi du couple est dfinie par sa densit, les densits margi-
nales sont obtenues plutt par intgration :
+
f X (x) = f (x,y)dy

+
f Y (y) = f (x,y)dx

Exemple 4.7
Si nous reprenons la loi de lexemple 4.6 prcdent, en faisant tendre y
vers plus linfini dans lexpression de F , on obtient :
FX (x) = F(x,+) = 1 ex pour x > 0
et par drivation : f X (x) = ex pour x > 0 , densit de la loi exponentielle

ou (1) .

Cette densit peut galement tre obtenue par intgration de la densit du

couple, pour x > 0 :
+ +
f X (x) = f (x,y)dy = ey dy = [ey ]+
x = ex
x
La f.r. de Y sobtient partir de F en faisant tendre x vers plus linfini :
FY (y) = F(+,y) = 1 ey yey pour y > 0
do par drivation, pour y > 0 : f Y (y) = yey qui est la densit de la

loi (2) .
Ou par intgration de f , pour y > 0 :
+ y
f Y (y) = f (x,y)dx = ey dx = yey
0
C. Lois conditionnelles
Si lune des deux variables X ou Y a une valeur fixe, on peut dfinir la loi
conditionnelle de lautre variable. Pour des lois absolument continues, les lois
conditionnelles sont dfinies par les densits conditionnelles :
f (x,y)
f X (x|Y = y) =
f Y (y)
f (x,y)
f Y (y|X = x) =
f X (x)
condition bien sr que f Y (y) > 0 et f X (x) > 0 .
Exemple 4.8
Si nous reprenons la loi prcdente, nous obtenons pour 0 x y :
ey 1
f X (x|Y = y) = =
yey y
donc la loi conditionnelle L(X|Y = y) est la loi uniforme sur [0,y] , pour
y > 0 fix. De mme, pour y x 0 :
ey
f Y (y|X = x) = = e xy
ex
qui est la loi exponentielle sur [x,+[, pour x > 0 fix.

Lindpendance des v.a. X et Y se dfinit alors par :

f (x,y) = f X (x) f Y (y) x R,y R
On a bien entendu dans ce cas :
f X (x|Y = y) = f X (x) et f Y (y|X = x) = f Y (y) x R,y R
D. Moments associs un couple

Si h : R2 R est une application continue, lesprance de h(X,Y ) se calcule
pour une loi de densit f par lintgrale :

E[h(X,Y )] = h(x,y) f (x,y)dxdy
R2
Dans le cas particulier o h(X,Y ) = [X E(X)][Y E(Y )] , ceci dfinit

la covariance :
Cov(X,Y ) = E{[X E(X)][Y E(Y )]} = E(X Y ) E(X)E(Y )
Dans le cas particulier o les v.a. X et Y sont indpendantes :

E(X Y ) = x y f (x,y)dxdy
2
R
= x f X (x)dx y f Y (y)dy = E(X)E(Y )
R R
et par consquent :
Cov(X,Y ) = 0
Il faut faire attention la rciproque, gnralement fausse, cest--dire que si
deux v.a. ont une covariance nulle elles ne sont pas forcment indpendantes, sauf
dans le cas particulier o (X,Y ) est un couple normal (cf. Proprit IV., B.).
Exemple 4.9
Soit X une v.a. de loi N (0,1) et dfinissons Y = X 2 . On a :

Cov(X,Y ) = E(X Y ) E(X)E(Y ) = E(X 3 ) = 0
car tous les moments dordre impair sont nuls ; donc les v.a. X et X 2 ont
une covariance nulle alors quelles sont dpendantes (mais non linaire-
ment) puisque la seconde est fonction de la premire.
On peut dfinir galement le coefficient de corrlation linaire par :

Cov(X,Y )
= Corr(X,Y ) =
(X) (Y )
ayant pos V (X) = 2 (X) et V (Y ) = 2 (Y ).

Nous allons tablir que ce coefficient est compris entre 1 et +1, en raison
de lingalit de Schwarz :

|E(X Y )| E(X 2 ) E(Y 2 )
que lon obtient en considrant le polynme en , toujours positif :
E(X Y )2 = 2 E(Y 2 ) 2E(X Y ) + E(X 2 ) 0
ce qui implique E 2 (X Y ) E(X 2 )E(Y 2 ) 0 , soit en appliquant cette ingalit

aux variables centres :
|Cov(X,Y )| (X) (Y )
et par consquent || 1 . Le cas || = 1 correspond lexistence dune rela-

tion affine entre les deux variables :
|| = 1 a R , b R : Y = a X + b
Cette relation affine, quand elle existe, scrit dailleurs prcisment :

Cov(X,Y )
Y = E(Y ) + [X E(X)]
V (X)
E. Rgression
Les densits conditionnelles permettent de calculer les moments conditionnels,
comme par exemple les esprances ; on peut dfinir notamment la fonction :
x E(Y |X = x)
qui sappelle fonction de rgression (non linaire), son graphe tant la courbe de
rgression de Y en X .
Pour une loi absolument continue, on obtient :
+ +
f (x,y)
E(Y |X = x) = y f Y (y|X = x)dy = y dy
f X (x)
Exemple 4.10
En reprenant toujours la mme loi des exemples prcdents, on obtient ici :
+ +
E(Y |X = x) = ye xy
dy = e x
yd(ey )

x x
+
= x + ex ey dy = x + 1
x

Notons que E(Y |X) est une v.a., comme fonction de la v.a. X , et que ses ra-
lisations sont les valeurs E(Y |X = x) pour tout vnement lmentaire tel
que X () = x . On peut donc calculer lesprance mathmatique de cette v.a. :
+ + +
E[E(Y |X)] = E(Y |X = x) f X (x)dx = y f (x,y)dxdy

+ + +
= y( f (x,y)dx)dy = y f Y (y)dy = E(Y )

Ainsi, en prenant lesprance de E(Y |X) par rapport la loi de X on retrou-

ve E(Y ) .
Exemple 4.11
Dans lexemple prcdent on a obtenu la v.a. E(Y |X) = X + 1 et
E[E(Y |X)] = E(X) + 1 = 2 qui est bien lesprance de Y qui suit une
loi (2) .
On peut galement calculer la variance conditionnelle :
V (Y |X = x) = E{[Y E(Y |X = x)]2 |X = x}
= E(Y 2 |X = x) E 2 (Y |X = x)
De mme V (Y |X) est une v.a., tant fonction de X , dont on peut calculer
lesprance. On dmontre que la variance de Y se dcompose partir des deux
premiers moments conditionnels de la faon suivante :
V (Y ) = E[V (Y |X)] + V [E(Y |X)]
F. Loi dune somme

La loi de la v.a. Z = X + Y se dtermine par sa f.r G , dfinie par :
G(z) = P(Z < z) = P(X + Y < z)
qui ne peut se calculer que si lon connat la loi du couple (X,Y ) .

Dans le cas particulier o ce couple admet une densit f , on obtient :

G(z) = f (x,y)dxdy
D
o le domaine dintgration est D = {(x,y)/x + y < z} . On effectue le chan-

gement de variable suivant :

x=x x=x
s=x+y y =sx

Le jacobien de cette transformation est :

D(x,y) 1 0
= =1
D(x,s) 1 1
do lintgrale :
+ zx + z
G(z) = dx f (x,y)dy = dx f (x,s x)ds

qui peut scrire sous la forme :

z
G(z) = g(s)ds

ce qui permet de mettre en vidence la densit de Z , soit :

+
g(s) = f (x,s x)dx

Dans le cas particulier o X et Y sont indpendantes, la loi de Z = X + Y

se dtermine partir des densits marginales f X et f Y :
+ z z
G(z) = f X (x) f Y (s x)dsdx = g(s)ds

o la densit g de Z est dfinie par :

+ +
g(z) = f X (x) f Y (z x)dx = f X (z y) f Y (y)dy

et g sappelle alors le produit de convolution de f X et f Y .
Exemple 4.12
Soit X et Y deux v.a. indpendantes et de mme loi de Laplace, ou double
1
exponentielle, de densit e|t| . On a vu que la densit du couple
2
(X,Z = X + Y ) tait f X (x) f Y (z x) et la densit marginale de Z sob-
tient donc par intgration :
+ +
1 |x| 1 |zx|
g(z) = f X (x) f Y (z x)dx = e e dx
2 2

1 z z+x|x| 1 + zx|x|
= e dx + e dx
4 4 z

Pour pouvoir retirer la valeur absolue, il faut connatre le signe sur lin-
tervalle dintgration et pour cela distinguer deux cas :
si z < 0 :
z 0 +
4g(z) = e2xz dx + ez dx + ez2x dx
z 0
1 z 1
= e [ e2x ]
z
zez + ez [ e2x ]+
0
2 2
1 1
= ez zez + ez = (1 z)ez
2 2
si z > 0 :
0 z +
4g(z) = e2xz dx + ez dx + ez2x dx
0 z
1 1
= e [ e2x ]0 + zez + ez [ e2x ]+
z
z
2 2
1 1
= ez + zez + ez = (1 + z)ez
2 2
La densit de Z = X + Y pouvant scrire dans tous les cas :
1
g(z) = (1 + |z|)e|z|
4
III. Vecteur alatoire

Nous allons tendre maintenant les notions prcdentes au cas dun vecteur
alatoire ayant n composantes, avec n 2. Un vecteur alatoire X de Rn est
une application de dans Rn qui scrit sous la forme dun vecteur colonne :

X1
X = ...
Xn
dont toutes les composantes X i ,1 i n , sont des v.a., cest--dire des appli-
cations de dans R . On dfinit alors lesprance de ce vecteur alatoire comme
le vecteur dont les n composantes sont les esprances des v.a. relles compo-
santes de ce vecteur et on conserve la mme notation quen unidimensionnel :

E(X 1 )
E(X) = ...
E(X n )

Dans le cas dun couple alatoire, nous avions introduit la covariance comme
moment centr dordre deux ; sagissant ici dun vecteur n composantes ala-
toires, il faut considrer toutes les associations deux deux de ses composantes.
La gnralisation de la variance dfinie en unidimensionnel, indicateur num-
rique de dispersion autour du centre, sera ici une matrice, note encore V (X) ,
et qui contiendra toutes les variances des composantes de X , ainsi que les cova-
riances de tous les couples associant deux composantes. Cette matrice est aussi
un indicateur de dispersion autour du centre E(X) qui renseigne sur la forme de
lellipsode dinertie ; cest une matrice carre symtrique dordre n , appele
matrice de variances-covariances, et dfinie par :
V (X) = E{[X E(X)] t [X E(X)]}
cest--dire comme lesprance dune matrice M dont les lments sont des v.a.
Mi j et qui est dfinie comme la matrice dlments E(Mi j ) . Llment ligne i ,
colonne j , de cette matrice, 1 i, j n, est dailleurs :
vi j = E{[X i E(X i )][X j E(X j )]} = Cov(X i ,X j )
et par consquent on trouve les variances sur la diagonale principale de cette
matrice :
vii = E{[X i E(X i )]2 } = V (X i )
Comme proprits de ces deux moments gnraliss, nous allons examiner
les effets dun changement dchelles, traduit par une application linaire de Rn
dans Rm de reprsentation matricielle A de format (m,n) , puis dun changement
dorigine, traduit par une translation de vecteur b de Rm . Le vecteur X devient
aprs cette transformation affine le vecteur Y = AX + b. Loprateur esprance
mathmatique est toujours linaire en multidimensionnel et le vecteur espran-
ce va donc subir la mme transformation :
E(Y ) = E(AX + b) = AE(X) + b
alors que la matrice de variances-covariances nest pas modifie par le change-
ment dorigine, tant un moment centr :
V (Y ) = V (AX + b) = V (AX) = AV (X) t A
En effet :
Y E(Y ) = AX + b [AE(X) + b] = A[X E(X)]
et par consquent :
[Y E(Y )] t [Y E(Y )] = A[X E(X)] t [X E(X)] t A
On peut oprer une transformation particulire permettant dobtenir le vec-
teur Y centr et rduit. La matrice = V (X) tant dfinie-positive admet une
inverse 1 dfinie-positive et il existe une matrice symtrique S telle que
S 2 = 1 , qui sera note S = 1/2 . On effectue alors la transformation :
Y = 1/2 [X E(X)]

o le vecteur Y est centr puisque E(Y ) = 0 et rduit, au sens o ses compo-

santes sont non corrles et de variance un :
V (Y ) = 1/2 1/2 = S( S) = SS 1 = In
car 1 = S 2 = In do S = S 1 .
IV. Lois usuelles

A. Loi multinomiale
Il sagit en quelque sorte dune loi binmiale multidimensionnelle o on ne
sintresse pas seulement la ralisation dun vnement particulier A , mais
celle de k vnements distincts A1 ,. . . ,Ak de probabilits respectives p1 ,. . . , pk
au cours de n preuves successives indpendantes. On a bien entendu p j > 0
k
pour 1 j k et p j = 1 . On associe alors cette exprience alatoire le
j=1
vecteur N valeurs dans {0,1,. . . ,n}k dont les composantes N j , 1 j k ,
reprsentent le nombre dvnements A j raliss. Le vecteur alatoire N suit une
loi multinomiale de paramtres n, p1 ,. . . , pk , note M(n; p1 ,. . . , pk ) et dfinie
par :
n! n n
P(N1 = n 1 ,. . . ,Nk = n k ) = p1 1 . . . pk k
n1! . . . nk !
o (n 1 ,. . . ,n k ) {0,1,. . . ,n}k . Il est important de noter que les v.a. compo-
santes de N ne sont pas indpendantes puisque :

k
k
Nj = nj = n
j=1 j=1
n n
Le coefficient qui figure devant p1 1 . . . pk k , qui reprsente la probabilit dun
vnement lmentaire ralisant lvnement (N1 = n 1 ,. . . ,Nk = n k ) , est le
nombre de partitions de n objets en k classes deffectifs donns n i , avec
n 1 + . . . + n k = 1 , ou le nombre de suites ordonnes de n objets comportant n i
objets identiques, 1 i k , choisis dans k classes distinctes (cf. Complments
C. chap. 1).
Si on pose t p = ( p1 ,. . . , pk ) , on peut crire N M(n; p) et ce vecteur
alatoire admet comme esprance :

E(N1 ) p1
E(N ) = .
.. =n .. = np
.
E(Nk ) pk

En effet, toutes les lois marginales vont tre des lois binmiales puisque les
v.a. N j reprsentent le nombre de ralisations de lvnement A j au cours de n
preuves indpendantes : N j B(n, p j ) avec p j = P(A j ) , donc E(N j ) = np j
et V (N j ) = np j (1 p j ) .
Pour calculer les covariances :
Cov(Ni ,N j ) = E(Ni N j ) E(Ni )E(N j )
qui ne sont pas nulles puisque les composantes de N sont lies par une relation,
nous avons besoin de la loi du couple (Ni ,N j ) qui est une loi
M(n; pi , p j ,1 pi p j ) ou loi trinmiale associe aux trois vnements Ai ,A j
et Ai A j :
n! n
pi i p j j (1 pi p j )nni n j
n
P(Ni = n i ,N j = n j ) =
n i !n j !(n n i n j )!
avec n i et n j entiers positifs tels que 0 n i + n j n .

Nous pouvons crire :
E(Ni N j ) = E[Ni E(N j |Ni )]
en effet :

E(Ni N j ) = n i n j P(Ni = n i ,N j = n j ) = n i E ni P(Ni = n i )
ni nj ni
o on a pos :
P(Ni = n i ,N j = n j )
E ni = nj
nj
P(Ni = n i )

= n j P(N j = n j |Ni = n i ) = E(N j |Ni = n i )
nj
et n i E ni reprsente bien une ralisation de la v.a. Ni E(N j |Ni ) . Pour calculer

cette esprance conditionnelle, nous allons dterminer la loi conditionnelle de
N j |Ni = n i qui est la loi binmiale de paramtres n n i (on retire les n i rali-
sations des Ai ) et de probabilit individuelle de ralisation :
P(A j Ai ) P(A j ) pj
P(A j |Ai ) = = =
P(Ai ) P(Ai ) 1 pi
Lesprance de cette loi binmiale est donc :
pj
E(N j |Ni ) = (n Ni )
1 pi
et ainsi :
pj pj
E(Ni N j ) = E[Ni (n Ni )] = [n 2 pi E(Ni2 )]
1 pi 1 pi

Par ailleurs :
E(Ni2 ) = V (Ni ) + E 2 (Ni ) = npi (1 pi ) + n 2 pi2
do :
n npi
E(Ni N j ) = npi p j ( 1 ) = n(n 1) pi p j
1 pi 1 pi
et enfin :
Cov(Ni ,N j ) = npi p j (n 1 n) = npi p j
La matrice de variances-covariances de N scrit donc :
V (N ) = n[ pi (ji p j )]1i, j k
o ji est le symbole de Kronecker qui vaut 1 quand i = j et 0 sinon.
B. Loi normale vectorielle

Nous allons dfinir la loi normale multidimensionnelle partir de la loi norma-
le qui a t dfinie dans R au chapitre 3.
Dfinition
Un vecteur alatoire X valeurs dans Rn suit une loi normale si toute com-
binaison linaire de ses composantes (qui sont des v.a. relles) suit une loi nor-
male dans R . Si a est un vecteur de Rn qui dfinit une telle combinaison
linaire, ceci scrit :
n
X Nn a Rn , t a X = ai X i N1
i=1
Remarque
Pour ne pas introduire de restrictions sur les coefficients de la combinaison
linaire, on adoptera comme convention que la loi de Dirac m (cf. chap. 3,
I, A) se confond avec la loi normale N (m,0) dcart type nul.
Il dcoule immdiatement de la dfinition que toutes les composantes dun

vecteur normal sont des v.a. relles normales, puisquil suffit de choisir toutes
les coordonnes de a nulles, sauf ai = 1,1 i n et ainsi t a X = X i N1 .
Cependant, il faut faire attention que la rciproque de cette proprit est fausse
en gnral, cest--dire que si toutes les v.a. X i suivent des lois normales, il nest
pas certain que X soit un vecteur normal. Cest pour cela que lon ne peut pas
dfinir un vecteur normal comme ayant des composantes normales, sauf dans un
cas particulier que nous verrons ultrieurement.

Comme dans le cas unidimensionnel, la loi normale en multidimensionnel

est entirement dtermine par deux paramtres qui sont ici le vecteur esprance
= E(X) et la matrice variances-covariances = V (X) , la densit au point
x = (x1 ,. . . ,xn ) ayant pour expression :
1 1
f (x) = exp t (x ) 1 (x )
( 2)n det 2
il sagit de la gnralisation de lexpression de la densit de la loi N1 (, 2 ) que

lon peut crire sous une forme quivalente, dans le cas o x R :
1 1
f (x) = exp t (x )( 2 )1 (x )
2 2 2
Le terme de lexponentielle fait intervenir la mtrique dfinie par la matrice

1 : x 21 . On crit symboliquement : X Nn (,) . Remarquons que
cette notation nest pas homogne avec celle retenue en unidimensionnel, puis-
quen faisant n = 1 le second paramtre est ici la variance alors que figurait
dans le cas rel lcart type comme second paramtre. On peut remdier cet
inconvnient en distinguant dans le cas rel les notations N1 (, 2 ) et N (, ) .
Exemple 4.13
tudions le cas particulier de la loi normale dun couple (X,Y ) dont la
densit scrit pour || < 1 :
1 1
f (x,y) = exp
2 X Y 1 2 2(1 2)

2
2
x X x X y Y y Y
2 +
X X Y Y
Par identification avec lexpression gnrale de la densit de la loi nor-

male, nous allons voir comment interprter les cinq paramtres qui appa-
raissent ici. Tout dabord on voit que det = X2 Y2 (1 2 ) . Par ailleurs,
on remarque aussi que le crochet de lexponentielle est une forme qua-
dratique de x X et y Y qui peut scrire :
1
[ 2 (x X )2 2 X Y (x X )(y Y ) + X2 (y Y )2 ]
Y2 Y
2
X
Le terme de lexponentielle peut donc scrire :

1 Y2 X Y x X
(x X y Y )
2 det X Y X2 y Y

On voit bien alors sous cette forme que (X,Y ) est un couple de v.a. nor-
males, desprances respectives X = E(X) et Y = E(Y ) et de
matrices variances-covariances vrifiant :

1 1 Y2 X Y
=
det X Y X2
do :

X2 X Y
=
X Y Y2
ce qui permet den dduire que X2 = V (X), Y2 = V (Y ) et

Cov(X,Y ) = X Y donc = Corr(X,Y ) .
Nous allons dterminer maintenant la rgression de Y sur X :
+
E(Y |X = x) = y f Y (y|X = x)dy

avec ici :

f (x,y) 1 1
f Y (y|X = x) = = exp g(x,y)
f X (x) 2(1 2 )Y 2(1 2 )
o :

2
2
x X x X y Y y Y
g(x,y) = 2 +
X X Y Y

2
x X
(1 2 )
X

2
y Y x X
=
Y X
Pour calculer lintgrale, on fait donc le changement de variable :
y Y x X
= u 1 2 et dy = Y 1 2 du.
Y X
On obtient alors :
+
1 Y 2
E(Y |X = x) = [uY 1 2 + (x X ) + Y ]eu /2 du
2 X
Y
= (x X ) + Y
X
la fonction de rgression dune variable dun couple normal sur lautre
est donc une fonction affine, cest--dire que la courbe de rgression est
ici une droite. Dans le cas particulier o les variables sont centres et
rduites on obtient la rgression linaire E(Y |X) = X .

Cas particulier
Aprs la dfinition de la loi normale vectorielle, nous avions not que n v.a.
relles normales ne constituaient pas ncessairement les composantes dun vec-
teur normal. Cependant, si X 1 ,. . . ,X n sont des v.a. normales indpendantes, de
lois respectives N (i ,i ),1 i n , alors elles constituent les composantes
dun vecteur X normal, toute combinaison linaire de v.a. normales indpen-
dantes suivant une loi normale. Ses paramtres sont :
2
1
1 0

E(X) = ... et V (X) = ..
.

n 0
n2
avec pour densit au point x = (x1 ,. . . ,xn ) :

n
1 1
f (x) = exp 2 (xi i )2
i=1 i 2 2i
n
2
1 1 xi i
= exp
( 2)n i=1 i
n
2 i=1 i
Dans le cas particulier de variables centres et rduites, cest--dire pour

i = 0 et i = 1,1 i n , on obtient la loi normale standard vectorielle,
X Nn (0,In ) , de densit :
1 1 n
1 1
f (x) = exp xi2 = exp x2
( 2)n 2 i=1
(2)n/2 2
la norme tant ici la norme euclidienne classique.
Proprit
Si X i et X j sont les composantes dun vecteur normal, elles sont indpen-
dantes si et seulement si leur covariance est nulle : Cov(X i ,X j ) = 0 .
Nous avons ici un cas particulier o la covariance nulle implique lindpen-

dance. Il faut cependant bien faire attention lnonc de cette proprit, car si
X i et X j sont deux variables normales dont la covariance est nulle, cela nim-
plique pas forcment quelles soient indpendantes. Pour sen convaincre exa-
minons lexemple suivant.
Exemple 4.14
1
Soit X de loi N (0,1) et de loi dfinie par P( = 1) = P( = 1) =
2
deux v.a. indpendantes partir desquelles on dfinit la v.a. Y = X. La
loi de probabilit de cette nouvelle variable est dfinie par :

P(Y < y) = P( X < y)

= P{( X < y) ( = 1)} + P{( X < y) ( = 1)}
1 1
= P(X < y) + P(X < y)
2 2
1
= [(y) + 1 (y)] = (y)
2
o est la f.r. de la loi N (0,1) qui est donc la loi suivie par Y . Par
ailleurs :
Cov(X,Y ) = E(X Y ) E(X)E(Y ) = E( X 2 ) = E()E(X 2 ) = 0
Si on en concluait que X et Y taientdeux variables indpendantes, la

v.a. X + Y suivrait alors une loi N (0, 2) . Or :
1
P(X + Y = 0) = P{( + 1)X = 0} = P( = 1) =
2
ce qui est incompatible avec le fait que la loi de X + Y soit continue. On
a donc tabli que X et Y sont deux variables normales de covariance
nulle et cependant dpendantes.
Transformation affine dun vecteur normal

Soit X un vecteur de loi Nn (,) et de composantes X i ,1 i n . Nous allons
effectuer une transformation affine partir dune matrice A de format (m,n) ,
traduction matricielle dune application linaire de Rn dans Rm , et dun vecteur
de translation b de Rm : Y = AX + b. Nous allons tablir tout dabord que le
vecteur Y est aussi normal. En effet, si a est un vecteur quelconque de Rm , la
combinaison linaire :

n
t
aY = (t a A)X + t ab = i X i + N1
i=1
ayant pos t = t a A , vecteur de composantes i ,1 i n , et = t ab R .

En effet, par dfinition de la loi normale vectorielle, la combinaison linaire
t
X est une v.a. relle normale et donc aussi t X + . Ainsi, toute combi-
naison linaire des composantes de Y suit une loi normale, ce qui signifie par
dfinition que Y est un vecteur normal de Rm . Daprs les proprits des op-
rateurs esprance et variance vues au III, ses moments sont E(Y ) =
AE(X) + b = A + b = et V (Y ) = A t A = , et ainsi Y Nm ( , ) .
Dans le cas particulier dune transformation linaire, cest--dire avec b = 0,
et pour un vecteur X de loi normale standard, X Nn (0,In ) , alors :
Y = AX Nm (0,A t A) .

Loi du khi-deux
Soit un vecteur X de loi normale standard Nn (0,In ) et A une matrice symtrique
dordre n . On tablit le rsultat suivant :
t
X AX p2 A est une matrice idempotente de rang p .
Rappelons que A est idempotente si A2 = A et que dans ce cas

rang A = trace A .
Si A et B sont deux matrices symtriques et idempotentes, on a galement
le rsultat suivant :
t
X AX et t
X B X sont des v.a. indpendantes AB = 0 .
retenir
Deux v.a. sont indpendantes si la loi du couple sobtient comme pro-
duit des lois marginales : produit des probabilits des points dans le cas dis-
cret et produit des densits dans le cas continu.
La covariance est une mesure de la dpendance linaire entre deux v.a.
Deux v.a. indpendantes ont une covariance nulle. La rciproque est fausse
en gnral. Cependant, si deux v.a. sont des composantes dun vecteur nor-
mal et que leur covariance est nulle, alors elles sont indpendantes.
La fonction de rgression dune variable Y sur une variable X associe
tout rel x lesprance (moyenne) de Y lorsque la valeur de X est fixe,
gale x.
Un vecteur alatoire admet comme composantes des variables alatoires
relles. On lui associe comme moments son esprance, caractristique de
valeur centrale, vecteur dont les composantes sont les esprances des v.a.
composantes, et sa matrice de variances-covariances, caractristique de dis-
persion dans lespace, qui rassemble les variances des composantes sur la
diagonale principale et les covariances des composantes associes deux
deux pour les autres lments.
Par une transformation affine (changement dchelles et dorigine), les
moments deviennent :
E(AX + b) = AE(X) + b
V (AX + b) = AV (X) t A
pour toute matrice A de format (m,n) et tout vecteur b de Rm .

Complments
A. Application mesurable
Les notions vues dans le chapitre 2 se gnralisent en multidimensionnel, o Rn est
muni de sa tribu borlienne B , engendre par les ouverts ou les pavs de la forme

n
] ,xi [ . Un vecteur alatoire X est alors dfini comme une application mesurable
i=1
de (,A) dans (Rn ,B) . La loi de X admettra une densit si elle est absolument conti-
nue par rapport la mesure de Lebesgue de Rn , dfinie partir de :

n
n
( ]ai ,bi ]) = (bi ai ) .
i=1 i=1
B. Changement de variable
Soit g : Rn Rn une application bijective de X () , ouvert de Rn , dans un ouvert de
Rn , admettant des drives partielles continues ainsi que son inverse g 1 . Si X est un
vecteur alatoire de Rn de densit f , alors Y = g(X) est un vecteur alatoire de Rn de
densit h dfinie par :

D(x)
h(y) = f g 1 (y)
D(y)
D(x)
o reprsente le jacobien de la transformation inverse, cest--dire le dterminant
D(y)
des drives partielles des anciennes variables exprimes en fonction des nouvelles sous
la forme xi = gi1 (y),1 i n , donc ayant comme lment ligne i , colonne j ,

1 j n :
gi1 (y)
yj
Si on retient comme application la convolution, pour obtenir la loi de la somme de n

v.a. indpendantes X 1 ,. . . ,X n on fait le changement X 1 = X 1 ,. . . ,X n1 = X n1 ,
Y = X 1 + . . . + X n . Les anciennes coordonnes scrivent sous la forme
x1 = x1 ,. . . ,xn1 = xn1 ,xn = y x1 . . . xn1 do un jacobien gal un et une
densit de Y qui se dtermine par :

h(y) = f (x1 ,. . . ,xn1 ,y x1 . . . xn1 )dx1 . . . dxn1
Rn1

Dans le cas dun couple alatoire (X,Y ) transform par lapplication g en couple
(U,V ) on dtermine les anciennes coordonnes en fonction des nouvelles sous la forme
x = x(u,v) et y = y(u,v) et llment diffrentiel f (x,y)dxdy est transform en
D(x,y)
f [g 1 (u,v)]| |dudv o :
D(u,v)
x(u,v) x(u,v)

D(x,y) u v

=
D(u,v) y(u,v) y(u,v)

u v

Exercices
noncs
Exercice n1
Soit (X,Y ) un couple de v.a. discrtes dont la loi de probabilit est donne par le tableau
ci-aprs :
Y 1 2 3 4
X
1 0,08 0,04 0,16 0,12
2 0,04 0,02 0,08 0,06
3 0,08 0,04 0,16 0,12
1) Dterminer les lois marginales de X et Y et prciser si ces v.a. sont indpendantes.

2) Calculer Cov(X,Y ) .
3) Dterminer la loi du couple (min{X,Y },max{X,Y }) .
Exercice n2
Une urne contient une boule numrote 1, deux boules numrotes 2 et trois numrotes
3. On effectue deux tirages successifs sans remise dans cette urne. Soit X et Y les v.a.
qui reprsentent respectivement les chiffres obtenus au premier et au second tirage.
Dterminer la loi de probabilit de S = X + Y puis calculer E(S) et V (S) .
Exercice n3
ci-aprs :
X 0 1 2
Y
1 1/12 0 1/12
2 2/12 1/12 1/12
3 3/12 2/12 1/12
1) Dterminer les lois marginales de X et Y et prciser si ces v.a. sont indpendantes.

2) Calculer Cov(X,Y ) .
3) En dduire la loi de probabilit de la variable alatoire E(Y |X). Calculer E[E(Y |X)] ;
le rsultat tait-il prvisible ?

Exercice n4
ci-aprs :
Y 1 2 3 4
X
1 0 0 0 0,3
2 0,2 0 0 0
3 0 0 0,1 0
4 0,3 0,1 0 0
Dterminer les lois conditionnelles de X sachant que Y = 1 puis de Y sachant que

X {3,4} .
Exercice n5
Soit X et Y deux v. a. de loi normale centre et rduite et de coefficient de corrlation
1
linaire = sin . On montre que P(X > 0,Y > 0) = + = p.
4 2
1) Dterminer la loi de probabilit des v. a. X et Y et en dduire la valeur de
P(X < 0,Y < 0) .
2) Soit X 1 et X 2 deux v. a. qui ont la mme loi que X et Y1 , Y2 deux v. a. qui ont la mme
loi que Y , les couples (X 1 ,Y1 ) et (X 2 ,Y2 ) tant indpendants. Dterminer les lois de pro-
babilit des v. a. U = X 1 X 2 et V = Y1 Y2 . Calculer le coefficient de corrlation
linaire de U et V et en dduire P(U > 0,V > 0) .
3) On dfinit les v. a. W = 1 si U > 0, W = 1 si U < 0, Z = 1 si V > 0 et Z = 1
si V < 0. Calculer E(W Z ) .
Exercice n6
Soit X et Y deux v.a. indpendantes de lois de Poisson de paramtres respectifs et .
Dterminer la loi conditionnelle de X lorsque la somme S = X + Y a une valeur fixe
S = s . En dduire lexpression de la fonction de rgression de X sur S puis la valeur de
E[E(X|S)] .
Exercice n7
Un couple (X,Y ) de variables alatoires relles admet pour densit
f (x,y) = exp(y x) pour 0 y 1 et y x , avec f (x,y) = 0 sinon.
Dterminer les densits marginales de X et Y . Les variables alatoires X et Y sont-elles
indpendantes ?
Exercice n8
Paul et Virginie se fixent un rendez-vous entre 11h et midi, sans autre prcision. Comme
ils sont impatients tous les deux, celui qui est arriv part au bout d'un quart d'heure si
l'autre n'arrive pas pendant ce laps de temps. Calculer la probabilit p qu'ils se rencon-
trent effectivement ce rendez-vous. On formalisera le problme en considrant que l'ar-
rive de chacun se produit au hasard pendant l'heure fixe du rendez-vous.

Exercice n9
Soit (X,Y ) un couple de v.a. dont la loi est dtermine par la densit :

x y/2 si 0 x 2 et 0 y x
f (x,y) =
0 sinon
1) Dterminer la fonction de rpartition F de ce couple.
2) Dterminer les lois marginales de X et Y . Ces variables sont-elles indpendantes ?
3) Dterminer la loi conditionnelle de Y sachant que X = x .
Exercice n10
Soit (X,Y ) un couple de v.a. de densit :
k
si 0 < x y < 1
f (x,y) = xy
0 sinon
1) Dterminer la valeur de la constante k puis la fonction de rpartition F de ce couple.
2) Dterminer les lois marginales de X et Y . Ces variables sont-elles indpendantes ?
3) Dterminer les lois conditionnelles de X|Y = y et de Y |X = x . En dduire
lexpression de la fonction de rgression x E(Y |X = x) puis calculer E[E(Y |X)] .
Exercice n11
Soit X et Y deux v.a. indpendantes et de mme loi uniforme sur ] 1,1[ . Dterminer
la loi de probabilit de la v.a. Z = Y X .
Exercice n12
Soit (X,Y ) un couple de v.a. de densit :
1 1
f (x,y) = exp (1 + a) x 2 + 2 (1 + 2a) x y + (1 + 4a) y 2
2 a 2a
avec a > 0.
1) Dterminer les lois marginales de X et Y. Ces variables sont-elles indpendantes ?
1
2) Dterminer la loi de la v.a. Z = (X + Y )2 .
a
Exercice n13
Si X est un vecteur de loi Nn (,) , montrer que la v.a. relle t (X ) 1 (X )

suit une loi du khi-deux n degrs de libert.
Exercice n14
Soit X 1 ,X 2 et X 3 trois v.a. indpendantes de mme loi N (0,1) . Dterminer la loi de
probabilit des v.a. suivantes :
1 (X 1 + X 2 )2 X1 + X2
U = (X 2 X 1 ), V = , W =
2 (X 1 X 2 )2
(X 1 X 2 )2
1
Y = (5X 12 + 2X 22 + 5X 32 + 4X 1 X 2 2X 1 X 3 + 4X 2 X 3 )
6
Z = X 12 + X 22 + X 32 Y
et montrer que Y et Z sont indpendantes.

Corrigs
Exercice n1
1) Les lois marginales sobtiennent par sommation de lignes et de colonnes et figurent
dans le tableau ci-aprs :
Y 1 2 3 4
X
1 0,08 0,04 0,16 0,12 0,4
2 0,04 0,02 0,08 0,06 0,2
3 0,08 0,04 0,16 0,12 0,4
0,2 0,1 0,4 0,3 1
On constate que toutes les probabilits des couples (x,y) sobtiennent en faisant le pro-
duit des probabilits marginales, donc X et Y sont indpendantes.
2) On dduit de la question prcdente que Cov(X,Y ) = 0 .
3) La loi du couple (min{X,Y },max{X,Y }) est donne dans le tableau ci-aprs :
max{X,Y } 1 2 3 4
min{X,Y }
1 0,08 0,08 0,24 0,12
2 0 0,02 0,12 0,06
3 0 0 0,16 0,12
Donnons un exemple de la faon dont ce tableau a t constitu :
P(min{X,Y } = 2,max{X,Y } = 3) = P(X = 2,Y = 3) + P(X = 3,Y = 2)

= 0,08 + 0,04 = 0,12
Exercice n2
On dtermine dabord la loi du couple (X,Y ) donne dans le tableau ci-aprs :
X 1 2 3
Y
1 0 1/15 1/10
2 2/30 1/15 1/5
3 3/30 3/15 1/5
On en dduit la loi de S :
S 3 4 5 6
2/15 4/15 2/5 1/5
On obtient E(S) = 14/3 et V (S) = 8/9 .

Exercice n3
1) Les lois marginales sobtiennent par addition des lignes et des colonnes et figurent
dans le tableau ci-aprs :
X 0 1 2
Y
1 1/12 0 1/12 1/6
2 2/12 1/12 1/12 1/3
3 3/12 2/12 1/12 1/2
1/2 1/4 1/4 1
On voit par exemple que P(X = 1,Y = 1) = 0 = / P(X = 1)P(Y = 1) = 1/24

donc les v.a. X et Y ne sont pas indpendantes.
1 2 3 1 2 3 7
+ = , E(Y ) = + + = puis
2) On calcule partir du tableau E(X) =
4 4 4 6 3 2 3
1 5 5 7 1
E(X Y ) = (2 + 6 + 2 + 4 + 6) = . On en dduit Cov(X,Y ) = =
12 3 3 4 12
ce qui confirme que les variables ne peuvent pas tre indpendantes.
3) Il faut au pralable dterminer les lois conditionnelles de Y qui sont donnes dans le
tableau ci-aprs :
Y 1 2 3
X =0 1/6 1/3 1/2

X =1 0 1/3 2/3
X =2 1/3 1/3 1/3
On calcule alors partir du tableau prcdent :

7 8
E(Y |X = 0) = E(Y |X = 1) = E(Y |X = 2) = 2
3 3
On en dduit la loi :
E(Y |X) 2 7/3 8/3

1/4 1/2 1/4
puis la valeur :
2 7 2 7
E[E(Y |X)] = + + =
4 6 3 3
On retrouve bien la valeur de E(Y ).
Exercice n4
Comme P(Y = 1) = 0,5 la loi de X|Y = 1 sobtient en multipliant la premire colon-
ne par deux et est donne par le tableau ci-aprs :

X|Y = 1 1 2 3 4
0 0,4 0 0,6
On a P(X {3,4}) = 0,5 ; on additionne les deux dernires lignes et ensuite on multi-
plie aussi par deux pour obtenir la loi de Y |X {3,4} , donne dans le tableau ci-dessous :
Y |X {3,4} 1 2 3 4
0,6 0,2 0,2 0
Exercice n5
1) On a :
P(X < x) = P(X > x) = 1 (x) = (x) = P(X < x)
donc X et Y suivent aussi des lois normales centres et rduites. On en dduit :
P(X < 0,Y < 0) = P(X > 0,Y > 0) = p
2) Toute combinaison linaire de v. a. normales indpendantes suit une loi normale, donc
U et V suivent des lois normales centres et de variance 2. On calcule :
Cov(U,V ) = E(U V ) = E(X 1 Y1 ) E(X 1 Y2 ) E(X 2 Y1 ) + E(X 2 Y2 ) = 2
On en dduit corr(U,V ) = puis :

U V
P(U > 0,V > 0) = P > 0, > 0 = p .
2 2
3) On calcule :
E(W Z ) = P(W Z = 1) P(W Z = 1) = 2P(W Z = 1) 1 .

Ensuite :
P(W Z = 1) = P(W = Z = 1) + P(W = Z = 1) = P(U > 0,V > 0)
+ P(U < 0,V < 0) = 2 p
Ainsi : 2
E(W Z ) = 4 p 1 =

Exercice n6
Nous savons que S suit une loi de Poisson de paramtre + et par consquent,
pour 0 x s :
P(X = x,S = s) P(X = x)P(S = s|X = x)
P(X = x|S = s) = =
P(S = s) P(S = s)
P(X = x)P(Y = s x) s! x sx
= =
P(S = s) x!(s x)! ( + )s

x
sx
s
= 1
x + +

ce qui montre que la loi de X|S = s est une loi binmiale de paramtres s et ,
donc desprance : +

E(X|S = s) = s
+


Ainsi, E(X|S) = S et E[E(X|S)] = E(S) = = E(X) .
+ +
Exercice n7
Les densits marginales sobtiennent par intgration de la densit du couple :
x
f X (x) = e yx d y = 1 ex si 0 x 1
0
1
f X (x) = e yx d y = (e 1)ex si 1 x
0
avec f X (x) = 0 si x 0 ;
+
et : f Y (y) = e yx d x = 1 si 0 y 1
y
la densit tant nulle en dehors de cet intervalle.

Les variables alatoires X et Y sont dpendantes car f (x,y) =
/ f X (x) f Y (y)
Exercice n8
On note X et Y les v.a. qui reprsentent les dates d'arrive de Paul et Virginie leur ren-
dez-vous, en prenant 11h comme origine et l'heure comme unit de temps. Leur arrive
au hasard se traduit par l'hypothse que ces deux v.a. suivent une loi uniforme sur [0,1]
et sont indpendantes. Leur rencontre correspond alors l'vnement |X Y | < 14 et la
probabilit p s'obtient par l'intgrale suivante :

1
p = P |X Y | < = d xd y
4 D

o le domaine d'intgration est D = (x,y) /0 x 1,0 y 1,|x y| < 14 .
Compte tenu de la forme de ce domaine et de sa symtrie par rapport la premire bis-
sectrice (cf. figure 4.7), il est prfrable de calculer la probabilit du complmentaire :
3/4 1 3/4

3 9
1 p =2 dx dy = 2 x dx =
0 x+1/4 0 4 16
Ainsi p = 7
16
.
y y=x + 1
4
y=x 1
4
1
D
1/4
0 1/4 3/4 1 x
Figure 4.5

Exercice n9
1) Si x 0 ou y 0 on a bien sr F(x,y) = 0 puisque la densit est nulle dans toute
cette zone du plan. Pour un point M(x,y) situ dans le triangle o f > 0 , cest--dire
pour 0 < y x 2 on obtient (voir figure 4.6) :
x
1 y 1 y
F(x,y) = vdv udu = v(x 2 v 2 )dv
2 0 v 4 0
1 x 2 y2 y4 y2
= ( )= (2x 2 y 2 )
4 2 4 16
Nous allons maintenant sortir du triangle, sur lhorizontale droite de M(x,y) pour
nous situer en un point M1 (x,y) de coordonnes telles que 0 < y < 2 x . La valeur
de F en ce point est la mme quau point dintersection de lhorizontale avec la fronti-
re du triangle puisquau-del f = 0 , soit :
y2
F(x,y) = F(2,y) = (8 y 2 )
16
v u=v
M2
2
y u=v M1
M(x,y)
u=x
0 x 2 u
Figure 4.6
Si on sort du triangle sur la verticale de M pour atteindre un point M2 (x,y) de coor-

donnes telles que 0 < x y et x 2 , on obtient de mme :
x4
F(x,y) = F(x,x) =
16
Enfin, si x 2 et y 2 , tout le triangle est recouvert et F(x,y) = 1 . En rsum :

0 si x 0 ou y 0

1

y (2x 2 y 2 )
2
si 0 < y x < 2

16
1 4
F(x,y) = x si 0 x 2 et x y

16

1 2

y (8 y 2 ) si 0 y 2 x

16
1 si x 2 et y 2

2) Les densits marginales sobtiennent par intgration de la densit du couple ; pour

0x 2 : x
x x3
f X (x) = ydy =
2 0 4
et pour 0 y 2 :
2
y y
f Y (y) = xdx = (4 y 2 )
2 y 4
Le produit f X (x) f Y (y) est diffrent de f (x,y) donc les variables X et Y ne sont pas
indpendantes.
3) La densit de Y sachant que X = x a pour expression quand 0 y x :
xy 4 2y
f (y|X = x) = 3 = 2
2 x x
Exercice n10
1) Lintgrale de f sur R2 doit tre gale 1 ; elle se rduit lintgrale sur le domaine
D o elle est non nulle :
1 1 1
dxdy dx dy 1
1=k =k = 2k ( 1)dx = 2k
D xy 0 x x y 0 x
donc k = Remarquons que si lexpression de f est symtrique en x et y , il nen est pas
1
2
.
de mme du domaine D et il aurait t plus rapide ici dintgrer dabord par rapport x .
Si on note le domaine dfini par x < x0 et y < y0 , par dfinition
F(x0 ,y0 ) = f (x,y)dxdy . Bien entendu, si x 0 0 ou y0 0, na aucun point
commun avec D o f > 0 , donc F(x0 ,y0 ) = 0 . Pour un point M(x0 ,y0 ) situ
dans D maintenant (voir figure 4.9) cest--dire tel que 0 < x0 y0 < 1 :
y0
dxdy dx
1 dy 1 x0 dx
x0
F(x0 ,y0 ) = = = (2 y0 2 x)
D 2 xy
0 2 x x y 2 0 x
x0
y0
= ( 1)dx = x0 (2 y0 x0 )
0 x
y
M2 (x0,y1)
1
D
M (x0,y0)
y0 M1 (x1,y0)
y=x
0 x0 1 x
Figure 4.7

Notons quici il fallait dabord intgrer par rapport y , car sinon il aurait fallu sparer
D en deux domaines dintgration. Pour les autres zones du plan, si nous quittons
D sur une horizontale, droite du point prcdent, la valeur de F au point M1 (x1 ,y0 )
est la mme quau point dintersection avec la frontire de D , puisquau-del f = 0 , soit
pour un point de coordonnes telles que x1 > y0 > 0 et y0 < 1 :
F(x1 ,y0 ) = F(y0 ,y0 ) = y0
Si maintenant nous quittons le domaine D sur une verticale au-dessus du point
M(x0 ,y0 ) , nous atteignons un point M2 de coordonnes x0 et y1 , avec
0 < x0 < 1 y1 et en ce point :

F(x0 ,y1 ) = F(x0 ,1) = x0 (2 x0 )
Enfin, si x0 > 1 et y0 > 1 , alors D = D et F(x0 ,y0 ) = 1 . En rsum :

0 si x 0 ou y 0

2 x y x si 0 < x y < 1
F(x,y) = 2 x x si 0 < x < 1 y

y si 0 < y < x et y 1
1 si x 1 et y 1
2) On peut en dduire les f.r. marginales :

0 si x 0
FX (x) = F(x,+) = 2 x x si 0 < x 1

1 si 1 x

0 si y 0
FY (y) = F(+,y) = y si 0 y 1

1 si 1 y
On en dduit les densits par drivation ; pour 0 < x 1 :

1
f X (x) = 1 ,
x
rsultat que lon peut retrouver par intgration de f :
+ 1
dy 1 1
f X (x) = f (x,y)dy = = [ y]1x = 1
x 2 xy x x
La loi de Y est la loi uniforme sur [0,1] , avec f Y (y) = 1 si 0 y 1 .

Comme f X (x) f Y (y) =
/ f (x,y) on en conclut que X et Y ne sont pas indpendantes.
3) Les lois conditionnelles peuvent se dfinir par leurs densits. Pour 0 < y0 < 1 , quand
0 < x y0 :
f (x,y0 ) 1
f X (x|Y = y0 ) = =
f Y (y0 ) 2 x y0
Pour 0 < x0 < 1 et quand x0 < y 1 :

f (x0 ,y) 1
f Y (y|X = x0 ) = =
f X (x0 ) 2(1 x0 ) y

On peut alors dterminer la rgression :

1 1
y 1 x0 x0 1
E(Y |X = x0 ) = dy = = (1 + x0 + x0 )
2(1 x0 ) x0 y 3(1 x0 ) 3
On calcule alors :
+ 1
1 1 1
E[E(Y |X)] = E(Y |X = x) f X (x)dx = ( x)dx =
3 0 x 2
qui est bien la valeur de E(Y ) .
Exercice n11
1
Les v.a. X et Y ont la mme densit f (t) = 1]1,1[ (t) et comme elles sont indpen-
2
dantes, la densit du couple (X,Y ) est f (x) f (y) . Pour obtenir la densit du couple
(X,Z ) on effectue le changement de variable suivant :

x=x
z = yx
Les anciennes variables sexpriment alors par :

x=x
y =z+x
ce qui permet de dterminer le jacobien de la transformation :

D(x,y) 1 0
= =1
D(x,z) 1 1
Le couple (X,Z ) a donc pour densit f (x) f (x + z) et la densit marginale de Z sob-
tient par intgration :
+
g(z) = f (x) f (x + z)dx

Lintgrande sera non nulle si on a simultanment 1 < x < 1 et 1 z < x < 1 z ,

soit max{1,1 z} < x < min{1,1 z} . Nous allons distinguer deux cas :
si z < 0 :
1 1 z 1 1z
la densit est non nulle pour 1 z < x < 1 , condition qui ne peut tre ralise que si
1 z < 1 , soit z > 2 ; dans ce cas :
1
1 1
g(z) = dx = (2 + z)
1z 4 4
si z > 0 :
1 z 1 1z 1
la densit est non nulle pour 1 < x < 1 z , condition qui ne peut tre ralise que si
1 < 1 z , soit z < 2 ; dans ce cas :

1z
1 1
g(z) = dx = (2 z)
1 4 4
On obtient ainsi :
1
(2 |z|) si 2 < z < 2
g(z) = 4
0 sinon
Exercice n12
1) L'argument de l'exponentielle dans la densit peut aussi s'crire :
! "
(1 + a) (1 + 4a) x2 1 + 2a y2
+2 xy +
2a 1 + 4a (1 + 4a) (1 + a) 1+a
L'exemple 4.1.3 montre que le couple (X,Y ) suit une loi normale, donc les lois margi-
nales de X et Y sont des lois normales centres de variances respectives X2 = 1 + 4a et
Y2 = 1 + a. Enfin, par identification on voit que :
1 + 2a
=
X Y (1 + 4a) (1 + a)
1 + 2a
donc = et par consquent Cov (X,Y ) = 1 2a. Les variables X et Y
X Y
sont donc dpendantes.
2) La dfinition d'un vecteur normal implique que la combinaison linaire X + Y suive
une loi normale, avec :
E (X + Y ) = 0 et V (X + Y ) = V (X ) + 2Cov (X,Y ) + V (Y ) = a
On en dduit que Z suit une loi 12 tant le carr d'une v.a. de loi normale centre et rduite.
Exercice n13
La matrice est symtrique relle, rgulire et dfinie positive, donc il existe une matrice
orthogonale S (i.e. telle que S 1 = t S ) telle que S 1 S = D , o D est une matrice
diagonale dlments i ,1 i n . Ainsi :
Z = t (X ) 1 (X ) = t (X )S D 1 S 1 (X )
Le vecteur Y = S 1 (X ) = t S(X ) suit une loi normale centre, de matrice
variances-covariances V (Y ) = S 1 S = D qui est diagonale, donc ses composantes
Yi ,1 i n , sont indpendantes, de loi N (0, i ) . On obtient alors :

n
Y2
Z = t Y D 1 Y = i
i=1
i
qui est la somme des carrs de n v.a. normales indpendantes centres et rduites, donc
suit une loi n2 .
la matrice A = D 1/2 S 1 , o la matrice D 1/2 est
On aurait pu galement introduire
la matrice diagonale dlments 1/ i , le vecteur U = D 1/2 Y = A(X ) suivant

n
une loi normale standard, avec Z = t UU = Ui2 n2 . Par ailleurs, si on pose
B = A1 : i=1
1/2 1
B B = SD
t 1/2
D S = S DS 1 =

donc la matrice peut scrire sous la forme B t B et le vecteur X sous la forme

X = BU + , avec U Nn (0,In ) .
Exercice n14
La variable U est une combinaison linaire de deux v.a. normales indpendantes
et centres, donc suit aussi une loi normale centre, de variance
V (U ) = 12 [V (X 1 ) + V (X 2 )] = 1 .
De mme, la v.a. U = 1 (X 1+ X 2 ) suit une loi normale centre rduite. Dautre part :
2

1 1 1 X1 1 X1 + X2 U
= =
2 1 1 X2 2 X2 X1 U
suit une loi normale dans R2 , comme image linaire du vecteur normal de composantes
X 1 et X 2 . Les composantes de ce vecteur normal sont telles que :
1
Cov(U,U ) = E(UU ) = [E(X 22 ) E(X 12 )] = 0
2
donc elles sont indpendantes. Ainsi, V = U 2 /U 2 est le rapport de deux lois 12 ind-
pendantes,donc suit une loi de Fisher-Snedecor F(1,1) (cf. chap. 5, III, B). Le rapport
W = U / U 2 suit une loi de Student (cf. chap. 5, III, A) un degr de libert, cest--
dire la loi de Cauchy.
Si X est le vecteur normal de composantes X 1 ,X 2 et X 3 , on peut crire Y = t X AX en
ayant pos :
5 2 1
1
A= 2 2 2
6
1 2 5
La matrice A tant symtrique et idempotente (A2 = A) , avec rang A = trace A = 2 ,
on en conclut que Y suit une loi 22 .
Dautre part, Z = t X X Y = t X (I A)X 12 car I A est une matrice sym-
trique idempotente, de rang gal sa trace, cest--dire un. De plus : A(I A) =
A A2 = A A = 0 , donc Y = t X AX et Z = t X (I A)X sont indpendantes.

5. Loi empirique
S
i le hasard conduit un rsultat non prvisible, lobservation de
plusieurs rsultats dune mme exprience alatoire permettra
cependant de choisir judicieusement le modle alatoire retenir.
En jetant un d plusieurs fois conscutivement et en notant le rsultat
l'issue de chaque jet, nous obtenons une suite de nombres entiers com-
pris entre un et six, obtenus dans les mmes conditions et de faon ind-
pendante, que nous pourrons appeler chantillon de la loi associe un
jet de d, qui est on le sait la loi uniforme sur l'ensemble {1, 2, 3, 4, 5, 6}.
Si on calcule la frquence (pourcentage) observe de chacun de ces
chiffres, pour un nombre suffisament lev de lancers, on obtiendra une
distribution empirique (c'est--dire obtenue par l'observation) de
valeurs proches les unes des autres et proches de la valeur 16,7 %. Ceci
nous oriente donc vers la loi thorique qui est la loi uniforme attribuant
la mme probabilit 1/6 aux chiffres 1, 2, 3, 4, 5 et 6. C'est donc partir
d'observations qui vont constituer ce qu'on appelle un chantillon qu'on
pourra dterminer la distribution empirique nous permettant de retenir
la distribution thorique qui lui ressemble le plus, dans la liste des lois
usuelles vues au chapitre 3. Les tests d'adquation nous donnent des cri-
tres prcis permettant de retenir une loi thorique pour le modle, qui
paraisse raisonnable compte tenu des observations recueillies.

Objectif du chapitre : introduire la notion dchantillon, dfinir les lois de
Student et de Fisher-Snedecor associes un chantillon gaus-
sien et prsenter deux tests dadquation une loi donne.
Concepts cls tudis : chantillon, loi empirique, fonction de rpartition
empirique, moments empiriques, test du khi-deux, test de
Kolmogorov-Smirnov.
Loi empirique 149

I. chantillon dune loi

On appelle chantillon de taille n d'une loi de probabilit P, une suite
(X 1 ,. . . ,X n ) de variables alatoires indpendantes et de mme loi de probabili-
t P. On dit que P est la loi parente de l'chantillon. Pour tout de , la rali-
sation correspondante de l'chantillon se note (x1 ,. . . ,xn ) , ayant pos
xi = X i (),1 i n . Cette ralisation particulire tant parfois aussi appele
chantillon, on peut alors prciser dans le premier cas en disant que (X 1 ,. . . ,X n )
est un chantillon alatoire. Si X est une v.a. de loi P, on dit galement qu'il
s'agit d'un chantillon de la variable alatoire X.
partir d'un chantillon (X 1 ,. . . ,X n ) de X, nous dfinirons la loi de proba-
bilit empirique Pn , qui sera la distribution uniforme sur l'ensemble fini des
valeurs (X 1 ,. . . ,X n ), c'est--dire qui attribue la mme masse de probabilit 1/n
chacun des points X i ,1 i n, et qui peut se noter sous la forme :
1 n
Pn = X
n i=1 i
o a est la masse de Dirac au point a. Ainsi, pour tout intervalle I de R, sa pro-

babilit est gale au pourcentage de points de l'chantillon qui appartiennent
cet intervalle :
1 n
Pn (I ) = 1 I (X i )
n i=1
Cette loi de probabilit admet une fonction de rpartition, note Fn , appele

fonction de rpartition empirique et dfinie pour tout rel x par :
x
1 n
Fn (x) = d Pn = Pn (],x[) = 1],x[ (X i )
n i=1
qui reprsente le pourcentage de points observs qui sont situs avant x. Les v.a.

n
X 1 ,. . . ,X n tant indpendantes, la v.a. n Fn (x) = 1],x[ (X i ) suit une loi
i=1
binmiale de paramtres n et F(x) puisque
c'est la somme de n variables ind-
pendantes de Bernoulli, de paramtre P 1],x[ (X i ) = 1 = P (X i ],x[)
= F(x). Ainsi :
1
E [Fn (x)] = F(x) et V [Fn (x)] = F(x) [1 F(x)] 0 quand n .
n

II. Moments empiriques

La loi de probabilit empirique Pn admet des moments de tous ordres que l'on
nomme moments empiriques ou moments de l'chantillon et qui seront tous des
variables alatoires.
A. Moyenne empirique
La moyenne de l'chantillon alatoire est la moyenne de la loi empirique, c'est-
-dire l'esprance d'une loi uniforme discrte qui affecte le mme poids 1/n
chacune des valeurs X i et note :
1 n
Xn = Xi
n i=1
Cette v.a. admet comme esprance :
1 n
E(X n ) = E(X i ) = E(X) = m
n i=1
et comme variance :
1 n
V (X) 2
V (X n ) = V (X i ) = =
n 2 i=1 n n
Ainsi, X n a la mme moyenne que X, mais avec une variance qui est divise
par la taille de l'chantillon. Les autres moments centrs de X n ont pour expres-
sions :
3 4 n1
E(X n m)3 = 2 et E(X n m)4 = 3 + 3 3 4

n n n
B. Variance empirique
La variance de la loi empirique est celle d'une loi de moyenne X n et qui attribue
le mme poids 1/n a chacune des valeurs X i , soit :
1 n
2
Sn2 = Xi X n
n i=1
Loi empirique 151

Pour calculer les moments de cette variable alatoire, nous

allons l'exprimer

l'aide des v.a. centres en crivant X i X n = (X i m) X n m :

n
2
n
2
n
Xi X n = (X i m)2 + n X n m 2 X n m (X i m)
i=1 i=1 i=1
d'o on dduit :
1 n
2
Sn2 = (X i m)2 X n m
n i=1
Ceci permet d'obtenir aisment l'esprance de ce moment empirique :

2 n1 2
E(Sn2 ) = E(X m)2 E X n m = V (X) V (X n ) =
n
La valeur moyenne de la variance empirique n'est pas exactement gale la
variance thorique, c'est pourquoi on introduit la variance empirique modifie
(ou corrige) o on divise non pas par le nombre de termes de la somme, mais
par le nombre de termes indpendants, puisqu'ils sont lis par la relation
n

Xi X n = 0 :
1 2
i=1 n
Sn =
2
Xi X n
n 1 i=1
on a alors E(Sn2 ) = 2 . Le calcul de la variance est plus dlicat et on obtient :

4 n3 4
V (Sn2 ) =
n n(n 1)
o 4 = E (X m)4 . Pour la variance empirique on obtient :

(n 1)2 n1
V (Sn2 ) = 4 4
+ 2 3 4
n3 n
On peut galement prciser le lien existant entre moyenne et variance empi-

riques par le calcul de la covariance :
n1 3
Cov X n ,Sn2 = 2
3 et Cov X n ,Sn2 =
n n

Ainsi, pour toute loi symtrique, on a : Cov X n ,Sn2 = 0.

C. Moments empiriques
Le moment non centr d'ordre k N de cette loi empirique est :
1 n
m kn = Xk
n i=1 i
avec E(m kn ) = E(X k ) = m k et :

1 1 1
V (m kn ) = V (X k ) = E(X 2k ) E 2 (X k ) = (m 2k m 2k )
n n n
Le moment centr d'ordre k N de cette loi empirique est :
1 n
k
kn = Xi X n
n i=1
III. chantillon dune loi normale

Nous allons tudier le cas particulier o la v.a. X suit une loi normale N (m, ).
La moyenne empirique tant une combinaison linaire de v.a. normales ind-
pendantes suit aussi une loi normale :

X n N m,
n
La variance empirique est construite partir des variables :

1 1
Xi X n = Xj + 1 Xi
n j =/ i n
qui sont des combinaisons linaires de variables normalesindpendantes donc

sont aussi des variables normales, d'esprance
E X i X n = E(X i ) E(X n )
2
= 0 et de variance V (X i X n ) = E X i X n = E(Sn2 ) car toutes ces
variables ont la mme loi. La variable nSn2 est la somme des carrs de n
n

variables normales centres qui sont lies par la relation X i X n = 0 et
on peut dmontrer que : i=1
Sn2
n n1
2
2
Loi empirique 153

n1 2
On retrouve bien le rsultat gnral E(Sn2 ) = et on obtient ici,
n
n1
d'aprs les moments de la loi du khi-deux, V (Sn2 ) = 2 2 4 . Pour la variance
n
2 4
empirique modifie : E(Sn ) = et V (Sn ) =
2 2 2
. La loi normale tant
n1
symtrique, moyenne et variance empiriques sont bien entendu non corrles,
mais de plus elles sont indpendantes et c'est une proprit caractristique de la
loi normale. Ce rsultat s'nonce de la faon suivante :
Thorme de Fisher
Les v.a. X 1 ,. . . ,X n forment un chantillon d'une loi normale si et seule-
ment si les v.a. X n et Sn2 sont indpendantes.
A. Loi de Student
Nous avons vu que :
Xn m
n N (0,1)

Dans le cas o est un paramtre inconnu, on peut le remplacer par l'cart
type empirique modifi, ce qui amne considrer la variable :

Xn m X n m / / n
n =
Sn Sn2 / 2
Le numrateur suit une loi normale centre rduite et le dnominateur est la
racine carre de la variable :
Sn2 (n 1)Sn2 / 2
=
2 n1
qui est donc une variable de loi n1
2
, divise par son nombre de degrs de liber-
t. D'aprs le thorme de Fisher, le numrateur et le dnominateur sont des v.a.
indpendantes et leur rapport dfinit une nouvelle loi de probabilit, usuelle en
statistique, appele loi de Student n 1 degrs de libert. Au-del de ce cas
particulier li un chantillon gaussien, on peut dfinir cette loi partir d'une
v.a.U de loi N (0,1) et d'une autre v.a. indpendante Y de loi n2 . Le rapport
U/ Y/n suit une loi de Student n degrs de libert, note Tn . Comme le
numrateur U suit une loi symtrique par rapport 0, il en de mme de Tn , avec
n
E(Tn ) = 0 pour n > 1. On obtient aussi V (Tn ) = pour n > 2.
n2

Le cas particulier n = 1 correspond au rapport de deux variables normales

indpendantes qui suit une loi de Cauchy, qui possde la particularit assez rare
1
de n'admettre aucun moment. En effet, sa densit est et le calcul de
l'esprance conduit l'intgrale gnralise : (1 + x 2)

1 + xdx 1 +
E(X) = = ln(1 + x 2 )
1 + x 2 2
intgrale divergente car cette quantit n'est pas dfinie, donc l'esprance d'une
loi de Cauchy n'existe pas.
B. Loi de Fisher-Snedecor
En prsence de deux chantillons (X 1 ,. . . ,X n ) et (Y1 ,. . . ,Ym ) auxquels sont
associes les variances empiriques Sn2 et Sm2 , on peut se poser la question de
savoir s'ils proviennent de deux lois normales ayant la mme variance, et pour
cela former le rapport Sn2 /Sm2 . Si effectivement ces deux lois ont la mme
variance, ce rapport de deux lois du khi-deux indpendantes, rduites (divises)
par leur nombre de degrs de libert (car s'crivant [U/(n 1)] / [V /(m 1)]
avec U = (n 1)Sn2 / 2 et V = (m 1)Sm2 / 2 ) , dfinit une nouvelle loi usuel-
le en statistique, appele loi de Fisher-Snedecor. Plus gnralement, si U et V
sont deux v.a. indpendantes de lois respectives n2 et m2 , alors le rapport
(U/n) / (V /m) suit une loi de Fisher-Snedecor n et m degrs de libert, note
F(n,m). On obtient comme moments :
m 2m 2 (n + m 2)
E [F(n,m)] = ,m > 2 et V [F(n,m)] = ,m >4
m2 n (m 2)2 (m 4)
n n m
On peut remarquer que : F(n,m) I I , et Tn2 F (1,n) .
m 2 2
Les fractiles de cette loi sont tabuls (table 7) pour certains couples (n,m) ;
si le couple (n,m) cherch ne figure pas, mais si le couple (m,n) est dans la
table, on utilise le fait que (V /m) / (U/n) F (m,n) .
Exemple 5.1
Pour donn, cherchons le fractile f (n,m) de F (n,m) dfini par :

U/n
= P {F (n,m) < f (n,m)} = P < f (n,m)
V /m

V /m 1 1
=P > = P F (m,n) >
U/n f (n,m) f (n,m)

1
= 1 P F (m,n) <
f (n,m)
Loi empirique 155

on voit ainsi que 1 = P {F (m,n) < 1/ f (n,m)} et par consquent

1/ f (n,m) est le fractile f 1 (m,n) , d'ordre 1 , de la loi F (m,n) .
Appliquons ceci la recherche du fractile d'ordre 0,025 de la loi
F(15,10) , dfini par :

1
0,025 = P F (15,10) < f 0,025 (15,10) = P F (10,15) >
f 0,025 (15,10)

d'o on dduit 0,975 = P F (10,15) < 1/ f 0,025 (15,10) ; on lit dans la
table 7 la valeur du fractile f 0,975 (10,15) = 3,06 d'o la valeur cherche :
1
f 0,025 (15,10) = = 0,327.
3,06
IV. Tests dadquation

L'examen de la loi de probabilit empirique associe un chantillon dont la loi
parente est inconnue permet de choisir parmi les lois usuelles celle qui lui res-
semble le plus. Si notre choix s'oriente vers une certaine loi P de fonction de
rpartition (f.r.) F, on pourra retenir l'hypothse que l'chantillon provient de
cette loi si la distance entre la f.r. thorique F et la f.r. empirique Fn est faible.
Ayant fait le choix d'une certaine distance d entre fonctions de rpartition, on se
fixera une rgle de dcision qui s'nonce ainsi : Si l'vnement d (Fn ,F) < C
est ralis, alors je retiens l'hypothse qu'il s'agit d'un chantillon de la loi de f.r.
F . On peut cependant se tromper en rejetant cette hypothse alors que F est
bien la f.r. des variables de l'chantillon; cette erreur se produit avec une proba-
bilit qui est = P {d (Fn ,F) > C} . Si on veut que ce risque d'erreur soit
faible, on fixera une valeur faible cette probabilit (par exemple 5 % ou
1 %) et cette valeur permettra alors de prciser la valeur de la constante C qui
apparat dans la rgle de dcision, si on connat la loi de probabilit de la v.a.
d (Fn ,F) . Nous aurons ainsi ralis un test d'adquation, ou d'ajustement, entre
une loi thorique donne et une loi empirique associe un chantillon d'obser-
vations. La fixation du risque dterminera alors la valeur du seuil d'accepta-
tion, ou seuil critique C. Nous allons prsenter maintenant deux tests, associs
deux distances entre f.r., permettant de dterminer la loi approche de la v.a.
d (Fn ,F) pour toute f.r. F, le premier tant plutt destin aux lois discrtes et le
second rserv aux lois continues.
A. Test du khi-deux
Ce test est retenir si les donnes sont discrtes, avec des valeurs possibles
notes xi , de probabilit pi pour 1 i k , ou si les donnes individuelles ne
sont pas fournies, mais ont t rparties en classes (ai ,ai+1 ) dont les frquences

thoriques sont calcules partir de la loi thorique postule :
pi = P {X (ai ,ai+1 )} = F(ai+1 ) F(ai )
Si Ni est le nombre (alatoire) d'observations xi , ou appartenant la classe

(ai ,ai+1 ) , nous allons le comparer l'effectif thorique qui est npi . La distance
euclidienne classique entre Fn , reprsente par les k effectifs observs Ni , et la
k
f.r. F, reprsente par les k effectifs thoriques npi , serait (Ni npi )2 .
i=1
Cependant, comme cette distance ne permet pas de dterminer la loi asymp-
totique de cette v.a., on prfre retenir une autre distance. Cette dernire sera
dtermine partir de la remarque que les v.a. Ni suivent des lois
binmiales de
paramtres n et pi etque lesvariables centres (Ni npi ) / npi convergent
vers vers la loi N 0, 1 pi . On retient donc la distance :
k
(Ni npi )2
d (Fn ,F) =
i=1
npi
et cette somme de carrs de v.a. centres qui sont asymptotiquement normales

k
et lies par la relation (Ni npi ) = 0 converge vers une loi k1
2
. La valeur
i=1
de C est alors dtermine approximativement, en utilisant cette loi asympto-
tique, comme le fractile d'ordre 1 de la loi du khi-deux k 1 degrs de
libert. Cette approximation est justifie si n est assez grand et pi pas trop petit,
avec comme rgle empirique npi 5 . Si ce n'est pas le cas cause d'une valeur
de pi trop petite on doit regrouper des classes (ou des valeurs) contigus. Pour
le calcul de la distance, il est prfrable d'utiliser la formule dveloppe :
k
Ni 2
d (Fn ,F) = n
i=1
npi
Exemple 5.2
Ayant demand dix personnes de fournir chacune dix chiffres choisis au

hasard, on souhaite savoir si effectivement les cent chiffres obtenus for-
ment bien une distribution au hasard. L'hypothse tester ici est donc
celle d'une loi uniforme discrte sur l'ensemble des dix chiffres
{0,1,. . . ,9} , donc avec des probabilits gales pour chacune de ces
valeurs, pi = 1/10 pour i = 0,1,. . . ,9. Le tableau ci-aprs contient la
distribution empirique (observe) sur la deuxime ligne et la distribution
thorique sur la troisime.
xi 0 1 2 3 4 5 6 7 8 9
Ni 10 8 9 14 8 9 11 9 12 10
npi 10 10 10 10 10 10 10 10 10 10
Loi empirique 157

On obtient comme distance :

1
d (Fn ,F) = (0 + 4 + 1 + 16 + 4 + 1 + 4 + 1 + 4 + 0) = 3,2
10
le fractile d'ordre 0,95 de la loi du khi-deux neuf degrs de libert est
C = 16,9 donc la valeur de la distance est trs infrieure et on peut
accepter l'hypothse d'une rpartition uniforme.
Cependant, dans beaucoup de cas, si le type de loi est prcis, la loi dpend
de paramtres dont la valeur n'est pas spcifie et qu'il va falloir estimer pour
pouvoir calculer les frquences thoriques pi . Si on doit estimer r paramtres,
cela diminue d'autant le nombre de degrs de libert qui devient alors n 1 r.
Exemple 5.3
On a observ pendant deux heures le nombre de voitures arrives par
minute un poste de page. Si X est la v.a. reprsentant le nombre de voi-
tures arrivant dans une minute ce poste de page, on fait l'hypothse
qu'elle suit une loi de Poisson. Le tableau ci-aprs contient les valeurs
observes xi de cette variable et le nombre d'observations correspon-
dantes Ni . Pour calculer les probabilits thoriques pi = P (X = xi ) il
faut spcifier compltement la loi, c'est--dire indiquer le paramtre de
cette loi de Poisson. Le calcul de la moyenne empirique donne x = 3,7 et
la variance empirique a pour valeur 4,41. On retient alors la valeur enti-
re 4 comme paramtre de cette loi de Poisson. Les valeurs de npi sont
alors obtenues par lecture de la table 4 et arrondies l'entier le plus
proche, en vrifiant bien que le total est gal n = 120 ; par exemple
n P (X = 3) = 120 0,1954 = 23,448 est arrondi 23.
xi 0 1 2 3 4 5 6 7 8 9 10 11
Ni 4 9 24 25 22 18 6 5 3 2 1 1
npi 2 9 18 23 23 19 13 7 3 2 1 0
Les valeurs des effectifs thoriques infrieures 5 ncessitent de regrou-

per les deux premires et les quatre dernires valeurs, ramenant 8 le
nombre de valeurs retenues, soit 8 1 1 = 6 degrs de libert puis-
qu'un paramtre a t estim. Le fractile d'ordre 0,95 de la loi du khi-deux
6 degrs de libert est C = 12,6 . On obtient d (Fn ,F) = 7,14 ce qui
conduit donc accepter l'hypothse que X suit une loi de Poisson de para-
mtre 4.

B. Test de Kolmogorov-Smirnov
Dans le cas d'une variable continue pour laquelle on dispose des donnes indi-
viduelles, il est prfrable d'utiliser toute l'information disponible et de ne pas
regrouper les observations en classes. On retient alors la distance de
Kolmogorov, ou distance de la convergence uniforme, dfinie par :
K n = d (Fn ,F) = sup |Fn (x) F(x)|

xR
L encore, on retiendra l'hypothse que la loi parente admet F comme f.r. si

cette distance est faible, c'est--dire plus prcisment si l'vnement
d (Fn F) < C est ralis. La valeur de C sera dtermine par la fixationdu risque
d'erreur = P {d (Fn ,F) > C} et en utilisant la loi limite de la v.a. n K n qui
admet pour f.r. la fonction K dfinie pour x > 0 par :

+
2 2
2 2
K (x) = (1)k e2k x = 1 2 (1)k+1 e2k x
k= k=1
Les valeurs de K sont tabules, permettant de dterminer les fractiles de la

loi. Les valeurs de C sont donnes en fonction de dans la table suivante :
n = 0,10 = 0,05 = 0,01

5 0,509 0,563 0,669
10 0,369 0,409 0,486
15 0,304 0,338 0,404
20 0,265 0,294 0,352
25 0,238 0,264 0,317
30 0,218 0,242 0,290
40 0,189 0,210 0,252

n > 40 1,22/ n 1,36/ n 1,63/ n
Pour le calcul pratique de cette distance, on utilise la dfinition de Fn faisant

intervenir l'chantillon ordonn X (1) < X (2) < . . . < X (n) . L'expression de
Fn (x) = Pn {],x[} s'crit alors :
0 si x X (1)

i 1
Fn (x) = si X (i1) < x X (i)

n
1 si x > X (n)
Loi empirique 159

On calcule au pralable les statistiques :

i
d + (Fn ,F) = sup [Fn (x) F(x)] = max F X (i)
xR 1i n n

+
i 1
d (F,Fn ) = sup [F(x) Fn (x)] = max F X (i)
xR 1i n n
car Fn est constante sur chacun des intervalles dlimits par les points de
l'chantillon ordonn :
i i
sup [Fn (x) F(x)] = inf F(x) = F X (i) + 0
x]X (i) ,X (i+1) ] n X (i) <x X (i+1) n
i
= F X (i)
n
On calcule ensuite :
d (Fn ,F) = max {d + (Fn ,F) ,d + (F,Fn )}
Exemple 5.4
On se pose la question de savoir si les donnes suivantes peuvent prove-
nir d'une loi normale centre et rduite :
6,42; 5,23; 1,25; 0,12; 0,01; 1,02; 18,54; 0,06; 7,64; 2,85;
1,84; 0,74; 0,65; 0,24
Disposant des donnes individuelles, nous allons utiliser le test de
Kolmogorov-Smirnov et pour cela ordonner les observations par valeurs
croissantes x(i) puis calculer les valeurs x(i) l'aide de la f.r. de la
loi N (0,1) . Les valeurs permettant le calcul de la distance entre loi empi-
rique et loi thorique figurent dans le tableau suivant :
i i 1
x(i) x(i) x(i) x(i)
n n
7,64 0 0,0667 0
5,23 0 0,1333 0,0667
1,84 0,0329 0,1671 0,1004
1,25 0,1056 0,1611 0,0944
1,02 0,1539 0,1794 0,1128
0,65 0,2578 0,1422 0,0755
0,01 0,4960 0,0293 0,0960
0,06 0,5239 0,009 0,0572
0,12 0,5478 0,0616 0,0145
0,24 0,5948 0,0719 0,005
0,74 0,7704 0,0371 0,1037
2,18 0,9854 0,1854 0,2521
2,85 0,9978 0,1311 0,1978
6,42 1 0,0667 0,1333
28,54 1 0 0,0667

On lit dans les deux dernires colonnes du tableau les valeurs maximales
d + (Fn ,F) = 0,1794 et d + (F,Fn ) = 0,2521 d'o on dduit d (Fn ,F) =
0,2521 . Pour un risque = 0,10 on lit dans la table 5.1, pour n = 15,
le seuil critique C = 0,304 donc on accepte l'hypothse d'une loi parente
N (0,1) , bien que la valeur de la distance soit proche du seuil de rejet de
cette hypothse.
retenir
Un chantillon d'une loi P, ou d'une v.a. X, est un ensemble de v.a. ind-
pendantes et de mme loi P, ou de mme loi que la v.a. X.
1
La loi uniforme qui attribue la mme probabilit chacune des n
n
observations d'un chantillon est appele loi empirique et ses moments,
moments empiriques. On tudie plus particulirement la moyenne et la
variance empiriques. Les moments empiriques sont des fonctions de
l'chantillon, donc ce titre sont aussi des v.a. qui admettent des moments
thoriques.
partir de la fonction de rpartition empirique on peut effectuer un test
permettant de savoir si on peut retenir pour le modle thorique une certai-
ne loi de probabilit donne. Dans le cas de donnes discrtes ou regrou-
pes en classes, on utilise comme test d'ajustement le test du khi-deux. Pour
des donnes individuelles issues d'une loi continue, il est prfrable d'utili-
ser le test d'adquation de Kolmogorov-Smirnov.
Complments
A. Statistique dordre
La statistique d'ordre associe un chantillon (X 1 ,. . . ,X n ) d'une loi de f.r. F et de den-
sit f, les observations classes par ordre croissant : X (1) . . . X (n) . Elle a pour den-
sit :

n
n!1Cn (x1 ,. . . ,xn ) f (xi )
i=1
o Cn = {(x1 ,. . . ,xn ) /x1 < . . . < xn } .
Loi empirique 161

Les valeurs extrmes sont X (1) , de f.r. dfinie par G 1 (x) = 1 [1 F (x)]n , de
densit g1 (x) = n f (x) [1 F (x)]n1 , et X (n) , de f.r. dfinie par G n (x) = F n (x) ,
de densit gn (x) = n f (x) F n1 (x) .
La loi de l'tendue (range) Wn = X (n) X (1) se dduit de la loi du couple
X (1) ,X (n) , de f.r. dfinie pour x < y par :
G 1n (x,y) = F n (x) [F (y) F (x)]n
au moyen du changement de variable x = x et w = y x . On obtient comme f.r. pour
w>0:

H (w) = n [F (x + w) F (x)]n1 f (x) dx
R
et comme densit :

h (w) = n (n 1) [F (x + w) F (x)]n2 f (x + w) f (x) dx
R
Si le support de la loi est R , l'expression des f.r. des valeurs extrmes montre que :
X (1) et X (n) +
p.co. p.co.
Si le support est l'intervalle (a,b) on obtient de mme :
X (1) a et X (n) b
p.co. p.co.
Si la loi admet une esprance, on tablit galement que :

X (1) X (n)
0 et 0
n p n p
(voir le chapitre 6 pour la dfinition de ces convergences).
Pour obtenir la loi de X (k) , 1 < k < n, il suffit de remarquer que le nombre Nn (x)
de variables de l'chantillon qui sont infrieures au rel x vrifie :
Nn (x) k X (k) < x

Comme Nn (x) B (n,F (x)) on en dduit la f.r. G k de X (k) dfinie par :

n
n
G k (x) = F j (x) [1 F (x)]n j
j=k
j
et sa densit peut tre obtenue de faon intuitive comme probabilit qu'un lment de
l'chantillon soit compris entre x et x + dx , soit f (x) , que k 1 soient situs avant x,
soit F k1 (x) , que n k soient situs aprs x, soit [1 F (x)]nk , avec un nombre de
permutations n! des variables de l'chantillon qui doit tre divis par le nombre (k 1)!
de variables avant et (n k)! de variables aprs, soit :
n!
gk (x) = F k1 (x) [1 F (x)]nk f (x)
(k 1)! (n k!)

On peut galement exprimer la f.r. de X (k) au moyen de l'intgrale bta incomplte :

F(x)
1
G k (x) = t k1 (1 t)nk dt
B (k,n k + 1) 0
et retrouver ainsi par drivation l'expression de la densit.

En utilisant le rsultat de l'exercice 2.11 qui a montr que F (X) U ([0,1]) et en
faisant le changement de variable y = F (x) , on tablit alors que :

F X (k) I (k,n k + 1) .
B. Thorme de Fisher
partir d'un chantillon de n v.a. de la loi N (0,1) , on construit le vecteur X de coor-
donnes (X 1 ,. . . ,X n ) dans la base canonique (e1 ,. . .,en ) de Rn . Sa projection sur le
vecteur bissecteur u = (1,. . . ,1) est le vecteur X = X n ,. . . ,X n . Si on effectue un
changement de base orthonorme au moyen de la matrice orthogonale P, en choisissant
u
dans la nouvelle base ( f 1 ,. . . , f n ) le vecteur unitaire f n = , le vecteur des nouvelles
n
coordonnes de X est Y = t P X , avec Yn = n X n . On obtient ainsi :

n1 n
1 n
X X = X Yn f n = Yj f j = X i ei n X n ei
j=1 i=1
n i=1

n

= X i X n ei
i=1
D'autre part :
t
V (Y ) = V P X = t P V (X) P = t P P = In

n1 2
donc Yn est indpendant de Y1 ,. . . ,Yn1 et par consquent de Y j2 = X X =
j=1

n
2
n
2
Xi X n , ce qui tablit l'indpendance de X n avec Xi X n et le fait

i=1 i=1
que cette dernire variable suit la loi n12
, comme somme des carrs des n 1
variables Y1 ,. . . ,Yn1 qui sont indpendantes et de mme loi N (0,1) .
Loi empirique 163

Exercices
noncs
Exercice n1
Dterminer les fractiles d'ordres 0,90 et 0,05 de la loi de Student T25.
Exercice n2
Dterminer le fractile d'ordre 0,05 de la loi de Fisher-Snedecor F(30,20).
Exercice n3
Le tableau ci-aprs contient les frquences absolues Ni d'apparition des entiers xi de 0
9 dans les 10 000 premiers chiffres de la partie dcimale du nombre . On demande de
tester l'hypothse d'une rpartition uniforme de ces entiers.
xi 0 1 2 3 4 5 6 7 8 9
Ni 968 1025 1021 974 1014 1045 1021 970 948 1014
Exercice n4
Pour vrifier si un ensemble de deux ds n'est pas truqu, on les jette 108 fois. La somme
des chiffres obtenus a pris les valeurs 6, 9 et 11 respectivement 12, 15 et 8 fois. Peut-on
accepter l'hypothse de l'quilibre de ces ds, en prenant comme risque de premire esp-
ce = 0,05 ?
Exercice n5
Le tableau ci-aprs fournit la distribution du nombre X d'accidents graves par semaine
un carrefour dangereux, relevs pendant une certaine priode. On demande de tester l'hy-
pothse que la loi parente de X est une loi de Poisson de paramtre = 2.
xi 0 1 2 3 4 5
Ni 5 10 7 4 3 1
Exercice n6
Un organisme de dfense des consommateurs a prlev au hasard 200 botes de conserve de
haricots verts pour tester la validit de l'tiquetage indiquant un poids net goutt de 560 g.
La distribution observe du poids goutt X en grammes figure dans le tableau suivant :
X Ni
[530,540[ 14
[540,545[ 15
[545,550[ 29
[550,555[ 40
[555,560[ 37
[560,565[ 27
[565,570[ 20
[570,580[ 18
On demande de tester l'hypothse que X suit une loi N (555,10) .

Exercice n7
Peut-on accepter l'hypothse que les donnes suivantes proviennent d'une loi
N (1,5 ; 1) ?
2,51 ; 1,45 ; 0,71 ; 0,25 ; 2,35 ; 0,00 ; 2,06 ; 1,95 ; 0,41 ; 2,75 ; 0,78 ; 1,01 ; 1,75 ; 2,32 ; 1,36.
Corrigs
Exercice n1
La table 6 fournit la valeur 1,316 dans la colonne 0,90 et, du fait de la symtrie de cette
loi, le fractile d'ordre 0,05 est obtenu dans la colonne 0,95 en changeant le signe, soit
1,708.
Exercice n2
La table 7 ne comporte pas le couple de degrs de libert (30, 20) mais comporte le
couple (20, 30) ; nous allons voir comment nous y ramener. Par dfinition, la loi F(n,m)
X/n
est la loi du rapport U = o X et Y suivent des lois du khi-deux respectivement
Y/m
1 Y/m
n et m degrs de libert. Par consquent = suit une loi de Fisher-Snedecor
U X/n
F(m,n). La valeur u cherche est dfinie par : 0,05 = P(U < u) = P (1/U > 1/u) ,
avec U de loi F(30,20) , ou P(1/U < 1/u) = 0,95 donc 1/u est le fractile d'ordre
0,95 de la loi F(20,30), valeur lue dans la table 7, soit 1/u = 1,93 et u = 0,518.
Exercice n3
Si la rpartition des entiers est uniforme, chaque entier xi a la mme probabilit
pi = 1/10 et tous les effectifs thoriques ont la mme valeur npi = 1 000. On calcule
la distance du khi-deux d (Fn ,F) = 9,37 que l'on compare au seuil critique
C = 16,92 associ au risque = 0,05. Mme pour un risque plus lev = 0,10 le
fractile d'ordre 0,90 de la loi 92 est C = 14,68 et on accepte encore l'hypothse d'une
rpartition uniforme de ces entiers.
Exercice n4
Tester l'quilibre de cet ensemble de deux ds revient tester l'adquation de la loi empi-
rique avec la loi thorique en cas d'quilibre. Comme seulement trois valeurs de la
somme S sont donnes, on va regrouper toutes les autres valeurs possibles. Les 4 valeurs
thoriques retenues sont donc :
5 4 2
p1 = P (S = 6) = , p2 = P (S = 9) = , p3 = P (S = 11) = ,
36 36 36
25
p4 = 1 p1 p2 p3 =
36
On peut donc constituer le tableau de comparaison des distributions empirique et tho-
rique :
xi 6 9 11 autre
ni 12 15 8 73
npi 15 12 6 75
Loi empirique 165

La distance entre ces deux distributions a pour valeur :

(12 15)2 (15 12)2 (8 6)2 (73 75)2
Dn = + + + = 2,07
15 12 6 75
Le fractile d'ordre 0,95 de la loi du khi-deux 4 1 = 3 degrs de libert a pour valeur
7,8 donc on accepte l'hypothse de l'quilibre de ces ds, en prenant comme risque de
premire espce = 0,05.
Exercice n5
On calcule les effectifs thoriques npi arrondis partir des probabilits de la loi de
Poisson P (2) . Pour obtenir des effectifs suffisants on doit regrouper les deux dernires
classes ; on obtient le tableau suivant :
. xi 0 1 2 3 4 ou plus
Ni 5 10 7 4 4
npi 4 8 8 5,5 4,5
On obtient d (Fn ,F) = 1,49 valeur qui est infrieure au fractile d'ordre 0,95 de la loi
42 qui vaut C = 9,49 donc on accepte l'hypothse que ces observations forment un
chantillon d'une loi de Poisson P (2) .
Exercice n6
Les donnes tant regroupes en classes, on effectue le test du khi-deux en calculant les
effectifs thoriques npi o n = 200 et pi = P (X [ai ,ai+1 [) se calcule partir de la
f.r. de la loi N (0,1) en centrant et rduisant les observations. Par exemple :

5 X 555 10
P (560 X < 565) = P < = (1) (0,5) = 0,1498
10 10 10
et 200 0,1498 = 29,96 est arrondi 30. Les classes extrmes [530,540[ et
[570,580[ sont assimiles respectivement aux classe ],540[ et [570,+[ .
Le calcul de la distance du khi-deux se fait partir du tableau suivant :
X Ni npi
[530,540[ 14 13
[540,545[ 15 18,5
[545,550[ 29 30
[550,555[ 40 38,5
[555,560[ 37 38,5
[560,565[ 27 30
[565,570[ 20 18,5
[570,580[ 18 13
On obtient d (Fn ,F) = 3,23 que l'on compare au fractile d'ordre 0,95 de la loi 72 qui
vaut C = 14,07 . On accepte donc l'hypothse de donnes provenant d'une loi
N (555,10) , donc d'une loi dont la moyenne est infrieure de 5 g la valeur indique
sur la bote.

Exercice n7
Disposant des donnes individuelles, nous allons utiliser le test de Kolmogorov-Smirnov
et pour cela ordonner les observations par valeurs croissantes x(i) puis calculer les
valeurs centres (et rduites) u (i) = x(i) 1,5 pour pouvoir calculer ensuite u (i)
l'aide de la f.r. de la loi N (0,1) . Les valeurs permettant le calcul de la distance entre
loi empirique et loi thorique figurent dans le tableau suivant :
i i 1
u (i) u (i) u (i) u (i)
n n
1,5 0,0668 0,0001 0,0668
1,25 0,1056 0,0277 0,1611
1,09 0,1379 0,0621 0,004
0,79 0,2148 0,0519 0,0148
0,72 0,2358 0,0976 0,0309
0,49 0,3121 0,0879 0,0212
0,14 0,4443 0,0224 0,0443
0,05 0,4801 0,0532 0,0134
0,25 0,5987 0,001 0,0654
0,45 0,6736 0,007 0,0736
0,56 0,7123 0,0210 0,0456
0,82 0,7939 0,006 0,0606
1,01 0,8438 0,0229 0,0438
1,25 0,8944 0,0389 0,0277
1,45 0,9265 0,0735 0,007
On lit sur les deux dernires colonnes du tableau les valeurs maximales
d + (Fn ,F) = 0,0976 et d + (F,Fn ) = 0,0736 d'o on dduit d (Fn ,F) = 0,0976 .
Pour un risque = 0,10 on lit dans la table 5.1, pour n = 15 le seuil critique
C = 0,304 donc on accepte l'hypothse d'une loi parente N (1,5 ; 1) , la distance obte-
nue tant beaucoup plus faible que le seuil critique.
Loi empirique 167

6. Comportement
asymptotique
L
es moments empiriques associs un chantillon nous renseignent
sur la loi thorique. Par ailleurs, la taille d'un chantillon et la quan-
tit d'information apporte par celui-ci sont bien sr lies, de telle
sorte que, si cette taille augmente, l'information sur la loi parente P de X
augmente aussi, ce qui doit se traduire par une plus grande proximit
entre la loi empirique Pn et la loi thorique P. Cette notion intuitive de
plus grande proximit d'un terme d'une suite alatoire, avec un terme
fixe, alatoire ou non, demande tre traduite et dfinie de faon rigou-
reuse. Nous allons donc tudier dans ce chapitre le comportement asymp-
totique d'une suite de v.a. X1,... , Xn quand n devient infini. Nous dfini-
rons essentiellement deux convergences stochastiques, parmi les nom-
breuses existantes, la convergence en probabilit et la convergence en
loi. Cependant, nous voquerons aussi la convergence en moyenne qua-
dratique car elle implique la convergence en probabilit et est gnrale-
ment plus facile tablir que cette dernire, tant lie au comportement
des deux premiers moments qui forment des suites non alatoires. ces
deux types principaux de convergence seront associs les deux thormes
fondamentaux de la statistique asymptotique, la loi des grands nombres

et le thorme central limite, qui prcisent le comportement asympto-
tique de la moyenne empirique d'un chantillon.

Objectif du chapitre : prsenter les deux thormes fondamentaux de la
statistique asymptotique, la loi des grands nombres et le tho-
rme central limite, associs aux deux modes principaux de
convergence, la convergence en loi et la convergence en proba-
bilit.
Concepts cls tudis : ingalit de Bienaym-Tchebychev, convergence
en probabilit, convergence en moyenne quadratique, loi des
grands nombres, convergence en loi, thorme central limite.
Comportement asymptotique 169

I. Convergence en probabilit
La dfinition de la convergence en probabilit fait intervenir une suite num-
rique de probabilits dont la convergence sera souvent tablie grce l'ingali-
t de Bienaym-Tchebychev qui lie une probabilit et une variance. Avant de
donner la dfinition de cette convergence stochastique et d'en tudier les pro-
prits, nous allons donc au pralable prsenter quelques ingalits qui seront
utiles par la suite dans l'tablissement de certaines de ces proprits.
A. Ingalit de Markov
Si X est une v.a. positive dont l'esprance existe, l'ingalit de Markov tablit
que pour tout > 0 :
1 E(X)
P {X E(X)} ou P (X )

On peut remarquer que sous sa premire forme cette ingalit est sans int-
rt pour 1 puisqu'alors le majorant de la probabilit est suprieur un. Cette
ingalit prsente bien sr essentiellement un intrt thorique, utile pour cer-
taines dmonstrations ; sa porte pratique est limite par sa gnralit, le majo-
rant tant indpendant de la loi, sa valeur numrique sera souvent trs suprieu-
re la valeur exacte de la probabilit.
Exemple 6.1
Pour = 2 l'ingalit de Markov s'crit P (X 2E(X)) 0,5 ; dans le
cas particulier de la loi exponentielle E (1) on obtient P (X 2) = e2
= 0,135, valeur trs sensiblement infrieure au majorant.
Dans le cas d'une v.a. de signe quelconque, on adapte la seconde forme de

l'ingalit de Markov en l'appliquant |X|k , pour tout k tel que E|X|k existe :
E|X|k
P |X|k

On introduit alors un nombre > 0 tel que k = et on en dduit pour tout
>0 :
E|X|k
P (|X| )
k

B. Ingalit de Bienaym-Tchebychev
On obtient l'ingalit de Bienaym-Tchebychev en appliquant l'ingalit de
Markov sous sa dernire forme, la v.a. X E(X) pour k = 2 , donc pour une
variable dont la variance existe, soit pour tout > 0 fix :
V (X)
P (|X E(X)| )
2
Remarque
Cette ingalit relie la probabilit pour X de s'carter de sa moyenne
E(X), sa variance qui est justement un indicateur de dispersion autour
de la moyenne de la loi. En choisissant = (X) = V (X) , on obtient
P {|X E(X)| (X)} 1 et cette ingalit est donc sans intrt pour
(X) . On peut crire cette ingalit pour la variable centre-rduite
en prenant cette fois = a (X) avec a > 1 :

X E(X) 1
P a 2
(X) a
Exemple 6.2
Dans le cas particulier de la loi N (m, ) , la valeur exacte de la
probabilit se calcule par P (|X m| a ) = 1 P (|U | < a) =
1 [
(a)
(a)] = 2 [1
(a)] o U est une v.a. de loi N (0,1) et
de f.r.
. Pour a = 1,5 on obtient comme valeur 2 0,0668 = 0,1336
alors que le majorant a pour valeur 4/9 = 0,444 , valeur bien suprieu-
re. Cet exemple montre nouveau que la porte pratique d'une telle
ingalit est faible, mais qu'elle sera trs utile pour la dmonstration de
certaines proprits, tant tablie pour un trs grand ensemble de lois de
probabilit.
C. Ingalit de Jensen
Si g est une fonction relle convexe sur un intervalle I de R (i.e.
g (x + (1 ) y) g(x) + (1 ) g(y) pour tous x et y de I et tout
[0,1] , ou g (x) 0 si g est deux fois drivable) qui contient X ( ) ,
ensemble des valeurs possibles pour la v.a. X, telle que E(X) et E [g (X)] exis-
tent, alors :
g [E (X)] E [g (X)]
L'ordonne (au sens de la fonction g) de la moyenne (au sens d'esprance)
est plus petite que la moyenne des ordonnes.

Exemple 6.3

Si on applique cette ingalit g(t) = t 2 on obtient E 2 (X) E X 2 ,
rsultat bien connu
par
ailleurs puisqu'il traduit que la variance est posi-
tive : V (X) = E X 2 E 2 (X) 0.
D. Convergence en probabilit
Si (X n ) est une suite de v.a. qui converge vers une v.a. X, cela signifie que X n
se rapproche de X quand n augmente. On mesure la distance entre X n et X
par |X n X| qui sera d'autant plus petite que n sera grand ; mais, s'agissant de
v.a., il faut considrer l'vnement |X n X| < qui sera ralis avec une pro-
babilit d'autant plus leve que n sera grand. On va donc associer la suite ala-
toire (X n ) la suite numrique des probabilits de ces vnements, qui devra
converger vers un. Ceci conduit la dfinition suivante.
1) Dfinition
On dit que la suite de v.a. (X n ) converge en probabilit vers une v.a. X si, pour
tout > 0 :
P (|X n X| < ) 1 quand n
ou, de faon quivalente :
P (|X n X| > ) 0 quand n
On crit :
Xn X
p
Exemple 6.4
Soit (Un ) une suite de v.a. indpendantes, de mme loi uniforme sur [0,1] ;
on lui associe la suite (X n ) dfinie pour tout entier n par
X n = min {U1 ,. . . ,Un } . Nous allons tablir que :
X n 0 quand n
p
Pour cela, nous allons calculer, pour un > 0 fix, la probabilit

P (|X n | > ) qui est gale P (X n > ) puisque X n est une variable
positive. Cette dernire probabilit est nulle pour 1 , donc il suffit de
considrer le cas < 1. Toutes les v.a. Un tant indpendantes, de mme
loi que U avec P (U < x) = x pour 0 x 1 , on obtient :

n
n
|
P (|X n > ) = P (Ui > ) = P (Ui > ) = [1 P (U < )]n
i=1 i=1
= (1 ) 0 n
qui exprime bien que (X n ) converge en probabilit vers 0.

2) Conditions suffisantes de convergence en probabilit
Dans l'exemple 6.4 prcdent, on a pu tablir sans trop de difficults la conver-

gence de la suite (X n ) , partir de la dfinition. Cependant, pour des lois plus
complexes il peut tre difficile d'obtenir l'expression de la probabilit permettant
d'tablir cette convergence. Nous allons maintenant fournir un moyen plus
simple de dmontrer cette convergence, partir des deux premiers moments de
Xn.
Proprit
Si (X n ) est une suite de v.a. telle que :

E (X n ) a
V (X n ) 0
quand n , alors :
Xn a
p
En fait, on peut noncer un rsultat plus gnral que celui qui s'applique la
convergence vers un nombre rel a en l'appliquant la suite (Yn ) dfinie par
Yn = X n X , avec (X n ) qui converge vers la v.a. X, puisque Yn 0
p
X n X . Les conditions suffisantes pour la suite (X n ) deviennent alors :
p

E (X n X) 0
V (X n X) 0
quand n , et impliquent :
Xn X
p
Exemple 6.5
Nous avons vu dans le chapitre prcdent que pour tout x rel fix on
avait E [Fn (x)] = F(x) et V [Fn (x)] = F(x) [1 F(x)] /n 0 , donc
ces conditions suffisantes permettent d'tablir la convergence ponctuelle
de la fonction de rpartition empirique vers la fonction de rpartition
thorique :
Fn (x) F(x).
p
En ralit, on peut tablir qu'il existe une constante universelle C telle

que :

2
P sup |Fn (x) F(x)| > Ce2n
xR

Cette probabilit converge donc vers 0 pour tout > 0 , mais en plus trs
rapidement puisqu'elle est majore par le terme gnral d'une srie
convergente. Il y a donc convergence uniforme de la f.r. empirique vers la
f.r. thorique, selon un mode plus fort qu'en probabilit. On peut noncer
la forme affaiblie du thorme de Glivenko-Cantelli :
sup |Fn (x) F(x)| 0

xR p
De cette convergence forte de la loi empirique vers la loi thorique dcou-

lent toutes les proprits de convergence des moments empiriques asso-
cis cette loi.
3) Convergence en moyenne dordre p

Les conditions suffisantes nonces prcdemment permettent en fait d'tablir
une convergence plus forte que la convergence en probabilit, qui est la conver-
gence en moyenne quadratique, cas particulier de la convergence en moyenne
d'ordre p que nous dfinissons pour cette raison.
Dfinition
On dit que la suite de v.a. (X n ) converge en moyenne d'ordre p, avec
0 < p < , vers la v.a. X si :
E |X n X| p 0 quand n
On crit :
Xn X
Mp
Dans le cas particulier p = 2 , la convergence en moyenne d'ordre 2 s'appelle

convergence en moyenne quadratique. En crivant E (X n X)2 =
V (X n X) + E 2 (X n X) qui est la somme de deux termes positifs, on
retrouve les conditions suffisantes de convergence en probabilit comme condi-
tions ncessaires de convergence en moyenne quadratique :

E (X n X) 0
Xn X
m.q. V (X n X) 0
Pour toute valeur de p > 0, la convergence en moyenne d'ordre p est plus
forte que la convergence en probabilit, au sens o :
Xn X Xn X
Mp p
et donc en particulier :
Xn X Xn X
m.q. p

Trs souvent, on tablit donc la convergence en moyenne quadratique pour

obtenir la convergence en probabilit, car cela se ramne l'tude de la conver-
gence de deux suites numriques, gnralement simple effectuer.
4) Thorme de Slutsky
Si f est une application relle continue, alors :
X n X f (X n ) f (X)
p p
Ce thorme exprime donc qu'une application continue conserve la conver-

gence en probabilit, au sens o la limite de la suite des images est l'image de la
limite de la suite. Ce rsultat se gnralise en deux dimensions sous la forme du
thorme suivant.
5) Thorme
Si f est une application de R2 dans R uniformment continue et si (X n ) et
(Yn ) sont deux suites de v.a. qui convergent en probabilit respectivement
vers les v.a. X et Y , alors :
f (X n ,Yn ) f (X,Y )
p
Si on applique ce thorme aux fonctions f dfinies respectivement par

u
f (u,v) = u + v, f (u,v) = uv et f (u,v) = , de X n X et Yn Y on
v p p
Xn X
dduit respectivement X n + Yn X + Y,X n Yn X Y et condition
que P (Y = 0) = 0.
p p Yn p Y
E. Loi des grands nombres

Dans le chapitre prcdent, nous avions vu que la moyenne empirique d'un

chantillon d'une v.a. X avait mme moyenne, au sens d'esprance mathma-
tique, m que X, mais avec une dispersion, mesure par la variance, beaucoup
plus faible, de valeur 2 /n , c'est--dire que la variance de X tait divise par la
taille de l'chantillon. Ainsi, quand n devient infini, cette variance tend vers zro,
assurant la convergence de la moyenne empirique vers la moyenne thorique
E(X) = m . Ce rsultat s'obtient partir de l'ingalit de Bienaym-Tchebychev,
puisque pour tout > 0 :

V Xn 2
P X n m = 0
2 n2
ce qui permet d'noncer le premier thorme fondamental de la statistique
asymptotique, c'est--dire quand la taille de l'chantillon devient infinie.

Thorme
Si (X n ) est une suite de v.a. mutuellement indpendantes qui admettent les
mmes moments d'ordres un et deux, c'est--dire avec pour tout entier n,
E(X n ) = m et V (X n ) = 2 , alors quand n :
Xn m
p
Ce thorme est obtenu sous la condition que les v.a. X n aient mmes
moments d'ordres un et deux, mais pas forcment mme loi, et s'appelle parfois
loi faible des grands nombres. Il existe en effet une loi forte des grands nombres,
relative une convergence plus forte que nous n'tudierons pas ici (voir com-
plments), qui peut s'obtenir plus logiquement sous la seule condition d'existen-
ce du moment d'ordre un, puisqu'elle concerne seulement le moment d'ordre un,
mais en renforant par ailleurs les hypothses, en supposant alors que les v.a. X n
ont la mme loi de probabilit.
Exemple 6.6
Thorme de Bernoulli
On effectue n expriences successives indpendantes o on s'intresse
chaque fois la ralisation d'un certain vnement A. On associe donc
chaque exprience i,1 i n , une variable de Bernoulli :

1 p
Xi =
0 q =1 p
La frquence empirique, c'est--dire le pourcentage de ralisations de A
est : 1 n
fn = Xi = X n
n i=1
avec E ( f n ) = p et V ( f n ) = pq/n , d'o en appliquant l'ingalit de
Bienaym-Tchebychev, pour tout > 0 :
pq
P (| f n p| > ) 2 0
n
ce qui tablit que pour n :
f n p = P(A)
p
c'est--dire que la frquence empirique (observe) d'un vnement

converge, en probabilit, vers la frquence thorique ou probabilit de
ralisation de cet vnement quand le nombre d'expriences augmente
indfiniment. Ce rsultat, connu sous le nom de thorme de Bernoulli,
tablit donc le lien entre l'exprience que l'on peut avoir des chances de
ralisation d'un vnement et la dfinition thorique que l'on a donne de
sa probabilit. Nous verrons dans le chapitre 7 suivant que la frquence
empirique fournit une estimation de la probabilit d'un vnement.

II. Convergence en loi

A. Dfinition
On dit que la suite de v.a. (X n ) , de f.r. Fn , converge en loi vers une v.a. X de
f.r. F si la suite {Fn (x)} converge vers F (x) en tout point x o F est conti-
nue ; on crit alors :
Xn X
loi
Les v.a. X n ont toutes des lois diffrentes, de f.r. notes Fn , ne pas
confondre avec la f.r. empirique associe un chantillon de v.a. qui ont toutes
la mme loi, donc la mme f.r.
B. Lien avec la convergence en probabilit

Le lien entre les deux convergences que nous venons de dfinir est prcis par
le rsultat suivant.
Thorme
La convergence en probabilit d'une suite (X n ) implique sa convergence
en loi :
Xn X Xn X
p loi
Ce rsultat se conoit intuitivement car Fn (x) reprsente la probabilit,

associe la loi de X n , de l'vnement {X n < x} , et elle va converger vers la
probabilit correspondante associe la loi de X. La rciproque de ce rsultat est

fausse en gnral, mais est vraie dans le cas particulier o la limite est une v.a.
certaine X = a , c'est--dire quand la loi limite est une loi de Dirac, loi dgn-
re concentre en un seul point.
C. Proprit
Si (X n ) et (Yn ) sont deux suites de v.a. telles que pour n :
Xn X et Yn a
loi p

o a est un nombre rel, alors :
X n + Yn X + a
loi
X n Yn a X
loi
Xn X
si a =
/ 0
Yn loi a
D. Thorme de Slutsky
Si g est une application relle continue, alors :
X n X g(X n ) g(X)
loi loi
E. Conditions suffisantes de convergence en loi

Dans le cas d'une loi discrte ou d'une loi absolument continue, on peut noncer
des conditions suffisantes de convergence en loi relatives aux probabilits indi-
viduelles ou la densit qui dfinissent ces lois.
Dans le cas discret o X n ( ) = X ( ) = {ai /i I } :
i I,P (X n = ai ) P (X = ai ) X n X, n
loi
Dans le cas o X n et X admettent pour densits respectives f n et f :
x R, f n (x) f (x) X n X, n
loi
F. Thorme central limite

La loi des grands nombres nonce la convergence de la suite X n des moyennes
empiriques vers la moyenne thorique m, c'est--dire une v.a. certaine ou loi de
Dirac, loi dgnre dont toute la masse est concentre
en un point. Si on qui-
librela suite des v.a. centres et rduites X n m /, qui converge vers zro,
par n qui tend vers l'infini, la forme indtermine obtenue aura une limite qui
sera celle d'une loi non dgnre cette fois, la loi normale. C'est ce qu'nonce
le thorme central limite, dont nous donnons ici l'une des multiples versions.

Thorme
Si (X n ) est une suite de v.a. indpendantes et de mme loi, admettant des
moments d'ordres un et deux nots m = E (X n ) et 2 = V (X n ) , alors :
Xn m
n N (0,1)
loi
C'est en raison de ce thorme que la loi normale est la loi de probabilit la

plus utilise en statistique. En effet, beaucoup de phnomnes individuels ne
sont pas symtriques et donc ne peuvent pas tre modliss par la loi normale.
Mais, dans beaucoup de situations, le phnomne tudi est la rsultante d'un
grand nombre de composantes indpendantes et le thorme central limite nous
assure alors que la loi normale est tout fait adquate.
G. Limite dune suite image

Nous savons qu'une application continue transporte la convergence en loi (tho-
rme de Slutsky, D) ; nous allons prciser ce rsultat dans le cas d'une conver-
gence vers la loi normale, comme celle obtenue par le thorme central limite.
Si une suite de v.a. (X n ) converge vers un nombre rel fix m, avec une suite
numrique (an ) convenablement choisie qui tend vers l'infini avec n on peut
obtenir la convergence en loi de la suite an (X n m) vers une loi normale cen-
tre. La suite (g (X n )) sera alors centre sur g (m) et quilibre aussi par an
pour converger vers une loi normale centre dont l'cart type sera modifi. Voici
l'nonc prcis de cette proprit permettant de transporter un rsultat de conver-
gence en loi.
Proprit
Si la suite (X n ) est telle que :
an (X n m) N (0, ) , n
loi
avec an et > 0, alors si g est une application relle drivable, la

suite (g (X n )) converge aussi en loi avec :
an [g(X n ) g(m)] N (0, |g (m)|) , n

loi

H. Convergence des moments empiriques

1) Moyenne empirique
Les deux thormes fondamentaux de la statistique asymptotique tablissent la

convergence en probabilit et en loi de la moyenne empirique.
2) Variance empirique
Au chapitre prcdent, nous avons obtenu comme expression de la variance

empirique :
1 n
2
Sn2 = Ui X n m
n i=1
en ayant pos Ui = (X i m)2 . De la loi des grands nombres on dduit

2
U n E(U ) = 2 et X n m 0 et par consquent :
p p
Sn2 2 , n
p
On obtient bien sr le mme rsultat pour Sn2 = nSn2 /(n 1) puisque

n/ (n 1) 1.
En appliquant la loi des grands nombres et le thorme central limite on
obtient :

X n m 0 et n X n m N (0, )
p loi
2
ce qui implique d'aprs la proprit II, C que n X n m 0 . Ainsi,
2 loi
n Sn 2 a mme loi limite que n U n 2 , qui est obtenue par le tho-
rme central limite avec E(U ) = 2 = 2 et V (U ) = 4 22 :
2
n Sn 2 N 0, 4 22 , n
loi
On a le mme rsultat pour Sn2 .
3) Moments empiriques
Par application de la loi des grands nombres :

1 n

m kn = X ik E X k = m k
n i=1 p


On obtient par ailleurs V Xk = m 2k m 2k donc par application du thor-
me central limite la suite X nk :
m kn m k
n N (0,1)
m 2k m 2k loi
I. Convergence des lois usuelles

1) Loi binmiale
Soit X une v.a. de loi B (n, p) et supposons que n . Nous allons consid-
rer deux cas suivant que le second paramtre p reste fixe ou tend vers 0 avec
1/n .
a) Si p 0 quand n , avec np fini, alors en utilisant la formule de
Stirling n! = n n en 2n (1 + n ) , on montre que pour tout entier k fix,
0kn :
n k k
P (X = k) = p (1 p)nk e
k k!
ce qui, d'aprs la condition suffisante (cf. E) de convergence en loi, tablit que
la loi binmiale B (n, p) converge vers la loi de Poisson P () . C'est pourquoi
on appelle parfois la loi de Poisson loi des vnements rares, puisqu'elle corres-
pond des vnements de probabilit trs faible, mais que l'on observe quand
mme en raison d'un trs grand nombre d'preuves, comme par exemple le
nombre d'erreurs dans un livre ou le nombre d'accidents un carrefour. On
considre que l'approximation est valable pour n 30 et np < 5.
Exemple 6.7
Pour p = 0,1 et n = 30 on lit dans la table 3 de la loi binmiale

P (X = 1) = 0,1413. Si on utilise la variable Y de loi de Poisson de
paramtre np = 3 on lit P (Y = 1) = 0,1494 dans la table 4, donc
valeur trs proche.
b) Si p reste fixe quand n , on utilise l'approximation normale en crivant
la loi binmiale comme somme de v.a. X i indpendantes et de mme loi de
n
Bernoulli de paramtre p : X = X i . Comme E(X i ) = p et V (X i ) = pq on
i=1
dduit du thorme central limite :
Xn p
n N (0,1)
pq loi

Avec X n = X/n, ceci peut encore s'crire :

X/n p X/n p X np
n =n = N (0,1)
pq npq npq loi
On peut donc approximer la loi binmiale B (n, p) par la loi normale

N np, npq . On considre que l'approximation est valable pour n 30 ,
np 5 et nq 5.
Exemple 6.8
On lance 400 fois une pice de monnaie et on veut calculer la probabilit
que la frquence d'apparition de pile soit comprise entre 0,45 et 0,55 .
On associe chaque lancer i,1 i n, la v.a. de Bernoulli :

1 pile(1/2)
Xi =
0 f ace(1/2)

400
La variable S = X i suit une loi binmiale B (400,1/2) avec
i=1
E(S) = 200 , V (S) = 100 et (S) = 10 . La probabilit demande s'crit :

S
P 0,45 0,55 = P (180 S 220)
400

20 S 200 20
=P
10 10 10
et peut tre approxime l'aide de la f.r.

de la loi N (0,1) par

(2)
(2) = 2
(2) 1 = 0,9544. Pour n = 900 on obtient
E(S) = 450,V (S) = 225 et (S) = 15 et la probabilit demande
devient :

S
P 0,45 0,55 = P (405 S 495)
900

45 S 450 45
=P
15 15 15
qui est approxime cette fois par 2

(3) 1 = 0,9973.
2) Loi hypergomtrique
Si X suit une loi hypergomtrique de paramtres N ,n et N A avec N et

N A /N = p qui reste fixe, on obtient par la formule de Stirling, pour tout k fix
tel que 0 k n :

N A N N A
k nk n k
P (X = k) = N p (1 p)nk
k
n
Il y a donc convergence de cette loi hypergomtrique vers la loi binmiale
B (n, p) . L'approximation est considre comme justifie lorsque le rapport
n/N , appel parfois taux de sondage, est infrieur 10 %.
3) Loi de Poisson
Si X suit une loi de Poisson dont le paramtre tend vers l'infini, alors :
X
N (0,1)
loi
Exemple 6.9
Pour = 16 on lit dans la table de la loi de Poisson P (X 21)

X 16 5
= 0,9107 . On approxime P (X 21) = P par
(1,25)
16 4
= 0,8944 , o
est la f.r. de la loi N (0,1) , soit une assez bonne approxi-
mation malgr une valeur faible de .
Correction de continuit
Nous avons ici un second exemple d'une loi discrte qui est approxime par une
loi continue. Si X est une variable valeurs entires dont la loi est approxime
par celle de la variable continue U, on ne peut pas approximer pk = P (X = k)
par P (U = k) = 0! On remplace donc cette probabilit par la valeur approche
P (k 1/2 < U < k + 1/2) qui est la probabilit de l'intervalle de longueur un

k
qui contient l'entier k. Ainsi, P (X k) = P (X = j) va tre approxim par :
j=0
P (U < k + 1/2) = P (U 1/2 < k)

L'approximation de la loi discrte de X par celle continue de U impose donc de

remplacer X par U 1/2 dans les vnements exprims partir de X, ce qu'on
appelle faire la correction de continuit. Dans l'exemple 6.9 prcdent,
P (X 21) doit donc tre approxim par P (U 1/2 21) =
(5,5/4)
= 0,9154 soit une meilleure approximation que sans la correction de continuit.
4) Loi gamma
Si X suit une loi ( p) avec p , alors :
Xp
N (0,1)
p loi

5) Loi du khi-deux
Si X suit une loi du khi-deux dont le nombre de degrs de libert , alors :
X
N (0,1)
2 loi
Cependant, pour les petites valeurs de , on obtient une meilleure approxi-
mation en utilisant comme rsultat la convergence :

2X 2 1 N (0,1)
loi
Exemple 6.10
Le fractile d'ordre 0,1 de la loi du khi-deux 50 degrs de libert a pour
valeur u = 37,7 (cf. table 5 ). Avec la premire approximation, on crit :

X u
0,1 = P <
2 2
Le fractile d'ordre 0,1 de la loi N (0,1) a pour valeur f = 1,2816 d'o
on dduit comme valeur approche de u : 10 f + = 50 12,8 = 37,2 .
Pour utiliser la seconde approximation, on crit :

0,1 = P 2X 2 1 < 2u 2 1

et on obtient cette fois 2u 2 1 f soit u 37,6 valeur plus
proche de la valeur exacte.
6) Loi de Student
Si X suit une loi de Student dont le nombre de degrs de libert n devient infini,
alors :
X N (0,1)
loi
Exemple 6.11
Pour se faire une ide de l'approximation du fractile d'ordre 0,95 par
celui de la loi normale qui vaut 1,645 le tableau ci-aprs donne les frac-
tiles exacts de la loi de Student en fonction de n .
n 30 40 100 200 500

1,697 1,684 1,660 1,653 1,648

retenir
Il est bien sr essentiel de retenir les noncs des deux thormes fon-
damentaux de la statistique asymptotique : la loi des grands nombres et
le thorme central limite. Ceci suppose au pralable de bien connatre
galement les dfinitions des deux convergences principales associes
ces thormes : la convergence en probabilit et la convergence en loi.
La convergence en probabilit est plus forte que la convergence en loi
et se dmontre gnralement partir des conditions suffisantes qui font
intervenir l'esprance et la variance des termes de la suite. Ces conditions
dfinissent en fait la convergence en moyenne quadratique, qui son tour
implique la convergence en probabilit.
L'ingalit de Bienaym-Tchebychev est parfois utile pour tablir
certains rsultats thoriques.
Complments
Nous allons prsenter deux autres modes stochastiques de convergence, plus forts que la
convergence en probabilit, et nous noncerons notamment la loi forte des grands
nombres.
A. Convergence presque sre

On dit que la suite (X n ) converge presque srement vers la v.a. X si :

P / lim X n () = X () = 1
n
et on crit :
X n X, n
p.s.
Cette terminologie, qui peut paratre un peu trange, traduit le fait que la suite num-
rique X n () converge presque partout vers X () , au sens o elle converge pour tout
de , l'exception d'un sous-ensemble de dont la probabilit est gale zro. Les
quatre proprits suivantes, qui sont quivalentes, peuvent permettre de mieux com-
prendre le sens de cette convergence :

Xn X
p.s.

> 0, lim P sup |X m X| > = 0
n m n

> 0, lim P (|X m X| > ) = 0
n
m n

> 0, lim P (|X m X| < ) = 1
n
m n
Il est facile de voir que les vnements suivants sont quivalents :

(|X m X| > ) = sup |X m X| >
m n m n
et ont comme complmentaire :

(|X m X| < )
m n
ce qui montre l'quivalence des trois conditions. La dernire condition exprime que,
partir d'un certain rang N = N () , tous les vnements (|X n X| < ) pour n > N
sont raliss avec une probabilit qui tend vers un. La premire condition signifie que :
sup |X m X| 0, n
m n p
et implique en particulier que |X n X| 0 , donc la convergence presque sre est plus

p
forte que la convergence en probabilit :
Xn X Xn X
p.s. p
titre d'illustration de cette convergence, nous pouvons noncer le thorme suivant.
Thorme (loi forte des grands nombres)

Si (X n ) est une suite de v.a. indpendantes et de mme loi, admettant une esp-
rance note m, alors :
X n m, n
p.s.

B. Convergence presque complte

La convergence prcdente peut tre difficile tablir ; cependant, si on applique
l'ingalit de Boole, on observe que :

P (|X m X| > ) P {|X m X| > }
m n m=n
et donc la convergence presque sre sera obtenue si la srie de terme gnral

P {|X n X| > } est convergente, car le majorant est le reste de cette srie. Cette
condition suffisante de convergence p.s., plus facile tablir que les conditions quiva-
lentes de la dfinition, sert de dfinition une convergence plus forte.
On dit que la suite (X n ) converge presque compltement srement vers la v.a. X si :

> 0, P {|X n X| > } < +
n=1
et on crit :
X n X, n
p.co.
titre d'illustration de cette convergence, nous pouvons noncer le thorme suivant,

nonc sous sa forme faible dans l'exemple 6.5.
Thorme de Glivenko-Cantelli
Si Fn est la f.r. empirique associe un chantillon dune loi de f.r. F, alors :
sup |Fn (x) F (x)| 0, n
xR p.co.
Exemple 6.12
Considrons la suite (X n ) dfinie partir d'une v.a. U de loi uniforme sur [0,1]
par :
1
n si U
Xn = n , n1
0 sinon
et tudions sa convergence vers zro. Pour tout > 0 fix, l'vnement
1
(|X m | > ) est quivalent l'vnement U 0,
, donc :
m

1 1
(|X m | > ) = U 0, = U 0,
m=n m=n m n
et par consquent :

1 1
P (|X m | > ) = P U 0, = 0
m=n n n

ce qui traduit le fait que :

Xn 0
p.s.

1 1
Cependant, P (|X n | > ) = P U = est le terme gnral d'une srie
n n
divergente et donc il n'y a pas convergence presque complte de (X n ) vers zro.
Cet exemple montre bien que ces deux convergences ne sont pas quivalentes,
mme si dans beaucoup de cas la convergence p.s. se dmontre partir de la
convergence p.co.

Exercices
noncs
Exercice n1
tudier la convergence en probabilit, en moyenne, puis en moyenne quadratique de la
suite de v.a. (X n ) dont la loi de probabilit est dfinie pour n N par :
1 1
P (X n = n) = P (X n = n) = et P (X n = 0) = 1 2
2n 2 n
Exercice n2
Soit (X n ) une suite de v.a. dont la loi est dfinie pour n N par :
1 1
P (X n = 0) = 1 et P (X n = n) =
n n
1) Montrer que (X n ) converge en probabilit, mais pas en moyenne quadratique, vers
zro quand n tend vers l'infini.
2) Soit (Yn ) une suite de v.a. de mme loi N (0,1) et indpendantes des v.a. (X n ) .
tudier la convergence en loi de Z n = X n + Yn et la limite de V (Z n ) quand n tend vers
l'infini.
Exercice n3
Peut-on appliquer la loi des grands nombres la suite (X n ) de v.a. mutuellement ind-
pendantes dont la loi de probabilit est dfinie pour n N par :
1
P Xn = n = P Xn = n = ?
2
Exercice n4
tudier la convergence en loi de la suite de v.a. certaines X n = n.
Exercice n5
Soit (Un ) des v.a. indpendantes et de mme loi dfinie par P (Un = 1) = p et
P (Un = 1) = q = 1 p avec 0 < p < 1. Dterminer la loi exacte, puis la loi limi-
te, de la suite (Vn ) dfinie par :

n
Vn = Ui
i=1
Exercice n6

Soit (X n ) une suite de v.a. de loi gomtrique de paramtre pn = , o est un
Xn n
nombre strictement positif. Montrer que la suite converge vers la loi exponentielle de
n
paramtre .

Exercice n7
de v.a. de loi uniforme discrte sur l'ensemble X n ( ) =

Soit (X n ) une suite

1 n1
0, ,. . . , ,1 . Montrer que cette suite converge vers la loi uniforme sur [0,1] .
n n
Exercice n8
Soit (X n ) une suite de v. a. dont la loi est dfinie pour n N par :

1 1 1
P Xn = 1 = P Xn = 1 + =
n n 2
tudier sa convergence en loi.
Exercice n9
Calculer le fractile d'ordre 0,95 de la loi 40

2
en utilisant l'approximation de la loi de

22 2 1 par la loi normale standard, avec ici = 40.
Exercice n10
Soit X n une v.a. positive de densit f n (x) = nenx pour x > 0. Montrer que la suite (X n )
converge en moyenne quadratique vers zro.
Exercice n11
Soit (X n ) une suite de v.a. indpendantes et de mme loi, de densit f dfinie par :
(x)
e si x >
f (x) =
0 si x
o est un nombre positif fix. Montrer que m n = min {X 1 ,. . . ,X n } converge en moyen-
ne quadratique vers . tudier la convergence en loi de Yn = n(m n ).
Exercice n12
Soit (X n ) une suite de v. a. indpendantes et de mme loi normale centre et de
variance 2. tudier la convergence en loi des v. a. :
1 n
1 n
Dn = |X i | et Sn2 = X2
n i=1 n i=1 i
Exercice n13
Soit (X n ) une suite de v.a. mutuellement indpendantes et de mme loi de Gumbel de
densit f (x) = exp (x ex ) . Dterminer la loi de probabilit de la variable alatoire
Z n = e X n , puis tudier la convergence en loi de la suite (Yn ), avec

1 n Xi
Yn = ln e .
n 1
Corrigs
Exercice n1
1
Pour tout > 0, on obtient P (|X n | < ) = P (X n = 0) = 1 1 quand
n2
1
n , donc par dfinition X n 0 . D'autre part, E (|X n |) = 0 ce qui ex-
p n

prime que X n converge en moyenne (d'ordre

1) vers zro, ce qui implique d'ailleurs sa
convergence en probabilit. Enfin, E X n2 = 1 donc X n ne converge pas en moyenne
quadratique vers zro.
Exercice n2
1
1) Pour tout > 0 , P (|X n | > ) = P (X n = n) = 0 quand n , donc par
n
dfinition de la convergence en probabilit :
Xn 0
p

Par ailleurs, E = n donc E (X n ) = 1 et E X nk pour tout entier
X nk k1
k > 1 . En particulier E X n2 et donc (X n ) ne converge pas en moyenne qua-

dratique vers zro. Aucun moment de X n ne converge d'ailleurs vers le moment corres-
pondant de sa limite qui est toujours gal 0.
2) Toutes les variables Yn ont la mme loi N (0,1) qu'une certaine variable Y, donc en
appliquant la proprit prsente II, C on en dduit que la suite (X n + Yn ) converge
en loi vers Y. Cependant, V (Z n ) = V (X n ) + V (Yn ) = n 1 + 1 = n , alors
que Z n converge en loi vers la loi normale de variance 1.
Exercice n3
On ne peut pas appliquer la loi forte des grands nombres aux variables X n car elles n'ont
pas la mme loi. D'autre part, on obtient E (X n ) = 0 et V (X n ) = n donc on ne peut
pas non plus appliquer la loi faible des grands nombres car ces variables n'ont pas la
mme variance.
Exercice n4
Les variables X n ont pour f.r. :

0 si x n
Fn (x) =
1 si n < x
La suite Fn (x) converge pour tout x rel vers F (x) = 0 ; cependant il n'y a pas conver-
gence en loi car F n'est pas une fonction de rpartition.
Exercice n5
La v.a. Vn tant le produit de termes qui valent 1 ou 1 ne prend aussi que les valeurs
1 et 1. Si nous posons pn = P (Vn = 1) on obtient E (Vn ) = pn (1 pn )
= 2 pn 1 . D'autre part, les v.a. Un tant indpendantes :

n
E (Vn ) = E (Ui ) = (2 p 1) = (2 p 1)n
i=1 i=1
1
et par consquent pn = 1 + (2 p 1)n . Puisque 0 < p < 1 , on a aussi
2
1
|2 p 1| < 1 donc pn quand n . Ainsi la suite (Vn ) converge en loi vers la
2
1
v.a. V dont la loi est dfinie par P (V = 1) = P (V = 1) = .
2
Exercice n6
Xn
La fonction de rpartition de Yn = est dfinie pour tout x > 0 par :
n


[nx]
Fn (x) = P (Yn < x) = P (X n < nx) = pn (1 pn )k1 = 1 (1 pn )[nx]
k=1
si nx
/ N , avec dans ce cas nx = [nx] + o 0 < < 1 ; on a alors :

n
ln [1 Fn (x)] = [nx] ln 1 = (nx ) + x
n n n
Si nx N , alors :

nx1
Fn (x) = P (Yn < x) = P (X n < nx) = pn (1 pn )k1 = 1 (1 pn )nx1
k=1
et :

n
ln [1 Fn (x)] = (nx 1) ln 1 = (nx 1) + x
n n n
Ainsi, dans tous les cas, pour x > 0 et quand n :
Fn (x) 1 e x
la limite est la fonction de rpartition sur R+ de la loi exponentielle de paramtre , qui
est donc la loi limite de Yn .
Exercice n7
La fonction de rpartition de X n est dfinie par :
0 si x 0

k k1 k
Fn (x) = si <x , 1kn

n+1 n n
1 si 1 < x
Pour x 0 ou x > 1 on a Fn (x) = F (x) o F est la fonction de rpartition de la loi
uniforme sur [0,1] . Examinons maintenant le cas o x ]0,1] et soit k l'entier tel que
k1 k
< x . La fonction F tant strictement croissante :
n n

k1 k k1 k
F < F (x) F soit < F (x) .
n n n n
On obtient ainsi :
k k k k1
Fn (x) F (x) <
n+1 n n+1 n
ou :
k n+1k
Fn (x) F (x) <
n (n + 1) n (n + 1)
Donc, pour 1 k n :
n n
Fn (x) F (x) <
n (n + 1) n (n + 1)
ce qui tablit que Fn (x) F (x) 0 quand n et donc que X n converge vers
la loi uniforme sur [0,1] .

Exercice n8
Pour tout > 0 il existe un entier N = N () tel que pour n > N on ait 1/n < et alors :
1 1
P (|X n 1| < ) = + = 1
2 2
Donc P (|X n 1| < ) 1 quand n ce qui montre que la suite (X n ) converge
en probabilit vers la v. a. certaine X = 1, et donc aussi en loi puisque la limite est une
constante.
Cependant, P(X n = 1) = 0 pour tout entier n et donc P(X n = 1) 0 quand
n alors que P(X = 1) = 1. Il faut donc faire attention lutilisation des condi-
tions suffisantes de convergence en loi vues au II.E.
Exercice n9
La lecture de la table 5 nous donne la valeur exacte du fractile d'ordre 0,95 de la loi 40
2
,
soit x = 55,76 . Cependant, beaucoup de tables de fractiles de la loi du 2 s'arrtent
= 30 et donc, pour un nombre plus lev de degrs de libert, il faut alors utiliser l'ap-
proximation propose dans ces tables, soit :

P(X < x) = 0,95 = P 2X 2 1 < 2x 2 1

2x 2 1
o
est
la f.r. de la loi N (0,1). Par lecture de la table 2 des fractiles on obtient
2x 2 1 1,6449 , soit avec ici = 40 : x 55,47 , valeur assez proche de
la valeur exacte.
Exercice n10
Pour montrer que (X n ) converge en moyenne quadratique vers zro, il faut tudier la
limite de :

+ + +
E X n2 = x 2 nenx dx = x 2 enx 0 + 2 xenx dx
0 0

enx + 2 + nx 2
= 2x + e dx = 2 0
n 0 n 0 n
ce qui exprime par dfinition que :
Xn 0
m.q.
Exercice n11
Il faut d'abord dterminer la loi de probabilit de m n :

n
n
P (m n > x) = P (X i > x) = P (X i > x) = [1 F (x)]n
i=1 i=1
o F est la f.r. commune des variables X i ; ainsi, m n admet pour f.r. :
G n (x) = 1 [1 F (x)]n
et pour densit :
gn (x) = n [1 F (x)]n1 f (x) = nen(x)

pour x > . On calcule alors :

+
1 + 2 y
E (m n )2 = (x )2 nen(x) dx = y e dy
n2 0
(3) 2
= = 2 0
n2 n
et par consquent on en conclut que pour n :
mn
m.q.
La f.r. de Yn est dfinie par :
y y
Hn (y) = P (Yn < y) = P m n < = Gn +
n n
et sa densit est donc :
1 y
h n (y) = gn + = ey
n n
pour y > 0 , c'est--dire que Yn suit la loi exponentielle de paramtre 1, indpendante de
n, et qui est donc aussi la loi limite de Yn .
Exercice n12
Dans les deux cas, il sagit dune moyenne de v. a. qui vrifie les hypothses du thor-
me central limite. Il nous suffit donc de calculer les deux premiers moments de ces v. a.
On a dabord : +
+
1 2 2
|x|ex /2 dx = eu du =
2 2
E(|X|) =
2 0
Et ensuite :
2
V (|X|) = E X 2 E 2 (|X|) = 1 2

Lapplication du thorme central limite permet donc dobtenir :

2
Dn

n N (0,1)
2 loi
1

On a ensuite E(X 2 ) = 2 et comme X 2 / 2 suit une loi 12 on a aussi V (X 2 ) = 2 4 .
Ainsi :
Sn2 2
n N (0,1)
2 2 loi
Exercice n13
On vrifie d'abord que les v.a. Z n = e X n suivent une loi (1) . Nous appliquons ensui-
te le thorme central-limite ces variables dont esprance et variance valent 1 :

n Z n 1 N (0,1)
loi
La suite tudie est dfinie par Yn = lnZ n et on utilise alors la proprit II-G avec

an = n et g (t) = lnt qui nous permet d'obtenir :

nYn N (0,1)
loi

7. Estimation
D
ans les chapitres prcdents, nous avions un modle probabiliste
bien prcis o la loi P de la v.a. X considre tait bien spcifie.
Dans la ralit, nous disposons dobservations dun modle
inconnu et le travail du statisticien va consister mettre en correspon-
dance ces observations avec un modle probabiliste. Le problme qui va
se poser au statisticien peut snoncer de la faon suivante : disposant
dobservations x1 ,. . . ,xn dune certaine v.a. X associe au phnomne
tudi, obtenues partir dexpriences alatoires identiques et indpen-
dantes, quelle loi thorique P inconnue peut-on retenir comme loi
parente, cest--dire, quelle est la loi de probabilit associe ce phno-
mne de production des donnes ? Ce quon peut symboliser sous la
forme suivante :
(x1 ,. . . ,xn ) P?
Si ce choix devait tre fait parmi lensemble P de toutes les lois de pro-
babilit existantes, on conoit bien que le problme serait difficile
rsoudre et quil faudrait un trs grand nombre n dobservations pour y
parvenir ; le problme serait alors qualifi de non paramtrique. Compte

tenu dinformations a priori dont il dispose, le statisticien va restreindre
son choix une famille donne (P ; ) indexe donc par parcou-
rant un ensemble bien dtermin. On suppose donc ici que la loi de
probabilit est parfaitement dtermine par la donne dun ou plusieurs

nombres R ou Rk reprsent(s) par que nous appellerons
paramtre de la distribution, tant lensemble des valeurs possibles du
paramtre. Si pour deux valeurs distinctes du paramtre il pouvait y avoir
concidence des lois de probabilit associes, les observations issues de
cette distribution ne permettraient pas de distinguer ces deux valeurs du
paramtre. Nous ferons donc lhypothse que pour = / on a P =/ P ,
i.e. que lapplication P est injective, ce que nous traduirons en
Estimation 195
disant que le modle est identifiable. Do le modle statistique para-

mtrique (E,B,(P ; )) , o E = X ( ) est lensemble des valeurs
possibles pour la v.a. X , ou espace des rsultats (E R ou R p ) , et B la
tribu borlienne associe (famille des intervalles et des unions dinter-
valles dans R ). Le problme initial du statisticien peut alors se reformu-
ler sous la forme symbolique suivante :
(x1 ,. . . ,xn ) ?
et se nomme alors un problme destimation. Choisir une seule valeur du
paramtre est un problme destimation ponctuelle, choisir un sous-
ensemble de , dnomm rgion de confiance, est un problme desti-
mation ensembliste, destimation par intervalle dans le cas particulier,
assez frquent, ou cette rgion est un intervalle de R . Ce type de pro-
blmes sera rsolu par la donne dune application T : E n F qui asso-
ciera une (ou plusieurs) variable(s) alatoire(s) valeur(s) numrique(s)

F R ou Rk un n -chantillon (X 1 ,. . . ,X n ) , application que nous
nommerons une statistique. Il sagit du modle dchantillonnage not
(E,B,(P ; ))n .

Objectif du chapitre : montrer comment on peut, partir dobservations
indpendantes dun phnomne considr comme alatoire, attri-
buer une valeur, ou un ensemble de valeurs, un (ou plusieurs)
paramtres qui caractrise(nt) la loi retenue pour le modle.
Concepts cls tudis : estimateur, biais, estimateur convergent, erreur
quadratique moyenne, vraisemblance, efficacit, information
de Fisher, mthode du maximum de vraisemblance, mthode
des moments.
I. Dfinition dun estimateur

Nous allons introduire la notion destimateur partir dun exemple familier issu
des sondages qui, rgulirement, cherchent connatre ltat de lopinion
publique vis--vis du prsident de la Rpublique. Le modle statistique que lon
peut construire consiste retenir comme ensemble lensemble des lecteurs
franais et considrer le sous-ensemble A de ceux qui sont favorables au prsi-
dent de la Rpublique. La v.a. X associe sera alors la variable indicatrice de A ,
dfinie par :

1 si A
X () =
0 sinon

La loi de probabilit de X est donc connue, cest la loi de Bernoulli B (1, p) ,

et le paramtre qui dfinit compltement le modle est ici = p
= P (X = 1) = P(A) . La famille de lois de probabilit est donc
{B (1, p) ; p [0,1]} indexe par = [0,1] . Pour se faire une ide de la
vraie valeur de ce paramtre, on effectue un sondage en interrogeant n per-
sonnes tires au hasard dans et on associe chacune delles une variable de
Bernoulli X i ,1 i n , de mme loi que X . Sans tre statisticien, si on consta-
te que 48 % des personnes interroges sont favorables au prsident de la
Rpublique, on en dduira quenviron un franais sur deux y est favorable. En
langage courant, on dira que lon estime la valeur de p 48 %. Cette valeur,
calcule sur lchantillon, est une estimation, cette fois en terme statistique, du
1 n
paramtre p , obtenue partir de la frquence empirique f n = X i quon
appellera donc un estimateur de p . n i=1
Prenons un autre exemple. Supposons quavant de choisir un vhicule auto-

mobile on se fixe un critre de choix bas sur le nombre moyen N de pannes par
an que lon est susceptible davoir avec un modle donn. Ayant la possibilit de
faire une tude statistique chez un concessionnaire, on prlve au hasard n dos-
siers de vhicules et on note pour chacun le nombre Ni ,1 i n , de pannes
subies la dernire anne de mise en circulation. La loi de Poisson tant adapte
pour modliser le nombre de pannes, on retient ici la famille de lois
{P () ; R+ } . Le paramtre est ici la moyenne de la loi, i.e. = E(N ), donc
on estime sa valeur par la moyenne des valeurs observes sur lchantillon, soit :
1 n
Nn = Ni
n i=1
Dans ces deux exemples, on a donc construit un modle statistique o la v.a.X

suit une loi P et pour se faire une ide de la valeur inconnue du paramtre qui
dtermine la loi de probabilit, on utilise un chantillon de cette loi. partir des
valeurs observes x1 ,. . . ,xn on calcule ensuite une certaine valeur numrique
que lon considrera comme une valeur approche de et quon appellera une
estimation de . La rgle qui permettra deffectuer ce calcul est un estimateur,
dont la dfinition prcise est la suivante.
Dfinition
Un estimateur de est une application Tn de E n dans F qui un chan-
tillon (X 1 ,. . . ,X n ) de la loi P associe une variable alatoire relle (ou plu-
sieurs dans le cas dun paramtre multidimensionnel) dont on peut dterminer
la loi de probabilit.
La loi de la v.a. Tn (X 1 ,. . . ,X n ) dpend de celle de X , et donc de , et chaque

ralisation Tn (x1 ,. . . ,xn ) sera une estimation de . Cette dfinition est extr-
mement gnrale et ne donne pas de mthode de construction dun estimateur.
Cependant, comme nous lavons vu sur les exemples introductifs, lexpression
Estimation 197
de lestimateur dcoule trs naturellement de linterprtation que lon peut trs

souvent donner du paramtre. Nous avions dans ces exemples = E(X) , cest-
-dire la moyenne thorique de la loi, et on retient donc trs logiquement comme
estimateur du paramtre la moyenne empirique ou moyenne de lchantillon :
1 n
Tn (X 1 ,. . . ,X n ) = X n = Xi
n i=1
Ce nest que dans certains cas, assez rares, o le paramtre nadmet pas din-
terprtation vidente, que lon est amen utiliser une mthode de construction
dun estimateur, comme la mthode des moments, gnralisant cette mthode
intuitive, ou dautres mthodes aux proprits voisines, comme la mthode du
maximum de vraisemblance et la mthode des moindres carrs.
Un estimateur est une statistique particulire, en tant que fonction de
lchantillon, qui permet dattribuer une valeur au paramtre estimer. On
pourrait donc le dfinir comme une statistique valeurs dans . Comme nous
navons ici impos aucune condition lensemble F , nous allons dfinir une
proprit que lon pourrait qualifier de minimale pour un estimateur, cest--dire
de prendre ses valeurs dans le mme ensemble que le paramtre. On dira quun
estimateur est strict si Tn (E n ) .
Exemple 7.1
Si X suit une loi de Bernoulli B (1,) , Tn sera un estimateur strict si
0 Tn (x1 ,. . . ,xn ) 1 pour tout chantillon observ (x1 ,. . . ,xn ) .
Nous allons maintenant dfinir les proprits essentielles que doit vrifier un
estimateur.
II. Proprits dun estimateur

Ayant fait choix dun estimateur, on se pose la question de savoir sil sagit dun
bon estimateur. Il va donc falloir se donner des critres de qualit. Par
ailleurs, il se peut que pour certains problmes on ait le choix entre plusieurs
estimateurs et il va donc falloir aussi dfinir un critre de comparaison pour
dterminer quel est le meilleur. Enfin, on peut se poser la question de savoir sil
nexisterait pas un estimateur qui, pour un problme donn, ne serait pas
meilleur que tous les autres : cest le problme de loptimalit. Toutes ces ques-
tions vont trouver des rponses dans ltude des proprits ci-aprs o nous sup-
poserons pour simplifier que est un paramtre rel, cest--dire que R .
Ces proprits peuvent bien sr stendre au cas dun paramtre multidimen-
sionnel.

A. Biais dun estimateur

Bien entendu, pour pouvoir considrer Tn (x1 ,. . . ,xn ) comme une valeur appro-
che de , il faut que les valeurs prises par la v.a. Tn ne scartent pas trop de la
valeur, fixe, de . Comme Tn est une v.a., on ne peut imposer une condition qu
sa valeur moyenne, ce qui nous amne dfinir le biais dun estimateur comme
lcart entre sa moyenne et la vraie valeur du paramtre :
bn () = E (Tn )
Do une proprit relative au biais dun estimateur.
Dfinition
Un estimateur Tn de est dit sans biais si pour tout de et tout entier
positif n :
E (Tn ) =
Exemple 7.2
Si le paramtre estimer est la moyenne thorique de la loi,
i.e. = E(X) , lestimateur naturel est la moyenne empirique Tn = X n .
Nous avons vu dans le chapitre 5 que E (Tn ) = E (X) = , donc nous en
dduisons le rsultat trs gnral que la moyenne empirique est toujours
un estimateur sans biais de la moyenne thorique (esprance mathma-
tique), quelle que soit la loi de probabilit de la variable X .
Cependant, cette proprit peut ne pas tre strictement vrifie, le biais dimi-
nuant seulement quand la taille dchantillon augmente. Ceci correspond la
dfinition suivante.
Dfinition
Un estimateur Tn de est dit asymptotiquement sans biais si pour tout
de :
E (Tn ) quand n
Exemple 7.3
Si le paramtre estimer est la variance thorique de la loi, i.e. = V (X) ,
1 n
2
lestimateur naturel est la variance empirique Tn = Sn2 = Xi X n
n i=1
Estimation 199
n1
et nous avons vu dans le chapitre 5 que E (Tn ) = . Donc Sn2 est un
n
estimateur asymptotiquement sans biais de . Nous avons vu aussi que
1 n
2
E Sn2 = V (X) = , o Sn2 = X i X n est la variance empi-
n 1 i=1
rique modifie qui est donc toujours un estimateur sans biais de la variance
thorique, quelle que soit la loi de probabilit de la variable X .
B. Convergence dun estimateur

Intuitivement, on est amen penser que si la taille de lchantillon augmente,
linformation sur le paramtre va augmenter et donc lestimateur devrait dune
certaine manire se rapprocher de la valeur de . Cet estimateur tant une v.a.,
la formulation mathmatique de cette notion intuitive va faire appel la conver-
gence en probabilit dune suite de v.a. : Tn prendra des valeurs proches de avec
une probabilit dautant plus proche de un que la taille dchantillon n sera gran-
de. Ceci conduit la dfinition suivante.
Dfinition
Un estimateur Tn est convergent si la suite de v.a. (Tn ) converge en proba-
bilit vers la valeur du paramtre, cest--dire pour tout de :
Tn P (|Tn | < ) 1, > 0, n

p
P (|Tn | > ) 0
Il existe un moyen en gnral simple de vrifier cette proprit de conver-

gence, partir de conditions suffisantes faisant intervenir les deux premiers
moments de lestimateur, et que nous nonons dans le thorme ci-aprs.
Thorme
Tout estimateur sans biais dont la variance tend vers zro est convergent :

E (Tn ) =
Tn , n
V (Tn ) 0 p
Ce rsultat se dduit directement de lingalit de Bienaym-Tchebychev :

V (Tn )
P (|Tn | > ) 0, > 0, n
2

En fait, sous les hypothses du thorme, on obtient une convergence

plus forte qui est la convergence en moyenne quadratique puisquici
V (Tn ) = E (Tn )2 0 quand n .
Exemple 7.4
Si = E(X) , ce paramtre est estim sans biais par Tn = X n , et on sait
de plus que V (Tn ) = V (X)/n donc V (Tn ) 0 quand n et Tn est
convergent (rsultat que lon aurait pu dduire directement de la loi des
grands nombres). Ainsi, la moyenne empirique est un estimateur sans
biais et convergent de la moyenne thorique E(X) , quelle que soit la loi
de X .
Le rsultat prcdent peut tre obtenu sous des conditions un peu plus gn-
rales nonces ci-aprs.
Thorme
Tout estimateur asymptotiquement sans biais dont la variance tend vers
zro est convergent :

E (Tn )
Tn , n
V (Tn ) 0 p
L encore, ces conditions suffisantes de convergence en probabilit de Tn

tablissent en fait que cette suite converge en moyenne quadratique.
C. Estimateur optimal
1) Qualit dun estimateur
La qualit dun estimateur va se mesurer laide dune distance au paramtre

qui peut tre par exemple |Tn | ou (Tn )2 . Pour obtenir un indicateur
numrique on peut alors dterminer la valeur moyenne de cette distance.
Lindicateur gnralement retenu, car il se prte facilement aux calculs, est lerreur
quadratique moyenne dfinie pour tout par :
E Q(Tn ) = E (Tn )2 = V (Tn ) + bn2 ()
Dans le cas particulier dun estimateur sans biais, cette erreur quadratique se
confond avec la variance de lestimateur. Si dans lerreur totale destimation on
privilgie lerreur structurelle, mesure par bn2 () , on fera choix dun estimateur
sans biais et lerreur destimation se rduira lerreur statistique mesure par la
variance de lestimateur. Si on se place donc dornavant dans la classe des esti-
Estimation 201
mateurs sans biais, on pourra comparer deux estimateurs Tn et Tn de cette clas-
se par leur variance qui mesure alors leur dispersion par rapport au paramtre
qui est leur esprance commune. Nous dirons que lestimateur Tn est plus effi-
cace que Tn si pour tout de et pour une taille dchantillon n > N :

V (Tn ) V Tn
La question se pose alors de savoir si on pourrait trouver un troisime esti-
mateur qui serait son tour meilleur que Tn . En cas de rponse positive, il fau-
drait poursuivre la recherche, ce qui nous conduirait essayer damliorer ind-
finiment un estimateur. Le problme nadmettrait une fin que si lon savait que
lestimateur obtenu est le meilleur. Le paragraphe suivant va fournir des l-
ments de rponse.
2) Ingalit de Frchet-Darmois-Cramer-Rao
Nous allons voir que dans certaines conditions il existe une borne infrieure
pour lensemble des variances des estimateurs sans biais, ce qui va constituer un
butoir ne permettant pas damliorer sans cesse les estimateurs. Dautre part, si
cette borne est atteinte par un estimateur, il deviendra le meilleur et sera quali-
fi doptimal dans la classe des estimateurs sans biais. Pour noncer ce rsultat,
nous avons besoin dintroduire la dfinition suivante.
Dfinition
On appelle vraisemblance (likelihood) de lchantillon (X 1 ,. . . ,X n ) la loi
de probabilit de ce n -uple, note L (x1 ,. . . ,xn ; ) , et dfinie par :

n
L (x1 ,. . . ,xn ; ) = P (X i = xi |)
i=1
si X est une v.a. discrte, et par :

n
L (x1 ,. . . ,xn ; ) = f (xi ; )
i=1
si X est une v.a. continue de densit f (x; ) .
Le thorme suivant va prciser la borne infrieure pour la variance des esti-

mateurs sans biais, sous certaines hypothses relatives la loi de probabilit de
X et que nous appellerons hypothses de Cramer-Rao. Nous ne donnerons pas
le dtail de ces hypothses (voir complments) qui sont essentiellement des
conditions techniques portant sur lexistence de drives de la densit f de X et
la possibilit dintervertir les oprations de drivation et dintgration.
Cependant, nous ferons figurer dans lnonc du thorme la condition indis-

pensable pour que cette ingalit soit vraie et qui nest pas satisfaite pour cer-
taines lois usuelles, alors que les autres hypothses sont gnralement vrifies.
Enfin, cet nonc fait intervenir la notion de quantit dinformation de Fisher
qui est dfinie par : 2
lnL
In () = E

Thorme
Sous les hypothses de Cramer-Rao, en particulier si E = X ( ) est ind-
pendant du paramtre estimer , pour tout estimateur sans biais Tn de
on a :
1
V (Tn ) = B F ()
In ()
La quantit B F () est la borne infrieure de Frchet-Darmois-Cramer-Rao

(FDCR en abrg). Notons que dans les conditions dapplication de ce thor-
me, en particulier si E = X ( ) est indpendant du paramtre estimer , on
obtient une expression quivalente de la quantit dinformation de Fisher qui est
gnralement plus simple calculer :
2
lnL
In () = E
2
Exemple 7.5
Soit X une v.a. de loi exponentielle de paramtre 1/, ou loi (1,1/) ,
avec > 0 , de densit pour x > 0 :
1
f (x; ) = ex/

La vraisemblance admet ici pour expression :

n
1 1 n
L (x1 ,. . . ,xn ; ) = f (xi ; ) = n exp xi
i=1
i=1
Pour calculer la quantit dinformation de Fisher nous crivons la log-

vraisemblance :
1 n
lnL (x1 ,. . . ,xn ; ) = nln xi
i=1
Nous drivons par rapport au paramtre :
lnL n 1
n
= + 2 xi
i=1
Estimation 203
Soit en levant au carr :

2
2
lnL 1 n n
1 n
= 2 n2 2 xi + 2 xi
i=1 i=1

n
Si on pose Sn = X i , on obtient :
i=1

1 n 1 2
In () = 2 n 2 E (Sn ) + 2 E Sn
2

Avec E (Sn ) = n E (X) = n, E (Sn2 ) = V (Sn ) + E 2 (Sn ) = nV (X)

+ n 2 2 = n (n + 1) 2 on obtient :
n
In () =
2
Comme X ( ) = R+ est indpendant de , on peut utiliser la seconde
expression de la quantit dinformation de Fisher, calcule partir de :
2 lnL n 2
= 2 3 Sn
2
ce qui permet dobtenir plus facilement :
2
lnL n n n
In () = E = 2 +2 3 = 2
2
Exemple 7.6
Si nous prenons maintenant lexemple de la loi exponentielle sur
[,+[ , de densit :
(x)
e si x
f (x; ) =
0 sinon
La vraisemblance scrit :

n
L (x1 ,. . . ,xn ; ) = exp (xi )
i=1
si tous les xi sont plus grands que , cest--dire si min {xi /1 i n} .

On a alors :
n
lnL (x1 ,. . . ,xn ; ) = xi + n
i=1
lnL
do = n et :

2
lnL
In () = E = n2


2
2 lnL lnL
On peut remarquer ici que = 0 et par consquent E =0
2 2
ne concide pas avec la valeur de la quantit dinformation de Fisher, ce
qui sexplique par le fait quici X ( ) = [,+[ dpend du paramtre
estimer .
3) Estimateur efficace
Le thorme prcdent fournit une borne infrieure pour la variance des estima-
teurs sans biais, qui peut ou non tre atteinte. Si cette borne est effectivement
atteinte par un estimateur, il sera donc le meilleur, selon ce critre, dans la classe
des estimateurs sans biais. Cette optimalit se traduit par la dfinition suivante.
Dfinition
Un estimateur sans biais Tn est dit efficace si sa variance est gale la
borne infrieure de FDCR :
1
V (Tn ) =
In ()
Exemple 7.7
Si nous reprenons lexemple de la loi exponentielle de paramtre 1/ ,
comme E (X) = , on sait que Tn = X n est un estimateur sans biais et
convergent. De plus :
V (X) 2 1
V (Tn ) = V X n = = =
n n In ()
donc cet estimateur est aussi efficace.
Remarque
Un estimateur efficace est bien sr optimal, mais dans la classe des esti-
mateurs sans biais. Si on utilise comme critre lerreur quadratique, qui

est une mesure de lerreur totale o les erreurs structurelle et statistique
jouent le mme rle, on peut trouver un estimateur qui soit meilleur quun
estimateur efficace. Par exemple, dans le cas dun chantillon dune loi
1 n
N (0, ) , on sait que n2 = X 2 est un estimateur efficace de 2 ,
n i=1 i
2 4
avec E Q n2 = V n2 = . Mais, si on retient lestimateur avec
n
1 n
biais Tn = X 2 , on obtient un estimateur meilleur, cest--dire
n + 2 i=1 i
2 4
derreur totale plus faible puisque E Q (Tn ) = < E Q n2 .
n+2
Estimation 205
III. Mthodes de construction dun estimateur

Dans les situations o il ny a pas destimateur vident, on est amen recourir
une mthode de construction dun estimateur, les deux mthodes que nous pr-
senterons ici tant celles du maximum de vraisemblance et des moments.
A. Mthode du maximum de vraisemblance

La vraisemblance L (x1 ,. . . ,xn ; ) reprsente la probabilit dobserver le n -uple
(x1 ,. . . ,xn ) pour une valeur fixe de . Dans la situation inverse ici o on a
observ (x1 ,. . . ,xn ) sans connatre la valeur de , on va attribuer la valeur
qui parat la plus vraisemblable, compte tenu de lobservation dont on dispose,
cest--dire celle qui va lui attribuer la plus forte probabilit. On se fixe donc la
rgle suivante : (x1 ,. . . ,xn ) fix, on considre la vraisemblance L comme une
fonction de et on attribue la valeur qui maximise cette fonction. Do la
dfinition suivante.
Dfinition
On appelle estimateur du maximum de vraisemblance (emv) toute fonction

n de (x1 ,. . . ,xn ) qui vrifie :

L x1 ,. . . ,xn ;
n = max L (x1 ,. . . ,xn ; )

Cette dfinition ne renseigne en aucune faon, ni sur lexistence, ni sur luni-

cit, dun tel estimateur. La recherche de lemv peut se faire directement par
recherche du maximum de L , ou dans le cas particulier o la fonction L est deux
L
fois drivable par rapport , comme solution de lquation = 0 qui vrifie
2 L
aussi 2 < 0 . Cependant, la vraisemblance se calculant partir dun produit,

on prfre remplacer ce dernier problme par le problme quivalent pour la
lnL
log-vraisemblance, puisque la fonction ln est strictement croissante, =0

lnL
2
avec < 0 et qui aura une expression gnralement simplifie.
2

Remarquons enfin que si n est un emv du paramtre , alors g n est un emv
du paramtre g() pour toute fonction g . Si par exemple la variance empirique
modifie Sn2 , qui est un estimateur sans biais de = V (X) , est un emv pour un
modle statistique donn, alors Sn est un emv du paramtre


g () = (X) = V (X) = . Notons cependant que Sn ne peut pas tre
aussi un estimateur sans biais car on aurait alors V (Sn ) = E Sn2 E 2 (Sn )
= = 0.
Exemple 7.8
Cherchons lemv pour la famille de lois exponentielles de paramtre 1/.
La log-vraisemblance est indfiniment drivable pour > 0 et nous
avions obtenu dans lexemple 7.5:
lnL n 1 n
= + 2 xi
i=1
1 n
qui sannule en changeant de signe pour = xi = x n , avec :
n i=1
2 lnL n 2 n
n
= xi = 3 ( 2x n )
2 2 i=1
3
soit pour = x n :
2 lnL n
= <0
2 =x n x 2n
donc lemv est
n = X n .
Exemple 7.9
Dans le cas de la loi exponentielle sur [,+[ , la vraisemblance avait
pour expression :
n nx n
e e min {xi /1 i n}
L (x1 ,. . . ,xn ; ) =
0 min {xi /1 i n} <
Pour min {xi /1 i n} la vraisemblance est une fonction croissan-
te de et ensuite elle sannule ; lallure gnrale du graphe de L
(cf. figure 7.1) montre bien que L est maximum pour
= min {xi /1 i n}, ce qui correspond lemv :

n = min {X i /1 i n}
]
0 min xi
Figure 7.1
Estimation 207
Remarque
lnL
Dans lexemple 7.9, nous avons lnL = n nx n et = n ne sannule

pas ; la recherche du maximum de L (ou de lnL ) sest effectue directe-
ment, sans avoir recours aux drives. Rappelons ce propos que dans la
recherche des extremums dune fonction relle g , la condition g (x0 ) = 0
nest ni ncessaire, ni suffisante, pour quil existe un extremum en x0 .
Cette recherche dextremum doit se faire directement, partir de la condi-
tion qui le dfinit, cest--dire g (x) g (x0 ) a un signe constant au voi-
sinage de x0 . Ce nest que dans le cas dune fonction deux fois drivable
sur un intervalle ouvert, que le maximum est obtenu partir des condi-

tions g (x0 ) = 0 et g (x0 ) < 0 .
B. Mthode des moments

Dans le cas o le paramtre estimer est = E (X) , moyenne thorique de la
loi, nous avons vu que lestimateur naturel tait la moyenne empirique, ou
moyenne de lchantillon, X n . De mme, pour estimer le paramtre = V (X) ,
variance de la loi, nous retenons logiquement comme estimateur la variance empi-
rique Sn2 . Plus
gnralement, si lun des moments dordre k N , non centr
m k = E X = m k () , ou centr k = E (X m 1 ) = k () , dpend de ,
k k
nous allons chercher un estimateur par rsolution de lquation en obtenue en

galant moment thorique et moment empirique correspondant, soit :
1 n
1 n
k
m kn = X ik = m k () ou kn = X i X n = k ()
n i=1 n i=1
La solution de lquation, si elle existe et est unique, sera appele estimateur
obtenu par la mthode des moments. Dans les exemples introductifs o
= E (X) et = V (X) , les quations rsoudre scrivaient sous forme
rsolue = X n et = Sn2 .
Exemple 7.10
Si X suit une loi exponentielle de paramtre , on sait que E (X) = 1/ et
lquation rsoudre scrit X n = 1/ , de solution immdiate = 1/X n ,
qui correspond lestimateur obtenu par la mthode des moments :
1
n =
Xn
Bien entendu, on pourrait utiliser cette mthode avec des moments dordres
plus levs et obtenir ainsi dautres estimateurs. En utilisant par exemple la
variance V (X) = 1/ 2 on obtient le nouvel estimateur n = 1/Sn .
Cette mthode intuitive se justifie par les proprits de convergence des
moments empiriques vers les moments thoriques correspondants (cf. chap 6,
II, H).

IV. Estimation par intervalle de confiance

A. Exemple introductif
Un industriel commande un lot de tiges mtalliques quil ne peut utiliser que si
leur longueur est comprise entre 23,60 mm et 23,70 mm. Ces tiges ont t fabri-
ques par une machine qui, lorsquelle est rgle la valeur m , produit des tiges
dont la longueur peut tre considre comme une v.a. X de loi normale
N (m, ) , o lcart type est une caractristique de la machine, de valeur
connue, ici = 0,02 mm. Compte tenu de la symtrie de la distribution nor-
male, la proportion de tiges utilisables par lindustriel sera maximale si le rgla-
ge a t effectu m 0 = 23,65 mm. Ne connaissant pas cette valeur, la rcep-
tion dun lot de tiges lindustriel prlve au hasard n tiges dont il mesure les lon-
gueurs X 1 ,. . . ,X n pour se faire une ide de la valeur du paramtre de rglage m .
Il calcule la moyenne des longueurs observes et ayant obtenu la valeur
x n = 23,63 il en conclut que, sil est peu raliste de croire que la valeur de m
est exactement 23,63 mm, elle doit malgr tout tre trs proche de cette valeur
moyenne observe sur lchantillon. Il lui parat raisonnable daboutir une
conclusion de la forme il y a 95 chances sur 100 que la valeur de m soit com-
prise entre 23,63 a et 23,63 + b . Le problme consiste alors fixer des
valeurs prcises pour a et b et on conoit bien quelles doivent dpendre des
chances que lon a attribu cet intervalle de contenir effectivement la vraie
valeur de m . Lintervalle ainsi obtenu sappellera intervalle de confiance et sa
probabilit qui a permis de le dterminer, niveau de confiance. La longueur de
cet intervalle sera bien sr proportionnelle ce niveau de confiance. On peut par
exemple toujours fournir un intervalle qui contient avec certitude le paramtre
en le choisissant suffisamment large ; mais dans ce cas, cet intervalle ne nous
renseigne en aucune faon sur la vraie valeur du paramtre. Il faut donc arriver
un compromis entre un intervalle pas trop grand et une probabilit assez le-
ve de contenir le paramtre.
Pour une famille quelconque de lois de probabilit (P ; ) on peut don-
ner la dfinition suivante.
Dfinition
Un intervalle de confiance pour le paramtre , de niveau de confiance
1 ]0,1[ , est un intervalle qui a la probabilit 1 de contenir la vraie
valeur du paramtre .
Estimation 209
B. Principe de construction
Dans lexemple prcdent, nous avions abouti un intervalle de la forme
x n a < m < x n + b qui correspond la ralisation dun vnement devant se
produire avec une probabilit fixe 1 . La dtermination des valeurs de a et
b va donc se faire partir de la valeur 1 de la probabilit, fixe par le sta-
tisticien, partir de la condition qui scrit ici :

1 = P Xn a < m < Xn + b
qui est quivalente :

1 = P b < X n m < a .
Il ny a donc quune seule condition pour dterminer ces deux valeurs ;

cependant, la loi de la v.a. X n m qui sert construire cet intervalle tant sym-
trique, on choisit b = a et on utilise la variable centre et rduite pour dtermi-
ner la valeur de a qui vrifie la condition :

a Xn m a
1 = P < <
/ n / n / n
Si est la f.r. de la loi N (0,1) , alors a est solution de :

1 = a n/ a n/ = 2 a n/ 1

ou 1 /2 = a n/ , soit a n/ = 1 (1 /2) . Pour un niveau de
confiance de 0,95, soit = 0,05 , et pour une taille dchantillon n = 100 , le
fractile dordre 0,975 de la loi N (0,1) a pour valeur 1,96 et on en dduit
a = 0,004 , do lintervalle :
23,626 < m < 23,634
obtenu pour cet chantillon particulier.

partir dun intervalle que lon souhaitait obtenir pour le paramtre et dont
les bornes sexprimaient en fonction dun estimateur de ce paramtre, on est
arriv un intervalle pour lestimateur, qui pouvait tre dtermin avec prcision
puisquon connaissait sa loi. Ceci va nous fournir le principe de construction
dun intervalle de confiance en effectuant la dmarche en sens contraire.

Le point de dpart est fourni par un estimateur Tn du paramtre , construit

partir dun chantillon (X 1 ,. . . ,X n ) et dont on connat la loi en fonction de , ce
qui va permettre de dterminer les valeurs t1 = t1 () et t2 = t2 () telles que :
P {t1 () Tn t2 ()} = 1
Il faut ensuite inverser cet intervalle pour Tn , dont les bornes dpendent du para-
mtre , pour obtenir un intervalle pour , dont les bornes vont dpendre de lesti-
mateur Tn , cest--dire dterminer les valeurs a = a (Tn ) et b = b (Tn ) telles que :
P {a (Tn ) b (Tn )} = 1
On peut crire galement P { [a (Tn ) ,b (Tn )]} = 1 et on voit ainsi

que [a (Tn ) ,b (Tn )] est un intervalle de confiance de niveau 1 pour le para-
mtre . Il sagit dun intervalle alatoire, au sens o ses bornes sont des v.a.,
dont chaque chantillon fournira une ralisation. Pour obtenir cet intervalle, il
faut donc trouver lensemble des valeurs de pour lesquelles on a simultan-
ment, pour Tn fix :
t1 () Tn et Tn t2 ()
Cet ensemble sera plus ou moins facile obtenir selon le comportement des
fonctions t1 et t2 . Si par exemple ces deux fonctions sont croissantes, on voit sur
la figure 7.2 que :
t1 () Tn t11 (Tn ) et Tn t2 () t21 (Tn )
Tn
t2()
t1()
Tn
a (Tn) = t21 (Tn) b (Tn) = t11 (Tn)
Figure 7.2
Estimation 211
Lintervalle est facile obtenir ici car les fonctions t1 et t2 sont inversibles,
et on obtient alors :
t1 () Tn t2 () a (Tn ) = t21 (Tn ) t11 (Tn ) = b (Tn )
Il existe cependant une part darbitraire dans le choix simultan de t1 et t2

puisquil ny a quune seule condition pour dterminer ces deux valeurs, qui
peut dailleurs aussi scrire P (Tn < t1 ) + P (Tn > t2 ) = , le risque total
pouvant tre a priori rparti de multiples faons. Posons 1 = P { > b (Tn )}
et 2 = P { < a (Tn )} ; les diffrents choix possibles sont les suivants.
a) Intervalle bilatral (1 2 > 0 )

Symtrique : 1 = 2 = /2
Cest le choix que lon fait si la loi de Tn est symtrique, ou si on na aucune
information particulire, ce choix tant le moins arbitraire.
Dissymtrique : 1 = / 2
Seules des raisons trs particulires peuvent permettre de fixer les valeurs de 1
et 2 telles que 1 + 2 = .
b) Intervalle unilatral (1 2 = 0)
droite : 1 = 0,2 =
Cest linterprtation donne au paramtre , comme par exemple la rsistance
dun matriau qui doit tre suprieure un seuil minimum, qui conduit un
intervalle de la forme > a (Tn ) .
gauche : 1 = ,2 = 0
Si par exemple le paramtre est une proportion de dfectueux dans un lot, ou un
taux dimpurets, on souhaite quil soit infrieur un seuil maximum, do un
intervalle de la forme < b (Tn ) .
C. Intervalle pour une proportion

Nous allons voir sur cet exemple que linversion de lintervalle pour la statis-
tique nest pas toujours aise, surtout lorsque sa loi est discrte. Supposons que
lon ait effectu un sondage pour dterminer les intentions de vote pour un cer-
tain candidat une lection prsidentielle. chaque individu interrog, on asso-
cie une variable de Bernoulli qui prend la valeur 1 si cet individu i dclare vou-
loir voter en faveur de ce candidat :

1 p
Xi = 1i n
0 q =1 p

Le paramtre p de cette loi de Bernoulli reprsente la proportion, dans la

population, dlecteurs favorables ce candidat et est estim par la proportion
observe dans lchantillon :
1 n
pn = Xi
n i=1
Nous savons que, en tant que moyenne empirique estimant une moyenne
thorique, cet estimateur naturel de p est sans biais et convergent. Nous allons
tablir maintenant que cest aussi lestimateur du maximum de vraisemblance et
quil est efficace. Pour cela, on suppose que la taille de la population est suffi-
samment grande pour que les variables X i puissent tre considres comme
indpendantes, cest--dire que lon se place dans le cadre dun schma bin-
mial avec remise. La vraisemblance scrit alors :
n n

n x i n xi
L (x1 ,. . . ,xn ; p) = p (1 p)
xi 1xi
=p i=1 (1 p) i=1
i=1
avec xi {0,1} . On obtient donc comme expression de la log-vraisemblance :

n n
lnL(x1 ,. . . ,xn ; p) = xi ln p + n xi ln(1 p)
i=1 i=1
do en drivant :

n
n
xi n xi
lnL i=1 i=1 (1 p) sn (n sn ) p
= =
p p 1 p p (1 p)

n
en ayant pos sn = xi ; cette drive sannule pour sn np = 0 , soit
i=1
p = sn /n , avec comme drive seconde :
2 lnL sn n sn
= 2 <0
p2 (1 p)2
p
car 0 sn n ;
pn = Sn /n est donc lemv de p . La variable Sn suit une loi
B (n, p) et comme nous sommes dans les conditions dapplication de lingali-
t FDCR, nous pouvons calculer la quantit dinformation de Fisher par :
2
lnL E (Sn ) n E (Sn ) n
In ( p) = E = + =
p 2 p 2
(1 p)2
p (1 p)
Comme E ( pn ) = p et V ( pn ) = p (1 p) /n = 1/In ( p) , on en conclut

que
pn est efficace.
Pour construire un intervalle de confiance pour p de niveau 0,95 il faut dter-
miner les valeurs de t1 = t1 ( p) et t2 = t2 ( p) telles que P (t1
pn t2 ) = 0,95 .
Estimation 213
Nous pouvons pour cela utiliser la loi exacte de n pn = Sn et retenir un intervalle

risques symtriques, cest--dire retenir les conditions P (n pn nt1 )
= P (n pn nt2 ) = 0,025. Cependant, une premire difficult se prsente
puisque la loi est discrte et que ces galits nadmettent pas forcment de solu-
tion, au sens o il ny a pas de fractiles dordre 0,025 ou 0,975. Nous allons donc
construire un intervalle qui sera de niveau au moins gal 0,95 en retenant plu-
tt les ingalits P (n pn nt1 ) 0,025 et P (n pn nt2 ) 0,025 . On doit
donc dterminer le plus grand entier n 1 tel que :
n1
n
pk (1 p)nk 0,025
k=0
k
et le plus petit entier n 2 tel que :

n2
n
pk (1 p)nk 0,975
k=0
k
Pour tout entier fix n , et pour chaque valeur de p , on peut dterminer les
solutions t1 = n 1 /n et t2 = n 2 /n de ces inquations et tracer ainsi point par
point le graphe de ces deux fonctions de p . Pour chaque verticale, cest--dire
pour p fix, ces deux courbes dterminent un intervalle [t1 ( p), t2 ( p)] tel que
P (t1 pn t2 ) 0,95 . Pour une valeur observe pn lintersection de lhori-
zontale correspondante avec ces deux courbes permet de lire sur laxe des abs-
cisses lintervalle des valeurs de p pour lesquelles on a simultanment
t1 ( p)
pn et t2 ( p) pn (cf. figure 7.3). Ainsi, lintervalle de confiance sob-
tient par simple lecture de labaque correspondant un niveau de confiance
donn. On a un couple de courbes associes chaque valeur de n .
pn
1
t2(p)
t1(p)
pn
0 intervalle pour p 1 p
Figure 7.3

Dans lexemple propos, si pour n = 100 on a observ lestimation

p100 = 0,44 la lecture de labaque 2 (o pn = x n est en abscisse et p en ordon-
ne) conduit lintervalle de confiance bilatral :
0,341 < p < 0,538
Si on ne dispose pas dabaque permettant dobtenir sans calculs lintervalle
exact, et si la valeur de n est suffisamment grande, on obtiendra un intervalle
approch (i.e. de niveau voisin de 0,95) en utilisant la loi asymptotique de
pn ,
dduite du thorme central limite :

pn p
n N (0,1)
pq loi
On retient alors un intervalle symtrique, partir de la valeur de a lue dans

la table 2 de la loi normale, telle que :

pn p
P a < n <a =1
pq
Soit pour = 0,05 : a = 1 (0,975) = 1,96 do :

pq pq
P pn 1,96 <p< pn + 1,96 = 0,95
n n
Pour en dduire un intervalle pour p , il faudrait rsoudre ces deux inqua-
tions du second degr en p . Il est plus simple de faire une seconde approxima-
tion en remplaant p par pn dans les bornes de lintervalle, ce qui conduit lin-
tervalle de confiance pour p :

pn (1
pn ) pn (1
pn )

pn a <p< pn + a
n n
o a = 1 (1 /2) . On considre que cette approximation est acceptable
pour np (1 p) 3 . Avec les donnes de lexemple on obtient lintervalle :
0,343 < p < 0,537
On aurait pu galement remplacer p (1 p) par sa borne suprieure, qui

vaut 1/4, et obtenir ainsi lintervalle approch le plus grand :
a a

pn < p <
pn +
2 n 2 n
Dans cet exemple on obtient :
0,342 < p < 0,538
intervalle qui est donc bien un peu plus grand que le prcdent ; seul le premier
intervalle est exact, mais les approximations utilises ici avec n = 100 donnent
des rsultats trs voisins.
Estimation 215
D. Intervalles associs aux paramtres de la loi normale

On dispose dun chantillon (X 1 ,. . . ,X n ) dune v.a. X qui suit une loi N (m, )
pour construire un intervalle de confiance relatif lun des deux paramtres de
cette loi, lautre paramtre tant connu ou inconnu. Ceci correspond aux diff-
rentes situations que nous allons tudier maintenant.
1) Intervalle pour la moyenne dune loi normale dcart type connu
Lexemple introductif se situait dans ce cadre-l et nous avons obtenu un inter-

valle de confiance, de niveau 1 , pour le paramtre m , centr sur lestima-
teur X n :

Xn u < m < Xn + u
n n
o u est le fractile dordre 1 /2 de la loi normale standard, soit

u = 1 (1 /2) . Cet intervalle est de longueur non alatoire l = 2u/ n ,
proportionnelle au niveau de confiance par lintermdiaire de u et inversement
proportionnelle la taille de lchantillon par le terme 1/ n . Pour un niveau de
confiance fix, cest lintervalle symtrique de longueur minimale puisque la loi
de lestimateur utilis est symtrique.
2) Intervalle pour la moyenne dune loi normale dcart type inconnu
La statistique utilise dans la situation prcdente, et dont la loi tait connue,

tait la variable normale centre-rduite :
Xn m Xn m
= n
/ n
Elle ne peut plus convenir ici puisque le paramtre est inconnu et va donc
devoir tre remplac par un estimateur, bas sur la variance empirique modifie
qui est un estimateur sans biais de la variance thorique 2 :
1 n
2
S =
2
Xi X n
n
n 1 i=1
On utilise donc comme nouvelle statistique :
Xn m
n
Sn

dont la loi est connue ; en effet, si nous divisons numrateur et dnominateur par
, elle peut aussi scrire :

X n m / / n

S2
(n 1) n2 / (n 1)

o on voit que le numrateur suit une loi normale centre-rduite et que le dno-
minateur est la racine carre dune v.a. de loi du khi-deux rduite (divise) par
son nombre de degrs de libert, car nous avons vu au chapitre 5 que
S2
(n 1) n2 n1 2
. Comme daprs le thorme de Fisher numrateur et

Xn m
dnominateur sont indpendants, on en conclut que la statistique n ,
Sn
utilise ici, suit une loi de Student n 1 degrs de libert. Par lecture de la
table 6, on peut donc dterminer la valeur de t telle que :

Xn m
P t < n <t =1
Sn
La valeur de t est donc le fractile dordre 1 /2 de la loi de Student Tn1 .

Lintervalle a bien sr t choisi symtrique puisque la loi utilise est sym-
trique. Par inversion de cet intervalle, on obtient :

Sn Sn
P Xn t < m < Xn + t =1
n n
m de niveau 1 , centr sur X n ,

ce qui fournit lintervalle de confiance pour
mais ici de longueur alatoire L n = 2t Sn / n .
Exemple 7.11
Sur un chantillon de n = 30 dures de vie dun certain modle de lampe
on a obtenu comme moments empiriques x 30 = 2 000h et s30 = 300h .
Lintervalle de confiance de niveau 0,95 pour la dure de vie moyenne m
est donc :
s30 s30
x 30 t < m < x 30 + t
30 30
o t est dfini par P (t < T29 < t) = 0,95 ou P (T29 < t) = 0,975 soit
t = 2,045 do lintervalle :
1 888 < m < 2 112
Estimation 217
de longueur l = 224 h observe sur cet chantillon. Si avait t connu,

de mme valeur que celle observe sur lchantillon, soit = 300, lin-
tervalle correspondant aurait t :

x 30 u < m < x 30 + u
30 30
avec u = 1 (0,975) = 1,96 soit lintervalle 1 893 < m < 2 107 , de
longueur l = 214 h, infrieure la prcdente. Ainsi, mme en cas des-
timation parfaite, cest--dire telle que sn = , lintervalle obtenu est
plus grand ; la connaissance du paramtre conduit logiquement un
intervalle plus prcis.
3) Intervalle pour la variance dune loi normale desprance connue
Pour estimer la prcision dun thermomtre, on ralise n mesures indpendantes

de la temprature dun liquide qui est maintenu temprature constante, gale
20 degrs Celsius. Compte tenu des erreurs de mesure, la valeur indique par le
thermomtre peut tre considre comme une v.a. normale dont la moyenne m
est la valeur exacte de la temprature, soit ici m = 20 , et dont lcart type est
inconnu et caractrise la prcision du thermomtre. Lestimateur, bas sur
lchantillon (X 1 ,. . . ,X n ) de cette loi N (m, ) , est ici :
1 n
n2 =
(X i m)2
n i=1
n2 / 2 n2 . On
estimateur sans biais, convergent et efficace, de loi connue : n
peut donc dterminer les valeurs de a et b telles que :

n2
P a <n 2 <b =1

ce qui conduit lintervalle de confiance dfini par :

2

n
n2
P n < <n
2
=1
b a
Cependant, il ny a quune seule condition pour dterminer les deux valeurs

a et b et il reste un degr dincertitude
puisque la loi utilise
nest pas sym-
trique. Si on pose 1 = P n2 < a et 2 = P n2 > b , la seule contrainte
dans le choix de 1 et 2 est 1 + 2 = . Dans lexemple retenu, si on a obser-
v sur un chantillon de taille 15 la valeur
152 = 18 et quon retient un inter-
valle erreurs symtriques (choix le moins arbitraire), pour un niveau de
confiance 1 = 0,99 on lit dans la table 5 les valeurs a = 4,60 et b = 32,8
do lintervalle :
8,23 < 2 < 58,70

Mais, compte tenu de linterprtation du paramtre qui mesure ici un degr

dimprcision, on souhaite quil soit le plus faible possible et on retient plus logi-
quement un intervalle unilatral gauche, de la forme 2 < constante, ce qui
correspond au choix 1 = = 0,01 et 2 = 0 , soit a = 5,23 et lintervalle :
2 < 51,63
4) Intervalle pour la variance dune loi normale desprance inconnue
Quand le second paramtre m de la loi normale est inconnu, lestimateur sans

biais et convergent de 2 quil faut retenir est :
1 n
2
Sn2 = Xi X n
n 1 i=1
Sa loi est connue, (n 1) Sn2 / 2 n1

2
, et on peut donc dterminer les
valeurs de a et b telles que :

Sn2
P a < (n 1) 2 < b = 1

ce qui permet den dduire lintervalle de confiance dfini par :

Sn2 Sn2
P (n 1) < < (n 1)
2
=1
b a
L encore, il ny a quuneseule contrainte

pour dterminer les valeurs de a
et b ; si nous posons 1 = P n12
< a et 2 = P n1 2
> b la contrainte est
1 + 2 = .
Exemple 7.12
Sur un chantillon de seize chiffres daffaires de magasins dune chane de

grandes surfaces on a observ s16 2
= 72,53 . Lintervalle de niveau 0,95
risques symtriques est dfini partir de 1 = 2 = 0,025 et on lit dans la
table 5, a = 6,26 et b = 27,49 do lintervalle 39,56 < 2 < 173,79. Si
on fait le choix dun intervalle unilatral gauche, soit 1 = = 0,05 et
2 = 0 on obtient a = 7,26 et lintervalle 2 < 149,86 qui est de lon-
gueur plus grande que le prcdent.
Tous les intervalles prcdents ont t construits partir dune statistique
dont la loi tait indpendante du paramtre estimer et que lon appelle une
fonction pivotale pour . Cependant, dans certains problmes on peut seulement
trouver une fonction quasi pivotale pour , cest--dire une statistique dont
seule la loi asymptotique est indpendante de .
Estimation 219
5) Intervalle pour lcart type dune loi normale desprance connue
Supposons pour simplifier que la loi normale soit centre ; lestimateur naturel
de la variance 2 , cest--dire lestimateur de la mthode des moments, sans
biais et convergent, est :
1 n
n2 = X2
n i=1 i
et sa loi est connue : nn2 / 2 n2 . Si on retient n comme estimateur de , cet

estimateur ne pourra pas tre sans biais, car dans ce cas on aurait
V (n ) = E n2 E 2 (n ) = 2 2 = 0. On dmontre que cet estimateur est
1 n
asymptotiquement sans biais, avec E (n ) = an o an2 = 1 + avec
2n n
n 0 quand n . Nous allons crire la vraisemblance pour tablir que n
est lemv de :
1 1 n
L (x1 ,. . . ,xn ; ) = n exp 2 x2
2 2 i=1 i
et la log-vraisemblance scrit :
n 1 n
lnL (x1 ,. . . ,xn ; ) = ln2 nln 2 x2
2 2 i=1 i
do en drivant :
lnL n 1
n
= + 3 x2
i=1 i
cette drive sannule pour = n et la drive seconde :
2 lnL n 3 n
= x2
2 2 4 i=1 i
n 3nn2 2n
a pour valeur en ce point = 2 < 0 ; cette valeur correspond bien
n
2 n
4 n
un maximum. La quantit dinformation de Fisher peut se calculer ici par :
2
lnL n 3n E X 2 2n
In ( ) = E = 2 + = 2
2 4

Pour obtenir un estimateur qui puisse tre efficace, il faut dabord quil soit
n = n /an . Sa variance vaut :
sans biais et cest le cas ici de lestimateur
V (n ) 2 an2 2 2
n ) =
V ( = = (1 + n )
an2 an2 2n
et donc n est asymptotiquement efficace. Bien que la loi exacte de n ne soit

pas connue, on va pouvoir construire un intervalle de confiance partir de la
fonction pivotale nn2 / 2 pour 2 . On peut en effet dterminer les valeurs de a
et b telles que :

2
P a < n n2 < b = 1

et, comme la fonction racine carre est croissante, on en dduit lintervalle de

confiance pour dfini par :

n n
P n < < n =1
b a
Exemple 7.13
Sur un chantillon de taille n = 100 on veut construire un intervalle de
confiance de niveau 0,95 pour partir de lobservation 100 2
= 1,945.
Si on retient un intervalle risques symtriques, on lit dans la table 5 les
fractiles a = 74,22 et b = 129,56 do lintervalle 1,23 < < 1,62 de
longueur 0,39 .
Nous allons comparer lestimateur prcdent un estimateur bas sur lcart
absolu moyen :
1 n
Dn = |X i |
n i=1
Son esprance est gale celle de :

1 + 2 2
E (|X|) =
|x| ex /2 dx
2
soit, avec le changement de variable x 2 = 2 2 u :

2 + u 2 + u 2
E (|X|) = e du = e du =
2
0
0

Lestimateur sans biais que lon retient est donc :

Tn = Dn
2
Estimation 221
Daprs la loi des grands nombres :
Dn E (|X|)
p
donc Tn est convergent. Sa variance est :

2
2 2
V (Tn ) = V (Dn ) = V (|X|) =
2
= 1
2 2n 2n 2 n
Si on compare les deux estimateurs sans biais

n et Tn :
V (Tn ) ( 2) an2
= 2>1
n )
V ( 2n 1 an2
donc
n est prfrable Tn , ce qui tait prvisible car nous avions vu quil tait
asymptotiquement efficace.
Pour construire un intervalle de confiance, nous allons utiliser la loi asymp-
totique de lestimateur Tn , dduite du thorme central limite :
Dn E (|X|)
n N (0,1)
(|X|) loi
do :
Tn
n N (0,1)
/2 1 loi
On peut donc dterminer une valeur approche de u telle que :

Tn
P u < n <u =1
/2 1
ce qui conduit lintervalle de confiance :
Tn Tn
< <
1 + u /2 1/ n 1 u /2 1/ n
Exemple 7.14
Sur le mme chantillon que dans lexemple 7.13, de taille n = 100 , on a
observ dn = 1,084 . Lintervalle de niveau voisin de 0,95 est alors
1,16 < < 1,56 de longueur 0,40 .

retenir
Un estimateur est une statistique, cest--dire une variable alatoire
fonction dun chantillon, dont les ralisations sont censes tre proches de
la valeur inconnue du paramtre estimer. Pour quil en soit ainsi, on
demande cet estimateur de possder un certain nombre de proprits,
comme par exemple dtre sans biais, i.e. davoir une valeur moyenne (au
sens desprance) gale au paramtre estimer. On souhaite ensuite quil
soit le plus efficace possible, i.e. quil ait une dispersion, mesure par la
variance, la plus petite possible. Dans certaines conditions, notamment
quand lensemble des valeurs possibles pour la variable ne dpend pas du
paramtre estimer, on peut trouver un estimateur optimal, quon appelle
efficace, et qui est le meilleur estimateur sans biais que lon puisse obtenir.
Si un estimateur est seulement asymptotiquement sans biais, i.e. que son
esprance tend vers le paramtre quand la taille de lchantillon devient
infinie, sa qualit est mesure par lerreur quadratique moyenne.
Un estimateur est dit convergent sil converge en probabilit vers le
paramtre estimer. Tout estimateur sans biais, ou asymptotiquement sans
biais, dont la variance tend vers zro est convergent.
Si le paramtre estimer est la moyenne (esprance) de la loi, la moyenne
empirique est un estimateur sans biais et convergent.
Si le paramtre estimer est la variance de la loi, la variance empirique
modifie (divise par n 1 au lieu de n ) est un estimateur sans biais et
convergent.
Dans les autres cas, on construit un estimateur par la mthode des
moments ou la mthode du maximum de vraisemblance.
Complments
A. Ingalit de Frchet-Darmois-Cramer-Rao
Nous allons prciser les hypothses de Cramer-Rao voques dans lnonc du thorme
prsent partie II, C, 2. Lensemble est un ouvert sur lequel la densit f (x; ) ne san-
nule en aucun point x et est drivable par rapport . On suppose galement que lon peut
intervertir drivation par rapport et intgration, et que la quantit dinformation de Fisher
Estimation 223
est strictement positive. La variance dun estimateur sans biais est donc minore par un
nombre positif, dautant plus petit que linformation de Fisher est grande. On ajoute souvent
lhypothse que la densit est deux fois drivable par rapport et que lon peut toujours
intervertir drivation par rapport et intgration. On obtient alors une autre expression de
linformation de Fisher, vue au II, C, 2, et gnralement plus simple calculer.
Lingalit FDCR se gnralise au cas o le paramtre estimer est g () , g tant
une fonction relle. Si Tn est un estimateur sans biais de g () , si on peut encore chan-
ger drivation par rapport et intgration de Tn , alors :

2
g ()
V (Tn )
In ()
Si lestimateur prsente un biais bn () , alors :

2
bn () + g ()
V (Tn ) bn2 () +
In ()
Lingalit FDCR se gnralise galement au cas multidimensionnel, tant un

ouvert de R p , linformation de Fisher devenant la matrice dont llment ligne i , colon-
ne j , 1 i, j p , est :

lnL lnL
E
i j
ou, dans le cas o on peut driver deux fois et changer avec lintgration :

2 lnL
E
i j
Si Tn est un estimateur sans biais de g(), g tant une application de R p dans Rq ,
alors lingalit FDCR se traduit par laffirmation que la matrice :

dg dg
V (Tn ) In1 () t
d d
dg
est semi-dfinie positive, tant la matrice dont llment ligne i,1 i q , colonne j ,
d
gi
1 j p , est , avec g = g1 ,. . . ,gq .
j
B. Statistique exhaustive
Dans lexercice 3, pour une famille de lois gomtriques, on tablit que linformation appor-
te par la somme des observations est gale celle apporte par les donnes individuelles.
Ainsi, la connaissance de cette seule statistique na pas diminue linformation apporte par
toutes les donnes. Nous allons voir sur un autre exemple comment peut se traduire cette
proprit intressante pour une statistique et qui conduira la notion dexhaustivit.

Exemple 7.15
Considrons un contrle industriel de pices dfectueuses, effectu en tirant avec
remise n pices dans un lot, pour connatre la proportion de dfectueuses.
chaque pice tire on associe une v.a. de Bernoulli :

1
Xi = 1i n
0 1
Le rang de tirage des pices dfectueuses napporte videmment aucune infor-
mation sur le paramtre et toute linformation apporte par lchantillon

n
(X 1 ,. . . ,X n ) est contenue dans la statistique T (X 1 ,. . . ,X n ) = X i qui suit
i=1
une loi B (n,) . Pour prciser cette vidence, nous allons dterminer la loi dun
chantillon lorsque cette statistique a une valeur fixe t , soit :
P (X 1 = x1 ,. . . ,X n = xn ,T = t)
P (X 1 = x1 ,. . . ,X n = xn |T = t) =
P (T = t)
On a P (X i = xi ) = xi (1 )1xi , xi {0,1} et donc :

n1
P (X 1 = x1 ,. . . ,X n = xn ,T = t) = P X 1 = x1 ,. . . ,X n = t xi
i=1
= t (1 )nt
Comme :

n t
P (T = t) = (1 )nt
t
on en conclut :
1
P (X 1 = x1 ,. . . ,X n = xn |T = t) =
n
t

n
rsultat prvisible en remarquant que reprsente le nombre de choix des t
t
indices i pour lesquels xi = 1 . On constate donc que cette probabilit est ind-
pendante du paramtre inconnu .
Cet exemple nous montre que si la loi de lchantillon, conditionnellement une

valeur fixe de la statistique, est indpendante de la loi de X , cest--dire du paramtre ,
cela traduit le fait que les valeurs individuelles napportent pas plus dinformation sur
que la seule valeur de T . Nous dirons quune statistique Tn est exhaustive (sufficient) si
la loi conditionnelle de (X 1 ,. . . ,X n ) pour T = t fix est indpendante de . Cette pro-
prit dexhaustivit pourra se dmontrer facilement laide du rsultat suivant.
Thorme de factorisation (Neyman-Fisher)

Une statistique Tn est exhaustive sil existe deux applications mesurables positives g
et h telles que la densit L de lchantillon puisse se factoriser sous la forme :
L (x1 ,. . . ,xn ; ) = g (t; ) h (x1 ,. . . ,xn )
Estimation 225
Cette factorisation nest bien sr pas unique, mais la quantit h (x1 ,. . . ,xn ) =
(x1 ,. . . ,xn ; t (x1 ,. . . ,xn )) peut reprsenter la densit de (X 1 ,. . . ,X n ) |Tn = t et
dans ce cas g (t; ) est la densit de Tn .
Exemple 7.16
Soit X une v.a. de loi E (1/) (1,1/) et considrons la statistique

n
Tn = X i qui suit la loi (n,1/) . La vraisemblance scrit :
i=1

n
1 1 n
L (x1 ,. . . ,xn ; ) = 1R+ (xi ) n exp xi
i=1
i=1
= g (t; ) h (x1 ,. . . ,xn )
en ayant pos g (t; ) = 1/ n et/ et h (x1 ,. . . ,xn ) = 1Rn+ (x1 ,. . . ,xn ) , ce qui
montre que Tn est exhaustive. Mais on peut galement prendre :
1
g (t; ) = et/ t n1 1R+ (t)
n (n)
qui est la densit de Tn , et dans ce cas :
(n) (n 1)!
h (x1 ,. . . ,xn ) = 1Rn+ (x1 ,. . . ,xn ) = n 1Rn (x1 ,. . . ,xn )
t n1 n1 +
xi
i=1
est la densit de lchantillon conditionnellement Tn = t .

Quand T prend ses valeurs dans lespace des paramtres , on dit que T est un rsu-
m exhaustif pour . Quand T est valeurs dans Rs , on dit que T est une statistique
exhaustive dordre s . Une statistique exhaustive pour un chantillon est bien entendu
exhaustive pour toute fonction de cet chantillon.

Dans lexemple prcdent, nous aurions pu choisir
dautres statistiques exhaustives
comme par exemple (X 1 + X 2 ,X 3 ,. . . ,X n ) , X 1 + X 2 + X 3 ,X 4, . . . ,X n . . . ou
lchantillon lui-mme (X 1 ,X 2 ,. . . ,X n ) puisque lapplication identique est toujours
une statistique exhaustive. Notons aussi que Tn est une fonction de toutes ces statistiques.
Il est donc souhaitable de rduire au maximum lespace des observations sans perdre
dinformation sur . Cest ce que ralise une statistique exhaustive minimale (minimal
sufficient, ou necessary and sufficient) S qui est une fonction de toute autre statistique
exhaustive T . De faon prcise, si T est valeurs dans G et S valeurs dans F , alors
il existe une application mesurable g : G F telle que S = g (T ) .
Nous allons introduire une troisime notion et faire le lien entre elles. Une statistique T
est dite complte (ou totale) si toute v.a. h telle que h (T ) est dintgrale nulle pour P est
nulle P -presque partout. Avec cette nouvelle dfinition, on peut noncer le rsultat suivant.
Thorme
Toute statistique exhaustive et complte est minimale.
Il faut cependant faire attention : une statistique exhaustive minimale nest pas for-
cment complte.

C. Famille exponentielle
La famille des lois exponentielles joue un rle trs important en statistique car elle pos-
sde un certain nombre de proprits intressantes. Il sagit des lois dont la densit peut
scrire sous la forme :

k
f (x; ) = a () b (x) exp j () Tj (x)
j=1
Exemple 7.17
Loi binmiale :

n p
f (x; p) = (1 p)n exp xln
x 1 p
p
( p) = ln et T (x) = x
1 p
Exemple 7.18
Loi de Poisson :
1
f (x; ) = e exp (xln)
x!
() = ln et T (x) = x
Exemple 7.19
Famille des lois ( p; ) :
p
f (x; p,) = 1R (x) exp [ x + ( p 1) lnx]
( p) +
1 = ,2 = p 1 et T1 (x) = x,T2 (x) = lnx
Le thorme de factorisation permet de conclure que la statistique :

n n
T (X 1 ,. . . ,X n ) = T1 (X i ) ,. . . , Tk (X i )
i=1 i=1
est exhaustive. En effet, la vraisemblance scrit dans ce cas :

n k
L (x1 ,. . . ,xn ; ) = a ()
n
b (xi ) exp j () Tj
i=1 j=1

n
ayant pos Tj = Tj (xi ) . Dans le cas o les fonctions j sont linairement indpen-
i=1
dantes, cette statistique est de plus minimale. On fait alors le changement de paramtres
j = j () ,1 j k , dans la famille exponentielle, ce qui correspond une nouvelle
famille P o = (1 ,. . . ,k ) est appel paramtre naturel de la famille exponentielle.
On peut noncer le rsultat suivant.
Estimation 227
Thorme
Si la densit de la famille exponentielle scrit sous la forme :

k
f (x; ) = a () b (x) exp j Tj (x)
j=1
o = (1 ,. . . ,k ) appartient qui contient un pav de Rk (ou qui est dintrieur

non vide), alors la statistique T = (T1 ,. . . ,Tk ) est exhaustive, complte et minimale.
Exemple 7.20
n
Loi binmiale : T (x) = x , donc X i , ou X n , est une statistique exhaustive et
complte pour le paramtre p . i=1
Exemple 7.21
Loi de Poisson : X n est une statistique exhaustive et complte pour le paramtre .
Exemple 7.22
n
n
Famille des lois ( p; ) : la statistique T1 = X i ,T2 = lnX i est
exhaustive pour le paramtre (, p) . i=1 i=1
Exemple 7.23
Loi normale :
2 2
1 em /2 m 1 2
f (x; ) = exp x x
2 2 2 2

n n

et T = Xi , X i2 est exhaustive complte pour le paramtre = m, 2 .
i=1 i=1
Dans le cas o lensemble E = X ( ) des valeurs possibles pour X est indpendant

du paramtre , le thorme de Darmois-Koopman nonce que lappartenance la famil-
le exponentielle est une condition ncessaire et suffisante dexistence dun rsum
exhaustif dordre k pour un paramtre vectoriel.
Exemple 7.24
Loi de Cauchy : 1 1
f (x; ) =
1 + (x )2
cette densit nappartient pas la famille exponentielle, donc il nexiste pas de
rsum exhaustif pour .
Exemple 7.25
Loi uniforme sur [0,] : 1
f (x; ) = 1[0,] (x)

cette densit nappartient pas la famille exponentielle et cependant on peut ta-
blir grce au thorme de factorisation que X (n) = max {X 1 ,. . . ,X n } est une

statistique exhaustive pour . Ceci provient du fait que le thorme de Darmois-

Koopman ne sapplique pas, lensemble E = X ( ) = [0,] dpendant du
paramtre .
La famille exponentielle permet dobtenir un estimateur efficace et comme le tho-
rme suivant le prcise, cest une condition ncessaire.
Thorme de Koopman
Sous les hypothses de Cramer-Rao, la drive de f par rapport tant continue
en , si Tn est un estimateur sans biais du paramtre rel g () , alors Tn est un esti-
mateur efficace si, et seulement si, il existe des fonctions relles , et telles que :
ln f (x; ) = () + (x) + () T (x)
1 n
La statistique Tn = T (X i ) est exhaustive, complte et minimale et constitue
n i=1
un rsum exhaustif dordre un ; cest aussi un estimateur efficace du paramtre
g () = () / () qui est le seul paramtre que lon peut estimer efficacement
(ou une fonction affine de celui-ci) et qui nest pas forcment le paramtre dintrt.
Exemple 7.26
Loi de Poisson :
ln f (x; ) = lnx! + xln
() = , () = ln,T (x) = x
1 n
Lestimateur Tn = X i est efficace pour g () = .
n i=1
Exemple 7.27
Famille de lois ( p) :
ln f (x; p) = ln ( p) x + ( p 1) lnx
( p) = ln ( p) , ( p) = p 1,T (x) = lnx

1 n
Lestimateur Tn = lnX i est efficace pour g ( p) = ( p) / ( p) qui est
n i=1
un paramtre de peu dintrt.
D. Amlioration dun estimateur

Lexistence dune statistique exhaustive pour le paramtre permet damliorer, en utili-
sant le critre de la variance, un estimateur sans biais.
Estimation 229
Thorme de Rao-Blackwell
Si T est une statistique exhaustive pour la famille P et S un estimateur sans biais
de g () , lestimateur E (S|T ) est sans biais et prfrable S .
Lesprance conditionnelle E (S|T ) permet bien de construire un estimateur, car

elle est indpendante de en raison de lexhaustivit de T .
Avec le critre de la variance, on peut esprer trouver un estimateur optimal dans
la classe des estimateurs sans biais de variance finie. Cet estimateur nest pas nces-
sairement efficace, mais bien sr sil existe un estimateur efficace il est optimal. Dans
le cas dune statistique exhaustive complte, lestimateur amlior de Rao-Blackwell
est optimal.
Thorme de Lehmann-Scheff
Si T est une statistique exhaustive complte pour la famille P et S un estimateur
sans biais de g () , lestimateur E (S|T ) est optimal dans la classe des estimateurs
sans biais.
Exemple 7.28
Pour la loi uniforme sur [0,] , S = 2X n est un estimateur sans biais de . On
peut tablir que X (n) = max {X 1 ,. . . ,X n } est une
statistique exhaustive et com-
plte pour . Donc lestimateur E 2X n |X (n) est sans biais et optimal. En
crivant :

1 n1 1 n1
E X n |X (n) = X (n) + E X (i) |X (n)
n n n 1 i=1
n+1
on tablit que E 2X n |X (n) = X (n) .
n

Exercices
noncs
Exercice n1
partir dobservations indpendantes (X 1 ,. . . ,X n ) dune certaine grandeur cono-
mique X , on retient le modle suivant :
X t = a (1 + t ) , 1 t n
o les v.a. t sont indpendantes et de mme loi normale standard.
1) Dterminer lestimateur du maximum de vraisemblance an de a .
2) tudier les proprits de lestimateur de a obtenu par la mthode des moments.
3) Proposer un estimateur de la variance du modle.
Exercice n2
Afin dorganiser au mieux laccueil des groupes de visiteurs dun parc dattractions, on
note la dure X sparant larrive de deux groupes successifs. partir des observations
(X 1 ,. . . ,X n ) recueillies dans une journe, on retient comme modle la loi uniforme sur
[0,] .
1) Dterminer par la mthode des moments un estimateur sans biais du paramtre > 0
et tudier ses proprits.
2) Dterminer par la mthode du maximum de vraisemblance un estimateur sans biais du
paramtre et tudier ses proprits. Comparer les deux estimateurs.
Exercice n3
Une v.a. X suit une loi uniforme discrte sur l'ensemble des entiers {1,2,. . . , } o est
un entier positif inconnu. Dterminer, par la mthode des moments, un estimateur de
construit partir d'un chantillon (X 1 ,. . . ,X n ) de X et tudier ses proprits. Est-il effi-
cace ?
Exercice n4
Une urne contient un nombre de boules inconnu 2, une seule d'entre elles tant
blanche. On effectue dans cette urne des tirages successifs avec remise, jusqu' ce qu'on
obtienne une boule blanche et on note X la variable alatoire qui reprsente le nombre
de tirages effectus. partir d'un chantillon (X 1 ,. . . ,X n ) de X , dterminer un estima-
teur Tn de par la mthode des moments. tudier ses proprits. Est-il efficace ?
Exercice n5
Soit X une variable alatoire dont la densit a pour expression, pour x > 1 :
1 1/ 1
f (x) = x avec > 0

et nulle sinon.
1) Calculer E(X ) et en dduire un estimateur Tn de par la mthode des moments,
construit partir d'un chantillon (X 1 ,. . . ,X n ) de X .
Estimation 231
2) Dterminer la loi de probabilit de la variable alatoire Y = ln X .
3) Dterminer l'estimateur n du paramtre par la mthode du maximum de vraisem-

blance et tudier ses proprits. Est-il efficace ?

n
4) On pose n = ln X i . Dterminer la loi de probabilit de 2n / et en dduire un
i =1
intervalle de confiance bilatral pour de niveau 1 .
Exercice n6
Le total des ventes hebdomadaires dun produit alimentaire dans un magasin i,1 i n ,
est une v.a. X i de loi normale N (m i , ) o les valeurs m i et sont supposes connues.
Une campagne publicitaire de ce produit a pour consquence daugmenter les ventes, de
telle sorte que chaque moyenne m i est augmente dune mme quantit a .
1) Dterminer un estimateur de a construit partir dobservations indpendantes
(X 1 ,. . . ,X n ) des ventes aprs cette campagne et tudier ses proprits, puis construire
un intervalle de confiance de niveau 0,95.
2) Dterminer un estimateur du paramtre b dans le cas o chaque moyenne m i est cette
fois multiplie par b et tudier ses proprits.
3) Application aux donnes suivantes dans le cas o = 3 .
mi 98 101 104 99 100 102 95 97 105 103
xi 109 105 110 106 110 114 108 104 115 118
Exercice n7
La dure de vie dun certain matriel est reprsente par une v.a. positive X de densit :
1
ex/ si x > 0
f (x; ) =
0 si x 0
o est un paramtre inconnu strictement positif.

tudier les proprits de lestimateur du maximum de vraisemblance
n construit par-
tir dun chantillon (X 1 ,. . . ,X n ) de la v.a. X .
Construire un intervalle de confiance pour de niveau 0,95 dans le cas o les observations

10
ont conduit xi = 11,5 .
i=1
Exercice n8
Soit (X 1 ,. . . ,X n ) un chantillon dune v.a. X de loi log-normale de paramtres m et
> 0.
tudier les proprits de lestimateur du maximum de vraisemblance de m .
Construire un intervalle de confiance pour m de niveau 0,95 dans le cas o = 1 et o
25
on a observ lnxi = 54,94 .
i=1

Exercice n9
2x
si 0 x
f (x; ) = 2
0 sinon
o est un paramtre strictement positif.

1) Dterminer un estimateur de , par la mthode des moments, construit partir dun
chantillon (X 1 ,. . . ,X n ) de X , et tudier ses proprits.
2) Dterminer un estimateur sans biais
n de , construit partir de lestimateur du
maximum de vraisemblance, et tudier ses proprits.
3) Construire un intervalle de confiance de niveau 0,95 pour dans le cas o on a obser-
v max {x1 ,. . . ,x20 } = 5 .
Exercice n10
Deux ateliers de fabrication produisent des doubles-vitrages dont lpaisseur peut tre
considre comme une v.a. de loi normale desprance m = 6 mm, soit pour chaque ate-
lier les v.a. X et Y de lois respectives N (m,1 ) et N (m,2 ) . Pour comparer les carac-
tristiques de fabrication de chacun de ces ateliers, on prlve respectivement n 1 et n 2
vitrages dpaisseurs notes X 1 ,. . . ,X n 1 et Y1 ,. . . ,Yn 2 . Construire un intervalle de
confiance de niveau 1 pour le rapport 12 /22 .
Exercice n11
Soit (X 1 ,. . . ,X n ) un chantillon dune v.a. X de loi normale desprance et de varian-
ce gales un paramtre inconnu > 0 .
1) Dterminer deux estimateurs de par la mthode des moments, tudier leurs propri-
ts et les comparer entre eux.
2) Construire un intervalle de confiance pour de niveau 0,95 ayant observ :

25
25
xi = 50,23 et (xi x)2 = 48,12
i=1 i=1
Exercice n12
Soit X une variable alatoire dont la densit a pour expression :

f (x) = e|x|
2
o est un paramtre rel strictement positif.
1) Dterminer lestimateur n du paramtre par la mthode du maximum de vraisem-
blance, construit partir dun chantillon (X 1 ,. . . ,X n ) de X et tudier ses proprits.
Est-il efficace ?
n
2) On pose n = |X i |. Dterminer la loi de 2n et en dduire un intervalle de
i=1
confiance bilatral pour de niveau 1 .
3) Dterminer la loi limite de n et en dduire un intervalle de confiance bilatral pour
de niveau voisin de 1 .
Estimation 233
Exercice n13
1
e x/ si x > 0
f (x; ) = 2 x
0 si x 0
o est un paramtre strictement positif que lon se propose destimer partir dun
chantillon (X 1 ,. . . ,X n ) de X .
1) Dterminer lestimateur du maximum de vraisemblance
n de et tudier ses pro-
prits.
2) Construire un intervalle de confiance de niveau 0,90 pour dans le cas o on a

20

observ xi = 47,4.
i=1
Exercice n14
Soit (X,Y ) un couple normal dont la densit est dfinie par :
1 1
f (x,y) = exp (1 + )x 2 + 2(1 + 2)x y + (1 + 4)y 2
2 2
1) Dterminer la loi de X + Y et en dduire un estimateur Tn de par la mthode des

moments construit partir dun chantillon de taille n du couple (X,Y ).
2) tudier les proprits de Tn. Est-il efficace ? Dterminer la loi de Tn et en dduire un
intervalle de confiance bilatral pour de niveau 1 .
3) Dterminer la loi limite de Tn et en dduire un intervalle de confiance bilatral pour
de niveau voisin de 1 .
Exercice n15
1
x
exp si x
f (x; ) =
0 sinon
o est un rel strictement positif.

1) Calculer E (X)
2) Soit X 1 ,. . . ,X n des v.a. indpendantes, de mme loi que X. Dterminer un estimateur
Tn de par la mthode des moments. tudier ses proprits. Est-il efficace?
3) Dterminer la loi limite de Tn quand n devient infini et en dduire un intervalle de
confiance bilatral symtrique de niveau voisin de 1 = 0,95 pour , dans le cas o
100
on a observ la valeur i=1 xi = 660 sur un chantillon de taille n = 100.

Corrigs
Exercice n1
1) Les v.a. X t suivent la mme loi normale N (a,a) , donc la log-vraisemblance a pour
expression :
n 1 n
lnL (x1 ,. . . ,xn ; a) = ln (2) nlna 2 (xt a)2
2 2a t=1
de drives :
lnL n 1
n
1
n
= + 3 (xt a)2 + 2 (xt a)
a a a t=1 a t=1
2 lnL 2n 3 n
4 n
= (x t a)2
(xt a)
a 2 a2 a 4 t=1 a 3 t=1
Nous allons poser :
1 n
1 n
x= xt et s 2 = (xt x)2 .
n t=1 n t=1
On peut crire :
1 n
(xt a)2 = s 2 + (x a)2
n t=1
et on obtient alors :
lnL n
= 3 s 2 + x 2 ax a 2
a a
2 lnL n 2nx 3n
= 2 + 3 4 x 2 + s 2
a 2 a a a

1 2
La drive premire admet comme racine positive a = 5x + s 2 x qui
2
vrifie s 2 + x 2 = a 2 + ax et donc la drive seconde admet comme valeur en ce point :
2n nx
2
3 <0
a a
La vraisemblance est donc maximum en ce point, lexpression de lemv tant donc :

1 2

an = 5X n + Sn X n
2
2
Estimation 235
2) Lexpression prcdente est beaucoup trop complique et il est prfrable dutiliser la

mthode des moments puisque a = E (X) . On peut donc prendre comme estimateur
sans biais et convergent le moment empirique X n . Calculons linformation de Fisher :
2
lnL n 2na 3n 2 2
In (a) = E = + E X + E S
a 2 a2 a3 a4 n n
2 a2 n1 2
avec E X n = V X n + E 2 X n = + a 2 et E Sn2 = a on obtient :
n n
3n
In (a) = 2
a
Ainsi :
a2 1 a2
V Xn = > =
n In (a) 3n
donc cet estimateur nest pas efficace.
3) Le modle a pour variance a 2 dont un estimateur sans biais et convergent est Sn2 . On
2
pourrait prendre aussi comme estimateur X n qui, daprs ce qui prcde, est un estima-
teur asymptotiquement sans biais de a 2 .
Exercice n2

1) Comme E (X) = , lestimateur est obtenu par la mthode des moments comme
2

solution de lquation X n = , soit Tn = 2X n . Cet estimateur est sans biais et conver-
gent, de variance : 2
V (X) 2
V (Tn ) = 4V X n = 4 =
n 3n
La question de lefficacit dun estimateur ne se pose pas ici car nous ne sommes pas
dans les conditions dapplication de lingalit FDCR, lensemble des valeurs possibles
pour X tant X ( ) = [0,] qui dpend donc du paramtre estimer.
2) La vraisemblance a pour expression :

n si 0 min xi max xi
L (x1 ,. . . ,xn ; ) =
0 sinon
Ainsi, L est nulle pour < max xi et ensuite est dcroissante pour max xi , donc
est maximum pour = max xi , ce qui correspond lemv :
Mn = max {X 1 ,. . . ,X n }
Pour tudier ses proprits, nous devons dterminer sa loi de probabilit :

n
n
P (Mn < x) = P (X i < x) = P (X i < x) = F n (x)
i=1 i=1
en raison de lindpendance et de lidentit des lois des v.a. X i , de f.r. F . La densit de

Mn est donc :


nx n1
g (x) = n F n1
(x) f (x) = si 0 x
n
0 sinon
Par consquent :
n n n
E (Mn ) = 0 x dx =
n n+1
et lestimateur sans biais est donc :
n+1
n = Mn
n
Pour calculer sa variance, on calcule dabord :
n n
E Mn2 = n 0 x n+1 dx = 2
n+2
do on dduit :
n
V (Mn ) = 2
(n + 1) (n + 2)
2
puis :
2
V
n =
n (n + 2)
ce qui montre que

n est convergent. Le rapport :

V n 3
= 0
V (Tn ) n+2
montre que
n est infiniment plus efficace que Tn .
Exercice n3
La v.a. X admet comme esprance E (X ) = +1 2
. La mthode des moments consiste
crire l'galit entre moment thorique, ici l'esprance, et moment empirique correspon-
dant, ici la moyenne empirique X n . On rsout donc l'quation en :

+1
= Xn
2
La solution donne l'estimateur Tn = 2X n 1. Cet estimateur est sans biais :

E (Tn ) = E 2X n 1 = 2E X n 1 = 2E (X ) 1 =
Il est aussi convergent d'aprs la loi des grands nombres :
+1
X n E (X ) =
p 2
On en dduit du thorme de Slutsky que :
Tn = 2X n 1 2E (X ) 1 =
p
Estimation 237
La question de l'efficacit ne se pose pas puisque l'ensemble des valeurs possibles pour
X est {1,2,. . . , } , qui dpend du paramtre estimer .
Exercice n4
La v.a. X suit une loi gomtrique de paramtre p = 1 , donc avec :
1 1 p
E (X ) = = V (X ) = = ( 1)
p p2
Le paramtre estimer est la moyenne thorique, donc l'estimateur Tn de par la mtho-
de des moments est la moyenne empirique X n . Cet estimateur est sans biais et conver-
gent d'aprs la loi des grands nombres. Pour savoir s'il est efficace, on dtermine d'abord
l'expression de la vraisemblance :

n
n
L (x 1 ,. . . ,x n ; ) = P (X i = xi ) = p (1 p)xi 1
i =1 i =1
sn n ( 1)sn n
= p (1 p)
n
=
sn
n
ayant pos sn = i =1 xi . La log-vraisemblance est donc :
lnL (x 1 ,. . . ,x n ; ) = (sn n) ln ( 1) sn ln
Soit en drivant :
lnL sn n sn
=
1
On drive une nouvelle fois :
2 lnL sn n sn
= + 2
2 ( 1)2
On calcule alors la quantit d'information de Fisher :
2
lnL E (Sn ) n E (Sn ) n n n n
In ( ) = E = = 2 =
2
( 1) 2 2
( 1) 2 ( 1)
Par ailleurs :
V (X ) ( 1) 1
V (Tn ) = V X n = = =
n n In ( )
L'estimateur Tn est donc efficace.
Exercice n5
1) On obtient :
+
1 1
E(X ) = x 1/ d x =
1 1
sous rserve que cette intgrale soit convergente, c'est--dire que 1 1/ < 0 soit
0 < < 1.
L'quation X n = 1/(1 ) donne comme solution l'estimateur Tn = 1 1/X n .

2) La v.a. Y est positive, donc G(y) = P(Y < y) = 0 pour y 0 . Pour y > 0 :
G(y) = P(ln X < y) = P(X < e y ) = F(e y )
o F est la f.r. de X . La densit obtenue par drivation est :
1 y/
g(y) = e y f (e y ) = e

qui est la densit de la loi exponentielle de paramtre 1/ .
3) L'expression de la vraisemblance est :

n n n 11/
1
L(x 1 ,. . . ,x n ; ) = f (xi ) = xi
i =1
i =1
La log-vraisemblance s'crit :
n
1
ln L(x 1 ,. . . ,x n ; ) = n ln 1 + ln xi
i =1
Cette fonction est drivable pour tout > 0 avec :
ln L n 1 n
= + 2 ln xi
i =1

n
La drive s'annule pour = ln xi /n ; la drive seconde est ngative pour cette
i =1
valeur :
2 ln L n 2 n
= ln xi
2 2 3 i =1
L'estimateur du maximum de vraisemblance est donc :
1 n
n = ln X i = Y n
n i =1
Cet estimateur moyenne empirique est un estimateur sans biais de la moyenne thorique
de Y et convergent d'aprs la loi des grands nombres.

Sa variance est :
V (Y ) 2
V (Y n ) = =
n n
La quantit d'information de Fisher est :

2 ln L n 2 n
n
In ( ) = E = + E(Yi ) = 2
2 2 3 i =1
L'estimateur est donc efficace.
Estimation 239
4) La v.a. n est la somme de n v.a. indpendantes et de mme loi (1,1/ ) donc suit
une loi (n,1/ ) . On en dduit successivement que n / suit une loi (n) et que
2n / suit une loi (n,1/2) qui est la loi 2n
2
(cf. chap. 3, II, D et II, E). On en dduit
un intervalle de confiance bilatral pour par la condition :

2n n n
1 = P a < < b = P 2n < < 2n
b a
a et b tant les fractiles d'ordres respectifs /2 et 1 /2 de la loi 2n

2
.
Exercice n6
1) Chaque variable X i suit une loi N (m i + a, ) ,1 i n ; les variables
Yi = X i m i constituent donc un chantillon dune v.a. Y de loi N (a, ) . Par cons-
quent, lestimateur :
1 n
1 n

an = Y n = Yi = (X i m i )
n i=1 n i=1
est un estimateur sans biais et convergent du paramtre a .

Lexpression de la log-vraisemblance est :
n 1 n
lnL (x1 ,. . . ,xn ; a) = ln 2 2 (xi m i a)2
2 2 2 i=1
de drives :
lnL 1
n
= 2 (xi m i a)
a i=1
2 lnL n
= 2
a 2
On remarque ainsi que
an est un emv et quil est efficace car :
2 1
an ) =
V ( =
n In (a)
puisque :
2
lnL n
In (a) = E = 2
a 2
On obtient un de confiance partir de

intervalle an dont on connat la loi, qui est la loi
normale N a,/ n :

an u < a <
an + u
n n
o u est le fractile dordre 1 /2 de la loi N (0,1) , soit u = 1,96 pour = 0,05 .


2) Les variables Z i = X i /m i sont indpendantes et de loi N b, , donc la statis-
tique : mi
1 n
1 n
Xi
bn = Zi =
n i=1 n i=1 m i
est un estimateur sans biais et convergent, de loi normale desprance b et de variance :
1
n
2
V
bn = 2
n i=1 m i2
La log-vraisemblance a pour expression :

n 1 n
lnL (x1 ,. . . ,xn ; b) = ln 2 2 2
(xi bm i )2
2 2 i=1
de drives :
lnL 1
n
= 2 m i (xi bm i )
b i=1
2 lnL 1 n
= m2
b2 2 i=1 i
donc linformation de Fisher a pour expression :

2
lnL 1
n
nm
In (b) = E = 2 m2 = 2
b 2 i=1 i
1 n
en ayant pos m = m i2 . La variance de lestimateur peut aussi scrire
n
2 i=1
V bn = , en ayant not par h la moyenne harmonique des nombres m i2 , dfinie par
nh
1 1 n
1
= . Comme les moyennes arithmtique et gomtrique vrifient toujours la
h n i=1 m i2
relation h < m , on en conclut que :
1
V
bn >
In (b)
cest--dire que cet estimateur nest pas efficace, sauf dans le cas particulier o tous
les m i sont gaux.
3) Lestimation
a10 = 9,5 conduit lintervalle :
7,64 < a < 11,36
On obtient
b10 = 1,095 .
Exercice n7
Nous avons vu dans lexemple 7.8 que lemv est n = X n , qui est donc un estimateur
sans biais et convergent, comme toute moyenne empirique lorsque le paramtre estimer
est la moyenne thorique, avec ici :
2
V
n =
n
Estimation 241
La quantit dinformation de Fisher a pour valeur :

2
lnL n 2n E (X) n
In () = E = 2 + = 2
2 3
Donc cet estimateur est aussi efficace.

Pour construire un intervalle de confiance bas sur n on a besoin de connatre sa loi de
probabilit. On va pour cela utiliser le fait que la loi exponentielle appartient la famille
des lois gamma : X E (1/) (1,1/) . Utilisant lune des proprits des

n
lois gamma on en conclut que Sn = X i (n,1/) et donc Sn / (n) . Le
i=1
rsultat du chapitre 3 II.E permet de recourir aux tables des lois usuelles puisquon y a
tabli que 2Sn / 2n 2
. On peut donc dterminer deux valeurs a et b telles que :

2Sn
P a< <b =1

et dduire de l lintervalle de confiance de niveau 1 :

2Sn 2Sn
< <
b a
En choisissant des risques symtriques, pour = 0,05 on lit dans la table 5 les fractiles
dordres respectifs 0,025 et 0,975 de la loi 20
2
: a = 9,59 et b = 34,17 do linter-
valle 0,67 < < 2,40 .
Exercice n8
La log-vraisemblance a pour expression (cf. chap. 3, II, G) :
n n
1 n
lnL (x1 ,. . . ,xn ; m) = ln 2 2 lnxi (lnxi m)2
2 i=1
2 2 i=1
de drives :
lnL 1
n
= 2 (lnxi m)
m i=1
2 lnL n
= 2 <0
m 2
donc lemv est :

1 n
n =
m lnX i
n i=1
Or on sait, par dfinition de la loi log-normale, que lnX N (m, ) donc cet estima-
teur est sans biais et convergent, de variance :
2
mn ) =
V (
n

n
donc il est aussi efficace puisque In (m) = 2 . Il suit la loi N m,/ n do linter-
valle de niveau 0,95 :

n 1,96 < m < m
m n + 1,96
n n
soit pour = 1 et n = 25 : 1,81 < m < 2,59 .
Exercice n9
1) On calcule :
2 2 2
E (X) = x dx =
2 0 3
2
et lestimateur sans biais est solution de lquation en ,X n = , soit :
3
3
Tn = Xn
2
qui est sans biais et convergent daprs la loi des grands nombres. On peut calculer sa
variance partir de :
2 1
E X 2 = 2 0 x 3 dx = 2
2
9 9 2
do V (Tn ) = V Xn = V (X) = . La question de lefficacit ne se pose pas
4 4n 8n
ici car les hypothses de Cramer-Rao ne sont pas vrifies, X ( ) = [0,] dpend du
paramtre estimer.
2) La vraisemblance a pour expression :
n
n
2
L (x 1 ,. . . ,x n ; ) = xi pour 0 min xi max xi
2 i =1
elle est donc nulle pour < max xi et dcroissante pour max xi ce qui montre que
lemv est :
Mn = max {X 1 ,. . . ,X n }
Pour tudier ses proprits nous devons dterminer sa loi de probabilit :

n
n
P (Mn < x) = P (X i < x) = P (X i < x) = F n (x; )
i=1 i=1
en raison de lindpendance et de lidentit des lois des v.a. X i de f.r. F . La densit

de Mn est donc :
g (x; ) = n F n1 (x; ) f (x; )
La f.r. de X tant dfinie par :

02 si x < 0
x
F (x; ) = si 0 x

2
1 si < x
Estimation 243
Par consquent :

x 2n1
g (x; ) = 2n si 0 x
2n
0 sinon
et :

2n 2n
E (Mn ) = 2n x 2n dx =
0 2n + 1
Lestimateur sans biais est donc :
2n + 1
n = Mn
2n
dont la variance se dduit de :
2n 2n
E Mn2 = 2n 0 x 2n+1 dx = 2
2n + 2
soit :
2
2n + 1 2
V
n = V (Mn ) =
2n 2n (2n + 2)
Cet estimateur est donc convergent et infiniment plus efficace que Tn , au sens o :

V n 2
= 0
V (Tn ) n+1
3) Nous allons construire un intervalle de confiance partir de Mn dont la loi est connue,
de f.r. :

02n si x < 0
x
G (x; ) = si 0 x

2n
1 si < x
Nous cherchons a et b tels que 1 = P (a < Mn < b) ou tels que

1 = P (Mn < a) = G (a; ) et 2 = P (Mn > b) = 1 G (b; ) avec
1 + 2 = , ce qui va dfinir a et b par :
1/2n
1 = a 2n ,1 2 = b2n soit a = 1 et b = (1 2 )1/2n
do lintervalle de confiance :
Mn Mn
< <
b a
Application : a = 0,91,b = 0,999 soit lintervalle 5,00 < < 5,48 .
Exercice n10
Les estimateurs sans biais de 12 et 22 sont respectivement :
1 1
n1 n2

12 = (X i m)2 et
22 = (Yi m)2
n 1 i=1 n 2 i=1

dont les lois sont donnes par n 1

12 /12 n21 et n 2
22 /22 n22 . Les deux chantillons

tant indpendants, on sait (cf. chap. 5, III, B) que
12 /12 /
22 /22 F (n 1 ,n 2 )
donc lintervalle de confiance est dfini partir de :

2 2
1 = P a < 12 22 < b

2 1
soit :
1
2 2 1
2
12 < 12 < 12
b
2 2 a
2
Exercice n11
1) Comme E (X) = V (X) = , on peut retenir comme estimateurs sans biais de les
moments empiriques :
1 n
1 n
2
Xn = Xi et Sn2 = Xi X n
n i=1 n 1 i=1
Ces deux estimateurs sont aussi convergents, de variances respectives :
2 2
V Xn = et V Sn2 =
n n1

Le rapport V Sn2 /V X n tend vers 2 quand n devient infini, valeur inconnue qui ne
permet pas de comparer ces deux estimateurs. tudions leur efficacit en crivant
dabord la log-vraisemblance :
n n 1 n
lnL (x1 ,. . . ,xn ; ) = ln2 ln (xi )2
2 2 2 i=1
puis en drivant :
lnL n 1 n
n
= + 2 xi2
2 2 i =1 2
2 lnL n 1 n
= x2
2 2 2 3 i =1 i
Do la quantit dinformation de Fisher :

2
lnL n 1
In () = E = 2 + 3 nE X2
2 2

soit, avec E X 2 = V (X) + E 2 (X) = + 2 :
n n
In () = +
2 2
Estimation 245
On voit ainsi que :

1 1
< In () et < In ()
V Xn V Sn2
donc aucun de ces estimateurs nest efficace.

2) Pour construire un intervalle de confiance, nous allons utiliser le fait que (cf. chap. 5,
III, A) :
Xn
n Tn1
Sn
ce qui permet de dterminer les valeurs de a et b telles que :

Xn
P a< n <b =1
Sn
do lintervalle :
Sn Sn
Xn b < < Xn a
n n
Pour = 0,05 on retient des risques symtriques puisque la loi est symtrique et on lit
dans la table 6 les fractiles b = a = 2,064 avec x 25 = 2,01 et s25 = 1,42 do lin-
tervalle :
1,42 < < 2,59
Exercice n12
1) Lexpression de la vraisemblance est :
n
n
n
L(x1 ,. . . ,xn ; ) = f (xi ) = exp |xi |
i=1
2 i=1
La log-vraisemblance scrit :

n
ln L(x1 ,. . . ,xn ; ) = n ln 2 + n ln |xi |
i=1

ln L n n
= |xi |
i=1
n
La drive sannule pour = n/ |xi | ; la drive seconde est ngative :
i=1
2 ln L n
= 2
2
Lestimateur du maximum de vraisemblance est donc :
n
n = n

|X i |
i=1

Pour tudier les proprits de cet estimateur nous allons dterminer la loi de U = |X| .
La fonction de rpartition est nulle pour u 0 et dfinie pour u > 0 par :
"u # " u#
G(u) = P(U < u) = F F

Do une densit dfinie par :
2 "u #
g(u) = f = eu

Il sagit donc de la loi exponentielle ou loi (1) . Par consquent Sn = 1n |X i | suit la loi
(n). Un calcul intgral nous permet alors dobtenir :

1 1 1 1
E = et V =
Sn n1 Sn (n 2)(n 1)2
Lestimateur scrivant sous la forme n = n/Sn , on en dduit :
n n2
E n = et V n = 2
n1 (n 2)(n 1)2
Cet estimateur est biais, donc il ne peut pas tre efficace. Il est asymptotiquement sans
biais et de variance qui tend vers 0, donc il est convergent.
2) On a n = Sn / qui suit donc la loi (n,) et donc 2n suit la loi (n,1/2) ou loi
2n
2
(cf. chapitre 3 II.D et II.E). On en dduit un intervalle de confiance bilatral pour
par la condition :

a b
1 = P{a < 2n < b} = P < <
2n 2n
a et b tant les fractiles dordres respectifs /2 et 1 /2 de la loi 2n
2
.
3) On dduit de la question 1 que E(|X|) = 1/ et V (|X|) = 1/ 2 . Lapplication du
thorme central limite 1/n permet donc dobtenir :
1/n 1/
n N (0,1)
1/ loi
En appliquant la proprit II.G du chapitre 6 on en conclut :

n
n N (0,1)
loi
On en dduit un intervalle de confiance bilatral pour par la condition :

n
1 = P u < n <u

o u est approxim par le fractile dordre /2 de la loi normale centre rduite.
Lintervalle est :
n n
< <
1 + u/ n 1 u/ n
Exercice n13
1) La vraisemblance scrit :

n
1/2 1 n

L (x1 ,. . . ,xn ; ) = (2)n xi exp xi
i=1
i=1
Estimation 247
do la log-vraisemblance :
1 n
1 n

lnL (x1 ,. . . ,xn ; ) = nln2 nln ln xi xi
2 i=1 i=1
et ses drives : lnL n 1
n

= + 2 xi
i=1
2 lnL n 2 n

= xi
2 2 3 i=1
1 n

La drive premire sannule pour = xi avec une drive seconde en ce point
n i=1
de valeur n/ 2 , donc lemv est :
1 n
n = Xi
n i=1

Pour tudier ses proprits, nous allons dterminer la loi de la v.a. Y = X :

G (y; ) = P (Y < y) = P X<y =P X<y 2
= F y2;
pour y > 0 . Sa densit est alors dfinie par :

1
g (y; ) = 2y f y 2 ; = ey/

donc Y E (1/) et lestimateur n = Y n est un estimateur sans biais et convergent
de = E (Y ) , de variance 2 /n .
Linformation de Fisher se calcule par :
2
lnL n 2n n
In () = E = 2 + 3E
n = 2
2
donc
n est efficace.
2) Pour construire un intervalle de confiance partir de
n , on utilise le fait que
Y E (1/) (1,1/) donc n n (n,1/) puis n n / (n) et enfin
(cf. chapitre 3 II.D et II.E) 2n
n / 2n
2
. On peut donc trouver deux valeurs a et b
telles que :

2n
n
1 = P a < <b

ce qui permet dobtenir lintervalle :
2n
n 2n
n
< <
b a
Pour = 0,10 et en prenant des risques symtriques, on lit dans la table 5 : a = 26,51
et b = 55,76 ; on obtient par ailleurs
20 = 2,37 do lintervalle :
1,70 < < 3,58
intervalle trs grand en raison de la faible taille de lchantillon.

Exercice n14
1) Daprs lexemple 4.13 et la forme de la densit on sait que X et Y suivent des lois
normales centres et de variances respectives 1 + 4 et 1 + .
On a de plus Cov(X,Y ) = (1 + 2).
Daprs la dfinition de la loi normale vectorielle, X + Y suit une loi normale. Cette loi
est centre, avec :
V (X + Y ) = V (X) + V (Y ) + 2 Cov(X,Y ) = = E(X + Y )2
Lestimateur est donc :
1 n
Tn = (X i + Yi )2
n i=1
2) Cet estimateur est sans biais et convergent daprs la loi des grands nombres. On sait
galement que nTn / suit une loi n2 et donc V (Tn ) = 2 2 /n. Pour savoir sil est effica-
ce, nous devons calculer la quantit dinformation de Fisher. Lexpression de la vrai-
semblance est :

n
L(x1 ,y1 ,. . . ,xn ,yn ; ) = f (xi ,yi ) =
i=1
n
1 1 n

exp (1 + )xi2 + 2(1 + 2)xi yi + (1 + 4)yi2
2 2 i=1
La log-vraisemblance scrit :
n
ln L(x1 ,y1 ,. . . ,xn ,yn ; ) = n ln 2 ln
2
1 n

(1 + )xi2 + 2(1 + 2)xi yi + (1 + 4)yi2
2 i=1
ln L n 1 n
= + 2 (xi + yi )2
2 2 i=1
La drive seconde est :

2 ln L n 1
n
= 2 3 (xi + yi )2
2 2 i=1
La quantit dinformation de Fisher est donc :

2
ln L n 1 n
n
In () = E = 2 + 3 E(X i + Yi )2 = 2
2 2 i=1 2
Lestimateur est donc efficace.

Lintervalle de confiance bilatral pour est obtenu par la condition :

nTn nTn
1 = P{a < nTn / < b} = P < <
b a
a et b tant les fractiles dordres respectifs /2 et 1 /2 de la loi n2 .
3) Lapplication du thorme central limite Tn permet dobtenir :
Tn
n N (0,1)
2 loi
Estimation 249
On en dduit un intervalle de confiance bilatral pour par la condition :

Tn
1 = P u < n < u
2
o u est approxim par le fractile dordre /2 de la loi normale centre rduite.
Lintervalle est :
Tn Tn
< <
1 + u/ 2/n 1 u/ 2/n
Exercice n15
1) L'esprance se calcule par :
+ +
1 x
E (X ) = x f (x; ) d x = xexp dx

On fait alors le changement x = u, puis on intgre par parties :

+ + +
E (X ) = (1 + u) eu du = (1 + u) eu 0 + eu du = 2
0 0
2) L'estimateur Tn de obtenu par la mthode des moments est solution de l'quation

en :
2 = X n
1
Il s'agit donc de Tn = X n . Il est sans biais par construction :
2
1 1
E (Tn ) = E X n = E (X ) =
2 2
Il est convergent d'aprs la loi des grands nombres :
X n E (X ) = 2
p
Donc :
1 1
Tn = X n E (X ) =
2 p 2
La question de l'efficacit ne se pose pas puisque X prend ses valeurs dans l'intervalle
[,+[ qui dpend de .
3) D'aprs le thorme central-limite :
X n E (X )
n N (0,1)
(X ) loi
On doit calculer la variance de X :

1 +
x
E X2 = x 2 exp dx


On fait alors le changement x = u puis on intgre par parties :

+
E X2 = 2 (1 + u)2 eu du
0

+ +
= 2 (1 + u)2 eu 0 + 2 2 (1 + u) eu du
0
= 2 + 2 E (X ) = 5 2
Ainsi, V (X ) = 2 et on obtient :
X n 2 Tn
n = n N (0,1)
/2 loi

L'estimateur Tn suit asymptotiquement la loi normale N , . On construit donc
2 n
un intervalle de confiance bilatral symtrique, puisque cette loi est symtrique. On peut
trouver la valeur approche de la constante u telle que :

Tn
1 = P u < n <u
/2
L'intervalle de confiance est alors dfini par :
u u
< Tn <
2 n 2 n
Ce qui est quivalent :
Tn Tn
< <
1 + u/2 n 1 u/2 n

o u est approxim par le fractile d'ordre 1
de la loi normale standard N (0,1) .
2
Pour 1 = 0,95 on retient la valeur approche u = 2 ; pour cet chantillon
t100 = 3,3 d'o l'intervalle 3 < < 3,67.
Estimation 251
8. Tests
dhypothses
O
n appelle thorie des tests la seconde branche de la statistique
mathmatique, celle qui permet de confronter deux hypothses
retenues a priori. Comme dans le cadre d'un problme d'estima-
tion, on retient un modle statistique o la v.a. X suit une loi de proba-
bilit P , qui dpend d'un paramtre inconnu. On dispose cependant ici
d'informations supplmentaires qui font penser a priori que la valeur de
ce paramtre est gale une valeur fixe 0 et on cherche valider ( tes-
ter) cette hypothse, au vu d'un chantillon de la loi de X. Cette hypo-
thse qui est privilgie, parce qu'elle parat la plus vraisemblable a prio-
ri, est appele hypothse nulle et note H0 . Construire un test va consis-
ter partitionner l'ensemble Rn des ralisations possibles du n-chan-
tillon en deux rgions, celle o l'on dcidera d'accepter H0 , et celle o
l'on dcidera de la rejeter, qui se nommera rgion critique du test. Pour
dlimiter ces deux rgions, on fixe a priori une valeur (faible) la proba-
bilit de l'erreur qui consiste dcider, au vu de l'chantillon, de rejeter
l'hypothse nulle alors que celle-ci est vrifie. Cette probabilit se nom-
me risque de premire espce et sa valeur standard est de 5 %. Lorsque
le paramtre ne peut prendre que deux valeurs distinctes 0 et 1, c'est
le thorme de Neyman et Pearson qui permet de dterminer la forme
de la rgion critique, partir du rapport des vraisemblances associes

chacune des deux valeurs possibles du paramtre. Dans le cas o on peut
attribuer des probabilits a priori ces deux valeurs, ainsi que des cots
d'erreur, on utilise la mthode de Bayes.

Objectif du chapitre : montrer comment, partir d'observations indpen-
dantes d'un phnomne, considr comme alatoire, on peut
choisir entre deux hypothses relatives la valeur du paramtre
qui caractrise la loi retenue dans le modle.
Concepts cls tudis : rgle de dcision, hypothse nulle, hypothse alter-
native, rgion critique, risque de premire espce, puissance,
mthode de Bayes, mthode de Neyman et Pearson, test UPP,
test du khi-deux.
Tests dhypothses 253

I. Concepts principaux en thorie des tests

Dans le chapitre prcdent, nous avons retenu un modle statistique param-
trique pour dcrire de faon simplifie, mais thorique, un certain phnomne
rel. Les valeurs observes, lies ce phnomne, sont alors considres comme
des ralisations dune variable alatoire dont la loi est inconnue, mais appartient
une famille donne. Cette loi est totalement spcifie par la connaissance dun
nombre rel , appel paramtre, et qui permet de reprer prcisment llment
de cette famille de lois. La thorie de lestimation fournit les outils permettant
de se faire une ide de la valeur numrique de ce paramtre.
Ici, la thorie des tests va tre un outil daide la dcision. Dans le cadre du
mme modle, on dispose cette fois de plus dinformations a priori sur le para-
mtre. Ces informations se traduisent par deux hypothses seulement sur les
valeurs possibles du paramtre. En fonction des observations, on devra choisir
lune de ces deux hypothses. Nous allons montrer, partir dun exemple, com-
ment on peut se fixer une rgle de dcision entre ces deux hypothses.
Le ministre de lconomie et des Finances sinterroge pour savoir sil doit
prendre des mesures de relance de lconomie. Sa dcision va tre fonde sur les
observations de laccroissement mensuel de lindice de la production indus-
trielle. Cet accroissement est mesur par lInsee avec une certaine incertitude, ce
qui amne le considrer comme une v.a. I de loi normale, de moyenne m , et
dcart type connu = 0,2% . Dans la priode antrieure, le paramtre m avait
pour valeur m = 0,5% . En priode de rcession, on considre que ce paramtre
prend la valeur m = 0,3% . Pour faire un choix entre ces deux valeurs, le
ministre attend de disposer des valeurs de I pour le dernier trimestre. Inquiet de
leffet de mesures de relance sur linflation, il se fixe a priori la rgle de dci-
sion suivante : si la moyenne des accroissements du trimestre est infrieure
0,35 % alors je prends des mesures de relance. On peut alors se poser les ques-
tions suivantes : est-il possible de mesurer les risques associs cette rgle arbi-
traire ? peut-on fixer laide de critres objectifs un autre seuil que la valeur
retenue de 0,35 % ?
Le modle statistique va nous permettre de rpondre et dassocier des va-
luations numriques cette rgle de dcision. La v.a. I appartient ici la famille
des lois normales, dcart type connu = 0,2 . Lautre paramtre de cette loi, la
moyenne m , est inconnu, mais ne peut prendre ici que deux valeurs. Il sagit
donc de faire un choix entreles deux hypothses :
H0 : I N (0,3; 0,2)
H1 : I N (0,5; 0,2)
Chacune de ces hypothses a pour consquence une dcision qui lui est asso-
cie :
D0 : prendre des mesures de relance de lconomie ;
D1 : ne rien faire.

Cette dcision va tre prise au vu dun chantillon (I1 ,I2 ,I3 ) de cette v.a. I
observe au cours du dernier trimestre. La rgle de dcision retenue par le
ministre se formalise alors de la faon suivante :
1
si (I1 + I2 + I3 ) < k on dcide D0
3
1
si (I1 + I2 + I3 ) k on dcide D1
3
La valeur de k , appel seuil critique, est fixe arbitrairement ici k = 0,35.
Chacune de ces dcisions a pour consquence une erreur ventuelle :
relancer lconomie (D0 ) en priode dexpansion (H1 ) et favoriser ainsi
linflation ;
ne rien faire (D1 ) en priode de rcession (H0 ) et accrotre le chmage.
Le modle statistique retenu permet alors de calculer les probabilits asso-
cies ces deux erreurs. Par exemple :

1 3
= P ( ne rien faire |m = 0,3 ) = P (D1 |H0 ) = P I j k |H0
3 j =1

1 3
0,2
Sous lhypothse H0 , la loi de I = I j est la loi normale N 0,3; .
3 j =1 3
On peut donc calculer la probabilit prcdente en utilisant une v.a. U de loi
N (0,1) :

I 0,3 0,05
= P I 0,35 |H0 = P 3 |H0
0,2/ 3 0,2
= P (U 0,43) = 0,33
De mme, lautre risque derreur se calcule par :

= P (relancer |m = 0,5 ) = P (D0 |H1 ) = P I < k |H1

I 0,5 0,15
=P < 3 |H1 = P (U < 1,30) = 0,097
0,2/ 3 0,2
Ces deux risques ne sont donc pas quivalents, le premier tant trois fois
suprieur au second. Cette rgle correspond donc bien un souhait de se garan-
tir avant tout contre linflation. Si on veut que le seuil ne soit pas fix arbitrai-
rement, cest par le choix dune valeur de risque que lon en dduira alors une
valeur de seuil critique. Si on souhaite plutt se prmunir prioritairement contre
le chmage, on fixe une valeur faible au risque , par exemple = 5%. Il va en
dcouler une valeur du seuil k par la condition :


1 3 k 0,3
= 0,05 = P I j k |H0 = P U
3 j =1 0,2/ 3
On obtient ainsi :
k 0,3 0,2
= 1,6449 soit k = 0,3 + 1,6449 = 0,49
0,2/ 3 3
Lautre risque a alors pour valeur :

0,49 0,5
= P I < k |H1 =P U< = P (U < 0,09) = 0,4641
0,2/ 3
Le risque de relancer tort est cette fois trs lev. Pour une dcision o ce
risque serait considr comme le plus dommageable, il faudrait fixer le seuil k
par la condition :

k 0,5
= 0,05 = P (relancer |m = 0,5 ) = P U <
0,2/ 3
On obtient alors comme valeur :
0,2
k = 0,5 1,6449 = 0,31
3
La rgle de dcision, dtermine par le seuil, est fortement dpendante du

risque contre lequel on souhaite se prmunir en priorit.
Cet exemple introductif va nous permettre de formaliser un problme gn-
ral de test. On considre un modle statistique o la loi de probabilit P de la
v.a. X dpend dun paramtre inconnu qui varie dans un sous-ensemble donn
de R. On suppose que cet ensemble est partitionn en deux sous-ensembles
donns 0 et 1 , auxquels vont tre associes les deux hypothses notes
H0 : 0 et H1 : 1 . Construire un test consiste dfinir une rgle de
dcision qui va associer une dcision un chantillon observ (X 1 ,. . . ,X n ) de
la loi de X , les deux dcisions possibles tant D0 : accepter H0 , et D1 : accepter
H1 . chaque dcision correspond une rgion de Rn , qui va donc tre partition-
n en deux sous-ensembles W et W , cest--dire que si la ralisation de lchan-
tillon est un point (x 1 ,. . . ,x n ) de W on dcide D1 , donc on rejette H0 . Dans le
cas contraire, cest--dire pour un point de W , on dcide D1 , donc on accepte
H0 .

Dfinition
La rgion W de rejet de lhypothse nulle H0 se nomme rgion critique du
test et la rgion W rgion dacceptation.
La construction dun test va donc consister dterminer cette rgion critique.

La mthode pour lobtenir dpendra des consquences que lon attribue cha-
cune des deux erreurs qui sont associes aux deux dcisions possibles. Ces
erreurs sont les suivantes.
Dfinition
Lerreur de premire espce consiste dcider D1 alors que H0 est vraie,
soit rejeter tort lhypothse nulle H0 . Lerreur de seconde espce consiste
dcider D0 alors que H1 est vraie, soit accepter tort lhypothse nulle H0 .
Nous allons prsenter deux mthodes de construction dun test, bases sur
des principes trs diffrents. La mthode de Bayes est utilise lorsquon dispo-
se encore plus dinformations a priori sur les hypothses, permettant de leur
attribuer une probabilit a priori, et lorsque lon peut en plus quantifier le cot
de chaque dcision en fonction de lhypothse effectivement ralise.
II. Mthode de Bayes

On se place dans le cas o on a attribu des probabilits a priori p0 et

p1 = 1 p0 chacune des hypothses respectives H0 et H1 et que lon a gale-
ment associ un cot chaque dcision, en fonction de lhypothse qui est effec-
tivement ralise. Le tableau ci-aprs contient ces cots, la dcision prise figu-
rant en colonne et lhypothse vraie en ligne :
D0 D1
H0 ( p0 ) C 00 C 01
H1 ( p1 ) C 10 C 11

Une bonne dcision peut avoir galement un cot et donc on aura gnrale-
ment C 00 > 0 et C 11 > 0.
Aprs la ralisation (x 1 ,. . . ,x n ) on peut calculer, laide du thorme de
Bayes, les probabilits a posteriori 0 et 1 des hypothses H0 et H1 :
p0 L 0 p1 L 1
0 = et 1 =
p0 L 0 + p1 L 1 p0 L 0 + p1 L 1
o on a not L 0 la valeur de la vraisemblance L (x 1 ,. . . ,x n ; ) , quand 0 ,
et L 1 , quand 1 . On peut alors calculer les esprances du cot de chaque
dcision pour cette distribution a posteriori :
E [C (D0 )] = C 00 0 + C 10 1 et E [C (D1 )] = C 01 0 + C 11 1
La rgle de dcision de Bayes consiste associer lobservation (x 1 ,. . . ,x n ) la
dcision dont lesprance de cot est la plus faible.
Exemple 8.1
Nous allons reprendre lexemple introductif en supposant cette fois que
les informations disponibles permettent dattribuer la probabilit
p0 = 0,6 lhypothse dentre dans une priode de rcession, qui se tra-
duit par m = 0,3. On considre de plus quune bonne dcision est sans
cot, soit C 00 = C 11 = 0 , et que le cot de relance tort est trois fois plus
lev que celui de ne rien faire en priode de rcession, soit C 10 = 3C 01 .
Dans ces conditions, les esprances du cot de chaque dcision sont :
E [C (D0 )] = C 10 1 = 3C 01 1 et E [C (D1 )] = C 01 0
On a donc :
E [C (D0 )] < E [C (D1 )] 31 < 0

p1 L0 L0
3 p1 L 1 < p0 L 0 3 < 2 <
p0 L1 L1
Lexpression de la vraisemblance est ici :

3
1 1 3
L (x 1 ,x 2 ,x 3 ; m) = exp (xi m)2
2 2 2 i =1
Le rapport des vraisemblances est donc :
L0 1 3

= exp 2
(xi m 0 )2 (xi m 1 )2
L1 2 i =1

La dcision D0 a donc le cot le plus faible si :

1 3

ln2 < 2 (xi m 0 )2 (xi m 1 )2
2 i =1

m0 m1 3
ln2 < 2 xi 3 (m 0 + m 1 )
2 2 i =1
La rgle de Bayes consiste donc choisir la dcision D0 dans le cas o :

3
1 3
2 ln2
ln2 < 6 5 xi xi < = 0,353
i =1
3 i =1 5 15
On retrouve la mme rgle de dcision avec le mme seuil critique arron-

di qui avait t fix la valeur k = 0,35.
III. Mthode de Neyman et Pearson

A. Principe de la rgle de Neyman et Pearson
On privilgie lune des deux hypothses, par exemple celle que lon considre
comme la plus vraisemblable, et on la choisit comme hypothse nulle H0 . Cette
hypothse sera celle dont le rejet tort est le plus prjudiciable. Lautre hypo-
thse H1 est lhypothse alternative. Il ny a donc pas de symtrie entre ces deux
hypothses. Lhypothse H0 est privilgie et il faut des observations trs loi-
gnes de cette hypothse pour la rejeter.
Dfinition
On appelle risque de premire espce la probabilit de rejeter tort lhypo-

thse nulle, soit :
= P (D1 |H0 ) = P (H1 |H0 ) = P (W | 0 )
On appelle risque de seconde espce la probabilit daccepter tort lhypo-

thse nulle, soit :

= P (D0 |H1 ) = P (H0 |H1 ) = P W | 1
Lerreur la plus grave consistant rejeter tort lhypothse nulle, la mthode de

Neyman et Pearson fixe une valeur maximum 0 au risque de premire espce.
Le test est alors dtermin par la recherche de la rgle qui minimise lautre
risque, celui de seconde espce.

Dfinition
On appelle puissance dun test la probabilit de refuser H0 avec raison, cest-
-dire lorsque H1 est vrifie, soit :
= P (D1 |H1 ) = P (H1 |H1 ) = P (W | 1 ) = 1
La rgle de dcision de Neyman et Pearson consiste dterminer la rgion

critique W pour laquelle la puissance est maximum, sous la contrainte 0 .
Le choix de la valeur de 0 peut tre dterminant quant la conclusion tire au
vu dun chantillon. La valeur standard retenue est 0 = 0,05. Choisir une
valeur plus faible (par exemple 0 = 0,01) conduit exiger des contre-preuves
trs fortes pour rejeter H0 , qui est ainsi admise a priori. Choisir une valeur plus
forte (par exemple 0 = 0,10) signifie que lon est moins convaincu a priori de
la validit de H0 et que lon est prt plus facilement la rejeter au vu des obser-
vations.
B. Hypothses simples
Une hypothse est qualifie de simple si la loi de la v.a. X est totalement spci-
fie quand cette hypothse est ralise. Dans le cas contraire elle est dite mul-
tiple. Nous allons examiner le cas o le paramtre ne peut prendre que deux
valeurs 0 et 1, ce qui correspond au choix entre les deux hypothses simples
suivantes :

H0 : = 0
H1 : = 1
Mme si cette situation est peu frquente dans la ralit, de nombreux autres
cas peuvent tre rsolus partir de ce cas lmentaire. La forme de la rgion
critique est alors dtermine par le thorme suivant.
Thorme de Neyman et Pearson

Pour un risque de premire espce fix 0 , le test de puissance maximum
entre les hypothses simples ci-dessus est dfini par la rgion critique :

L 0 (x1 ,. . . ,xn )
W = (x1 ,. . . ,xn ) k
L 1 (x1 ,. . . ,xn )
o la valeur de la constante k est dtermine par le risque fix
0 = P (W | = 0 ) , ayant pos L 0 (x 1 ,. . . ,x n ) = L (x 1 ,. . . ,x n ; 0 )
et L 1 (x 1 ,. . . ,x n ) = L (x 1 ,. . . ,x n ; 1 ) .

Exemple 8.2
Nous allons appliquer ce thorme au cas de la loi exponentielle de para-
1
mtre , avec 1 > 0 . La vraisemblance a pour expression :

1 1 n
L (x 1 ,. . . ,x n ; ) = n exp xi
i =1
avec xi > 0,1 i n. Le rapport des vraisemblances est donc :

n
n
L 0 (x 1 ,. . . ,x n ) 1 1 1
= exp xi
L 1 (x 1 ,. . . ,x n ) 0 1 0 i =1
La rgion critique est donc dfinie par la condition :

n
n
1 1 1
exp xi k
0 1 0 i =1
Cette condition est quivalente :

n
1 1
exp xi k1
1 0 i =1
En prenant le logarithme, on obtient comme nouvelle condition quiva-

lente :
n
1 1
xi k2
1 0 i =1
Puisque 1 > 0 , on arrive la condition :
n
xi C
i =1
La valeur de la constante C, qui va totalement prciser la rgion cri-

tique, est dtermine par la condition :

n
0 = P X i C | = 0
i =1
Dans lexercice 7.7 nous avons tabli que 2Sn / suivait une loi du khi-
n
S
deux 2n degrs de libert, avec n = X i . La condition prcdente
i =1
se rcrit donc sous la forme :

Sn C
0 = P 2 2
0 0

C
La valeur de 2 est donc celle du fractile dordre 1 0 de la loi du khi-
0
deux 2n degrs de libert. La puissance de ce test peut ensuite se cal-
culer par :

n
Sn C
=P X i C | = 1 = P 2 2
i =1
1 1
C. Hypothses multiples
Nous allons dabord considrer le cas dune hypothse simple contre une hypo-
thse multiple de lune des formes suivantes :

H0 : = 0 H0 : = 0
ou
H1 : > 0 H1 : < 0
On dtermine au pralable, par la mthode de Neyman et Pearson, la rgion
critique W du test suivant :

H0 : = 0
H1 : = 1
o 1 est une valeur fixe quelconque, mais vrifiant lhypothse alternative H1 .
Si la rgion W obtenue pour ce test entre hypothses simples ne dpend pas de
la valeur choisie 1, alors on aura obtenu un test uniformment le plus puissant
(UPP) pour le problme de test initial. Cela signifie que pour toute autre rgion
critique W on aura P (W | 1 ) P (W | 1 ) pour tout de 1 .
Exemple 8.3
Si nous reprenons lexemple 8.2, la rgion critique dpendait de la condi-
tion 1 > 0 , mais pas de la valeur prcise 1 . La rgion critique obtenue
est donc aussi celle du test UPP de H0 : = 0 contre H1 : > 0 .
Cependant, on ne peut pas cette fois calculer la puissance de ce test
puisque la valeur du paramtre nest pas connue dans lhypothse alter-
native. On peut seulement dfinir une fonction puissance de ce paramtre
par :

n
( ) = P X i C | > 0
i =1
Pour le problme de test suivant :

H0 : = 0
H1 : =
/ 0

il nexiste pas de test UPP. La rgion critique W de ce test sobtient par

runion des rgions critiques W1 et W2 des deux tests prcdents, pour le
0
mme risque de premire espce .
2
Exemple 8.4
Dans lexemple prcdent, la rgion critique W1 obtenue tait lensemble
des points (x 1 ,. . . ,x n ) tels que :
Sn C 1
C1 0
avec 2 qui est le fractile dordre 1 de la loi du khi-deux 2n
0 2
degrs de libert. De mme, pour le test de H0 : = 0 contre H1 : < 0
la rgion critique W2 obtenue est dfinie par :
Sn C 2
C2 0
avec 2 qui est le fractile dordre de la loi du khi-deux 2n degrs
0 2
de libert. La rgion critique de H0 : = 0 contre H1 : = / 0 est
W = W1 W2 . Il est plus facile de dfinir ici la rgion dacceptation de
lhypothse nulle par la condition :
C 2 Sn C 1
Pour le problme de test suivant :

H0 : 0
.
H1 : > 0
on suppose que la loi P est rapport des vraisemblances monotone. Cela signi-
fie quil existe une statistique Tn = Tn (x 1 ,. . . ,x n ) telle que le rapport des vrai-
semblances :
L (x 1 ,. . . ,x n ; )
L (x 1 ,. . . ,x n ; )
sexprime comme une fonction croissante de Tn pour toutes les valeurs de et

qui vrifient lingalit > . Dans ces conditions, on utilise le thorme suivant.
Thorme de Lehmann
Il existe un un test UPP dont la rgion critique W est lensemble des points
(x 1 ,. . . ,x n ) tels que :
Tn (x 1 ,. . . ,x n ) > k
o la valeur de la constante k est dtermine par le risque fix
0 = P (W | = 0 ) .

Exemple 8.5
Dans lexemple 8.2, nous avons obtenu comme rapport des vraisem-
blances :
n

L (x 1 ,. . . ,x n ; ) n
= exp xi
L (x 1 ,. . . ,x n ; ) i =1
Pour toutes les valeurs de et qui vrifient lingalit > , cest une
n
fonction croissante de Tn = xi . Donc, par application du thorme de
i =1
Lehmann pour H0 : 0 contre H1 : > 0 , le test UPP a pour rgion
critique lensemble des points (x 1 ,. . . ,x n ) tels que :
n
xi > k
i =1
La constante k est dtermine par la condition :

n
0 = P X i > k | = 0
i =1
IV. Test dindpendance du khi-deux

Pour tester lindpendance de deux caractres X et Y, qualitatifs ou quantitatifs
(rpartis alors en classes), respectivement r et s modalits, on relve le nombre
r s
n i j dindividus dune population de taille n = n i j qui possdent simulta-
i =1 j =1
nment la modalit i,1 i r, du caractre X et la modalit j,1 j s, du
caratre Y. Soit pi j la probabilit thorique correspondante, pour un individu tir
au hasard dans la population, de possder simultanment ces deux modalits i
s
r
et j. Les probabilits marginales sont pi. = pi j et p. j = pi j . Lindpen-
j =1 i =1
dance de ces deux caractres se traduit par lhypothse nulle
H0 : pi j = pi. p. j . Pour tester cette hypothse contre lalternative
H1 : pi j =
/ pi. p. j , on utilise la statistique :
2
r s
n i j n i. n . j /n r s
n i2j
Dn = =n 1
i =1 j =1
n i. n . j /n i =1 j =1
n i. n . j

Sa loi asymptotique, sous H0 , est la loi du khi-deux (r 1) (s 1) degrs

s
r
de libert. On a not n i. = n i j et n . j = n i j les effectifs marginaux.
j =1 i =1
La rgion critique de ce test est de la forme :

Dn C
Pour un risque de premire espce = P (Dn C|H0 ) , la valeur de C est

approxime par le fractile dordre 1 de la loi (r2 1)(s1) .
Exemple 8.6
Pour comparer lefficacit de deux mdicaments semblables, mais de prix
trs diffrents, la Scurit sociale a effectu une enqute sur les gurisons
obtenues avec ces deux traitements. Les rsultats sont prsents dans le
tableau suivant :
Mdicament cher Mdicament bon march

Gurisons 156 44 200
Non-gurisons 44 6 50
200 50 250
On calcule la valeur de la statistique :

1562 442 62
Dn = 250 +2 4 + 1 = 2,5
4.104 10 25.102
Pour un risque de premire espce = 0,05 le fractile dordre 1 de
la loi 12 a pour valeur C = 3,84. Puisque la valeur observe de la sta-
tistique Dn est infrieure, on accepte lhypothse nulle dindpendance du
taux de gurison et du cot du mdicament.
retenir
En dehors du cas particulier o on se donne une loi de probabilit
a priori sur les valeurs du paramtre et o on utilise la mthode de Bayes,
cest la mthode de Neyman et Pearson qui est utlise pour effectuer un test
dhypothses. Le thorme de Neyman et Pearson fournit loutil essentiel
pour btir un test, cest--dire dfinir la rgion o on va rejeter lhypothse
nulle retenue. Il est bien entendu essentiel de connatre les dfinitions pr-
cises des diffrents concepts intervenant dans les tests statistiques. Notons

que les deux hypothses confronter ne sont pas quivalentes et que lhy-
pothse nulle est privilgie, tant choisie comme celle dont le rejet tort
est le plus prjudiciable. Notons enfin limportance du choix de la valeur du
risque de premire espce, dont peut dpendre la conclusion tire dun
chantillon donn.
Complments
Construire un test consiste tablir une rgle de dcision, cest--dire une application
de Rn dans {0,1} . Pour toute ralisation (x 1 ,. . . ,x n ) de lchantillon telle que
(x 1 ,. . . ,x n ) = 1 on rejette lhypothse H0 . Pour toute ralisation (x 1 ,. . . ,x n ) de
lchantillon telle que (x 1 ,. . . ,x n ) = 0 on accepte lhypothse H0 . La fonction de test
est donc la fonction indicatrice de la rgion critique W : = 1W . Pour un test entre
deux hypothses simples H0 : = 0 contre H1 : = 1 , le risque de premire espce
est = E 0 [ (X 1 ,. . . ,X n )] et la puissance = E 1 [ (X 1 ,. . . ,X n )] .
Quand est valeurs dans {0,1} le test est dit pur ou dterministe. Dans le cas dune
loi discrte il nest pas toujours possible de trouver une rgion critique W de probabilit
exacte . Dans ce cas, si on souhaite que le risque de premire espce soit exactement
gal , il faut utiliser un test mixte. La fonction est cette fois valeurs dans [0,1] et
on accepte toujours H1 pour = 1 et H0 pour = 0. Pour = p ]0,1[ on effectue
un tirage au sort o on accepte lhypothse H1 avec une probabilit p.
En prsence dhypothses multiples H0 : 0 contre H1 : 1 , le risque de
premire espce est une fonction de dfinie par = E () pour 0 . On dfinit
alors la taille du test par :
= sup E ()
0
Le test est dit de niveau si . La puissance du test est la fonction de dfi-

nie par = E () pour 1 . Le graphe de la fonction dfinie pour tout de par
( ) = 1 E () sappelle courbe defficacit.
Un test de niveau est dit uniformment plus puissant quun autre test de mme

niveau si, pour tout 1 on a E () E .
Un test de niveau est dit sans biais si, pour tout 1 , on a E () .
La famille exponentielle un paramtre dont la densit scrit sous la forme :
f (x; ) = a ( ) b (x) exp [ ( ) T (x)]
est rapport des vraisemblances monotone si la fonction est une fonction monotone

n
du paramtre . Si est croissante, on retient la statistique Tn = T (xi ) , et si est
i =1

n
dcroissante, on retient la statistique Tn = T (xi ) .
i =1

Exercices
noncs
Exercice n1
Une machine produit des pices dont une proportion prsente des dfauts qui condui-
sent classer ces pices en second choix. En cas de bon fonctionnement la valeur est
= 0,1. Si la machine se drgle, la valeur passe = 0,2. On estime que la proba-
bilit que la machine soit bien rgle est p0 = 0,6. On peut souscrire un contrat den-
tretien qui permet de maintenir la machine bien rgle. Le cot est de 0,4 euros par pice
produite. Chaque pice de second choix est vendue 6 euros de moins que les autres.
Aprs contrle des 100 premires pices produites, on constate que 13 dentre elles doi-
vent tre classes en second choix. Quelle dcision est-on conduit prendre si on utilise
la mthode de Bayes ?
Exercice n2
On dispose dun chantillon (X 1 ,. . . ,X n ) dune v.a. X qui suit une loi normale desp-
rance inconnue m et dcart type connu = 1 pour choisir entre les deux hypothses :

H0 : m = 1
H1 : m = 1,5
Dterminer la rgion critique du test de Neyman et Pearson et calculer sa puissance dans

le cas o n = 25 et = 0,05 . Quelle devrait tre la taille dchantillon minimum pour
que cette puissance soit suprieure 0,90 ?
Exercice n3
On dispose dun chantillon (X 1 ,. . . ,X n ) dune v.a. X qui suit une loi normale centre,
dcart type inconnu pour choisir entre les deux hypothses :

H0 : = 1
H1 : = 2

le cas o n = 15 et = 0,05 .
Exercice n4
Le revenu annuel des individus dune population est distribu selon une loi de Pareto de
densit :

f (x; ) = si x 1
x +1
0 sinon
On dispose dun chantillon (X 1 ,. . . ,X n ) de cette loi pour choisir entre les deux hypo-
thses :


4
H0 : =
3

8
H1 : =
5
le cas o n = 400 et = 0,05 .
Exercice n5
Soit X une variable alatoire dont la densit a pour expression, pour x > :

1 x
f (x) = exp

et nulle sinon, o et sont deux paramtres strictement positifs.

blance construit partir d'un chantillon (X 1 ,. . . ,X n ) de X et tudier ses proprits.

blance et tudier ses proprits. Dterminer sa loi asymptotique.
3) Dterminer la rgion critique du test :

H0 : = 0
H1 : = 1
pour un risque de premire espce donn , sachant que 1 > 0 . Dterminer le risque
de seconde espce et la puissance .

H0 : = 0
H1 : = 1
pour un risque de premire espce donn , sachant que 1 > 0 . Pour dterminer
approximativement le seuil critique de ce test on utilisera l'estimateur n et la loi asymp-
totique de n . Calculer de la mme faon une valeur approche de la puissance de ce test.

H0 : = 0
H1 : =
/ 0
Ce test est-il UPP ? Peut-on calculer sa puissance ?

H0 : 0
H1 : > 0
Appliquer le thorme de Lehmann pour tablir que ce test est UPP de niveau . Montrer
que le risque de premire espce est une fonction croissante de qui est maximum
pour = 0 .

Exercice n6
On dispose dun chantillon de taille n = 15 dune v.a. de loi normale centre et de
1
variance pour choisir entre les deux hypothses :

H0 : = 1
H1 : > 1
Dterminer la rgion critique dun test UPP de risque de premire espce et prciser
sa fonction puissance. Calculer cette puissance dans le cas o n = 15, pour = 3 et
= 0,05 .
Exercice n7
Le poids indiqu par une balance, lorsquon effectue la pese dun poids talonn
100 g, est une v.a. de loi normale desprance 100. Si la balance est bien rgle, lcart
type a pour valeur = 5 et sinon cette valeur est inconnue, avec > 5. Dterminer la
rgion critique dun test UPP de risque de premire espce = 0,05 bas sur un chan-
tillon de n = 10 peses et prciser sa fonction puissance.
Exercice n8
Le nombre de pannes mensuelles dun ascenceur est une v.a. qui suit une loi de Poisson
de paramtre = 2. Aprs avoir souscrit un contrat dentretien, on pense que la valeur
du paramtre doit diminuer. Prciser la rgle de dcision lissue de six mois de contrat.
Exercice n9
On dispose dun chantillon (X 1 ,. . . ,X n ) dune v.a. X qui suit une loi normale desp-
rance inconnue m et dcart type connu = 1 pour choisir entre les deux hypothses :

H0 : m 3
H1 : m > 3
Dterminer la rgion critique du test le plus puissant de niveau = 0,05 dans le cas o
n = 100 et prciser sa fonction puissance.
Exercice n10
On dispose dun chantillon de taille n = 12 dune v.a. X qui suit une loi normale des-
prance inconnue m et dcart type inconnu pour choisir entre les deux hypothses :

H0 : m 6
H1 : m > 6
Dterminer la rgion critique dun test de niveau = 0,05. Peut-on dterminer sa fonc-
tion puissance ?
Exercice n11
La dure de vie dun certain matriel est une v.a. X qui suit une loi de Weibull de densit :

1 x
f (x; ) = exp si x > 0
2 x
0 sinon

On dispose dun chantillon (X 1 ,. . . ,X n ) de cette loi pour choisir entre les deux hypothses :

H0 : 1
H1 : > 1
Dterminer la rgion critique du test le plus puissant de niveau = 0,01 dans le cas o
n = 15 et prciser sa fonction puissance.
Exercice n12
Pour sa fabrication, un industriel utilise des machines de deux constructeurs diffrents.
Aprs six mois dutilisation, il constate que sur les 80 machines de type A, 50 ne sont
jamais tombes en panne, alors que pour le type B la proportion est de 40 sur 60. Peut-
on considrer que ces deux types de machines sont quivalents ?
Exercice n13
Deux sries dobservations effectues des dates diffrentes, sur des chantillons de tailles
respectives n 1 = 41 et n 2 = 61, ont conduit des valeurs respectives de moyennes empi-
riques et dcarts types empiriques x = 785,sx = 1,68,y = 788 et s y = 1,40. Peut-on
considrer que ces deux chantillons proviennent de la mme loi normale ?
Exercice n14
Le tableau ci-aprs donne la rpartition par taille, en cm, de 2700 salaris franais, de
sexe masculin, par catgories socio-professionnelles (CSP) :
Ouvriers Employs Cadres Total

Moins de 165 cm 325 66 22 413
De 165 moins de 170 cm 488 110 51 649
De 170 moins de 175 cm 636 158 123 917
175 cm et plus 451 146 124 721
Total 1900 480 320 2700
Au vu de ce tableau, peut-on considrer que la taille est indpendante de la CSP ?
Corrigs
Exercice n1
Nous allons formaliser le problme en construisant le modle statistique. Nous allons
introduire une variable indicatrice qui prend la valeur 1 si la pice produite est de second
choix. Cest une variable de Bernoulli dfinie par :

1 si second choix ( )
X=
0 sinon (1 )
Nous sommes en prsence de deux hypothses, H0 : = 0,1 avec une probabilit

a priori p0 = 0,6 et H1 : = 0,2 avec une probabilit p1 = 1 p0 = 0,4. Nous
devons choisir entre la dcision D0 de ne pas souscrire le contrat dentretien et la dci-

sion D1 de le souscrire. Le cot moyen par pice produite associ la dcision D0 est
de 6 , qui correspond au manque gagner, car reprsente la valeur moyenne de X. Si
on prend la dcision D1 de souscrire le contrat dentretien, le cot est de 0,4 par pice,
plus le manque gagner de 6 0,1 puisque la proportion de second choix est alors tou-
jours de 10 %. Tout ceci est rsum dans le tableau de cots suivant :
D0 D1 Probabilit a priori
H0 : = 0,1 0,6 1 0,6
H1 : = 0,2 0,6 1 0,4
La vraisemblance de lchantillon (X 1 ,. . . ,X n ) de cette loi de Bernoulli scrit :

n n
x
L (x 1 ,. . . ,x n ; ) = i =1 i (1 )n x
i =1 i
avec xi {0,1} ,1 i n . On note L 0 la vraisemblance pour = 0,1 et L 1 pour

= 0,2. Les esprances a posteriori des cots sont :
E [C (D0 )] = 0,60 + 1,21 et E [C (D1 )] = 0 + 1 = 1
La rgle de Bayes conduit souscrire le contrat si E [C (D0 )] > E [C (D1 )] soit :
0,60 + 1,21 > 1 0,36L 0 + 0,48L 1 > 0,6L 0 + 0,4L 1

8L 1 > 24L 0
n
8 8
ln2 ln xi > ln3 nln
9 i =1 9
8

n ln3 nln
xi > 9
9
i =1 ln
4
Pour un chantillon de taille n = 100, on dcide de souscrire le contrat dentretien si

100
100
xi > 15,9 soit, puisque les xi ne prennent que des valeurs entires, xi 16.
i =1 i =1

100
Ayant observ xi = 13, la rgle de Bayes conduit ne pas souscrire le contrat
i =1
dentretien.
Exercice n2
La vraisemblance scrit :
n
1 1 n
L (x 1 ,. . . ,x n ; m) = exp (xi m)2
2 2 i =1
La forme de la rgion critique, donne par le thorme de Neyman et Pearson, est
L 0 /L 1 k , ce qui en passant aux logarithmes conduit lingalit :

1 n

(xi 1)2 (xi 1,5)2 lnk
2 i =1
Elle est quivalente, aprs dveloppement du crochet, :

n
5n
xi + 2lnk
i =1
4
Pour linstant, on cherche seulement dterminer la forme de la rgion critique et lex-

pression des constantes qui apparaissent dans cette ingalit est sans intrt. On remplace

n
donc cette ingalit par xi k1 , qui lui est quivalente. La rgion critique est donc
i =1
dfinie partir de la valeur de la somme des observations. Cependant, comme cest la loi
de la moyenne empirique X n qui est connue, il est prfrable de faire intervenir cette
moyenne dans la dfinition de la rgion critique W, qui sera donc lensemble des points
(x 1 ,. . . ,x n ) tels que :
xn C
Il reste prciser la valeur de cette constante C, qui sera le seuil de cette rgion, par-
tir du risque de premire espce qui est fix. Il reprsente la probabilit de cette rgion,
lorsque lhypothse nulle est ralise, et par consquent, la condition qui dfinit C
scrit :

= P (W |m = 1) = P X n C|m = 1

Sous H0 , la moyenne empirique X n suit la loi N 1,1/ n , donc en centrant et rdui-
sant on obtient la condition :

C 1
=P U
1/ n
o U est une v.a. de loi N (0,1) . Ainsi la constante C est dfinie par :
u
C =1+
n
o u est le fractile dordre 1 de la loi N (0,1) . Pour un risque = 0,05 on lit dans
la table 2 le fractile u = 1,6449 do une rgion critique dfinie pour n = 25 par :
W = {(x 1 ,. . . ,x 25 ) /x 25 1,33}
Dans ce cas, la puissance du test est la probabilit de cette rgion dans lhypothse alter-
native, soit :

1,33 1,5
= P X 25 1,33|m = 1,5 = P U = P (U 0,85) = 0,8023
1/ 25
Pour un risque = 0,05 la condition 0,90 conduit choisir une taille dchan-
tillon n telle que :

u n
=P X n 1 + |m = 1,5 = P U u 0,90
n 2


ce qui est quivalent 1,6449 n/2 1,2816 soit n 5,853 donc une taille
dchantillon suprieure n 0 = 35.
Exercice n3
Pour effectuer ce test, nous disposons dun chantillon dune loi normale centre, dcart
type = 1 sous H0 et = 2 sous H1 . Le rapport des vraisemblances a donc pour
expression :

L0 1 n 1 n
3 n
= 2n exp xi 2 xi 2 = 2n exp xi 2
L1 8 i =1 2 i =1 8 i =1
La rgion critique est donc dfinie par le thorme de Neyman et Pearson comme len-
semble des points (x 1 ,. . . ,x n ) tels que :

n
xi 2 C
i =1
La valeur de la constante C est dtermine par la condition :

n
=P X i2 C |H0
i =1

n
Sous lhypothse nulle H0 , X i2 suit la loi n2 , donc C est le fractile dordre 1 de
i =1
cette loi. Pour = 0,05 on lit dans la table 5 la valeur C = 25. La puissance du test
est :

n
=P X i2 C |H1
i =1

n
X i2
Sous lhypothse H1 , suit la loi n2 , donc :
i =1
4

1 n C
=P X i2 = 0,975
4 i =1 4
par lecture de la table 5. Notons quici le risque de seconde espce = 0,025 est inf-
rieur au risque de premire espce = 0,05. Pour respecter la logique de Neyman et

Pearson, il faudrait donc choisir un risque de premire espce plus faible.
Exercice n4
Lexpression de la vraisemblance est :

n
n 1
L (x 1 ,. . . ,x n ; ) = xi 1 = n xi
i =1 i =1
pour xi 1,1 i n.
Le rapport des vraisemblances, L 0 sous H0 , et L 1 sous H1 , scrit donc :
n 1 0
L0 0 n
= xi
L1 1 i =1

Le thorme de Neyman et Pearson, qui permet dobtenir le test de puissance maximum,

L0
dfinit la rgion critique par la condition k, qui est donc ici quivalente, en pre-
L1
nant les logarithmes, :

n
(1 0 ) lnxi k1
i =1
Puisque 1 > 0 , cette rgion critique W est dfinie par la condition :

n
lnxi C
i =1
La valeur du seuil C est dtermine par :

n
4
= P (W |H0 ) = P lnX i C| =
i =1
3
La taille dchantillon permet ici dutiliser le thorme central limite que nous allons
1 n
appliquer Y n = Yi , ayant pos Yi = lnX i ,1 i n. Il nous faut pour cela
n i =1
dterminer la loi de la v.a. Y = lnX. Sa fonction de rpartition est dfinie par :
G (y) = P (Y < y) = P (lnX < y) = P (X < e y ) = F (e y )
pour y > 0. On obtient la densit par drivation :
g (y) = e y f (e y ) = e y
1 1
On reconnat la loi exponentielle de paramtre , donc E (Y ) = et V (Y ) = 2 .

Daprs le thorme central limite :
Y n 1/
n N (0,1)
1/ loi
La constante C est alors dtermine approximativement par :

C C
= P Yn =P n 0 Y n 1 n 0 1
n n
Le fractile dordre 0,05 de la loi N (0,1) a pour valeur 1,645 donc la valeur approche
du seuil C est dfinie par la condition :

4C
n 1 = 1,645
3n
Soit, pour n = 400,C = 275. La puissance est dtermine par :

n
8 C
= P (W |H1 ) = P lnX i C| = = P Yn
i =1
5 n

C
= P n 1 Y n 1 n 1 1
n

Sa valeur approche est dfinie par = (2,02) = 0,98, o est la f.r. de la loi
N (0,1) . Notons que le risque de seconde espce = 0,02 est infrieur au risque de
premire espce = 0,05.
Exercice n5
1) La vraisemblance est :

1 1 n
L(x 1 ,. . . ,x n ; ,) = exp x i e
n/
n i =1
condition que tous les xi soient suprieurs , ce qui est quivalent la condition
m n = min{x 1 ,. . . ,x n } > . La vraisemblance est une fonction croissante de avant
m n et nulle au-del, donc atteint son maximum pour = m n . L'estimateur du maximum
de vraisemblance est donc :
n = m n = min{X 1 ,. . . ,X n }
Sa loi de probabilit est dfinie dans l'exercice 15 du chapitre 3. On voit que la v.a.
mn
Z =n suit une loi exponentielle, avec E(Z ) = V (Z ) = 1 . On en dduit :

2
E(m n ) = + et V (m n ) = 2
n n
C'est donc un estimateur asymptotiquement sans biais et convergent.
2) La log-vraisemblance a pour expression :
1 n
ln L(x 1 ,. . . ,x n ; ,) = n ln (xi )
i =1

ln L n 1 n
= + 2 (xi )
i =1

n
La drive s'annule pour = (xi )/n ; la drive seconde est ngative pour cette
i =1
valeur :
2 ln L n 2 n
= (xi )
2 2 3 i =1
L'estimateur du maximum de vraisemblance est donc :
1 n
n = X i n = X n m n
n i =1
Cet estimateur est asymptotiquement sans biais :

E(n ) = E(X ) E(m n ) =
n
rsultat dduit de l'exercice 15 du chapitre 3.

D'aprs la loi des grands nombres, X n converge vers E(X ) . Nous avons tabli que m n
convergeait vers , donc n converge vers + = .
D'aprs ce qui prcde :
2
E n(m n ) = et V n(m n ) =
n n
Ces deux moments tendent vers 0 avec 1/n donc :

n(m n ) 0
p
Nous pouvons crire :

n(n ) = n(X n ) n(m n )
Le thorme central-limite et le rsultat prcdent nous permettent de conclure :

n(n ) N (0, )
loi
3) La rgion critique de ce test est construite partir de l'estimateur du maximum de vrai-

semblance de . Comme 1 > 0 , elle est dfinie comme l'ensemble des points
(x 1 ,. . . ,x n ) tels que m n > C . La constante C tant dfinie par :
C 0
= P(m n > C|H0 ) = exp n

soit C = 0 ( ln )/n . Le risque de seconde espce est :
C 1 0 1
= P(m n < C|H1 ) = 1 exp n = 1 exp n

La puissance s'en dduit par = 1 .
4) On utilise le thorme de Neyman et Pearson et on forme le rapport des vraisem-
blances :
n
L0 1 1 n
1 n
= exp (xi ) (xi )
L1 0 0 i =1 1 i =1
En prenant le logarithme, on dfinit la rgion critique par l'ingalit :

n
1 1
(xi ) < k
1 0 i =1
Comme 1 > 0 , ceci est quivalent :

n
(xi ) > k
i =1
La valeur de tant inconnue, on doit utiliser une approximation en remplaant ce para-

mtre par son estimateur :
n = x n m n > C
La constante C tant dfinie approximativement par :

n 0 C 0
= P(n > C|H0 ) = P n > n
0 0

On retient donc comme valeur approche du seuil :

0
C = 0 + u
n
o u est le fractile d'ordre 1 de la loi N (0,1) .
La puissance se calcule alors par :

n 1 C 1
= P(n > C|H1 ) = P n > n
1 1
en utilisant nouveau la loi asymptotique N (0,1) .
5) La rgion critique prcdente dpendait des valeurs respectives de dans les deux
hypothses. Le test de rgion d'acceptation dfinie par :
C 1 < n < C 2
n'est donc pas UPP. Les valeurs approches des seuils critiques sont :
0 0
C 1 = 0 u et C 2 = 0 + u
n n
o u est le fractile d'ordre 1 /2 de la loi N (0,1) . On ne peut pas calculer la puis-
sance de ce test, l'hypothse alternative tant multiple.
6) Pour > le rapport des vraisemblances L /L est une fonction croissante de n .

D'aprs le thorme de Lehmann, la rgion critique du test de la question 4 est celle d'un
test UPP pour les hypothses confrontes ici. Son risque de premire espce est dfini
par :

n C
( ) = P(n > C|H0 ) = P n > n

Cette fonction atteint son maximum, d'aprs le thorme de Lehmann, pour = 0 . Si

on utilise la loi asymptotique, le seuil n(C/ 1) est une fonction dcroissante de ,
donc est bien une fonction croissante de .
Exercice n6
Lhypothse alternative tant une hypothse multiple, on dtermine dabord la rgion cri-
tique du test entre les deux hypothses simples :

H0 : = 1
H1 : = 1
avec 1 quelconque, mais vrifiant 1 > 1. Lexpression de la vraisemblance est :

n/2

n
n
L (x 1 ,. . . ,x n ; ) = exp xi2 = exp xi2
i =1
2 2 2 2 i =1

n/2 n
L0 1 1
= exp (1 1 ) xi2
L1 1 2 i =1


L0
L1
1 n
(1 1 ) xi2 k1
2 i =1
Puisque 1 > 1, cette rgion critique W est dfinie par la condition :

n
xi2 C
i =1

n
= P (W |H0 ) = P X i2 C| = 1
i =1

n
Sous H0 , les v.a. X i sont normales, centres, rduites et indpendantes, donc X i2 suit
i =1
une loi du khi-deux n degrs de libert. La valeur du seuil C est donc celle du fractile
dordre de la loi n2 . La rgion critique est indpendante de la valeur choisie pour 1 ,
donc elle est aussi celle du test UPP pour lalternative H1 : > 1. La fonction puissance
est dfinie pour > 1 par :

n
( ) = P (W |H1 ) = P X i2 C| > 1
i =1
Elle se calcule partir de la fonction de rpartition Fn de la loi n2 par :
( ) = Fn (C)
Pour n = 15 et = 0,05 on lit dans la table 5 la valeur C = 7,26. Pour = 3 la puis-

sance vaut alors (3) = F15 (21,78) 0,9.
Exercice n7
Lhypothse alternative tant une hypothse multiple, on dtermine dabord la rgion cri-
tique du test entre les deux hypothses simples :

H0 : = 5
H1 : = 1
avec 1 quelconque, mais vrifiant 1 > 5. Lexpression de la vraisemblance est :

n
1 1
L (x 1 ,. . . ,x n ; ) = exp 2 (xi 100)2
i =1 2
2
n
1 1 n
= exp 2 (xi 100) 2
2 2 i =1


n
L0 n/2 1 1 1
1
= exp (xi 100) 2
L1 5 2 25 12 i =1

L0
L1

n
1 1 1
2 (xi 100)2 k1
2 25 1 i =1
Puisque 12 > 25, cette rgion critique W est dfinie par la condition :

n
(xi 100)2 C
i =1

n
= P (W |H0 ) = P (X i 100)2 C| = 5
i =1
Sous H0 , les v.a. X i 100 sont normales, centres, dcart type = 5 et indpen-

n
dantes, donc (X i 100)2 /25 suit une loi du khi-deux n degrs de libert. La
i =1
valeur de C/25 est donc celle du fractile dordre 1 de la loi n2 . La rgion critique
est indpendante de la valeur choisie pour 1 , donc elle est aussi celle du test UPP pour
lalternative H1 : > 5. La fonction puissance est dfinie pour > 5 par :

n
( ) = P (W |H1 ) = P (X i 100) C| > 5
2
i =1
Elle se calcule partir de la fonction de rpartition Fn de la loi n2 par :

C
( ) = 1 Fn
2
Pour n = 10 et = 0,05 on lit dans la table 5 la valeur C = 25 18,3 = 457,5.
Exercice n8
Il sagit de tester lhypothse H0 : = 2 contre lhypothse H1 : < 2 partir dun
chantillon de taille n = 6. On effectue dabord le test dhypothses simples H0 : = 2
contre H1 : = 1 avec 1 quelconque, mais vrifiant 1 < 2. Le rapport des vraisem-
blances, L 0 sous H0 , et L 1 sous H1 , scrit :
n x
L0 2 i =1 i
= en(21 )
L1 1


L0
L1

n
(ln2 ln1 ) xi k1
i =1
Puisque 1 < 2, la rgion critique W est dfinie par la condition :

n
xi C
i =1

n
= P (W |H0 ) = P X i C| = 2
i =1
Cest donc le fractile dordre de la loi de Poisson de paramtre 2n. Pour n = 6 et

= 0,05 on lit C = 6. La rgion critique est indpendante de la valeur choisie pour
1 , donc elle est aussi celle du test UPP pour lalternative H1 : < 2. Au bout de six
mois, on considre que le contrat a t efficace si on observe un nombre de pannes inf-
rieur ou gal 6.
Exercice n9
Les deux hypothses sont multiples. On dtermine dabord la rgion critique du test entre
les deux hypothses simples :

H0 : m = m 0
H1 : m = m 1
avec m 0 et m 1 quelconques, mais vrifiant m 0 3 et m 1 > 3. La vraisemblance

scrit :

1 1 n
L (x 1 ,. . . ,x n ; m) = exp (xi m) 2
2 2 i =1
La forme de la rgion critique, donne par le thorme de Neyman et Pearson, est

L 0 /L 1 k , ce qui en passant aux logarithmes conduit lingalit :
1 n

(xi m 0 )2 (xi m 1 )2 ln k
2 i =1
Elle est quivalente, aprs dveloppement du crochet, :

(m 1 m 0 ) x n k1
1
n
ayant pos x n = xi . Cette rgion critique est indpendante des valeurs de m 0 et
n i =1
m 1 qui vrifient toujours m 1 m 0 > 0. Cest donc celle du test UPP pour H0 : m 3

contre H1 : m > 3 et se dfinit par :

xn C
On peut aussi appliquer le thorme de Lehmann. Le rapport des vraisemblances scrit :
L (x 1 ,. . . ,x n ; ) n
= exp 2 2 + n x n
L (x 1 ,. . . ,x n ; )
2
Cest une fonction croissante de x n pour > donc x n > C dfinit la rgion critique
dun test UPP. La valeur de la constante C est dtermine par :

= P (W |m = 3) = P X n C|m = 3

Pour m = 3, la moyenne empirique X n suit la loi N 3,1/ n , donc en centrant et
rduisant on obtient la condition :

C 3
=P U
1/ n
o U est une v.a. de loi N (0,1) . Ainsi la constante C est dfinie par :
u
C =3+
n
o u est le fractile dordre 1 de la loi N (0,1) . Pour un risque = 0,05 on lit dans
la table 2 le fractile u = 1,6449 do une rgion critique dfinie pour n = 100 par :
W = {(x 1 ,. . . ,x 100 ) /x 100 3,16}
La fonction puissance du test est :

u
(m) = P X n 3 + |m > 3 = P U n (3 m) + 1,645
n

= 1 1,645 n (m 3)
o est la f.r.de la loi N (0,1) .
Exercice n10
Les hypothses en prsence sont de la mme forme que dans lexercice prcdent. Mais
ici, pour m = 6, la loi de la moyenne empirique X n est inconnue et nous ne pouvons pas
dterminer le seuil. Nous allons utiliser une autre statistique, de loi connue pour m = 6,

qui sera n X n 6 /Sn , de loi de Student n 1 degrs de libert. La rgion cri-
tique est dfinie par la condition :
xn 6
n >C
sn
On dtermine la valeur de C par :

Xn 6
=P n > C |m = 6
Sn

Pour n = 12 et = 0,025 on lit dans la table 6 la valeur C = 2,201. On ne peut pas

calculer la fonction puissance qui est dfinie par :

Xn 6 Xn m m6
(m) = P n > C|m > 6 = P n >C n
Sn Sn Sn
m6
puisque C n est une v.a.
Sn
Exercice n11
Nous allons appliquer le thorme de Lehmann. Lexpression de la vraisemblance est :

n
1 xi 1 n
1 1 n

L (x 1 ,. . . ,x n ; ) = exp = exp x i
i=1
2 x i (2 )n i=1 x i i=1
pour xi > 0,1 i n.

Le rapport des vraisemblances scrit :

n
L (x 1 ,. . . ,x n ; ) n

=exp xi
L (x 1 ,. . . ,x n ; )
i =1
n
Cest une fonction croissante de Sn = i =1 xi pour > donc Sn > C dfinit la
rgion critique dun test UPP. La valeur de la constante C est dtermine par :
n
= P (W |0 = 1) = P X i C|0 = 1
i =1

Nous allons dabord dterminer la loi de la v.a. Y = X partir de sa fonction de rpar-
tition dfinie par :

G (y) = P (Y < y) = P X < y = P X < y2 = F y2
pour y > 0,F tant la f.r. de X. On obtient la densit par drivation, soit pour y > 0 :
1
g (y) = 2y f y 2 = ey/

On reconnat la loi exponentielle de paramtre 1/, ou loi (1,1/ ) . La v.a.
n
Sn = X i est la somme de n v.a. indpendantes et de mme loi (1,1/ ) , donc
i =1
suit une loi (n,1/ ) . On utilise le rsultat du chapitre 3 II.E o on avait tabli que
2Sn / 2n 2
. On a donc ici :

n
=P X i C|0 = 1 = P (2Sn 2C)
i =1
Ainsi, 2C est le fractile dordre 1 de la loi 2n

2
. Pour = 0,01 et n = 15, on lit
dans la table 5 la valeur 2C = 50,892 soit un seuil C = 25,45. La fonction puissance
du test est dfinie pour > 1 par :

n
( ) = P X i C| > 1 = P (2Sn / 2C/ ) = 1 K (2C/ )
i =1
avec K qui est la f.r. de la loi 2n
2
.

Exercice n12
Nous allons associer une machine de type A (resp. B) une variable indicatrice de
Bernoulli X (resp. Y ) de paramtre p1 (resp. p2 ) . On dispose dchantillons de ces deux
lois, deffectifs respectifs n 1 = 80 et n 2 = 60 , pour effectuer le test :

H0 : p1 = p2 H0 : p1 p2 = 0

H1 : p1 =
/ p2 H1 : p1 p2 =
/ 0
Les moyennes empiriques X et Y de ces deux chantillons permettent de dfinir lesti-
mateur sans biais X Y du paramtre tester = p1 p2 . Sa loi approche est une

loi normale desprance et dcart type inconnu = p1 q1 /n 1 + p2 q2 /n 2 o
q1 = 1 p1 et q2 = 1 p2 . Sous lhypothse nulle, on estime la valeur commune
p = p1 = p2 par la runion des deux chantillons :

n1
n2
n1 X + n2Y 1
p= = Xi + Yi
n1 + n2 n1 + n2 i =1 i =1
Cet estimateur permet aussi destimer dans ce cas lcart type

= p (1 p) (1/n 1 + 1/n 2 ) . On effectue alors le test laide de la v.a. normalise :
X Y
=
p (1 p) (1/n 1 + 1/n 2 )
dont on peut admettre, compte tenu des tailles dchantillon, quelle suit approximative-
ment une loi normale standard dans lhypothse nulle. La rgion critique est dfinie par

> C, o on retient comme valeur approche du seuil C celle qui vrifie
= P (|U | > C) , avec U de loi N (0,1) . Pour la valeur standard = 0,05 la rgion

critique est dfinie par > 1,96. On obtient pour ces chantillons

x = 0,625,y = 0,667, p = 0,643, p (1 p) (1/n 1 + 1/n 2 ) = 0,08

et = 0,51 donc on accepte lhypothse nulle dquivalence des deux types de machines.
Exercice n13
Chaque srie dobservations est un chantillon des v.a. X et Y, de lois respectives
N (m 1 ,1 ) et N (m 2 ,2 ) , ces quatre paramtres tant inconnus. Les deux chantillons
proviennent de la mme loi si les paramtres sont gaux deux deux. Le premier test
effectuer sur les esprances est :

H0 : m 1 = m 2 H0 : m 1 m 2 = 0

H1 : m 1 =
/ m2 H1 : m 1 m 2 =
/ 0
et utilise pour cela lestimateur sans biais X Y de m 1 m 2 . Cet estimateur suit une
loi normale centre sous H0 , mais de variance inconnue 12 /n 1 + 22 /n 2 , o n 1 et n 2
sont les effectifs des chantillons respectifs des lois de X et Y . On utilise donc les esti-
mateurs sans biais de 12 et 22 qui sont respectivement :
1 1 2 1 2 2
n n
Sx2 = Xi X et S y2 = Yi Y
n 1 1 i =1 n 2 1 i =1

!
Si on remplace lcart type inconnu par son estimateur Sx2 /n 1 + S y2 /n 2 pour rduire
X Y , on nobtiendra pas une loi de Student. Il faut pour cela que lcart type des deux
chantillons soit le mme. On doit donc faire le test pralable dgalit des variances :

H0 : 12 = 22 H0 : 12 /22 = 1
.
H1 : 12 =
/ 22 H1 : 12 /22 =
/ 1
On accepte lhypothse nulle si le rapport Sx2 /S y2 est voisin de 1, soit une rgion dac-
ceptation de la forme :
Sx2
a< <b
S y2
Si on rpartit le risque de faon symtrique, les valeurs des constantes a et b sont dfi-
nies par :
2 2
Sx Sx
= P 2 < a|H0 = P 2 > b|H0
2 Sy Sy
avec Sx2 /S y2 qui suit une loi de Fisher-Snedecor F (n 1 1,n 2 1) sous H0 . Pour la
1
valeur standard = 0,05 on lit dans la table 7 le fractile a = = 0,56 et
1,80
b = 1,74 . La valeur calcule de Sx2 /S y2 pour cet chantillon est 1,44 donc on accepte
lgalit des variances. On retient alors comme estimateur sans biais de la variance com-
mune 2 = 12 = 22 :
(n 1 1) Sx2 + (n 2 1) S y2
S2 =
n1 + n2 2
La rgion critique du test initial est alors dfinie par :

X Y
>t
S 1/n 1 + 1/n 2
Le seuil t est dtermin par :

X Y
=P > t|H0
S 1/n 1 + 1/n 2
Cest donc le fractile dordre 1 /2 de la loi de Student n 1 + n 2 2 degrs de

libert. Pour = 0,05 on lit dans la table 6 le fractile t = 1,984 . Pour cet chantillon,
on observe s = 1,52 et :
xy
= 9,77
s 1/n 1 + 1/n 2
On refuse donc lgalit des moyennes de ces deux lois.

Exercice n14
Dans lhypothse nulle dindpendance des caractristiques de taille et de CSP, la rpar-
tition de la population est obtenue partir du produit des effectifs marginaux. Par
exemple, le nombre douvriers de moins de 165cm serait dans ce cas
1900 413
= 290,6 , arrondi 291 puisquil sagit deffectifs entiers. On aboutit ainsi
2700
au tableau suivant :
Ouvriers Employs Cadres Total

Moins de 165 cm 291 73 49 413
De 165 moins de 170 cm 457 115 77 649
De 170 moins de 175 cm 645 163 109 917
175 cm et plus 507 128 86 721
Total 1900 479 321 2700
La rgion critique est de la forme Dn C o C a comme valeur approche le fractile

dordre 1 de la loi du khi-deux six degrs de libert, pour un test de risque de
premire espce . Pour = 0,05 on lit dans la table 5 la valeur C = 12,6. La valeur
de la statistique utilise pour ce test est ici Dn = 58,2 donc on rejette lhypothse din-
dpendance. La conclusion serait la mme pour un risque = 0,01, le seuil tant
C = 16,8.

9782100745401-lecoutre-tab.qxd 09/05/16 8:15 Page 287
Tables statistiques
Table 1 : Fonction de rpartition de la loi normale centre rduite
Table 2 : Fractiles de la loi normale centre rduite
Table 3 : Loi binmiale
Table 4 : Loi de Poisson
Table 5 : Fractiles de la loi 2
Table 6 : Fractiles de la loi de Student T
Table 7 : Fractiles dordre 0,95 de la loi de Fisher-Snedecor
Table 7 (suite) : Fractiles dordre 0,975 de la loi de Fisher-Snedecor
Abaque 1 : Intervalles de confiance pour une proportion (bilatral de niveau
0,90 ou unilatral de niveau 0,95)
Abaque 2 : Intervalles de confiance pour une proportion (bilatral de niveau
0,95 ou unilatral de niveau 0,975)
Ces tables sont publies avec laimable autorisation de la Revue de statistique

applique, numro spcial Aide-mmoire pratique des techniques statistiques,
ditions du CERESTA, 1986.

Table 1
Fonction de rpartition de la loi normale centre rduite
Probabilit F(u) dune valeur infrieure u
Tables pour les grandes valeurs de u

Table 2
Fractiles dordre P de la loi normale centre rduite
Lecture de la table 2 des fractiles.
Si P < 0,50 : le fractile est ngatif, donc on ajoute le signe la valeur lue dans la table.
0,004 troisime dcimale de P
(en haut)
|0,24| 0,6935
2 premires dcimales de P ( gauche de la table)

Le fractile dordre 0,244 vaut : 0,6935.
Si P > 0,50 : on lit normalement.
2 premires dcimales de P ( droite)
1,7060 |0,95|
0,006 troisime dcimale de P (en bas)

Le fractile dordre 0,956 vaut : 1,7060.

Table 2 (suite)
Fractiles dordre P de la loi normale centre rduite
Grandes valeurs de u

Table 3
Loi binmiale
Probabilits cumules

Table 4
Loi de Poisson

Table 5
Fractiles dordre P de la loi 2
Dunod. La photocopie non autorise est un dlit.

Table 6
Fractiles dordre P de la loi de Student T

Table 7
Fractiles dordre 0,95 de la loi de Fisher-Snedecor F(v1 ,v2 )

Table 7 (suite)
Fractiles dordre 0,975 de la loi de Fisher-Snedecor F(v1 ,v2 )

Abaque 1
Intervalles de confiance pour une proportion p
Intervalle bilatral de niveau de confiance 0,90
Intervalles unilatraux de niveau de confiance 0,95

Abaque 2
Intervalles de confiance pour une proportion p
Intervalle bilatral de niveau de confiance 0,95
Intervalles unilatraux de niveau de confiance 0,975

9782100745401-lecoutre-ind.qxd 12/05/16 8:13 Page 301
Index
A correction de continuit 183
corrlation 112, 119, 136
abaque 214, 298 courbe defficacit 266
adquation (test d') 149 covariance 46, 111, 119, 124, 130
algbre 7, 25, 35
aplatissement 53 D
arrangement 20
asymtrie 53 densit 36
diffuse (loi) 49
B Dirac (loi de) 38, 69, 177, 178
dure de vie 82, 232
Bayes (formule de) 16, 30, 258, 271
Bayes (mthode de) 253, 257, 267 E
Bayes (rgle de dcision de) 258
Bernoulli (loi de) 70 cart absolu moyen 221
Bernoulli (thorme de) 176 chantillon 150
Biais 199 chantillon gaussien 154
Bienaym-Tchebychev (ingalit chantillon ordonn 159
de) 169, 171, 200
efficace (estimateur) 202, 205
Boole (ingalit de) 10, 187
ensemble fondamental 5, 25
quiprobabilit 11, 19, 27
C erreur de premire espce 257

erreur de seconde espce 257
Cauchy (loi de) 147, 155 erreur quadratique moyenne 201,
central limite (thorme) 169, 178, 223
185 esprance conditionnelle 110
concidence 59 estimateur du maximum de vraisem-
combinaison 22 blance 206
combinaison avec rptition 23 vnement 5, 7
complte (statistique) 226 vnement certain 7
convergence presque complte 187 vnement lmentaire 6
convergence presque sre 185 vnement impossible 7
convolution 87, 89, 90, 112, 122, vnement incompatible 7
133 exhaustive (statistique) 224
Index 301
exhaustive minimale (statistique) J

226
exponentielle (famille) 227 jacobien 122, 133
Jensen (ingalit de) 171
F jeu quitable 42
Fisher (information de) 203, 213, K

220, 238, 239, 249
Fisher (thorme de) 154, 163 Kolmogorov (distance de) 159
Fisher-Snedecor (loi de) 147, 155, Kolmogorov-Smirnov (test de) 159,
164, 284 167
fonction gamma 88 Koopman (thorme de) 229
fonction pivotale 219, 221
fonction puissance 262, 269 L
fractile 81, 87, 155, 156, 164, 184,
190
Laplace (loi de) 122
Frchet-Darmois-Cramer-Rao
Lebesgue (mesure de) 58, 133
(ingalit de) 202, 223
Lehmann (thorme de) 263, 268,
281, 282
G Lehmann-Scheff (thorme de)
230
Glivenko-Cantelli (thorme de) loi binmiale 71, 99, 101, 181
174, 187 loi binmiale ngative 79, 93
loi conditionnelle 118, 139
loi de l'tendue 162
H loi de Student 154
loi des vnements rares 181
hypothse alternative 259 loi des grands nombres 175, 180,
hypothse multiple 260, 262 185, 249
hypothse nulle 257, 259 loi du khi-deux 89, 132, 137, 184,
hypothse simple 260 217
loi exponentielle 49, 82, 239, 261
loi gamma 88, 183, 239
I loi gomtrique 78, 189, 238
loi hypergomtrique 74, 100, 113,
identifiable (modle) 196 182
indpendance 17, 32, 130 loi log-normale 92, 98, 232
indpendance mutuelle 18 loi marginale 108, 135
intervalle interquartile 86 loi multinomiale 125

loi normale 216 Poisson (loi de) 97, 140, 164, 183, 269
loi sans mmoire 104 probabilit 6, 10
loi uniforme 80, 97, 137 probabilit image 37
loi uniforme discrte 11 probabilit totale (formule de la) 16
lois marginales 43 probabilits conditionnelles 13
lois sans mmoire 98 puissance 260, 262, 266
M R
Markov (ingalit de) 170 Rao-Blackwell (thorme de) 230
matrice de variances-covariances rapport des vraisemblances monoto-
124, 127, 132 ne 263, 266
matrice variances-covariances 128 rgion critique 257
mdiane 46, 60, 65 rgion dacceptation 257
mesurable (application) 57, 133 rgle de dcision 256, 266
mthode des moments 208, 231, 236
rgression 110, 120, 129, 132
mthode du maximum de vraisem-
risque de premire espce 259, 266,
blance 206, 231, 233
268
mixte (loi) 49, 64
risque de seconde espce 259, 268
modle dchantillonnage 196
moment empirique 151, 180, 208
moment factoriel 72, 77, 94 S
moyenne empirique 151, 153, 180, 198
moyenne quadratique (convergence seuil critique 156, 255
en) 189 statistique dordre 161
strict (estimateur) 198
N Student (loi de) 184, 217
support 58, 162
Neyman et Pearson (mthode de) 259
Neyman et Pearson (thorme de) T
260
Neyman-Fisher (thorme de) 225 taille 266

niveau 266 taux de panne 98
non-causalit 19 test dindpendance du khi-deux 264
test du khi-deux 156, 166
P test mixte 266
parente (loi) 150, 156, 159, 164, 167, test pur 266
195 test sans biais 266
Pareto (loi de) 92, 99, 267 test uniformment le plus puissant
partitions 24 (UPP) 262, 266, 268, 269
Pascal (loi de) 78, 98, 99, 100 tests dadquation 156
permutation 19, 20, 21, 22, 32 tribu 9, 25
Poincar (formule de) 10, 32 tribu borlienne 57, 196
Index 303
V variance empirique 44, 151, 153,

180, 216
valeurs extrmes 162
vecteur alatoire 123
variable alatoire (v.a). certaine 38,
45 vecteur normal 127, 130, 131
variable alatoire (v.a.) indicatrice 38, vraisemblance 202, 206
39, 41, 196
variable indicatrice 44
W
variance conditionnelle 111, 121 Weibull (loi de) 269

Statistique Et Probabilites 6e Ed Cours Et Exercices Corriges

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Statistique Et Probabilites 6e Ed Cours Et Exercices Corriges

Diunggah oleh

Hak Cipta:

Format Tersedia

9782100745401-lecoutre-lim.

qxd 12/04/16 9:14 Page III

Cours et exercices corrigs

une utilisation judicieuse des mthodes statistiques, en les illustrant systmati-

Jentends et joublie. Je vois et je retiens. Je fais et je comprends. En fin de cha-

Table des matires

Table des matires VII

II. Variable alatoire relle continue 47

VIII STATISTIQUE ET PROBABILITS

4. Couple et vecteur alatoires 107

5. Loi empirique 149

I. chantillon dune loi 150

Table des matires IX

6. Comportement asymptotique 169

III. Mthodes de construction dun estimateur 206

8. Tests dhypothses 253

Tables statistiques 287

Table des matires XI

In matrice unit dordre n

Importance de la manire de les collecter

Prsentation des donnes recueillies

Catalogue de modles probabilistes disponibles et

Il reste prciser dans quel cadre cette formalisation laide de modles

un aveu de notre ignorance, de notre incapacit fournir un modle physique

Concepts cls tudis : probabilit, probabilit conditionnelle, indpen-

correspond la notion intuitive de probabilit. Pour raliser cette quantification,

Cet ensemble peut tre fini ou infini, continu ou discret.

B. Algbre et tribu dvnements

AB Les deux vnements A et B sont raliss.

Le couple (, P()) sappelle un espace probabilisable.

C2 pour tout A A et tout B A alors A B A .

Il y a fermeture pour le complmentaire et lunion. Cet ensemble A sappel-

C2 pour tout A A et tout B A alors A B A .

Proprits dune algbre

P1 La famille tant non vide, on en conclut que :

. P3 Si A j A pour 1 j n , on dmontre galement par passage au com-

Cependant, certaines expriences peuvent se drouler indfiniment (au moins

vnements sont incompatibles, cest--dire ne peuvent pas se raliser simulta-

proprit dite de additivit.

Une probabilit est donc une application qui un vnement va associer un

P1 Lvnement impossible est de probabilit nulle :

P4 La probabilit de lunion de deux vnements sobtient par la formule

Cas o est fini

cest--dire que la probabilit dun vnement quelconque A de P () est dfi-

puisque n = card . Ce rsultat snonce souvent sous la forme trs dangereu-

servir de dfinition pour une probabilit.

ce qui correspond aux probabilits :

117 390 286 12

II. Probabilits conditionnelles

P(A|B) = 2/3 > 1/2 .

Vrifions que cette application de A dans R , dfinie par

donc la condition 2 est aussi vrifie.

quil y ait quiprobabilit des vnements lmentaires, soit

P (D) = P(N1 )P(N2 |N1 )P(N3 |N1 N2 )P(R4 |N1 N2 N3 ) = =

III. Thorme de Bayes

On aboutit ainsi la formule de la probabilit totale :

Ceci va nous permettre de calculer les probabilits a posteriori P(Ai |B) ,

rsultat appel formule de Bayes ou parfois thorme de Bayes.

Rouge Bleue Verte

IV. Indpendance en probabilit

La probabilit de ralisation simultane de deux vnements indpendants

conditions qui doivent tre ralises.

Dans le cas particulier o il y a quiprobabilit sur un ensemble fini dvnements l-

A. Permutations avec rptition

C2 pour tout A A et tout B A alors A B A .