Anda di halaman 1dari 142

CTU, Licence de Mathmatiques

Statistique Infrentielle
Jean-Yves DAUXOIS

Universit de Franche-Comt
Anne scolaire 2011-2012

Ce polycopi contient le cours, les sujets dexercice et leurs corrigs ainsi que les
sujets des devoirs proposs.
Les noncs des exercices sont donns en fin de chapitre auxquelles ils font rfrence.
Il est vivement conseill dessayer de faire srieusement les exercices, sans aller trop
rapidement voir leurs corrections dtailles en fin de polycopi. On sait en effet que,
pour quune correction soit efficace, il faut quelle vienne aprs une priode de recherche
personnelle de la solution.
Les devoirs, quant eux, ne sont pas des exercices supplmentaires (ces derniers
accompagns de leurs corrections sont dj assez nombreux !). Pour quils apportent
rellement autre chose que les exercices, ils doivent tre faits dans les conditions dun
devoir surveill ou dun examen. En consquence, il vous est vivement conseill de faire
les devoirs et de menvoyer votre copie (ventuellement les unes aprs les autres). En
retour vous recevrez votre copie corrige et galement une correction type du devoir. Le
premier des devoirs peut tre rsolu ds que lon est parvenu la fin de la seconde section
du Chapitre 5. Le second est lui ralisable aprs avoir travaill lensemble du Chapitre
5. Les trois autres, mme sils peuvent tre attaqus plus tt, ne seront ralisables
quune fois assimil lensemble des notions. Ils peuvent fournir de bons exercices de
rvision en perspective de lexamen.
Enfin, ce polycopi contient certainement de nombreuses coquilles et mrite encore
dtre amlior. Merci davance aux lecteurs attentifs de transmettre leur remarques,
suggestions ou indications sur la localisation des coquilles. Un petit mail ladresse
jean-yves.dauxois@univ-fcomte.fr et lamlioration est prise en compte...
Bon courage !

Table des matires


Partie 1.

Introduction et Modle Statistique

Chapitre 1. Introduction

5
7

Chapitre 2. Modle Statistique


1. Dfinition
2. Modle dchantillonnage
3. Vraisemblance
4. Familles Exponentielles
5. Modle position-chelle
6. Exercices

11
11
15
15
16
17
18

Partie 2.

21

Estimation ponctuelle

Chapitre 3. Statistique et Estimateur

23

Chapitre 4. Construction destimateurs


1. Estimateurs empiriques (des moments)
2. Mthode de substitution
3. Mthode des moments
4. Maximum de vraisemblance
5. Exercices

27
27
29
29
30
33

Chapitre 5. Qualit dun estimateur


1. Estimateur convergent
2. Estimateur sans biais
3. Risque dun estimateur
4. Information de Fisher
5. Borne de Cramer-Rao (ou Frchet-Darmois-Cramer-Rao)
6. Exercices

37
37
39
40
43
46
48

Chapitre 6. Amlioration destimateurs


1. Statistique exhaustive
2. Statistique exhaustive minimale
3. Thorme de Rao-Blackwell
4. Thorme de Lehmann-Scheff
5. Cas des familles exponentielles
6. Exercices

51
51
54
54
56
57
57
3

Chapitre 7. Comportement asymptotique dun estimateur


1. Normalit asymptotique
2. Estimateurs empiriques des moments
3. Estimateur du maximum de vraisemblance
4. La -mthode ou ltude asymptotique dun estimateur obtenu par la
mthode de substitution
5. Estimateurs par la mthode des moments
6. Exercices

59
59
60
60

Partie 3.

65

Intervalles de confiance

61
62
63

Chapitre 8. Intervalles de confiance exacts

67

Chapitre 9. Intervalles de confiance asymptotiques

71

Chapitre 10. Exercices sur les intervalles de confiance exacts et asymptotiques

73

Partie 4.

75

Correction des exercices

Correction des exercices du Chapitre 2

77

Correction des exercices du Chapitre 4

85

Correction des exercices du Chapitre 5

99

Correction des exercices du Chapitre 6

119

Correction des exercices du Chapitre 8

129

Partie 5.

135

Devoirs

Partie 1

Introduction et Modle Statistique

CHAPITRE 1

Introduction
Considrons un problme de Fiabilit o lon tudie la dure de vie X dun matriel.
Il est raisonnable dadmettre que celle-ci est alatoire et X est alors une variable alatoire (v.a.) de fonction de rpartition (f.d.r.) F . Supposons que lon soit prcisment
intress par lvaluation de la probabilit que le matriel soit en marche aprs un temps
t0 de fonctionnement, cest dire valuer
F (t0 ) = P (X > t0 ) = 1 F (t0 ).
Pour cela on observe le fonctionnement n matriels
Pnsimilaires et on relve leurs temps
de panne respectifs: x1 , . . . , xn . On note Kn =
i=1 1lxi t0 le nombre de matriels
tombes en panne au temps t0 . Il en reste donc n Kn encore en marche cet instant.
Il est assez naturel destimer la probabilit F (t0 ) par :
n

X
b (t ) = nombre de cas favorables = n Kn = 1
F
1l{xi >t0 } .
0
nombre de cas possibles
n
n i=1
Posons maintenant une hypothse supplmentaire. On suppose (on sait ou on a pu
vrifier) que la loi de X est une loi exponentielle E(), mais dont on ignore le paramtre
.
Calculons lesprance de X. On a
Z +
Z
1 + u
(2)
x
E(X) =
xe dx =
ue du =
,
0

0
o
Z

u1 eu du

() =
0

est la fonction Gamma. On sait que (n) = (n 1)!, ce qui nous donne ici E(X) = 1/.
Il est assez naturel destimer lesprance de X par la moyenne empirique des temps
observs, i.e. par
n
1X
x =
xi .
n i=1
Ainsi peut tre estim par :
= 1 = Pnn .

x
i=1 xi
7

Chapitre 1. Introduction

Un calcul simple montre que


F (t0 ) =

ex dx = exp(t0 )

t0

et on peut donc estimer la probabilit que le matriel fonctionne durant le temps t0


par :
e (t ) = exp(t
0 ).
F
0
Les estimations prcdentes sont appeles estimations ponctuelles. On constate en
particulier que plusieurs estimateurs ont t proposs pour F (t0 ). Ils conduisent des
estimations diffrentes de la mme quantit pour un seul lot de matriel test. Mais
on remarque galement quun mme estimateur peut mener diffrentes estimations si
on considre plusieurs lots de matriels. Les valeurs observes x1 , . . . , xn nont en effet
aucune raison dtre les mmes.
Ainsi on se pose naturellement les questions suivantes. Comment peut-on comparer
diffrents estimateurs ? Quelle(s) dfinition(s) donner de la qualit dun estimateur ?
Comment mesurer lerreur commise par un estimateur (puisquen particulier elle varie
dune observation lautre) ? Toutes ces question seront abordes dans la Partie 2 de
ce cours.
Ce qui prcde montre que lestimation ponctuelle a un inconvnient majeur, celui
de se tromper presque toujours. Au moins dans le cas de v.a. absolument continues, ce
qui tait le cas prcdemment, il apparat clairement que lon est presque sr de ne pas
tomber sur la valeur thorique que lon cherche estimer. Cest pourquoi on prfre
parfois donner un intervalle plutt quune valeur. On parle dintervalle de Confiance
ou parfois de fourchette destimation. Bien sr il reste une erreur possible. On donnera
alors lintervalle en fonction de lerreur que lon sautorise (ou que lon nous autorise).
Plus on souhaitera que la probabilit derreur soit petite, plus grand sera lintervalle. Et
inversement plus la probabilit derreur que lon sautorise est grande, plus on pourra
donner un intervalle troit. Lestimation par intervalles de confiance fait lobjet de la
Partie 3 de cours.
Il reste un troisime axe fondamental de la Statistique Infrentielle que nous naborderons pas dans ce cours. Il est de nature assez diffrente des deux prcdents et
consiste pouvoir se donner des outils statistiques pour dcider entre deux hypothses
diffrentes. Ainsi, si lon considre nouveau lexemple prcdent sur la fiabilit dun
matriel, on peut tre assez rapidement amen rpondre des questions comme les
suivantes. La fiabilit du matriel F (t0 ) en un instant t0 fix (par exemple 2000h) estelle suprieure ou pas 0,99 ? Appartient-elle lintervalle [0.975, 0.985] (il ne sagit pas
ici du mme problme que celui du paragraphe prcdent sur la notion dintervalle de
confiance comme nous le verrons en tudiant plus en dtails ces notions) ? Lhypothse
de loi exponentielle pour la dure de vie X du matriel est-elle raisonnable ou pas ? Ou
encore si lon dispose de deux versions du matriel : lun est-il plus fiable que lautre
en un instant t0 ? Autrement dit, en notant respectivement F1 et F2 les fonctions de
rpartitions de la dure de vie de chaque matriel, a-t-on F1 (t0 ) F2 (t0 ) ou le contraire ?
c
Jean-Yves Dauxois Juillet
2011

0.

La thorie des tests dhypothses permet de rpondre, entre autres, toutes ces
questions. Dans ce domaine les erreurs sont galement possibles : celles de choisir
lune des deux hypothses alors que cest lautre qui est vraie. Lobjectif est alors
naturellement de chercher rduire au maximum ces deux erreurs mais nous verrons
rapidement que cela nest pas possible conjointement. Ici aussi se posera galement la
question de loptimalit (dans un sens dfinir) de la procdure de test choisi.
Dune manire gnrale.
Statisticien confront des donnes : brutes (rsultat du contrle qualit dun
produit, taille dindividus, ge de la mre la naissance du premier enfant, concentration en ozone de latmosphre etc...) ou rsultats dexpriences (expriences biologiques,
pharmaceutiques, agronomiques etc...).
Travail du statisticien. Extraire de linformation (rsume et pertinente) de ces
donnes (comme par exemple la taille moyenne des individus). Modliser la part dala
(par exemple dterminer la loi de la dure de vie X du matriel). Tirer des conclusions
sur la population totale partir dobservations sur un chantillon).
Mais il peut aussi avoir (donner les moyens pour) prendre des dcisions (comme par
exemple lactivation du plan antipollution en raison dune trop grande concentration
dozone). Effectuer des prvision (prvision du temps en mtorologie, prvision du
cours dune action en finance).

c
Jean-Yves Dauxois Juillet
2011

CHAPITRE 2

Modle Statistique
Lobjet de ce chapitre est de prsenter le socle sur lequel vont sappuyer toutes les
techniques statistiques prsentes dans les parties ou chapitres suivants. Ainsi nous
prsenterons la notion fondamentale de modle statistique et en donnerons quelques
cas particuliers importants que nous retrouverons dans les dveloppements ultrieurs.
Nous prsenterons aussi une notion trs lie la notion de modle statistique : la
vraisemblance. Elle est galement trs importante en statistique.
1. Dfinition
Exemple 2.1. Un problme de Fiabilit et modle de Bernoulli
Revenons notre problme introductif de Fiabilit du Chapitre prcdent et sa
premire partie sur lestimation ponctuelle. On a cherch connatre la vraie valeur de
la fonction de rpartition F (t0 ) de la dure de vie du matriel en un instant t0 . Il est
intressant de dcrire ce problme dune autre manire.
Utilisons une v.a. Y valeurs {0, 1} pour modliser ltat du matriel au temps
t0 . On note {Y = 1} si le matriel est en marche et {Y = 0} sil est en panne. On a
p0 = P (Y = 1) = F (t0 ) et P (Y = 0) = 1 p0 . La v.a. Y est de loi de Bernoulli de
paramtre p0 , o p0 a une valeur inconnue dans [0, 1].
On a donc fait comme si lon avait une infinit de lois possibles pour Y : toutes les
lois de Bernoulli B(1, p), avec p dans [0, 1]. Et le problme tait alors de trouver la vraie
valeur p0 , partir des
Prsultats observs pour les n machines testes, nots y1 , . . . , yn .
On a estim p0 par ( yi )/n. On parle de modle et estimation paramtriques : restait
seulement estimer un paramtre. Cest essentiellement le cadre considr par ce cours
dans sa partie estimation ponctuelle.
Notons la prsence des ensembles suivants :
E=espace des observations possibles={0, 1} ;
E=tribu des vnements sur E=P(E), ensemble des parties de E ;
Une famille de Probabilits constitue par toutes les lois de Bernoulli,
P = {B(1, p) : p [0, 1]}.
Nous verrons quils dfinissent un modle paramtrique qui dans le cas prsent est
appel modle de Bernoulli.
En revanche, si lon sintresse lestimation de F (t) pour tout t dans R+ , il faudrait
estimer une infinit de paramtres : toutes les valeurs prises par la fonction F . On parle
alors destimation non-paramtrique. Cest un sujet que nous ne ferons quaborder,
essentiellement quand nous traiterons le sujet des tests non-paramtriques.
3
11

12

Chapitre 2. Modle Statistique

Nous constatons une diffrence avec un modle probabiliste (E, E, P ). Dans modle
probabiliste il y a une seule probabilit et les seules questions qui se posent sont de
lordre du calcul (que lon sait ou ne sait pas faire). Avec un modle statistique (E, E, P),
ces mmes questions peuvent ventuellement apparatre dans un deuxime temps, mais
avant il faut grer la prsence dun ensemble de probabilits. Autrement dit la probabilit sous jacente au phnomne est pas connue ou pas entirement (cest surtout ce
cas l que lon traite dans ce cours). Le Statisticien cherchera la dterminer, lestimer.
Ce modle
(E, E, P) = (E, E, {B(1, p) : p [0, 1]})
peut tre utilis pour modliser dautres phnomnes, situations.
Exemples.
1) Jeu de pile ou face. Le problme est de connatre la probabilit p dobtenir pile
(par exemple), ce qui revient admettre que le d peut tre pip. On note Y = 1 si on
obtient pile, Y = 0 sinon on obtient une face. Dire que la pice peut tre pipe, revient
dire que le rsultat dun lancer Y est de loi de Bernoulli B(1, p) avec p inconnu dans
[0, 1]. On fait n lancers, rsultats nots y1 , . . . , yn et on cherchera estimer p.
2) Sondage dintention de vote au second tour des lections prsidentielles. On
suppose que seulement deux candidats A et B se prsentent une lection. On note
p la proportion de votant pour le candidat A et 1 p pour B. En notant {Y = 1}
lvnement llecteur vote pour A, et {Y = 0} sil vote pour B, le vote peut tre
modlis par une v.a. Y de loi de Bernoulli B(1, p), avec encore une fois p qui peut
prendre nimporte quelle valeur dans [0, 1]. On sonde n lecteurs sur leurs intentions,
rsultats nots y1 , . . . , yn et on cherche estimer p.
Dfinition 2.1. On appelle modle statistique, la donne dun espace des observations E, dune tribu E dvnements sur E et dune famille de probabilits P sur
lespace probabilisable (E, E). On le note (E, E, P) ou, quand il ny a pas de risque de
confusion, plus simplement P.
On supposera que la vraie loi sous-jacente au phnomne que lon tudie appartient
au modle statistique que lon sest donn. Il existe des outils pour vrifier si cette
hypothse est raisonnable ou pas. Mais nous ne les prsenterons pas dans le cadre de
ce cours, car ils font appels la thorie des tests qui nest pas au programme de cet
enseignement.
On note X la v.a. qui modlise le phnomne alatoire que lon tudie. Autrement
dit la v.a. X engendre les observations dont on dispose. Elle est valeurs dans (E, E)
et sa loi de probabilit P inconnue est dans la famille P. On appellera parfois X v.a.
gnrique du modle statistique.
Dfinition 2.2. On dit quun modle statistique est paramtrique sil existe un
entier d et un sous ensemble de Rd tels que la famille de probabilits P puisse tre
paramtre par , i.e. tels que lapplication :
P
7 P
c
Jean-Yves Dauxois Juillet
2011

1. Dfinition

13

est surjective.
On note P = {P : }.
Dans le cas contraire on parle de modle non-paramtrique.
Le modle de Bernoulli utilis dans la modlisation du fonctionnement du matriel
au temps t0 , pour le lancer de la pice de monnaie ou encore le sondage dintention de
vote au second tour est un exemple de modle paramtrique.
Le paramtrage nest pas forcment unique. Dans exemple prcdent de Bernoulli,
on peut paramtrer par la probabilit que le matriel soit en panne au temps t0 , cest
dire 1 p, ou bien encore par toute fonction (bijective) de p. Comme par exemple par
= ln(p/(1 p)), ce qui veut dire que p = e /(1 + e ). Dans ce dernier cas le modle
statistique scrit :
(E, E, P) = (E, E, {B(1, e /(1 + e )) : R})
Nous verrons un peu plus loin (dans la partie sur les familles exponentielles) que cette
paramtrisation nest pas aussi farfelue quon aurait pu le penser de prime abord.
Remarquons que lon peut toujours paramtrer la famille P, ne serait-ce quen
prenant = P et donc lapplication identit entre les deux espaces. Pour que lon
parle de modle paramtrique, il faut que lespace soit de dimension finie, do
lhypothse quil soit inclus dans un Rd .
Exemple 2.2. Un problme de contrle de la Qualit.
Considrons une entreprise de fabrique de vis. On constate que les mesures du
diamtre X dune vis varient dune pice lautre. Cet ala peut tre d au procd de
fabrication et/ou aux ventuelles erreurs de mesure. Supposons que lon ne connaisse
pas la valeur moyenne (rigoureusement lesprance) du diamtre . Cherchons prciser
un modle statistique adapt une telle situation.
Il est souvent raisonnable dadmettre que la loi de X est normale. En effet de
manire non rigoureuse on peut supposer que lala est symtrique et dcroissant autour
de la moyenne. On modlise donc souvent cette variation sous la forme :
X = + ,
o est de loi N (0, 2 ). Autrement dit, on a
X N (, 2 ).
On suppose dans un premier temps 2 connu.
Pour modliser cette situation on a donc recours au modle statistique :
(E = R, E = BR , P = {N (, 2 ) : R}).
Dans ce cas, on = R et = .
Si 2 est lui aussi inconnu, alors le modle devient
(R, BR , P = {N (, 2 ) : R, 2 > 0})
c
Jean-Yves Dauxois Juillet
2011

14

Chapitre 2. Modle Statistique

2
et lon a : = R R+
et = (, ). Le paramtre est dit bi-dimensionnel. On
peut aussi construire un modle o lesprance est connue et cest la variance qui est
inconnue.
3

Dfinition 2.3. Un modle paramtrique (E, E, P) est dit identifiable si la fonction 7 P de la Dfinition 2.2 est de plus injective, i.e. si
1 6= 2 P1 6= P2 .
Dans la plupart des cas le modle est identifiable, quitte prendre une autre
paramtrisation. On supposera dans la suite que le modle statistique est identifiable.
Abus de langage et de notation. Si la v.a. X est absolument continue, la
densit de P est note f . Cest une fonction intgrable de R (ou une partie de R) vers
R+ . Si la v.a. X est discrte, on appellera galement densit la fonction f dfinie en
tout x de lespace E, o la X prend ses valeurs, par : f (x) = P (X = x). On peut
en effet montrer grce la thorie de la mesure, que dans ce dernier cas la loi de X
est absolument
R continue par rapport la mesure de comptage sur E. Les intgrales
de la forme x dx utilises dans le cas
P de v.a. absolument continues seront alors
remplaces par des sommes
de
la
forme
x . Ainsi,
R
Ppar exemple,
Plesprance scrit
dans le cas continu xf (x)dx et dans le cas discret x xf (x) = x xP (X = x).
Dfinition 2.4. On appelle support de la loi P lensemble :
supp(P ) = {x E : f (x) > 0}.
On constate quil est dnombrable dans le cas de v.a. discrtes et infini non dnombrable dans le cas de v.a. absolument continues. Ce support peut dpendre de . Il en
est ainsi par exemple dans le cas du modle uniforme {U[0,] ; > 0}
Exemple 2.3.
Dans le cas de lExemple 2.1, on a :
f (x) = px (1 p)1x ,
pour tout x supp(P ) = {0, 1}.
Dans le cas de lExemple 2.2, on a :


1
(x )2
f (x) = exp
,
2 2
2
3

pour x dans supp(P ) = R.

c
Jean-Yves Dauxois Juillet
2011

3. Vraisemblance

15
2. Modle dchantillonnage

Pour tudier un phnomne alatoire, on a souvent intrt observer plusieurs


ralisations indpendantes de celui-ci. Cest ce que lon a fait dans lexemple du premier
chapitre. On parle alors dchantillon ou dchantillonnage.
Dfinition 2.5. On appelle n-chantillon de la loi P , la donne dun vecteur
X = (X1 , . . . , Xn ) constitu de n v.a. indpendantes et identiquement distribues (i.i.d.)
de loi P .
On appelle modle dchantillonnage, le modle
(E n , E n , P n = {Pn : }),
o E n est la tribu produit (engendre par les pavs) sur E n et Pn = P P
est la probabilit produit sur (E n , E n ) qui est la loi du vecteur X = (X1 , . . . , Xn ) (Cf.
cours de Probabilits).
Toutes les v.a. ont mme loi, donc mme valeur de . Un chantillon est un vecteur
alatoire. Sa ralisation, fruit de n observations indpendantes du mme phnomne,
est note x = (x1 , . . . , xn ). On fera toujours cette distinction entre v.a. et sa ralisation
en utilisant majuscules ou minuscules.
Un modle dchantillonnage est donc un modle statistique particulier, o lespace
des observations est de la forme E n , muni de sa tribu produit classique et de probabilits
de la forme Pn . Aussi parfois on parlera dans ce cas simplement de modle statistique.
Limportant est de bien avoir en tte quelle est la nature des observations : par exemple
v.a.r., vecteur alatoire (mais avec composantes non ncessairement indpendantes, ni
de mme loi) ou encore chantillon...
Grce lindpendance et lidentique distribution, la densit de lchantillon sous
la loi P est alors :
n
Y
x = (x1 , . . . , xn ) 7
f (xi ),
i=1
n

pour tout x de E . Si on considre le produit de droite non plus comme une fonction
de x mais comme une fonction du paramtre , pour un x = (x1 , . . . , xn ) fix, on parle
de vraisemblance.
3. Vraisemblance
Dfinition 2.6. Dans un modle statistique paramtrique (E, E, P), on appelle
vraisemblance de lobservation x la fonction
L(x; ) : R+
7 L(x; ) = f (x).
c
Jean-Yves Dauxois Juillet
2011

16

Chapitre 2. Modle Statistique

Bien sr, dans le cas dun modle dchantillonnage, la vraisemblance de lchantillon


observ x = (x1 , . . . , xn ) scrit sous la forme
L(x1 , . . . , xn ; ) =

n
Y

f (xi ).

i=1

Cest donc la loi conjointe du n-chantillon value aux valeurs observes et considre comme fonction du paramtre .
4. Familles Exponentielles
Un modle paramtrique important en Statistique est celui des familles exponentielles. Il recouvre de nombreux modle paramtriques classiques : normal, binomial,
poisson, gamma etc...
Dfinition 2.7. Un modle statistique (E, E, P) sur un espace des observations E
est dit famille exponentielle gnrale sil existe un entier p, des fonctions , T , C
et h tels que les densits puisse scrire, pour tout de , sous la forme :
f (x) = eh(),T (x)i C()h(x),
avec les contraintes que
T soit une fonction mesurable valeurs dans Rp ;
soit une fonction valeurs dans Rp ;
C soit une fonction relle positive qui ne dpend pas x ;
h soit une fonction borlienne positive qui ne dpend pas de .
Le vecteur alatoire T (X) est appel statistique canonique du modle. Si la fonction
T est lidentit, la famille exponentielle est dite naturelle.
On parle de forme canonique dune famille exponentielle gnrale quand les densits de probabilits ont la forme
f (x) = eh,T (x)i C()h(x),
pour tout de , ce quil est toujours possible dobtenir quitte reparamtriser la
famille par 0 = (). Dans ce cas le paramtre de la famille exponentielle est appel
paramtre canonique.
Exemple 2.4.
Revenons sur le modle de Bernoulli. La densit scrit :

x



p
p
x
1x
fp (x) = = p (1 p)
=
(1 p) = exp x ln
(1 p)
1p
1p
= exp (h(p), T (x)i) C(p)h(x),
avec

(p) = ln

p
1p


, T (x) = x, C(p) = (1 p) et h(x) = 1.
c
Jean-Yves Dauxois Juillet
2011

5. Modle position-chelle

17

Le modle de Bernoulli est donc une famille exponentielle naturelle puisque T = Id.
De plus, le modle Bernoulli paramtr en fonction de
(E, E, P) = (E, E, {B(1, e /(1 + e )) : R})
est sous forme canonique.
Modle chantillonnage construit partir dune famille exponentielle gnrale canonique reste une famille exponentielle gnrale canonique.
En effet si X = (X1 , . . . , Xn ) est un chantillon de loi de densit
f (x) = eh,T (x)i C()h(x),
alors le vecteur alatoire X a pour densit
P
h, n
i=1 T (xi )i

f (x1 , . . . , xn ) = e

C ()

n
Y

h(xi )

i=1

Pn

i=1 T (Xi ) est la statistique canonique du nouveau modle.


On en dduit lexpression de la vraisemblance pour un chantillon x = (x1 , . . . , xn )
dune famille exponentielle gnrale.

et

Proposition 2.8. La vraisemblance pour un chantillon x = (x1 , . . . , xn ) dune


famille exponentielle gnrale canonique est la fonction :
n
Y
P
h, n
T (xi )i n
i=1
7 L(x1 , . . . , xn ; ) = e
C ()
h(xi ).
i=1

5. Modle position-chelle
Dfinition 2.9. Considrons un vecteur alatoire X de loi P connue sur (Rn , BRn )
et A un sous espace de Rn . Pour tout a dans A et tout b dans R+ , on note Pa,b la loi
du vecteur Y = a + bX.
Le modle paramtrique
PA,b = {Pa,b : a A, b R+ }
est appel modle position-chelle engendr par P (ou par X). Le paramtre a est
appel paramtre de position et b paramtre dchelle.
Si b est fix (par exemple 1) on parle de modle de position. Dans le cas o A ne
contient que le vecteur nul de Rn , on parle de modle chelle.
Exemple 2.5. Le Modle gaussien unidimensionnel
Reprise de lExemple 2.2. Le modle
P = {N (, 2 ) : R}
est un modle position engendr par la loi N (0, 2 ). Il correspond aux diffrentes lois
du modle pour le diamtre X de la vis. Rappelons que X = + , o varie dans R
et est de loi N (0, 2 ).
c
Jean-Yves Dauxois Juillet
2011

18

Chapitre 2. Modle Statistique


Le modle

P = {N (, 2 ) : R, 2 > 0}
est un modle position-chelle engendr par la loi N (0, 1). Le diamtre X de la vis peut
en effet scrire X = + , o est de loi N (0, 1).
3
6. Exercices
Exercice 1 (Familles Exponentielles)
On considre les modles suivants :
Modle Binomial {B(m, p) : p [0, 1]} ;
Modle de Poisson {P() : > 0} ;
Modle gaussien variance fixe {N (, 2 ) : R} ;
Modle gaussien paramtre bi-dimensionnel {N (, 2 ) : R, 2 > 0} ;
1 x
Modle Gamma {G(, ) : > 0, > 0} = {f, (x) = ()
x e 1lR+ (x) :
> 0, > 0} ;
Modle uniforme {U[0,] : > 0} ;
1
Modle de Cauchy {f (x) = (1+(x)
2 ) : R} ;
Pk
Modle Multinomial {M(n, p1 , . . . , pk ) : 0 < pi < 1, i = 1, . . . , k et
i=1 pi =
1}.
Pour tous ces modles, rpondre aux questions suivantes.
1) Quelle est lexpression de la densit f (x) ?
2) Le modle constitue-t-il une famille exponentielle gnrale ? Naturelle ? Quel
est le paramtre canonique du modle ?
3) Quelle est la vraisemblance dun chantillon x = (x1 , . . . , xn ) ?
Exercice 2 (Modles position-chelle)
1) Construire un modle position-chelle partir de la loi exponentielle E(1). Prciser la forme des f.d.r. des lois de ce modle ainsi que leurs densits.
2) Montrer que le modle uniforme {U[a,b] : < a < b < +} est un modle
position-chelle.

Exercice 3 (Statistiques dordre)


Soit X1 , . . . , Xn des v.a.r. dfinies sur un mme espace probabilis (, A, P ), indpendantes et de mme loi absolument continue par rapport la mesure de Lebesgue de
densit f . Pour tout dans , on peut ordonner les rels X1 (), . . . , Xi (), . . . , Xn ()
sous la forme
X(1) () X(2) () X(i) () X(n) ().
c
Jean-Yves Dauxois Juillet
2011

6. Exercices

19

Lapplication
X(i) : X(i) ()
ainsi dfinie pour chaque i est une v.a.r. dite ie`me statistique dordre.
1) Calculer la loi de X(n) = sup{X1 , . . . , Xn } (f.d.r. et densit).
2) Calculer la loi de X(1) = inf{X1 , . . . , Xn } (f.d.r. et densit).
3) Calculer la loi du couple (X(1) , X(n) ). En dduire celle de ltendue R = X(n) X(1)
(on donnera sa f.d.r et sa densit en fonction de F et f ).
4) Soit Ny le nombre de Xi infrieurs y. Quelle est la loi de Ny ? Que dire des
vnements {Ny k} et {X(k) y} ? En dduire la f.d.r. de X(k) .
5) On pourrait du rsultat prcdent tirer la densit de la v.a. X(k) . Mais cest
fastidieux. Il y a bien plus simple en attaquant le problme directement, ce que lon
propose de faire maintenant. On pourra utiliser le rsultat suivant : Si f est continue
sur un intervalle [a, b], alors, pour tout x dans cet intervalle, on a :
P (X ]x, x + h])
f (x) = lim+
h0
h
Calculer la densit de X(k) .
6) Montrer que si E(X) existe alors E(X(k) ) aussi.
7) Calculer la densit du vecteur (X(1) , . . . , X(n) ).
(Ind. on pourra calculer P ((X(1) , . . . , X(n) ) B), pour tout borlien B de BRn ).

c
Jean-Yves Dauxois Juillet
2011

Partie 2

Estimation ponctuelle

Reprenons lexemple inaugural, vu au Chapitre 1, sur estimation de F (t0 ), partir


dun chantillon x1 , . . . , xn de temps observs. On est parti de cet chantillon, avec
ces n temps relevs, pour finalement utiliser seulement le nombre de temps observs
suprieurs t0 . Ce fut galement le cas dans lcriture de ce modle avec les y en fin de
ce Chapitre. On a donc naturellement rduit linformation apporte par lchantillon,
pour ne garder que ce qui nous semblait utile dans lobjectif destimer F (t0 ), o encore
p0 dans la seconde criture de ce problme. Cest l la notion de Statistique : rduire
linformation apporte par un chantillon. On parlera naturellement destimateur quand
elle sera utilise pour estimer le paramtre inconnu. Notons enfin que, toujours dans
cet exemple, nous avons propos plusieurs estimateurs et que naturellement se pose la
question de la qualit et des proprits dun estimateur, de savoir comment comparer
des estimateurs entre eux ou encore savoir comment amliorer un estimateur. Cest l
le programme de cette partie.

CHAPITRE 3

Statistique et Estimateur
Comme nous lavons dit une Statistique est une rduction de linformation apporte
par un chantillon. Plus prcisment voici sa dfinition.
Dfinition 3.1. Soit (E n , E n , P n = {Pn : }) un modle dchantillonnage.
On appelle statistique la v.a. T (X) = T (X1 , . . . , Xn ) o T est une fonction mesurable
connue de (E n , E n , P n = {Pn : }) vers un espace probabilisable (F, F) :
n
E
F
T :
.
x = (x1 , . . . , xn ) 7 T (x1 , . . . , xn )
Insistons bien sur le fait quune statistique est une v.a. Les valeurs quelle prendra
dpendront des valeurs prises par lchantillon. Si le modle statistique est non trivial
(i.e. non rduit une seule probabilit) alors la loi de la statistique T (X), o X =
(X1 , . . . , Xn ), est inconnue. Cela vient de la non connaissance de la loi de lchantillon.
En revanche la fonction T est, elle, connue. Reprenons lexemple de lestimation de la
fiabilit vu au dbut du chapitre prcdent. La fonction
n

1X
T : (x1 , . . . , xn )
1l[t ,+[ (xi )
n i=1 0
est parfaitement connue. En revanche, la loi de la statistique T (X1 , . . . , Xn ) nest pas
entirement connue puisque lon sait seulement que la loi de nT (X1 , . . . , Xn ) est une
Binomiale B(n, F (t0 ), o la valeur de F (t0 ) est inconnue.
Souvent lespace darrive de T est de dimension infrieure et plus simple que E n
(signe dune effective rduction de linformation). Dire que la statistique est connue,
signifie en particulier que la fonction connue T ne doit pas dpendre du paramtre
(inconnu) (ou de la loi P dans P). En revanche, la loi de la statistique T (X) dpendra
en gnral du paramtre du modle.
Une statistique dpend de la taille n de lchantillon, et on notera parfois Tn (X)
pour le souligner. Par abus de langage on appellera galement statistique la suite
T (X) = (Tn (X))nN de statistiques quand la taille de lchantillon augmente.
On a dj vu dans lexemple inaugural quun problme en statistique est destimer
un paramtre . On peut aussi vouloir estimer g(), limage de par une fonction g.
Pour rester le plus gnral, on considrera dans la suite le cas gnral de lestimation
de g(). Pour ce faire, on utilise alors une statistique qui peut alors porter le nom
destimateur.
23

24

Chapitre 3. Statistique et Estimateur

Dfinition 3.2. On appelle estimateur de g(), toute statistique T (X) de (E n , E n )


valeurs dans g().
La seule contrainte apporte est donc que la statistique prenne ses valeurs dans g().
Pour un mme problme destimation, on pourra considrer de nombreux estimateurs.
Cela dit, tous les estimateurs ne sont pas forcment judicieux.
Notation. Quand il sagit destimer le paramtre on note souvent son estimateur
et n quand on souhaite prciser la taille n de lchantillon. Pour lestimation de g()
d
on utilise parfois aussi la notation g().
Exemple 3.1.
Considrons le modle dchantillonnage tir du modle paramtrique uniforme :
(R , BR+ , {U[0,] : > 0}). Les densits dans ce modle sont donc de la forme :
1
f (x) = 1l[0,] (x),

+
pour R .
Supposons que lon cherche estimer le paramtre partir dun chantillon
X1 , . . . , Xn tir de ce modle. Plusieurs estimations sont possibles :
Assez naturellement on pense en premier lieu 1 = max(X1 , . . . , Xn ). On sent
naturellement (et on pourra le vrifier plus tard) quil sapproche en croissant de
quand la taille de lchantillon augmente. Mais seulement, il a le dsavantage
dtre toujours infrieur la vraie valeur . On peut essayer de remdier
ce problme en proposant dautres estimateurs.
On peut se dire que les ralisations de lchantillon vont se rpartir de manire
constituer n + 1 intervalles de longueurs (trs) approximativement gales.
Do lide de considrer
1
n+1
2 = 1 +
1 .
=
n
n
On peut aussi remarquer que la distance qui spare 1 = max(X1 , . . . , Xn ) de
devrait tre environ gale celle qui spare 0 de min(X1 , . . . , Xn ). On peut
donc proposer lestimateur
3 = min(X1 , . . . , Xn ) + max(X1 , . . . , Xn ).
+

On peut aussi
adopter une dmarche radicalement diffrente base sur lintuition
= (Pn Xi )/n devrait tre un bon estimateur du centre du support
que X
i=1
de la loi uniforme, savoir /2. Aussi, on peut sintresser lestimateur :

4 = 2X.
On pourrait proposer de manire assez irraisonne (puisque non base sur
lchantillon) 5 = 2011 ou tout autre valeur.
Il y aurait bien dautres possibilits explorer...
3
Deux questions se posent la suite de cet exemple. Existe-t-il des mthodes
gnrales pour construire de (bons) estimateurs ? Et ensuite comment les comparer
c
Jean-Yves Dauxois Juillet
2011

0.

25

ou savoir quel est le meilleur ? Ces questions font respectivement lobjet des deux
sections suivantes.

c
Jean-Yves Dauxois Juillet
2011

CHAPITRE 4

Construction destimateurs
1. Estimateurs empiriques (des moments)
On a dj vu dans exemple introductif et lExemple 3.1, comment estimer lesprance
mathmatique dune v.a. tudions davantage cet estimateur qui est la base de nombreuses mthodes statistiques.
Soit donc X une v.a. gnrique dun modle dchantillonnage (E n , E n , P n =
n
{P : }). Cest dire que X1 , . . . , Xn est un chantillon de mme loi que X.
Notons E () et Var () respectivement les oprateurs esprance et variance sous la loi
P , en supposant que ces quantits sont bien dfinies. Pour simplifier les notations, on
notera m = E (X) et 2 = Var (X).
dfinie, pour
Dfinition 4.1. On appelle moyenne empirique, la statistique X
une taille n dchantillon, par :
n
1X

Xn =
Xi .
n i=1
Quand on peut crire lesprance de la v.a. gnrique X en fonction du paramtre
du modle, i.e. quand il existe une fonction g telle que m = g() (ce qui est souvent le
On dira alors quil estime m .
cas), alors on pourra donner le titre destimateur X.
Proposition 4.2. La moyenne empirique est telle que
n ) = m
E (X
n) =
Var(X

2
.
n

Preuve. Immdiate par linarit de lesprance et grce lindpendance entre les


termes pour le calcul de la variance.
2
est, dans un certain
Le premier point de la proposition montre que lestimateur X
sens, un bon estimateur de lesprance m puisquil est gal en esprance ce quil
cherche estimer. On parlera destimateur sans biais. Nous y reviendrons au chapitre
suivant.
Une gnralisation vidente de ce qui prcde est donne par lestimation empirique
dun moment de X dordre quelconque. Notons m (p) = E (X p ) le moment dordre p
de X sour la loi P , en supposant que celui-ci existe. Par analogie avec ce qui prcde,
on peut dfinir lestimateur empirique du moment dordre p.
27

28

Chapitre 4. Construction destimateurs

Dfinition 4.3. On appelle estimateur empirique du moment dordre p, la statistique


n
1X p
m
(p) =
X .
n i=1 i

On peut aussi sintresser lestimation de la variance 2 . Le raisonnement est le


mme. On sait que lon peut crire :
2 = E (X 2 ) E2 (X) = m (2) (m (1))2 .
Do lide destimer 2 par
n

Sn2

1X 2
2.
X X
=m
(2) (m
(1)) =
n
n i=1 i
2

Un calcul lmentaire montre que Sn2 scrit aussi sous la forme :


n

Sn2


1X
n 2 .
Xi X
=
n i=1

Cest sous cette forme quest plus connu cet estimateur.


Dfinition 4.4. On appelle estimateur de la variance empirique, la statistique
Sn2 dfinie pour une taille n dchantillon par :
n

Sn2


1X
n 2 .
=
Xi X
n i=1

Cette mthode destimation empirique des moments est trs gnrale. Elle peut,
par exemple, sappliquer pour lestimation de la fonction de rpartition. Il suffit en
effet de remarquer que lon peut crire
F (x) = P (X x) = E (1l{Xx} ) = E(Y ),
avec Y = 1l],x] (X). On peut donc estimer F (x) par
n

1X
1X
Yi =
1l],x] (Xi )
F (x) =
n i=1
n i=1
et on retrouve lestimateur de la fonction de rpartition empirique.

c
Jean-Yves Dauxois Juillet
2011

3. Mthode des moments

29
2. Mthode de substitution

Principe de la mthode. Supposons que lon sache estimer le


paramtre dun modle statistique. On note n cet estimateur. Et
supposons galement que lon soit intress par lestimation de limage
g() de ce paramtre par une application g (connue). La mthode de
substitution (ou de plug-in en anglais), consiste utiliser lestimateur
g(n ). On verra ultrieurement que si la fonction g est continue on
pourra aisment obtenir des informations sur la qualit de cet estimateur partir de celles de n .
Cette mthode a aussi t dj utilise, de manire assez naturelle, dans lexemple
0 ). partir dun estimateur de
introductif pour lestimation de F (t0 ) par exp(t
nous avons obtenu un estimateur de F (t0 ) qui est une fonction de .
Un autre exemple dutilisation de cette mthode est le suivant. On a vu comment
estimer la variance 2 = Var (X) dune v.a.r. par Sn2 . Si lon veut estimer son carttype, on peut prendre
v
u n
p
u1 X

n 2.
Xi X

= Sn2 = t
n i=1

3. Mthode des moments


Principe de la mthode. Supposons quil existe une fonction h bijective et continue de Rp vers h() Rp , une fonction mesurable
de E vers Rp telle que E ((X)) existe et toutes les deux telles que
lon ait :
h() = E ((X)),
pour tout de .
La mthode des moments consiste alors estimer par
!
n
X
1
(Xi ) .
n (X) = h1
n i=1
Cette mthode a galement dj t utilise dans lexemple introductif o nous avons
propos un estimateur du paramtre du modle exponentiel.
Cette mthode peut tre vue comme un mlange des deux prcdentes mthodes.
Exemple 4.1. Modle de la loi exponentielle.
Lquation
E(X) =

c
Jean-Yves Dauxois Juillet
2011

30

Chapitre 4. Construction destimateurs

scrit sous la forme h() = E ((X)) avec h(x) = 1/x et est lidentit sur R+ . En
estimant par
!
n
X
1
1
= h1

Xi = ,
n i=1
Xn
on retrouve lestimateur utilis dans lexemple introductif sur la fiabilit des matriels. 3
Exemple 4.2. Modles gaussiens unidimensionnels.
Considrons les modles statistiques introduits pour des problmes de contrle de
la qualit dans lExemple 2.2. Dans le premier modle,
P = {N (, 2 ) : R}
n , en
lestimation par la mthode des moments redonne lestimateur intuitif de par X
prenant h et gales aux fonctions identit puisque = E(X).
Dans le second modle,
P = {N (, 2 ) : R, 2 R+ },
on peut crire la relation h() = E ((X)) en prenant = (, 2 ), h() = (, 2 + 2 )
et (x) = (x, x2 ) application de R vers R R+ . En effet on sait que lon a E(X 2 ) =
Var(X) + E2 (X). Comme h1 (u, v) = (u, v u2 ), on obtient comme estimateur du
paramtre multidimensionnel par la mthode des moments :
!
 


n
X
n
n
1
X
X
1
1
Pn
Pn
n (X) = h
=
(Xi ) = h
1
1
2
2
2 .
n i=1
i=1 Xi
i=1 Xi Xn
n
n
On retrouve les estimateurs vus par la mthode des moments empiriques.

On parle de la mthode des moments, mais il faut bien retenir que lunicit porte
sur la mthode (qui est trs gnrale) et non sur le nombre destimateurs dun mme
paramtre que lon peut obtenir par cette mthode. Nous verrons dans un exercice que,
par exemple, dans le modle de la loi exponentielle (comme dans dautres), la mthode
des moments permet dobtenir de nombreux autres estimateurs du paramtre . On
sinspirera en particulier des relations E(X 2 ) = 2/2 et F (t0 ) = P (X > t0 ) pour obtenir
deux autres estimateurs par cette mthode des moments.
4. Maximum de vraisemblance
Pour introduire cette approche, considrons deux urnes contenant toutes les deux
des boules bleues et rouges mais en proportion diffrentes : proportion p1 = 90% de
boules bleues dans la premire et proportion p2 = 15% de boules bleues dans la seconde.
On tire au hasard une boule dans une des deux urnes sans savoir de laquelle il sagit.
On constate que la boule est bleue. Naturellement on parierait plutt que la boule tire
est issue de lurne 1. On a pris lurne qui maximise la probabilit de lvnement que
lon a obtenu : avoir une boule bleue. On a choisi la situation la plus vraisemblable.
On va voir que cest celle qui maximise la vraisemblance. En effet, le modle est ici :
{B(p); p {0.9, 0.15}},
c
Jean-Yves Dauxois Juillet
2011

4. Maximum de vraisemblance

31

de v.a. gnrique X o {X = 1} signifie que la boule tire est bleue et {X = 0} signifie


quelle est rouge. La vraisemblance dun tirage dune boule bleue est donc L(1; p) = p
pour p dans {0, 9; 0, 15}. En prenant la valeur de p = 0.9 qui maximise la vraisemblance,
on dcide donc que la boule provient de lurne 1. Si la boule avait t rouge, on aurait
videmment choisi lautre urne, ce qui maximise galement la vraisemblance qui est
alors : L(0, p) = 1 p.
Gnralisons un peu. Supposons que lon ait une infinit durnes avec toutes les
proportions possibles p de boules bleues comprises entre 0 et 1. On effectue n tirages
i.i.d. dans une mme urne (inconnue) et on note respectivement X1 , . . . , Xn le rsultat de chaque tirage (xi = 1 si la boule tire est bleue et 0 sinon) . En sinspirant
de la mthode adopte ci-dessus, on peut choisir destimer p par la valeur qui maximise la vraisemblance de lvnement observ qui est le vecteur x = (x1 , . . . , xn ). La
vraisemblance est
n
Y
Pn
Pn
L(x1 , . . . , xn ; p) =
pxi (1 p)1xi = p i=1 xi (1 p)n i=1 xi
i=1

et lestimateur p est donc dfini par


p = ArgmaxL(x; p).
p

La fonction logarithme tant croissante, on peut crire


p = Argmax ln(p)
p

n
X

xi +

i=1

n
X

!
xi

!
ln(1 p) .

i=1

Pn

Pn

xi + (n i=1 xi ) ln(1 p) admet pour drive


Pn
P
n ni=1 xi
0
i=1 xi
(p) =

p
1p

La fonction p 7 (p) = ln(p)

i=1

et drive seconde
00

Pn

(p) =

i=1
p2

xi

P
n ni=1 xi

(1 p)2

qui est ngative puisque les xi sont dans {0, 1}. La fonction est donc concave et son
maximum atteint en la valeur p qui annule la drive premire, i.e.
Pn
P
n ni=1 xi
i=1 xi
=
p
1 p
Pn
ce qui donne p = x = ( i=1 xi )/n. Remarquons que lon obtiendrait le mme estimateur en utilisant la mthode des moments puisque E(X) = p. Mais il ny a pas aucune
raison que cette mthode conduise toujours aux mmes estimateurs.
On peut gnraliser cette mthode pour un modle statistique quelconque.
Dfinition 4.5. Soit (E, E, P = {P : }) un modle statistique paramtrique
et X sa v.a. gnrique. On appelle estimateur du maximum de vraisemblance la
c
Jean-Yves Dauxois Juillet
2011

32

Chapitre 4. Construction destimateurs

statistique (X)
o est une application :

E

x 7 (x)
telle que

L(x; (x))
L(x; )
pour tout . On note

(x)
= ArgmaxL(x; ).

Dans le cas dun modle dchantillonnage la variable gnrique est X = (X1 , . . . , Xn )


et lEstimateur du Maximum de Vraisemblance est

(X)
= ArgmaxL(X; ).

Il est bien vident que dune part lestimateur du maximum de vraisemblance


nexiste pas toujours et que, dautre part, sil existe rien ne garantie quil soit unique.
Si la fonction vraisemblance est concave, on sait que le maximum est unique et
atteint en la valeur qui annule la drive premire (cas unidimensionnel) ou le gradient
(cas multidimensionnel). Insistons bien sur le fait que cette mthode ne peut tre
utilise que si lhypothse de concavit est vrifie. Un contre-exemple est donn par le
modle de la loi uniforme que nous traiterons en exercice.
Comme la vraisemblance est souvent sous la forme dun produit (modle dchantillonnage) il est gnralement plus ais (pour les drivations) de travailler avec la logvraisemblance dfinie comme le logarithme nprien de la vraisemblance. La fonction
ln tant croissante, lestimateur obtenu en maximisant la log-vraisemblance est identique lestimateur du maximum de vraisemblance.
Si lon porte notre intrt sur lestimation de g() image de par une fonction g
connue, alors la proprit suivante peut tre utile.

Proposition 4.6. (Proprit dinvariance du maximum de vraisemblance).

Soit (X)
un estimateur du maximum de vraisemblance dans un modle paramtrique
(E, E, P = {P : }). Soit g une fonction bijective, mesurable et connue de vers
0 = g(). Lestimateur du maximum de vraisemblance de = g() dans le modle

{P : 0 }, paramtr par , est alors = g((X)).


La dmonstration de cette proposition est vidente (base sur la bijectivit de la
nouvelle paramtrisation).
On peut en fait montrer (cest plus dlicat) que ce rsultat est vrai pour une fonction g mesurable quelconque et on posera donc comme dfinition que lestimateur du

maximum de vraisemblance de g() est g((X)).


c
Jean-Yves Dauxois Juillet
2011

5. Exercices

33
5. Exercices

Exercice 1 (Modle Gamma et Mthode des moments)


On considre le Modle Statistique de la loi Gamma (R+ , BR+ , {G(, ) : > 0, >
0}). On rappelle que la densit dune v.a. X de loi G(, ) est :
f, (x) =

1 x
x e 1lR+ (x).
()

1) Calculer E, (X) et V ar, (X).


2) Par la mthode des moments, donner un estimateur du paramtre bidimensionnel
(, ) du modle, bas sur lobservation dun chantillon X1 , . . . , Xn .
3) Dterminer des estimateurs de et en utilisant conjointement des estimateurs
empiriques des moments et la mthode de substitution.
Exercice 2 (Modle de la loi exponentielle et Mthode des moments)
On a vu en cours que la mthode des moments permet dobtenir un estimateur du
= 1/X
n bas sur la relation
paramtre dans un modle de la loi exponentielle :
E(X) = 1/. Lintrt de cet exercice est de montrer que cette mthode permet la
construction de plusieurs estimateurs de ce mme paramtre .
1) On suppose quune v.a.r. X suit une loi exponentielle E(). Calculer E(X 2 ).
2) crire la fiabilit F (t0 ) = P (X > t0 ) sous forme dune esprance.
3) On considre le modle de la loi exponentielle (R+ , BR+ , {E() : > 0}). En vous
inspirant des rsultats des deux questions prcdentes et en utilisant chaque fois la
mthode des moments, proposer deux autres estimateurs du paramtre .
Exercice 3(Maximum de vraisemblance pour un modle gaussien)
1) On considre le modle gaussien {N (, 2 ) : R}. Donner lestimateur du
maximum de vraisemblance du paramtre bas sur une observation x1 , . . . , xn dun
chantillon issu de ce modle.
2) On considre maintenant le modle gaussien avec paramtre bidimensionnel, i.e.
{N (, 2 ) : R, 2 > 0}. Donner lestimateur du maximum de vraisemblance du
paramtre = (, 2 ), pour le modle dchantillonnage associ.
Exercice 4 (Maximum de vraisemblance pour un modle de loi uniforme)
On considre le modle uniforme {U[0,] : > 0}.
1) Montrer que la vraisemblance associe un chantillon x1 , . . . , xn observ dans
ce modle est :
1
L(x1 , . . . , xn ; ) = n 1lx(1) 0 1lx(n)

o x(1) et x(n) sont respectivement les observations des statistiques dordre X(1) et X(n) .
2) Donner lestimateur du maximum de vraisemblance du paramtre .
c
Jean-Yves Dauxois Juillet
2011

34

Chapitre 4. Construction destimateurs

Exercice 5 (Modles de la loi exponentielle et de la loi de Poisson en Fiabilit)


Partie 1
On sintresse la dure de vie X dun matriel lectronique. Il est raisonnable de
considrer que cette dure de vie est alatoire et que sa loi est exponentielle (il existe
des mthodes statistiques, mais que nous ne verrons pas dans le cadre de ce cours, pour
vrifier cette hypothse). En revanche, on ignore la valeur du paramtre de cette loi.
1) crire le modle statistique engendr par X. Donner galement le modle
dchantillonnage associ.
2) Donner lestimateur du maximum de vraisemblance pour une observation x1 , . . . , xn
dun chantillon X1 , . . . , Xn de dures de vie de ces matriels.
3) Donner une estimation par maximum de vraisemblance de la quantit = P (X >
t0 ), o t0 est un temps fix.
4) Quels estimateurs de et de obtient-on si on utilise la mthode des moments ?
Partie 2
Supposons maintenant que les observations de ces dures de vie soient obtenues
grce lexprience suivante. Au temps t = 0, on dispose un matriel sur un banc
dessai. Quand celui-ci tombe en panne, on remplace immdiatement (ou on ne compte
pas le temps de remplacement) le matriel dfectueux par un matriel identique mais
neuf. Et ainsi de suite jusquau temps t0 . On note alors K le nombre de pannes releves
dans lintervalle [0, t0 ].
5) Calculer la probabilit que K soit nul.
6) On note Tk le temps coul jusqu la kme panne observe. Cest dire que
Tk = X1 + + Xk . Montrer que la loi de la v.a.r. Tk est une Gamma G(k, ) (Ind.
On pourra utiliser la transforme de Laplace ou la fonction caractristique).
7) Exprimer lvnement K = k en fonction dvnements liant les v.a.r. Tk et Xk+1 .
En dduire que la loi de K est une loi de Poisson, dont on dterminera la valeur du
paramtre.
Partie 3
On suppose que lon ralise n fois cette exprience et on note K1 , . . . , Kn les nombres
de pannes observes dans chaque intervalle [0, t0 ].
8) Donner le modle statistique associ ces observations.
9) Donner par la mthode du maximum de vraisemblance un autre estimateur du
paramtre , bas cette fois sur les observations k1 , . . . , kn .
10) Quobtient-on comme estimateur de si, dans ce modle, on utilise la mthode
des moments ?
Exercice 6 (Maximum de vraisemblance)
Pour les modles suivants, donner lestimateur du maximum de vraisemblance associ lobservation dun chantillon X1 , . . . , Xn .
c
Jean-Yves Dauxois Juillet
2011

5. Exercices

35

1) Modle de la loi exponentielle dcale :


(R+ , BR+ , {Et0 () : > 0, t0 R}).
On rappelle que la densit de la loi exponentielle dcale Et0 () est :
f,t0 (x) = exp((x t0 ))1l[t0 ,+[ (x).
2) Modle de la loi Bta un seul paramtre :
(R+ , BR+ , {Beta(1, ) : > 1}).
On rappelle que la densit de la loi Beta(a, b) est :
1
fa,b (x) =
xa1 (1 x)b1 1l[0,1] (x),
(a, b)
o (a, b) est la valeur de la fonction Eulrienne Bta prise en a et b.
Ind. On pourra montrer en premier lieu que la densit pour le modle considr
est :
f (x) = (1 x)1 1l[0,1] (x).

c
Jean-Yves Dauxois Juillet
2011

CHAPITRE 5

Qualit dun estimateur


On a vu plusieurs techniques pour construire des estimateurs. Mme si la prsentation nest pas exhaustive (par manque de temps...), abordons maintenant le problme
de lvaluation de la qualit dun estimateur et la comparaison destimateurs entre-eux.
Le but tant bien sr de prendre le meilleur (sil en existe un meilleur).
On la vu, un estimateur T (X) de g() est une v.a. Pour chaque chantillon observ,
lestimateur prendra de nouvelles valeurs. Il faut donc, pour parler de la qualit dun
estimateur, tenir compte de son comportement alatoire.
A priori donc, lestimateur ne donnera pas toujours (en fait mme rarement) la
bonne valeur g(). Dans le cas o T (X) est absolument continu, il sera mme p.s.
toujours diffrent de la valeur fixe g(). Il est noter que la prsence derreur nest
pas toujours la consquence des variations alatoires de lestimateur. Ainsi, si lon
revient sur lestimateur du maximum de vraisemblance dans un modle de Bernoulli
(Cf. Section 4.4), on a vu que quil a pour expression x. Lestimateur ne donnera
donc jamais des valeurs en dehors de lensemble : {0, 1/n, 2/n, . . . , (n 1)/n, 1}. Il ne
donnera donc jamais la bonne valeur p si cette dernire nest pas dans cet ensemble.
Naturellement, on voudra quun estimateur possde quelques unes ( dfaut de
toutes) des qualit suivantes.
Quand la taille dchantillon augmente, lestimateur a tendance se rapprocher
(dans un sens dfinir) de la valeur g() quil estime. On parlera dans ce cas
destimateur convergent ou consistant.
Mme si lestimateur commet une erreur destimation chaque fois, en moyenne
(en fait en esprance) il ne se trompe pas. On dira dans un tel cas que
lestimateur est sans biais.
Lestimateur doit tre le plus prcis possible : les variations de lestimateur autour de g() doivent tre rduites, voire les plus petites possible. On mesurera
cette prcision au moyen de la notion de fonction de risque.
Il y aurait dautres critres, mais nous naurons pas le temps de les tudier.

1. Estimateur convergent
Lorsque lon augmente la taille de lchantillon, on augmente la quantit dinformation dont on dispose sur le phnomne alatoire que lon tudie. Aussi, il est assez
naturel de souhaiter quun estimateur ait tendance sapprocher de la valeur quil
estime, lorsque la taille de lchantillon crot.
37

38

Chapitre 5. Qualit dun estimateur

Dfinition 5.1. Un estimateur T (X) = (Tn (X))nN de g() est dit (faiblement)
convergent ou consistant si la suite (Tn (X))nN converge en probabilit (sous la loi
P ) vers g(), i.e.
P

Tn (X)
g(),

quand n +.
Si T (X) et g() sont dans R, la dfinition de la convergence de lestimateur signifie
que lon a, pour tout > 0 :
P (|Tn (X) g()| > ) 0,
quand n +.
Si T (X) et g() sont dans Rp , la dfinition de la convergence de lestimateur scrit
partir de la notion prcdente sous la forme :
P

||Tn (X) g()||


0,

quand n + et o || || est une norme quelconque dans Rp . On peut montrer


aisment que cela est quivalent avoir la convergence en probabilit pour chaque
coordonne.
On peut bien sr considrer dautres types de convergence, comme la convergence
p.s. ou la convergence dans Lp , pour p fix. Dans ces cas, on dira respectivement que
lestimateur est fortement convergent ou consistantou Lp -convergent ou consistant.
Exemple 5.1. Estimateurs de la moyenne empirique et de la variance empirique.
Soit un modle paramtrique P = {P : } quelconque tel que lesprance
(en supposant quelle existe) de sa variable gnrique X scrive sous la forme E X =
g(). Cest par exemple trivialement le cas de lExemple 2.2 des modles gaussiens
unidimensionnels.
n et vu quelle est un
On a introduit dans la Dfinition 4.1 la moyenne empirique X
estimateur naturel de E X. Par la loi des grands nombres il apparat clairement que
sous de bonnes hypothses cet estimateur est consistant et mme fortement convergent.
On peut galement dmontrer (en supposant que les moments dordre 2 existent) quil
n = g() et Var (X
n ) = 2 /n qui tend
est L2 -convergent, en remarquant que lon a E X

vers 0 quand n +.
Supposons toujours que la variance de X existe et scrive sous la forme Var (X) =
h() dans ce modle. On peut montrer que, sous certaines conditions, lestimateur Sn2
de la variance empirique, vu dans la Dfinition 4.4, est un estimateur consistant de
Var (X). En effet, en utilisant lcriture
n

Sn2

1X 2
n2 .
=
X X
n i=1 i

c
Jean-Yves Dauxois Juillet
2011

2. Estimateur sans biais

39

et en supposant par exemple lexistence de moment dordre 4 pour la v.a.r. X (ce qui
permet dappliquer galement la loi des grands nombres pour la moyenne empirique des
Xi2 , pour i = 1, . . . , n), on obtient, grce la loi des grands nombres et au thorme de
Slutsky (transformation continue), la convergence
P

Sn2
E (X 2 ) E2 (X) = Var (X),

quand n +.
2. Estimateur sans biais

Un autre critre de qualit dun estimateur est celui de biais. On la vu un estimateur


est une v.a. et ce titre il varie donc (plus ou moins) autour de sa valeur centrale que
reprsente son esprance. Il sera naturellement prfrable que cette valeur centrale soit
fixe sur la valeur g() quil estime. Intuitivement, cela revient demander que la
moyenne prise par lestimateur sur un grand nombre dchantillons soit gale la cible
g().
Dfinition 5.2. Le biais dun estimateur T (X) = (Tn (X))nN de g() est la fonction bT dfinie sur par :
bT () = E (T (X)) g(),
pour tout dans et condition que E (T (X)) existe. Il est dit sans biais si cette
fonction est identiquement nulle, i.e. si lon a :
E (T (X)) = g(),
pour tout dans .
Pour les cas o T (X) et g() sont valeurs dans Rk , on rappelle que lesprance
dun vecteur alatoire est le vecteur de ses esprances.
Un estimateur non biais ne commet pas derreur systmatique. A linverse, un
estimateur sera dit biais positivement (resp. ngativement) si la fonction biais est
positive (resp. ngative).
Le biais est gnralement une fonction de la taille n de lchantillon et on peut,
si ncessaire la noter bn,T dans ce cas. Aussi, si certains estimateurs se trouvent tre
biaiss pour toute taille finie dchantillon, on peut esprer quils soient non biaiss
asymptotiquement, cest dire quand n tend vers +.
Dfinition 5.3. Un estimateur T (X) = (Tn (X))nN de g(), o Tn (X) est intgrable pour tout n, est dit asymptotiquement sans biais si lon a
bn,T () = E (Tn (X)) g() 0,
quand n + et ce pour tout dans .
Exemple 5.2. Estimateurs de la moyenne empirique et de la variance empirique
(suite de lExemple 5.1).
c
Jean-Yves Dauxois Juillet
2011

40

Chapitre 5. Qualit dun estimateur

On a vu que les estimateurs de la moyenne empirique et de la variance empirique


sont consistants. Quen est-il de leurs biais ?
On a dj vu dans la Proposition 4.2 que :
n ) = E (X).
E (X
La moyenne empirique est donc un estimateur sans biais de lesprance dune v.a.r.
Intressons nous maintenant lestimateur de la variance empirique. Remarquons
en premier lieu que lon peut crire :
n

X
1X
2 = 1
2
(Xi X)
(Xi E (X) + E (X) X)
n i=1
n i=1
n

1X
1X
2
=
(Xi E (X))2 +
(E (X) X)
n i=1
n i=1
n
X
2(E (X) X)
+
(Xi E (X))
n
i=1
n

1X
2 2(E (X) X)
2
=
(Xi E (X))2 + (E X X)
n i=1
n

1X
E (X))2 .
(Xi E (X))2 (X
n i=1

Ainsi il vient :
n

E Sn2

1X
E (X))2 = Var (X) Var (X)

=
E (Xi E (X))2 E (X
n i=1

n1 2
2
=
.
n
n
Lestimateur de la variance empirique est donc un estimateur biais. En revanche, il
est clairement asymptotiquement sans biais.
Mais on peut aisment dduire de cet estimateur un estimateur non biais de la
variance 2 .
3
= 2

Dfinition 5.4. On appelle estimateur de la variance empirique modifie lestimateur


n

Sn2 =

1 X
2.
(Xi X)
n 1 i=1

Cet estimateur est sans biais et consistant daprs la consistance de Sn2 .


3. Risque dun estimateur
Une autre manire de mesurer la qualit dun estimateur est dvaluer sa prcision.
Dans cet objectif on peut faire appel la thorie de la dcision. En effet une estimation
c
Jean-Yves Dauxois Juillet
2011

3. Risque dun estimateur

41

peut tre vue comme le choix dune valeur d (qui sera donne par la ralisation de la
statistique T (X)) dans lensemble g() pour estimer la valeur inconnue g().
Pour prendre une telle dcision, on se donne en premier lieu un critre mesurant et
pnalisant lcart entre la valeur choisie d et la vraie valeur g(). On parle de fonction
de cot.
Dfinition 5.5. On appelle fonction de cot (ou de perte) toute fonction L de
g() vers R+ , mesurable en sa premire coordonne, qui en (d, ) donne le cot
L(d, ) de dcider d alors que la vraie valeur est g().

De nombreux choix de fonctions de cot sont possibles. Dans un premier temps,


on peut penser des fonctions de la distance entre la dcision d et la vraie valeur g().
Ainsi si g() est dans R, on peut utiliser
le cot absolu L(d, ) = |d g()|,
le cot quadratique L(d, ) = (d g())2
ou encore tout cot de la forme h(|d g()|) ou h est une fonction positive
mesurable quelconque.
Si g() est dans Rk , on pourra prendre des cots de la forme h(||d g()||) o h
est encore une fonction positive mesurable et || || une norme sur Rk . On parlera, par
exemple, de cot quadratique si L(d, ) = ||d g()||22 o || ||2 est la norme euclidienne
dans Rk . On peut aussi considrer la fonction de cot dfinie par
L(d, ) = (d g())(d g())0
qui est valeur dans lespace des matrices symtriques positives. On parle dans ce cas
de cot quadratique multidimensionnel.
Tous les cots prcdents ont une proprit commune importante, celle dtre symtrique. On pnalise autant une survaluation de g() quune sous-valuation. On
pourrait aussi considrer des fonctions de cot non symtriques, mais ce ne sera pas le
cas dans le cadre de ce cours.
Nous avons dj vu que la dcision que lon prendra est donne par la ralisation
T (x) dune statistique T (X). Le cot associ cette dcision est L(T (x), ) et varie
donc dun chantillon lautre. Cette notion ne peut, elle seule, dfinir la qualit dun
estimateur. Elle serait sinon dpendante du hasard li lchantillon observ. Cest
pourquoi on utilise une notion de cot moyen, que lon appelle galement risque.
Dfinition 5.6. On appelle risque dun estimateur T (X) = (Tn (X))nN de g()
+ dfinie par
associ la fonction de cot L, la fonction R de vers R
R(T (X), ) = E (L(T (X), )),
pour tout de , sous rserve que cette esprance existe.
Quand la fonction de cot est quadratique on parle de risque quadratique.
c
Jean-Yves Dauxois Juillet
2011

42

Chapitre 5. Qualit dun estimateur

Terminologie. Le risque quadratique est parfois appel erreur quadratique moyenne


ou MSE pour Mean Square Error en anglais.
On considrera essentiellement le risque quadratique dans la suite.
Proposition 5.7. Soit T (X) = (Tn (X))nN un estimateur de g() R, de carr
intgrable pour la loi P .
Dans le cas dun risque quadratique on a :
R(T (X), ) = Var (T (X)) + b2T ().
Pour un estimateur sans biais, le risque quadratique est donc gal sa variance.
Preuve. Elle est aise. Il suffit de dvelopper
R(T (X), ) = E (T (X) g())2 = E (T (X) E (T (X)) + E (T (X)) g())2
qui donne la somme de la variance avec le carr du biais, le terme double produit
sannulant.
2
Exemple 5.3. Estimateurs de la moyenne empirique (suite des exemples 5.1 et
5.2).
On a vu que, dans un modle paramtrique o la variable gnrique X est telle que
n est un estimateur sans biais
E (X) = g(), lestimateur de la moyenne empirique X
de E (X). Son risque quadratique, qui est donc gal sa variance, est :
2
n , ) = Var (X
n ) = ,
R(X
n
daprs le rsultat vu dans la Proposition 4.2.

On peut maintenant comparer la prcision de deux estimateurs.


Dfinition 5.8. Soient S(X) et T (X) deux estimateurs de g(). On dit que T (X)
est prfrable S(X) si lon a :
R(T (X), ) R(S(X), ),
pour tout de et avec une ingalit stricte pour au moins un de .
La fonction de risque tant une fonction de , il nest pas toujours possible de dire
quel est lestimateur prfrable entre deux estimateurs donns : leurs fonctions de risque
peuvent se croiser. La notion prcdente introduit donc seulement un ordre partiel.
Quand les estimateurs sont sans biais, lestimateur T (X) est prfrable S(X) si
sa variance est infrieure celle de S(X).
Dfinition 5.9. Un estimateur T (X) de g() est dit admissible (resp. T -admissible)
sil nexiste pas destimateur de g() qui lui soit prfrable (resp. dans une classe
destimateurs T de g()).
c
Jean-Yves Dauxois Juillet
2011

4. Information de Fisher

43

Ainsi on peut, par exemple, sintresser aux estimateurs admissibles dans la classe
des estimateurs sans biais de g().
Par ailleurs, un estimateur non admissible na aucun intrt. On prfrera utiliser
lestimateur qui lui est prfrable et qui est admissible.
Dfinition 5.10. Un estimateur T (X) de g() est dit otpimal (resp. T -optimal)
sil est prfrable tous les estimateurs de g() (resp. dans une classe destimateurs T
de g()).
Sauf dans les cas triviaux, il nexiste pas destimateur optimal dans la classe de tous
les estimateurs possibles. En revanche, si lon restreint la classe des estimateurs que
lon considre (par exemple les estimateurs sans biais, linaires etc...) on peut parfois
trouver des estimateurs optimaux intressants.

4. Information de Fisher
Nous venons de voir la notion de risque qui mesure la qualit dun estimateur de g().
Elle mesure la qualit dun estimateur. Naturellement se pose la question de lexistence
dune borne infrieure pour ce risque. Autrement dit, existe-t-il une fonction Binf (),
ventuellement dpendante de la taille n de lchantillon observ, telle que lon ait pour
tout estimateur T (X) de g() :
R(T (X), ) Binf (),
pour tout de ? On verra que, sous certaines conditions, une telle borne existe et
est appele borne de Cramer-Rao. Elle fait intervenir la notion dinformation apporte
par un modle, appele information de Fisher.
Pour simplifier les notations, on suppose dans ce paragraphe que le paramtre
est dans R. Les rsultats resteront vrais avec les adaptations ncessaires au cas o
est multidimensionnel (ces adaptations seront voques en fin de paragraphe). On
note L0 (x; ) (resp. L00 (x; )) la drive premire (resp. seconde) en de la fonction
vraisemblance L(x; ), pour la valeur x de lobservation dans le modle paramtrique
considr.
Dans la suite on supposera que le modle paramtrique (E, E, {P : }), de v.a.
gnrique X, vrifie les hypothses suivantes.
H1 Lespace des paramtres est un ouvert.
H2 Les lois P ont toutes mme support, qui ne dpend donc pas de .
H3 Les drives premires et secondes L0 (x; ) et L00 (x; ) de la vraisemblance existent pour tout x dans E.
H4 Les fonctions L0 (x; ) et L00 (x; ), vues cette fois-ci comme fonction de la variable x (cest dire les densits), sont intgrables pour tout de et on peut
c
Jean-Yves Dauxois Juillet
2011

44

Chapitre 5. Qualit dun estimateur


toujours intervertir intgrale et drivation :
Z
Z

L(x; )dx =
L0 (x; )dx,
A
Z
ZA
2
L(x; )dx =
L00 (x; )dx,
2 A
A
pour tout A dans E.
Considrons la v.a.

L0 (X, )
S(X, ) =
ln L(X; ) =
,

L(X, )
qui, en tant que fonction de , est parfois appele fonction score. Sous les hypothses
prcdentes, cette v.a. est centre. On a en effet :
Z
Z
Z

0
L (x; )dx =
L(x; )dx = 0,
E (S(X, )) =
ln L(x; )L(x; )dx =
E
E
E
puisque la dernire intgrale vaut 1 par dfinition dune densit.
Posons maintenant lhypothse supplmentaire :
H5 la fonction score est de carr intgrable.
Dfinition 5.11. On appelle information de Fisher la variance du score, i.e.

2 !

I() = Var (S(X, )) = E


ln L(X; )
.

On peut tablir une autre criture de linformation de Fisher.


Proposition 5.12. Linformation de Fisher est aussi gale



 2

I() = E
S(X, ) = E
ln L(X; ) .

2
Preuve. On remarque que lon peut crire :
L0 (x, )
L00 (x, ) (L0 (x, ))2
L00 (x, )

=
S(x, ) =
=

S(x, )2

L(x, )
L(x, )
(L(x, ))2
L(x, )
Ainsi, on a :


 00


L (X, )
E
S(X, ) = E
I().

L(X, )
En remarquant que
 00
 Z
Z
L (X, )
2
00
E
=
L (x, )dx = 2
L(x, )dx = 0,
L(X, )
E
E
justifie par lhypothse H4, on a bien le rsultat annonc.

Exemple 5.4. Information de Fisher dans le cas dun modle gaussien rel avec
variance 2 connue.
c
Jean-Yves Dauxois Juillet
2011

4. Information de Fisher

45

On considre le modle :
P = {N (, 2 ) : R}.,
o 2 est suppos connu.
La log-vraisemblance pour lobservation x est :

(x )2
ln L(x; ) = ln( 2)
.
2 2
Do :
x
1

S(x, ) =
S(x, ) = 2 .
et
2

Cette dernire fonction tant constante en x, linformation de Fisher dans ce modle


est donc
1
I() = 2 .

On trouve bien sr le mme rsultat en crivant



2 !

X
2
2
E S (X, ) = E
.
=
2
4
On remarque que linformation de Fisher est dautant plus grande que 2 est petit. 3
Considrons maintenant linformation de Fisher dans un modle dchantillonnage,
o lon a donc observ un chantillon X1 , . . . , Xn de v.a. i.i.d. de mme loi que X. On
a alors
n
n
Y
X
L(x1 , . . . , xn ; ) =
L(xi ; ) et ln L(x1 , . . . , xn ; ) =
ln L(xi ; ).
i=1

i=1

En diffrenciant deux fois par rapport , on obtient :


n

X 2
X

2
S(X1 , . . . , Xn ; ) = 2 ln L(X1 , . . . , Xn ; ) =
ln
L(X
;
)
=
S(Xi ; ),
i

i=1
i=1
ce qui prouve la proposition suivante.
Proposition 5.13. Linformation de Fisher pour un modle dchantillonnage, i.e.
pour lchantillon X1 , . . . , Xn est n fois celle de la variable gnrique X de cet chantillon. Cest dire que lon a :
In () = nI()
o In () est linformation de Fisher de lchantillon X1 , . . . , Xn et I() celle de X.

Exemple 5.5. Information de Fisher pour un chantillon dans le cas dun modle
gaussien rel avec variance 2 connue (suite de lExemple 5.4).
c
Jean-Yves Dauxois Juillet
2011

46

Chapitre 5. Qualit dun estimateur

Daprs le rsultat de lExemple 5.4 et la proposition prcdente, linformation de


Fisher pour un chantillon dans ce modle est
n
In () = nI() = 2 .

3
Remarque. Dans le cas o le paramtre est multidimensionnel.
Les fonctions L0 (x; ) et L00 (x; ) sont en fait le gradient et la matrice Hessienne
de la fonction vraisemblance L(x; ).
Le score est un vecteur alatoire, composition du gradient de la log-vraisemblance
et de la v.a. gnrique X. On a S(X, ) = ln L(X, ).
Linformation de Fisher est une matrice et correspond la matrice de covariance du score S(X, ). Cest galement loppos de lesprance de la matrice
Hessienne de la log-vraisemblance en X. On a
I() = S(X,) = E 2 ln L(X, ).

5. Borne de Cramer-Rao (ou Frchet-Darmois-Cramer-Rao)


Thorme 5.14. Soit un modle paramtrique (E, E, {P , }), o est dans
R, de v.a. gnrique X, et vrifiant les hypothse H1-H4 du paragraphe prcdent
(on peut ajouter lhypothse H5 si lon souhaite pouvoir utiliser lautre expression de
linformation de Fisher). Soit dans ce modle un estimateur T (X) sans biais et de carr
intgrable de g() R.
Supposons que la fonction x 7 T (x)L0 (x; ) soit intgrable sur E et que lon puisse
intervertir drivation et intgrale, i.e. :
Z
Z

T (x)L(x; )dx =
T (x)L0 (x; )dx.
E
E
Supposons enfin que linformation de Fisher I() soit strictement positive pour tout
de .
Alors la fonction g est drivable et lon a pour tout dans :
Var(T (X))

(g 0 ())2
.
I()

La borne (g 0 ())2 /I() est appele borne de Cramer-Rao (ou Frchet-Darmois-CramerRao).


Remarque. Lhypothse dintgrabilit de la fonction T ()L0 (; ) et dinversion
possible entre drivation et intgrale, est assure ds quil existe une fonction h intgrable qui majore T ()L0 (; ), i.e. telle que :
Z
0
|T (x)L (x; )| h(x), x E et
h(x)dx < +.
E
c
Jean-Yves Dauxois Juillet
2011

5. Borne de Cramer-Rao (ou Frchet-Darmois-Cramer-Rao)

47

Preuve (du Thorme). Lestimateur T (X) tant intgrable et sans biais, on a :


Z
T (x)L(x; )dx = g().
E (T (X)) =
E

Daprs lhypothse du Thorme on peut driver cette galit et obtenir


Z
0
T (x)L0 (x; )dx
g () =
E

et lintgrale de droite est bien dfinie.


Maintenant, on peut crire :
Z
0
g () =
T (x)S(x, )L(x; )dx = E (T (X)S(X, )).
E

Ayant montr que S(X, ) est une v.a. centre, il vient :


g 0 () = E (T (X)S(X, )) E (T (X))E (S(X, )) = Cov (T (X), S(X, )).
Lingalit de Cauchy-Schwarz (ou Hlder) donne alors
(g 0 ())2 = (Cov (T (X), S(X)))2 Var (T (X))Var (S(X))
ce qui est quivalent
(g 0 ())2
,
I()
en se souvenant que la variance de S(X, ) est par dfinition I().
Var (T (X))

Remarques.
Si on considre un modle dchantillonnage de taille n, la borne de CramerRao devient naturellement (g 0 ())2 /(In ()).
La borne de Cramer-Rao ne dpend que du modle paramtrique, de ce que lon
veut estimer (g()) et de la taille de lchantillon. Plus la taille de lchantillon
augmente, plus cette borne diminue (ce qui est intuitif et heureux !).
Rien ne dit que le minimum est atteint.
Dans le cas o le paramtre est multidimensionnel, valeurs dans Rp , la
fonction g valeurs dans Rk et la matrice dinformation de Fisher inversible,
la borne de Cramer-Rao pour la matrice de covariance T (X) est :
T (X) 0 g()I 1 () g(),
o g() est le gradient en de la fonction g.
Dfinition 5.15. Un estimateur sans biais atteignant la borne de Cramer-Rao est
dit efficace.
Il est dit asymptotiquement efficace si
(g 0 ())2
= 1,
n+ In ()Var (Tn (X))
lim

o Tn (X) est lexpression de lestimateur pour une taille n dchantillon.


c
Jean-Yves Dauxois Juillet
2011

48

Chapitre 5. Qualit dun estimateur

Notons quun estimateur sans biais efficace est forcment optimal, dans la classe des
estimateurs sans biais. La rciproque est fausse, la borne ntant pas ncessairement
atteinte.
Exemple 5.6. Information de Fisher pour un chantillon dans le cas dun modle
gaussien rel avec variance 2 (suite des exemples 5.4 et 5.5).
n est de variance
On a vu que la variance de lestimateur de la moyenne empirique X
/n. Cette quantit est gale la borne de Cramer-Rao dans un modle gaussien rel
n tant sans
avec la variance connue (seule lesprance est inconnue). Lestimateur X
biais, il est donc efficace dans ce modle pour estimer le paramtre .
3
2

6. Exercices
Exercice 1(Qualit des estimateurs dans les modles de Poisson et de la loi exponentielle)
On considre deux modles :
celui de la loi de Poisson (N, P(N), {P() : > 0}) , o P() dsigne la loi de
Poisson de paramtre ;
celui de la loi de exponentielle (R+ , BR+ , {E() : > 0}), o E() dsigne la
loi exponentielle de paramtre .
On a vu que ces modles sont en particulier utiles pour modliser des problmes de
Fiabilit.
Pour chacun de ces modles, rpondre lensemble des questions suivantes. On
considrera chaque fois lobservation dun chantillon X1 , . . . , Xn .
1) Rappeler lexpression de lestimateur du maximum de vraisemblance dans ce
modle (on a vu quil est galement estimateur par la mthode des moments).
2) tudier la consistance, le biais et le risque quadratique de cet estimateur.
3) Si cet estimateur est biais, est-il asymptotiquement sans biais ? Donner, si
ncessaire, un estimateur sans biais. Lestimateur sans biais (linitial ou le second)
est-il efficace ? Sinon lest-il asymptotiquement ? Est-il consistant ?
Exercice 2 (Fiabilit et fonction de rpartition empirique)
Un matriel a une dure de vie modlise par une v.a. X de f.d.r. F . Un tudiant
en Licence de Mathmatiques sait quil devra lutiliser pendant un temps x0 . Il souhaite
naturellement quil ny ait pas de panne durant cette priode.
Cet tudiant, ayant suivi le module de Statistique Infrentielle, cherche en premier
lieu estimer la loi (en fait la f.d.r.) de cette dure de vie, cest dire estimer F (x)
pour tout x de R+ . Il a alors lide de faire fonctionner, sur banc dessai, n machines
identiques celle quil utilisera dans lavenir. Il note x1 , . . . , xn les n temps de panne
observs, qui sont donc les ralisations des v.a. X1 , . . . , Xn i.i.d. de mme loi que X.
1) Par la mthode des moments il propose un estimateur de F (x), pour tout x dans
+
R . Pouvez-vous en faire autant ?
c
Jean-Yves Dauxois Juillet
2011

6. Exercices

49

2) Son estimateur est-il consistant ? Que dire de son biais et de son risque quadratique ?
3) Se souvenant de ses cours, il sait que, pour tre prcis, il aurait d, au pralable,
introduire un modle paramtrique. Quel(s) modle(s) pourrait-il proposer ? Que sont
les observations sous ce(s) modle(s) ? Une estimation par maximum de vraisemblance
nous donnerait-elle quelque chose de diffrent dans ce modle ?
4) Que dire alors de lefficacit de lestimateur propos dans la premire question ?

Exercice 3 (LAgriculteur et la Statistique)


Un agriculteur possde un champ carr dont il veut estimer la superficie. Quand
il mesure un ct de son champ, il sait (un statisticien de passage lui a confirm), ou
il suppose, que lerreur exprimentale de la mesure est une variable alatoire de loi
normale centre et de variance 2 . Il ralise une premire mesure de ce ct et trouve
une valeur x1 = 510 mtres. Il en dduit une superficie de s1 = 26.01 hectares. Il
ralise une deuxime mesure et trouve alors x2 = 490, do une valeur de la superficie
s2 = 24.01. Il abandonne ses mesures et rflchit pour savoir quelle est la bonne faon
de procder. Doit-il adopter comme estimation de la surface s1 , s2 , ou une estimation
combinant les deux mesures, telle que :
s3 = x1 x2 = 24.99,
s1 + s2
s4 =
= 25.01,
2

2
x1 + x2
s5 =
= 25 ?
2
Faut-il recommencer ses mesures jusqu ce quil trouve deux rsultats identiques, ou
bien combiner intelligemment n mesures pour construire des estimations du type s4 ou
s5 (gnralises ces n mesures) ?
1) On se propose daider lagriculteur rsoudre son problme. Prciser le modle
considr ainsi que la fonction q() que lon cherche estimer. tudier les cinq estimateurs proposs. On calculera notamment leurs biais, variances et risques quadratiques
moyens. (Ind. si X N (m, 2 ) alors Var(X 2 ) = 2( 4 + 2m2 2 )).
A laide de ces calculs, aider lagriculteur choisir lestimateur qui vous semble
prfrable aux autres.
2) Donner les estimateurs qui gnralisent s4 et s5 au cas o lagriculteur a pu faire
n mesures du cot de son champ. Effectuer la mme tude qu la question 1) pour ces
estimateurs. tudier galement leurs consistance. Que dire de leur L2 -consistance ?
Conclure.
3) Donner lestimateur du maximum de vraisemblance et ltudier sil est diffrent
de ceux considrs prcdemment.

Exercice 4 (Comparaison destimateurs dans un modle uniforme)


c
Jean-Yves Dauxois Juillet
2011

50

Chapitre 5. Qualit dun estimateur

On considre le modle uniforme {U[0,] : > 0}. On considre un chantillon


X1 , . . . , Xn et on note X(1) et X(n) respectivement la premire et la dernire statistique
dordre.
On a vu en cours que lon pouvait proposer les estimateurs suivants pour le paramtre
.
1 = X(n)
n+1
2 =
X(n)
n
3 = X(1) + X(n)
n,
4 = 2X
n est lestimateur de la moyenne empirique.
o X
1) Rappeler brivement lide la base de la proposition de chacun de ces estimateurs.
2) Pour chacun dentre eux, tudier la consistance, le biais et donner lexpression
de son risque quadratique.
3) Comparer les fonctions de risque quadratique. Quen conclure ?
Exercice 5 (Optimalit pour les estimateurs linaires de lesprance mathmatique)
Soit P = (R, BR , {P : }), de v.a. gnrique X, un modle paramtrique tel
que lon ait E (X) = g(). Pour simplifier les notations on notera cette esprance
n est un estimateur sans biais de de risque
et 2 la variance de X. On a vu que X
2
n , ) = /n. Cet estimateur sexprime bien videmment comme une
quadratique R(X

combinaison linaire des v.a.r. de lchantillon X1 , . . . , Xn . On dit quil est linaire.


1) Montrer quun estimateur linaire et sans biais est forcment une combinaison
linaire des v.a. X1 , . . . , Xn ayant pour somme des coefficients 1. Calculer le risque
quadratique dun tel estimateur.
2) En utilisant lingalit de Cauchy-Schwarz pour la somme de rels, montrer que
la moyenne empirique est un estimateur optimal dans la classe des estimateur linaires
et sans biais de .
3) On considre maintenant la classe des estimateurs linaires, mais pas ncessairement sans biais. Ces estimateur sont de la forme
n
X
S(X) =
ci X i ,
i=1

o les c1 , . . . , cn sont des rels donns. Calculer le risque dun estimateur dans cette
classe (en fonction des c1 , . . . , cn ). On cherche lestimateur otpimal dans cette classe.
En admettant que la fonction minimiser est convexe, montrer que que le minimum est
atteint pour les ci tous gaux 2 /(2 +n2 ). En dduire quil nexiste pas destimateur
optimal dans cette classe.

c
Jean-Yves Dauxois Juillet
2011

CHAPITRE 6

Amlioration destimateurs
On a signal, maintes reprises, quune statistique constitue souvent une rduction
de linformation de manire ne retenir que ce qui nous paraissait utile et ncessaire
dans lestimation du paramtre du modle (ou dune fonction g() de celui-ci). De
plus, nous avons introduit quelques critres pour tudier et comparer la qualit des
estimateurs.
Des questions se posent alors naturellement.
Comment sassurer que nous navons pas perdu une partie importante de
linformation apporte dans lchantillon dans notre problme destimation ?
Nous navons en effet pas valu la qualit de cette rduction dinformation.
Comment amliorer un estimateur obtenu par les mthodes prcdentes de
manire ce quil ne prenne en compte que le strict ncessaire dans linformation apporte par lchantillon ?
Existe-t-il une(des) mthode(s) pour construire un estimateur optimal ?
Telles sont les questions auxquelles nous allons apporter quelques rponses dans les
paragraphes qui suivent.
1. Statistique exhaustive
Dans la plupart des exemples considrs prcdemment, la statistique utilise tait
une v.a. T (X1 , . . . , Xn ) avec T fonction de E n valeurs dans R ou R2 . On a ainsi
rduit linformation apporte par lchantillon sous forme dun vecteur (x1 , . . . , xn ) en
un scalaire ou un vecteur de dimension bien infrieure. On a donc naturellement perdu
de linformation. Le problme est de savoir si cette information perdue aurait pu ou
pas tre utile lestimation du paramtre g(). Si linformation perdue savre inutile
dans loptique de lestimation de g(), on dira alors que la statistique est exhaustive,
quelle prserve donc toute linformation exploitable pour rsoudre le problme pos.
Exemple 6.1. Exhaustivit dans un modle de Bernoulli pour le contrle statistique
de la qualit.
Un industriel voudrait connatre la proportion p de pices dfectueuses quil fabrique
dans une journe. Pour cela il prlve n pices alatoirement dans lensemble de sa
production de la journe. Il suppose que la qualit de sa production na pas volu
au cours de la journe, autrement dit que cette proportion na pas vari. Il note alors
le nombre k de pices dfectueuses observes dans cet chantillon et estime la qualit
de sa production par k/n. Il nglige donc toute une partie de linformation apporte
51

52

Chapitre 6. Amlioration destimateurs

par lchantillon de son contrle, comme celle de savoir quelles pices se sont rvles
dfectueuses. Est-ce handicapant pour la qualit de son estimation ? Intuitivement on
sent bien que non. Montrons le rigoureusement...
En premier lieu, notons que le modle statistique pour une telle exprience est le
modle dchantillonnage associ au modle de la loi de Bernoulli : ({0, 1}, P({0, 1}, {B(p) :
p [0, 1]}) de v.a. gnrique X. De lobservation x = (x1 , . . . , xn ) dun chantillon
X = (X1 , . . . , Xn ) dans ce modle, lindustriel a donc retenu seulement linformation
apporte par la statistique
n
X
Xi ,
T (X) =
i=1

qui vaut k dans cet exemple.


Or calculons la loi de X conditionnellement T (X) = k. On a :
(
Pn
xi 6= k
0
si
Pni=1
P (X = x|T (X) = k) =
pk (1p)nk
1
= C k si
i=1 xi = k.
C k pk (1p)nk
n

On constate que cette loi ne dpend pas du


Pparamtre p que lon cherche estimer. Il
sagit de la loi uniforme sur {x {0, 1}n : ni=1 xi = k}. Ainsi, toute linformation sur
le paramtre p contenue dans lchantillon X est en fait contenue dans la statistique
T (X). On dit que cette statistique est exhaustive.
3
Dfinition 6.1. Soit (E, E, P = {P : }) un modle paramtrique et X =
(X1 , . . . , Xn ) un chantillon dans ce modle. Une statistique T (X) est dite exhaustive
pour le paramtre si la loi de X = (X1 , . . . , Xn ) conditionnelle T (X) est indpendante du paramtre .
On remarque que, dans le cas dune statistique exhaustive, la loi de lchantillon
conditionnelle T est entirement connue. Ainsi, une fois que lon a calcul T (x)
sur lchantillon observ x, ce dernier ne nous apporte plus aucune information sur le
paramtre et peut tre oubli.
Le calcul de la loi conditionnelle ntant pas toujours aussi facile que dans lexemple
prcdent, on utilisera souvent le thorme suivant qui donne un moyen plus ais pour
prouver lexhaustivit dune statistique.
Thorme 6.2. (Thorme de factorisation) Soit (E, E, P = {P : })
un modle paramtrique et X = (X1 , . . . , Xn ) un chantillon dans ce modle. Une
statistique T (X) valeurs dans un espace probabilisable (F, F) est exhaustive si, et
seulement si, il existe une fonction mesurable h de E n vers R+ , ne dpendant pas de ,
et une fonction mesurable g de F vers R+ telles que la vraisemblance puisse scrire
sous la forme :
L(x1 , . . . , xn ; ) = g (T (x))h(x),
pour tout x = (x1 , . . . , xn ) dans E n et tout dans .
La dmonstration de ce thorme est admise.

c
Jean-Yves Dauxois Juillet
2011

2. Statistique exhaustive

53

Exemple 6.2. Statistiques exhaustives dans le modle de Bernoulli (Suite de lExemple


6.1.)
Nous avons vu, au dbut du paragraphe 4, que la vraisemblance dun chantillon
X1 , . . . , Xn dans un tel modle est :
L(x1 , . . . , xn ; p) = p

Pn

i=1

xi

(1 p)n

Pn

i=1

xi

On peut crire :
L(x1 , . . . , xn ; p) = gp (T (x))h(x),
avec gp (x) = px (1p)nx et h gale 1. Grce au thorme de factorisation on retrouve
que la Statistique
n
X
T (X) =
Xi
i=1

est bien exhaustive pour le paramtre p dans ce modle. On constate aisment que la
moyenne empirique
n = T (X)
X
n
est galement une statistique exhaustive dans ce modle. De nombreuses autres statistiques sont exhaustives comme en particulier les statistiques
T1 (X) = (X1 , . . . , Xn ),
T2 (X) = (X1 + X2 , X3 + + Xn ),
T3 (X) = (X1 , X2 , X3 + + Xn ).
Mais lon voit bien quelles rduisent moins linformation que les deux statistiques prc n . Elles seront donc moins intressantes.
dentes T (X) et X
3
Proposition 6.3. Sil existe une statistique exhaustive, lestimateur du maximum
de vraisemblance en est une fonction.
Preuve. Notons T (X) cette statistique exhaustive. Daprs le thorme de factorisation la vraisemblance peut scrire sous la forme :
L(x; ) = g (T (x))h(x).
On a donc
= Argmax L(x; )

= Argmax g (T (x))

et est donc bien une fonction de T (x).

c
Jean-Yves Dauxois Juillet
2011

54

Chapitre 6. Amlioration destimateurs


2. Statistique exhaustive minimale

Comme on a pu le constater dans lexemple prcdent, il ny a pas unicit de la


statistique exhaustive. Dune manire gnrale, toute fonction mesurable bijective dune
statistique exhaustive est exhaustive, i.e. si T (X) est une statistique exhaustive et si h
est une fonction mesurable bijective de (F, F) vers (F 0 , F 0 ) alors S(X) = h(T (X)) est
aussi exhaustive. Cest vident daprs le thorme de factorisation.
La statistique T (X) = X est toujours une statistique exhaustive. Mais elle nest
pas dun grand intrt et ne rduit absolument pas linformation. Il ne sagit donc
pas seulement de trouver une statistique exhaustive mais plutt de trouver parmi les
statistiques exhaustives celle(s) qui rduit(sent) au maximum linformation.
En dautres termes, le problme est de trouver une statistique exhaustive qui soit
minimale, cest dire qui ait supprim le maximum dinformation ne concernant pas
tout en prservant toute linformation sur . Daprs ce que lon vient de voir, des
transformations bijectives de statistiques exhaustives ne changeront rien ce problme
de rduction maximale de linformation. On dit que ces statistiques sont quivalentes1.
On cherchera davantage des transformations non bijectives, qui rduisent en particulier
la dimension de la statistique.
Dfinition 6.4. On dit quune statistique exhaustive est minimale2, si elle est
une fonction mesurable de toutes les autres statistiques exhaustives.
Autrement dit, la statistique T est minimale si pour toute statistique exhaustive S il
existe une fonction h telle que T = h(S). Sil existe une fonction h0 telle que S = h0 (T )
soit exhaustive mais avec h0 non bijective (cest dire que lon ne puisse pas crire
T comme une fonction de S), alors T nest pas une fonction de toutes les statistiques
exhaustives et nest donc pas minimale.
Une statistique exhaustive minimale rduit donc au maximum linformation apporte par lchantillon. En effet, soit T une telle statistique. Si on pouvait rduire
davantage linformation tout en prservant lexhaustivit, il existerait une fonction h
mesurable et non bijective (sinon a ne changerait rien) telle que la statistique S = h(T )
soit encore une statistique exhaustive. Ce qui est en contradiction avec le fait que T soit
minimale, puisquelle nest pas fonction de la statistique S qui est pourtant exhaustive.
3. Thorme de Rao-Blackwell
Nous avons vu dans les parties prcdentes comment construire des estimateurs
de g() dans un modle paramtrique {P : }. Nous savons galement tudier
1On

dira que deux statistiques sont quivalentes sil existe une relation bijective mesurable entre
les deux. Si deux statistiques S et T sont quivalentes, alors la premire est exhaustive si, et seulement
si, la seconde lest. On pourra donc raisonner sur les classes dquivalence des statistiques exhaustives,
cest dire sur les ensembles des statistiques quivalentes. Aussi, quand on parlera de statistique
exhaustive, cela pourra tre une bijection prs
2
La minimalit est rigoureusement dfinie sur lensemble des classes dquivalence avec lordre
dfini, pour deux statistiques non quivalentes S et T , par S T sil existe une fonction mesurable
non bijective telle que S = h(T )
c
Jean-Yves Dauxois Juillet
2011

3. Thorme de Rao-Blackwell

55

leur qualit. Nous avons vu empiriquement (en cours et en TD) comment dduire dun
estimateur biais un estimateur sans biais. Mais nous navons pas encore vu de mthode
permettant damliorer un estimateur en diminuant son risque.
Cest lintrt du thorme de Rao-Blackwell qui est bas sur lutilisation dune
statistique exhaustive pour le paramtre .
Thorme 6.5. (Thorme de Rao-Blackwell) Soit (E, E, P = {P : })
un modle paramtrique et X = (X1 , . . . , Xn ) un chantillon dans ce modle. Soit T (X)
un estimateur de g() de carr intgrable.
Si le modle possde une statistique exhaustive S(X) pour le paramtre , alors
lestimateur
Te(X) = E (T (X)|S(X))
de g() a un risque quadratique infrieur T (X), cest dire que lon a :
R(Te(X), ) R(T (X), ),
pour tout dans .
De plus cette ingalit est stricte pour au moins un de , i.e. Te(X) est prfrable
T (X), sauf si T (X) est sans biais et une fonction de la statistique exhaustive S(X).
Si T (X) est un estimateur sans biais de g() alors Te(X) est galement sans biais
pour g() et lingalit sur les risques quadratiques se traduit galement sur les variances.
Rappel.
Par manque de maturit mathmatique, en particulier en thorie de la mesure, on
ne peut ici dfinir proprement la notion desprance conditionnelle. En consquence,
on se contentera de la dfinition un peu approximative suivante de E(Y /X), suivant
que les v.a. X et Y sont discrtes ou continues.
* Soient X et Y deux v.a. discrtes dont les lois PX et PY sont concentres respectivement sur I et J. Pour tout xi dans I, on dfinit :
X
E(Y /X = xi ) =
yj PYX=xi (yj )
yj J

yj P (Y = yj /X = xi ).

yj J

* Soient X et Y deux v.a. de loi conjointe absolument continue et notons fYX=x la


densit conditionnelle de Y conditionnellement X = x. On dfinit
Z
E(Y /X = x) =
yfYX=x (y)dy.
R

Dans les deux cas, la fonction e : x E(Y /X = x) est une fonction relle dune variable relle. On peut montrer quelle est mesurable et on peut considrer sa composition
avec la variable alatoire X, i.e. considrer e X. Celle-ci dfinit une variable alatoire
relle que lon appelle esprance conditionnelle de Y sachant X, note E(Y /X).
c
Jean-Yves Dauxois Juillet
2011

56

Chapitre 6. Amlioration destimateurs

Ce thorme est admis bien que non difficile dmontrer, au moins quand on domine
assez bien loutil esprance conditionnelle. Remarquons cependant que la statistique
obtenue par ce conditionnement est bien un estimateur puisque la loi de X (et donc
de T (X)) conditionnelle S(X) ne dpend pas de , par dfinition dune statistique
exhaustive.
On amliore donc un estimateur en prenant son esprance conditionnelle par rapport
une statistique exhaustive. Le nouvel estimateur obtenu est alors une fonction de la
statistique exhaustive (proprit de lesprance conditionnelle). Un bon estimateur doit
ainsi tre fonction de toutes les statistiques exhaustives du paramtre du modle et
donc, si elle existe, de la statistique exhaustive minimale.

4. Thorme de Lehmann-Scheff
Le thorme prcdent nous permet dj damliorer la qualit dun estimateur.
Mais il ne nous assure pas de tomber sur un estimateur optimal. Lobtention directe
dun estimateur optimal sera possible grce au Thorme de Lehmann-Scheff donn
ci-dessous. Mais il nous faut auparavant introduire la notion de statistique complte
quil utilise.
Dfinition 6.6. Soit (E, E, P = {P : }) un modle paramtrique et X =
(X1 , . . . , Xn ) un chantillon dans ce modle. Une statistique T (X) est dite complte
(ou totale) si toute fonction borlienne f vrifiant E |f (T (X))| < + et E (f (T (X))) =
0 pour tout de est ncessairement telle que
f (T (X)) = 0, P p.s.
pour tout de .

Thorme 6.7. Toute statistique exhaustive et complte est minimale.

Thorme 6.8. (Thorme de Lehmann-Scheff) Soit (E, E, P = {P :


}) un modle paramtrique et X = (X1 , . . . , Xn ) un chantillon dans ce modle. Soit
T (X) un estimateur sans biais de g() de carr intgrable et S(X) une statistique exhaustive et complte de .
Alors lestimateur amlior de Rao-Blackwell Te(X) = E (T (X)|S(X)) est optimal
dans la classe des estimateurs sans biais de g().

c
Jean-Yves Dauxois Juillet
2011

6. Exercices

57
5. Cas des familles exponentielles

La structure de famille exponentielle a lavantage de nous assurer de lexistence


dune statistique exhaustive et complte comme ltablit la proposition suivante.
Proposition 6.9. La statistique canonique T (X) dans une famille exponentielle
gnrale est une statistique exhaustive et complte, donc
P minimale. Pour le modle
dchantillonnage associ la statistique canonique est ni=1 T (Xi ).
La preuve sera (en partie) effectue dans un exercice.
Exemple 6.3. Modle gaussien rel avec variance 2 connue.
On a vu en Feuille de T.D. no 1 que le modle (R, BR , {N (, 2 ) : R}) constitue une famille exponentielle naturelle
le modle
P dont la statistique canonique dans
n est un estidchantillonnage associ est T (X) = ni=1 Xi . On sait galement que X
mateur sans biais de . La proposition prcdente et le thorme de Lehmann-Scheff
n est optimal dans la classe des estimateurs sans biais de .
assurent que X
3
6. Exercices

Exercice 1(Statistiques exhaustives)


On considre les modles dj largement tudis dans les feuilles dexercices prcdentes :
modle de Poisson (N, P(N), {P() : > 0}) ;
modle de la loi de exponentielle (R+ , BR+ , {E() : > 0}) .
modle gaussien avec 2 positif connu : (R, BR , {N (, 2 ) : R}) ;
modle gaussien avec dans R connu : (R, BR , {N (, 2 ) : 2 > 0});
modle gaussien gnral : (R, BR , {N (, 2 ) : R, 2 > 0}).
1) Pour chacun de ces modles donner lexpression dune statistique exhaustive
(ventuellement vectorielle).
2) Retrouver le rsultat pour le modle de Poisson en utilisant une autre mthode.
Exercice 2 (Statistique exhaustive et Famille Exponentielle Gnrale)
On considre une famille exponentielle gnrale de statistique canonique T (X) o
X est la variable gnrique
dans ce modle.
P
1) Montrer que ni=1 T (Xi ) est une statistique exhaustive pour le modle dchantillonnage associ.
2) En utilisant un rsultat obtenu dans lExercice 1 du chapitre 2, montrer que la
n est une statistique exhaustive dans un modle dchantillonnage
moyenne empirique X
de la loi Binomiale.
Exercice 3 (Estimation optimale dans le modle de Poisson)
c
Jean-Yves Dauxois Juillet
2011

58

Chapitre 6. Amlioration destimateurs

Il est courant de constater que le nombre dappels reus en une heure par un standard
tlphonique suit une loi de Poisson. On sintresse au problme de lestimation de la
probabilit quil ny ait pas dappel en une heure. Pour cela, on considre le modle
statistique (N, P(N), {P() : > 0}), de v.a. gnrique X. On note X = (X1 , . . . , Xn )
un chantillon dans un modle et on cherche donc estimer g() = P (X = 0) =
exp().
1) Proposer un estimateur W (X) de g() fonction des v.a. 1l{Xi =0} , pour i =
1, . . . , n.
2) Donner son biais, son risque quadratique et sa loi.
3) Lestimateur propos W (X) est-il fonction de la statistique exhaustive :
n
X
T (X) =
Xi ?
i=1

Sinon, que proposeriez-vous pour amliorer lestimation ?


4) Calculer la loi de chaque Xi , pour i = 1, . . . , n, conditionnelle {T (X) = t}.
5) On note
Yi = 1l{Xi =0} .
Calculer lesprance conditionnelle E (Yi |T (X) = t) et E (Yi |T (X)).
6) En dduire lexpression, en fonction de T , de lestimateur W (X), amlioration
de lestimateur W (X) par le thorme de Rao-Blacwell. Que dire du biais de W (X) ?
7) Calculer E (z T (X) ) puis Var (z T (X) ). En dduire le risque quadratique de lestimateur

W (X).
8) Montrer que la statistique T (X) est galement complte. Conclure.
Exercice 4 (Estimation optimale dans le modle uniforme)
On considre le modle de la loi uniforme (R+ , BR+ , {U[0,] : > 0}) et un chantillon

X1 , . . . , Xn dans ce modle. On se propose damliorer, si possible, lestimateur (X)


=
X(1) + X(n) vu en cours et dans lexercice 4 du chapitre 5 .
1) Donner une statistique exhaustive dans ce modle pour le paramtre .
2) Calculer la densit de la loi de X(1) conditionnelle {X(n) = xn }. En dduire
lexpression de E (X(1) |X(n) = xn ) puis de E (X(1) |X(n) ).

3) Dterminer alors (X),


estimateur amlior de (X)
par le thorme de RaoBlackwell.
4) La statistique X(n) est-elle complte ? Conclure.

c
Jean-Yves Dauxois Juillet
2011

CHAPITRE 7

Comportement asymptotique dun estimateur


On sintresse ici au comportement des estimateurs quand la taille n de lchantillon
X1 , . . . , Xn augmente, cest dire quand on augmente linformation que lon a sur le
modle paramtrique.
On a dj abord ce sujet quand nous avons introduit la notion de consistance dun
estimateur qui est une qualit apprciable pour un estimateur.
Il est courant que lon cherche galement prouver lasymptotique normalit dun
estimateur. Ceci pour au moins deux bonnes raisons : dune part cest souvent le
cas et, dautre part, cest trs utile, en particulier pour la construction dintervalle de
confiance, dautant plus quand la loi de lestimateur pour une taille finie dchantillon
nest pas connue.
1. Normalit asymptotique
Dfinition 7.1. Soient :
(E, E, P = {P : }) un modle statistique paramtrique ;
pour chaque n dans N, un chantillon X = (X1 , . . . , Xn ) dans ce modle ;
et T (X) = (Tn (X))nN un estimateur de g() dans Rp .
On dit que lestimateur T (X) est asymptotiquement gaussien si lon a la convergence en loi

L
n(Tn (X) g()) Nd (0, ()),
quand n tend vers +. La matrice de covariance () est appele matrice de covariance
asymptotique.
Quand g() est un rel, on dit que lestimateur est asymptotiquement normal et
la convergence en loi scrit :

L
n(Tn (X) g()) N (0, 2 ),
quand n tend vers +. La variance 2 est appele variance asymptotique.
Remarquons quun estimateur de g() asymptotiquement gaussien est forcment
consistant. On a en effet, quand n tend vers + :
1
P
Tn (X) g() =
n(Tn (X) g()) 0,
n
grce au thorme de Slutsky.
59

60

Chapitre 7. Comportement asymptotique dun estimateur


2. Estimateurs empiriques des moments

En reprenant les notations de la Section 1, on a les rsultats suivants, bien connus


depuis le cours de Probabilits. Ils sont fondamentaux en Statistique.
Thorme 7.2. (Loi forte des grands nombres et Thorme de la limite
centrale) Si la variable gnrique du modle est dans L2 , on a, quand n + :
p.s.
n
X
m ,

Xn m L
n
N (0, 1).

On a le mme type de rsultats pour les estimateurs empiriques des moments. Il


sobtiennent galement par la loi forte des grands nombres et le thorme de la limite
centrale. On a, quand n + :
p.s.

m
(p) m (p),
m
(p) m (p) L
n p
N (0, 1).
Var (X p )
Rappelons galement la version multidimensionnelle du thorme de la limite centrale. Notons pour cela zn,1 , . . . , zn,p les p-coordonnes dun vecteur zn de Rp et z n le
vecteur des moyennes des composantes des n premiers vecteurs de la suite (zn ), i.e.
1 Pn

z
j,1
j=1
n

..
zn =
.
.
P
n
1
j=1 zj,p
n
Thorme 7.3. (Thorme de la limite centrale multidimensionnel)
Soit (Zn ) une suite de vecteurs alatoires dans (Rp , BRp ), indpendants, de mme
loi desprance et de matrice de covariance . On a alors :

L
n(Z n ) Np (0, ),
quand n +.

3. Estimateur du maximum de vraisemblance


plusieurs reprises, nous avons pu noter que lestimateur du maximum de vraisemblance ne possde pas ncessairement de bonnes proprits taille finie. Il peut tre
biais et non admissible. Tel fut le cas par exemple pour lestimateur du maximum de
vraisemblance X(n) du paramtre dans un modle uniforme {U[0,] : > 0}.
Cest en fait en raison de ses proprits asymptotiques, dtailles dans le thorme
suivant (que nous ne dmontrerons pas), que cet estimateur du maximum de vraisemblance est trs clbre et souvent utilis.
c
Jean-Yves Dauxois Juillet
2011

4. La -mthode

61

Thorme 7.4. Soit (E, E, P = {P : Rp }) un modle statistique


paramtrique (identifiable) tel que les hypothses du paragraphe H1-H5 de la section
4 du Chapitre 5 soient vrifies. On note I() linformation de Fisher pour la v.a.
gnrique X dans ce modle et n (X) lestimateur du maximum de vraisemblance associ lobservation dun chantillon X1 , . . . , Xn .
On a, quand n tend vers + :
p.s.
n (X) ,
o est la vraie valeur du paramtre.
Sous les hypothses supplmentaires que I() soit inversible pour tout de (ou
strictement positive dans le cas o est rel) et que L00 (x; ) soit continue (en x et ),
on a alors la convergence :

L
n(n (X) ) Np (0, I 1 ()),
quand n tend vers +. Lestimateur du maximum de vraisemblance est donc asymptotiquement gaussien et efficace.
On peut donc dire quasymptotiquement, cest dire pour un chantillon de grande
taille n, lestimateur du maximum de vraisemblance est approximativement de loi normale centre sur le paramtre et de matrice de covariance linverse de linformation
de Fisher In () associe au modle dchantillonnage, i.e.
n (X)

n grand

Np (, In1 ()).

4. La -mthode ou ltude asymptotique dun estimateur obtenu par la


mthode de substitution
Il est courant que lon cherche estimer g() alors que lon dispose dj dun estimateur n de , obtenu par exemple par la mthode des moments ou du maximum de
vraisemblance. Nous avons dj rencontr cette situation plusieurs reprises dans ce
cours ou en T.D. (Cf. e.g. lexemple introductif en Section 1 du Chapitre 1).
La mthode de substitution, vue au paragraphe 2, nous propose destimer g() par

g(n ). Si la fonction g est continue, le thorme de Slutsky nous permet de dduire la


consistance de g(n ) partir de celle de n .
La -mthode permet, elle, de prouver aisment lasymptotique normalit de g(n )
en se basant sur celle de n que lon a pu obtenir par un calcul direct ou, plus souvent,
laide des thormes prcdents.
Thorme 7.5. Soit (E, E, P = {P : R}) un modle paramtrique et
X = (X1 , . . . , Xn ) un chantillon dans ce modle. Supposons que lon dispose dun
estimateur n (X) de asymptotiquement normal, i.e. tel que

L
n(n (X) ) N (0, 2 ),
quand n tend vers +.
c
Jean-Yves Dauxois Juillet
2011

62

Chapitre 7. Comportement asymptotique dun estimateur

Soit g une fonction drivable de dans 0 R telle que g(n (X)) soit de carr
intgrable.
Alors lestimateur g(n (X)) de g() est galement asymptotiquement normal. Plus
prcisment, on a :


L
n g(n (X)) g() N (0, 2 (g 0 ())2 ),
quand n tend vers +.
Preuve. Lide principale est deffectuer un dveloppement de Taylor de g(n (X))
autour de g(). On a en effet :
g(n ) g() = (n ) (g 0 () + (n )) ,
avec (n ) qui tend vers 0 quand n tend vers 0.
On peut donc crire ici :




0

n g(n (X)) g() = n(n (X) ) g () + (n (X) ) .


Lasymptotiquement normalit de n (X) nous donne, dune part, la convergence de
(n (X) ) en probabilit vers 0 et, dautre part, la convergence en loi du premier
facteur droite de lgalit vers une loi normale N (0, 2 ). Le thorme de Slustky
permet de terminer la dmonstration.
2
Remarque. La -mthode est galement vraie dans le cas multidimensionnel. Supposons en effet que soit dans Rp et que g soit une fonction de vers 0 Rq . Si
lon a

L
n(n (X) ) Np (0, ()),
alors



L
n g(n (X)) g() Nq (0, Jg ()()Jg0 ()),

o

Jg () =


gi
()
j
i=1,...,q;j=1,...,p

est la matrice jacobienne de la fonction g.

5. Estimateurs par la mthode des moments


Les rsultats prcdents nous permettent aisment dobtenir le comportement asymptotique des estimateurs obtenus par la mthode des moments. Rappelons que ces estimateurs sont de la forme
!
n
X
1
(Xi )
n (X) = h1
n i=1
c
Jean-Yves Dauxois Juillet
2011

6. Exercices

63

avec h fonction bijective et continue de Rp vers h() Rp et une fonction


mesurable de E vers Rp telle que E ((X)) existe et toutes les deux telles que lon ait :
h() = E ((X)),
pour tout de .
Proposition 7.6. Supposons que la fonction rciproque h1 soit continue, drivable
et telle que lestimateur n (X) par la mthode des moments soit de carr intgrable.
Alors n (X) est fortement consistant et asymptotiquement gaussien. Plus prcisment on a, quand n +, dune part la convergence p.s.
p.s.
n (X) ,
et, dautre part,

n(n (X) ) Np (0, Jh1 (X) ()Jh0 1 ),


o (X) () est la matrice de covariance de (X) et Jh1 la matrice Jacobienne de la
fonction h1 . En dimension 1, cette convergence scrit :

2 

L
n(n (X) ) N 0, Var ((X)) (h1 )0 ()
.
Preuve. Par la loi forte des grands nombres et le thorme de Slustky, on a la
convergence
p.s.
n (X) h1 (E ((X))) = ,
quand n +.
P
Le thorme de la limite centrale applique n1 ni=1 (Xi ) et la -mthode permettent dobtenir le caractre asymptotiquement gaussien.
2
6. Exercices
Les exercices concernant cette partie constituent souvent les premires questions des
exercices sur les intervalles de confiance.

c
Jean-Yves Dauxois Juillet
2011

Partie 3

Intervalles de confiance

Nous avons vu dans la partie prcdente comment construire un estimateur de g()


dans un modle paramtrique. Nous avons galement introduit des critres dvaluation
de la qualit, taille finie ou asymptotiquement, de cet estimateur. Nous avons enfin
tudi la possibilit damliorer un estimateur et de construire directement des estimateurs optimaux.
Malgr tout cela, cette estimation de g() par un estimateur T (X) conserve un
inconvnient majeur : celui de donner une estimation ponctuelle. Mme si lon prend
toutes les prcautions pour quelle soit proche de la vraie valeur, il nen reste pas moins
vraie quelle est souvent (voire toujours) diffrente de la valeur cible. En particulier, si
lestimateur propos T (X) est absolument continu, on a :
P (T (X) = g()) = 0
et lon est donc presque sr de se tromper.
Exemple 7.1. Modle gaussien rel avec variance 2 connue.
n est optimal dans la classe des estimateurs
Mme si, dans ce modle, lestimateur X
sans biais du paramtre (Cf. Exemple 6.3), on a
n = ) = 0
P (X
et cet estimateur se trompe donc presque srement toujours.

Cest pourquoi on cherchera aussi parfois donner un intervalle (resp. une rgion
dans le cas o g() est un vecteur) de valeurs possibles pour g(). On parle dintervalle
ou de rgion de confiance. Le terme fourchette destimation est galement utilis.
On construira cet intervalle partir des observations dun chantillon et on souhaitera quil contienne la vraie valeur g(), avec un probabilit suffisamment faible de se
tromper.

CHAPITRE 8

Intervalles de confiance exacts


Considrons un modle paramtrique (E, E, P = {P : }) et X = (X1 , . . . , Xn )
un chantillon dans ce modle.
Dfinition 8.1. Soit un rel dans [0, 1]. On appelle rgion de confiance 1
pour g() la fonction C de E n valeurs dans g() telle que
P (C(X) 3 g()) = 1 .
Si g() est inclus dans R, on parle dintervalle de confiance et lon a C(X) =
[L(X), U (X)], o L(X) et U (X) sont respectivement les bornes infrieures et suprieures
de lintervalle.
Bien sr lexpression dune rgion de confiance ou dun intervalle de confiance ne
doit pas dpendre du paramtre (inconnu) . Il doit tre uniquement dtermin par
des statistiques.
Dans le cadre de ce cours nous considrerons essentiellement des intervalles de confiance. Aussi dans la suite de ce chapitre nous utiliserons seulement la terminologie
dintervalle de confiance. Mais le raisonnement serait tout fait similaire pour les
rgions de confiance.
Lintervalle de confiance introduit dans la dfinition prcdente est parfois appel
intervalle de confiance bilatral. On peut naturellement dfinir des intervalles unilatraux. Ainsi, on parlera dintervalle unilatral gauche (resp. droit) tout intervalle de
la forme ] , U (X)] (resp. [L(X), +[).
Les bornes de lintervalle de confiance sont des v.a. puisquelles sont fonctions
de lchantillon X. Dun chantillon observ lautre elles donneront donc un autre
intervalle. Cest pourquoi on donne une probabilit que lintervalle contienne la vraie
valeur g(). Par abus de notation, il peut arriver que lon note
P (g() [L(X), U (X)] = 1
ou bien encore
P (L(X) g() U (X)) = 1 .
et que lon parle de la probabilit que g() soit dans lintervalle C(X). Mais il ne faut
pas oublier que lala porte sur les bornes et non sur g().
La confiance de lintervalle est note 1 . Il y a donc une probabilit que cet
intervalle ne contienne pas la vraie valeur. On dit parfois que lintervalle est de niveau
.
Exemple 8.1. Modle gaussien rel avec variance 2 connue.
67

68

Chapitre 8. Intervalles de confiance exacts

Si X = (X1 , . . . , Xn ) est un chantillon dans le modle gaussien {N (, 2 ) : R},


n est de loi N (, 2 /n). Ainsi,
on sait que la moyenne empirique X
n X

X
= n n
Z=
N (0, 1).

/ n
En notant z le quantile dordre de la loi N (0, 1), i.e. le rel tel que
P (Z z ) = ,
on peut crire
P (z1/2 Z z1/2 ) = 1
si lon veut (ce sera souvent le cas) rpartir la probabilit derreur quitablement au
dessus et au dessous de lintervalle.
Or, on a :
z1/2 Z z1/2
n z1/2 X
n + z1/2 .
X
n
n
Ainsi, lintervalle


Xn z1/2 , Xn + z1/2
n
n
est un intervalle de confiance 1 pour lesprance du modle gaussien. On constate
clairement dans cet exemple que les bornes de lintervalle de confiance sont alatoires. 3
Il est vident que, plus on augmente la confiance de lintervalle (i.e. plus on diminue
), plus lintervalle sera grand, comme le souligne lapplication numrique suivre.
Exemple 8.2. Modle gaussien rel avec variance 2 connue (A.N. de lExemple
8.1).
laide dun logiciel statistique (par exemple R) on simule un chantillon
de taille
Pn
n = 20 dune loi normale N (0, 1). La statistique exhaustive T (X) = i=1 Xi pour ce
modle nous donne sur cet chantillon T (x) = 8.2314. En prenant une valeur = 5%,
on trouve (par exemple laide de tables statistiques ou avec le mme logiciel) que le
quantile dordre 1 /2 est : z1/2 = 1.96. Ainsi lintervalle de confiance 1 = 95%
est : [0.0267, 0.8498].
Comme nous lavons dit plus haut, si lon augmente la confiance de lintervalle,
lintervalle de confiance sera plus grand. Ainsi, si lon souhaite un intervalle de confiance
99% (i.e. = 1%), le quantile dordre 1 /2 est : z1/2 = 2.5758 (les tables donnent
2.58). Avec les valeurs prcdentes de lchantillon, lintervalle de confiance 99% est
alors : [0.1644, 0.9875]. Lintervalle obtenu est contient donc le prcdent.
Supposons maintenant que lon simule dix nouvelles observations dans ce mme
modle (on dispose maintenant de 30 observations) et que la nouvelle valeur de la
statistique exhaustive (avec n = 30) soit T (x) = 6.2539. Lintervalle de confiance 95%
devient alors : [0.1494, 0.5663], ce qui illustre bien que, quand n augmente, lintervalle
a tendance se rtrcir et se centrer sur la valeur thorique de (ici 0).
3
c
Jean-Yves Dauxois Juillet
2011

0.

69

On a vu dans les exemples prcdents comment construire un intervalle de confiance


pour le paramtre dans un modle gaussien avec 2 connu. Un examen attentif de
la technique utilise fait apparatre le rle central qua jou la v.a. Z. On remarque
dune part quil sagit dune v.a. qui sexprime comme une fonction des observations
n ) et du paramtre . Il ne sagit donc pas dune statistique ! Dautre part cette
(via X
v.a. Z est de loi entirement connue (ici une N (0, 1)). On dit que Z est une variable
pivotale. Il est souvent utile dutiliser de telles variables pour construire des intervalles
de confiance.
Dfinition 8.2. Soit (E, E, P = {P : }) un modle paramtrique et X =
(X1 , . . . , Xn ) un chantillon dans ce modle.
On appelle variable pivotale pour g() toute v.a. (X, g()), fonction de lchantillon
X et du paramtre g(), dont la loi ne dpende pas de .
Bien sr une telle variable pivotale na dintrt que si lon connat sa loi (il nest
pas suffisant de savoir quelle ne dpend par de ).
Exemple 8.3. Modle gaussien rel avec variance 2 connue (suite de lExemple
8.1).
La v.a.

n
X
n

est bien une fonction de X et du paramtre . Elle est de loi connue N (0, 1), clairement
indpendante du paramtre . Il sagit donc une variable pivotale pour dans le modle
gaussien rel avec variance connue.
3
Z=

c
Jean-Yves Dauxois Juillet
2011

CHAPITRE 9

Intervalles de confiance asymptotiques


Parfois il nest pas possible, ou il est peu ais, de trouver une variable pivotale. En
revanche, grce aux thormes asymptotiques vus en fin de chapitre prcdent, il est
souvent possible de dterminer une variable asymptotiquement pivotale.
Dfinition 9.1. Soit (E, E, P = {P : }) un modle paramtrique et, pour
chaque n un chantillon X n = (X1 , . . . , Xn ) dans ce modle.
On appelle variable asymptotiquement pivotale pour g() toute suite de v.a.
((X n , g()))nN , fonctions de lchantillon X n et du paramtre g(), convergeant en
loi vers une v.a. de loi ne dpendant pas de . Cest dire que lon a, quand n + :
L

(X n , g()) Z,
o Z est une v.a. de loi ne dpendant pas de .
Exemple 9.1. Variable asymptotiquement pivotale pour lesprance dans un modle
statistique paramtrique.
Considrons un modle paramtrique (R, BR , P = {P : }) tel que la v.a.
gnrique X soit de carr intgrable, desprance qui scrive sous la forme g() et de
variance 2 . Soit enfin, pour tout n dans N, un chantillon X n dans ce modle.
Daprs le thorme de la limite centrale, on sait que
n g() L
X
(X n , g()) = n
N (0, 1),
2
quand n +. Ainsi, la suite de v.a. ((X n , g()))nN est asymptotiquement pivotale.
3
Dune manire gnrale, les rsultats dasymptotique normalit prsents pour les
estimateurs de la moyenne empirique, du maximum de vraisemblance ou obtenus par la
mthode des moments, permettent de construire des suites de v.a. asymptotiquement
pivotale.
Une v.a. asymptotiquement pivotale permet naturellement de construire des intervalles de confiance asymptotiques.
Dfinition 9.2. Soit un rel dans [0, 1]. On appelle intervalle de confiance
asymptotique 1 pour g() toute suite (Cn (X n ))nN = ([Ln (X n ), U (X n )])nN dintervalles tels que
lim P (Cn (X n ) 3 g()) = 1 .
n+

71

72

Chapitre 9. Intervalles de confiance asymptotiques

Exemple 9.2. Intervalle de confiance asymptotique pour lesprance dans un modle


statistique paramtrique (suite de lExemple 9.1) quand la variance 2 est connue.
En sinspirant de la construction de lintervalle de confiance exact pour lesprance
dune loi normale (Cf. Exemple 8.1), et en utilisant la suite de v.a. asymptotiquement
pivotale (X n , g()) vue dans lExemple 9.1, on montre aisment quun intervalle de
confiance asymptotique 1 pour g() est donn par :



n + z1/2 .
n z1/2 , X
X
n
n
Insistons bien sur le fait que ce rsultat nest valable que si la variance 2 est
connue. 3

c
Jean-Yves Dauxois Juillet
2011

CHAPITRE 10

Exercices sur les intervalles de confiance exacts et


asymptotiques

Exercice 1(Etude asymptotique du modle de Bernoulli)


On considre le modle de Bernoulli ({0, 1}, P({0, 1}, {B(p) : p ]0, 1[}). On a
vu, maintes reprises (en particulier dans lexercice 2 du chapitre 5 dont on gardera
les notations), que ce modle pouvait tre, entre autres, utile dans un problme de
modlisation en Fiabilit.
1) Montrer, de deux manires diffrentes, que lestimateur par maximum de vraisemblance pn du paramtre p de ce modle est asymptotiquement normal. Donner une
approximation de la loi de pn quand la taille n de lchantillon est grande.
2) En utilisant les rsultats de lexercice 2 du chapitre 5, montrer que lestimateur de
la fonction de rpartition empirique en Fn (x) est galement asymptotiquement normal.
3) Construire un intervalle de confiance asymptotique 1 pour le paramtre p du
modle de Bernoulli.
4) En dduire un intervalle de confiance asymptotique 1 pour F (x), avec x fix.

Exercice 2 (Etude asymptotique et Intervalles de confiance (exacts et asymptotiques)


dans le modle de la loi exponentielle)
On considre le modle de la loi exponentielle (R+ , BR+ , {E() : > 0}) et X =
(X1 , . . . , Xn ) un chantillon dans ce modle. On rappelle que lestimateur du maximum
de vraisemblance du paramtre bas sur lobservation dun tel chantillon est
n = 1 .

n
X
1) En utilisant la proprit vue en cours sur lestimateur du maximum de vraisem n est asymptotiquement normal (on prcisera bien
blance, montrer que lestimateur
la convergence en loi obtenue).
2) Retrouver le rsultat de la question prcdente en utilisant en particulier la mthode.
n , un intervalle de
3) Dduire, de ce comportement asymptotiquement normal de
confiance asymptotique 1 pour .
4) Montrer que si Y est une v.a. de loi Gamma G(, ), alors la v.a. Y est de loi
G(, 1).
73

74

Chapitre 10. Exercices sur les intervalles de confiance exacts et asymptotiques

5) En utilisant le rsultat de la question prcdente et celui vu dans lexercice 5


(partie 2) du chapitre 4, montrer que lintervalle
" 2
#
/2 (2n) 21/2 (2n)
n , 2nX
n
2nX
est un intervalle de confiance 1 exact pour , o 2 (n) est le quantile dordre
dune loi 2 (n). (Ind. On rappelle quune loi 2 (n) est une loi G(n/2, 1/2))

c
Jean-Yves Dauxois Juillet
2011

Partie 4

Correction des exercices

Correction des exercices du Chapitre 2

Exercice 1 (Familles Exponentielles)


On considre les modles suivants :
Modle Binomial {B(m, p) : p [0, 1]} ;
Modle de Poisson {P() : > 0} ;
Modle gaussien variance fixe {N (, 2 ) : R} ;
Modle gaussien paramtre bi-dimensionnel {N (, 2 ) : R, 2 > 0} ;
1 x
Modle Gamma {G(, ) : > 0, > 0} = {f, (x) = ()
x e 1lR+ (x) :
> 0, > 0} ;
Modle uniforme {U[0,] : > 0} ;
1
Modle de Cauchy {f (x) = (1+(x)
2 ) : R} ;
Pk
Modle Multinomial {M(n, p1 , . . . , pk ) : 0 < pi < 1, i = 1, . . . , k et
i=1 pi =
1}.
Pour tous ces modles, rpondre aux questions suivantes.
1) Quelle est lexpression de la densit f (x) ?
2) Le modle constitue-t-il une famille exponentielle gnrale ? Naturelle ? Quel
est le paramtre canonique du modle ?
3) Quelle est la vraisemblance dun chantillon x = (x1 , . . . , xn ) ?
Solution
Modle statistique de la loi Binomiale {B(m, p) : p [0, 1]}
La densit, pour tout x dans N, est
 
m x
fp (x) =
p (1 p)mx
x
 

x
m
p
m
=
(1 p)
x
1p



 
p
m m
= exp x ln
(1 p)
.
1p
x
En posant
 


m
p
m
C(p) = (1 p) , h(x) =
, T (x) = x, et (p) = ln
,
1p
x
on constate que le modle de la loi Binomiale est une famille exponentielle naturelle
dont le paramtre canonique est = ln(p/(1 p)). La vraisemblance de lchantillon
77

78

Correction des exercices du Chapitre 2

x1 , . . . , xn est :
L(x1 , . . . , xn ; p) =

n  
Y
m
i=1

xi

xi

mxi

p (1 p)

=p

Pn

i=1 xi

(1 p)

nm

Pn

i=1 xi

n  
Y
m
i=1

xi

Modle Statistique de la loi de Poisson {P() : > 0}


La densit, en tout x de N, est
f (x) =

e x
x!

= exp{x ln }e

1
.
x!

En posant
1
, T (x) = x et () = ln ,
x!
on vrifie que ce modle est une famille exponentielle naturelle de paramtre canonique
= ln(). La vraisemblance de lchantillon x1 , . . . , xn est :
C() = e , h(x) =

L(x1 , . . . , xn ; ) =

n
Y
e xi
i=1

xi !

Pn

en
= Qn

i=1

i=1

xi !

xi

Modle Statistique de la loi normale avec variance connue {N (, 2 ) : R}


La densit est
(

2 )
1
1 x
f (x) = exp
2

2


x2
1
x
2
= exp 2 + 2 2
2

2
2




n o 1
2
x2
exp 2 exp 2 .
= exp x 2
2
2
2
En posant




2
x2

1
C() = exp 2 , h(x) = exp 2 , T (x) = x et () = 2 ,
2
2

2
il apparat que ce modle constitue une famille exponentielle naturelle de paramtre
canonique = / 2 . La vraisemblance est
(
(
)

2 )
n
n
Y
1
1
1 xi
1 X
exp

L(x1 , . . . , xn ; ) =
=
exp 2
(xi )2 .
n
n
2

2
2
( 2)
i=1
i=1
Modle Statistique de la loi normale deux paramtres {N (, 2 ) : R, 2 > 0}
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 2

79

Dans ce modle la densit est :


(

2 )
1
1 x
f,2 (x) = exp
2

2



1
2
2
= exp h(, ), T (x)i exp 2 ,
2
2
o
2

(, ) =

1
,
2 2 2

et T (x) = (x, x2 ).

En posant


1
2
C(, ) = exp 2 et h(x) = 1,
2
2
on constate que ce modle est une famille exponentielle gnrale de paramtre canonique
= (/ 2 , 1/(2 2 )).
2

Modle statistique de la loi Gamma {G(, ) : > 0, > 0}


La densit est
1 x
f, (x) =
x e 1lR+ (x)
()

1lR+ (x).
= exp{( 1) ln x x}
()
En posant
C(, ) =

, h(x) = 1lR+ (x), (, ) = ( 1, ) et T (x) = (ln x, x),


()

ce modle scrit sous la forme dune famille exponentielle gnrale. Le lecteur trouvera
sans peine le paramtre canonique et lexpression de la vraisemblance.
Modle statistique de la loi uniforme {U[0,] : > 0}
La densit est
1
f (x) = 1l[0,] (x)

et on constate que lon ne peut pas lcrire sous la forme dune famille exponentielle.


1
Modle statistique de la loi de Cauchy f (x) =
:R
(1 + (x )2 )
La densit est
1
1
f (x) =
1 + (x )2
n
o
1
= exp ln(1 + (x )2 )

que lon ne peut pas crire sous la forme f (x) = C()h(x) exp{h(), T (x)i}. Ainsi, il
ne sagit pas dune famille exponentielle.
c
Jean-Yves Dauxois Juillet
2011

80

Correction des exercices du Chapitre 2

Modles statistique de la loi Multinomiale {M(n, p1 , . . . , pk ) : 0 < pi < 1, i =


Pk
1, . . . , k et
i=1 pi = 1}
Ici le paramtre est = (p1 , . . . , pk ) Rk . Pour tous xi N, i = 1, . . . , k, tels que
Pk
i=1 xi = n, la densit de la loi binomiale est
fp1 ,...,pk (x1 , . . . , xk ) =

n!
px1 pxkk
x1 ! xk ! 1

= exp {x1 ln p1 + + xk ln pk }
Soit = {(x1 , . . . , xk ) Nk :

Pk

i=1

n!
.
x1 ! xk !

xi = n}. En posant

C(p1 , . . . , pk ) = 1
n!
h(x1 , . . . , xk ) =
1l (x1 , . . . , xn )
x1 ! xk !

ln x1
ln p1
() = ... et T (x) = ... ,
ln xk
ln pk
il apparat que le modle de la loi multinomiale est une famille exponentielle. Ici aussi
nous laissons le soin au lecteur de trouver le paramtre canonique et lexpression de la
vraisemblance.
Exercice 2 (Modles position-chelle)
1) Construire un modle position-chelle partir de la loi exponentielle E(1). Prciser la forme des f.d.r. des lois de ce modle ainsi que leurs densits.
2) Montrer que le modle uniforme {U[a,b] : < a < b < +} est un modle
position-chelle.
Solution
1) Soit X E(1). Cette v.a.r. est valeurs dans R+ et sa f.d.r. est F (x) = 1 ex ,
pour x strictement positif. Posons Y = x0 + X/. Cette v.a.r est valeurs dans
]x0 , +[ et a pour f.d.r., pour tout y > x0 :
F (y) = P (Y y)


1
= P x0 + X y

= P (X (y x0 ))
= 1 e(yx0 ) .
Sa densit est alors :
f (y) = F0 (y) = e(yx0 ) ,
pour tout y > x0 . On obtient un modle position chelle de paramtre de position x0
et de paramtre dchelle 1/.
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 2

81

2) Soit X une v.a.r.de loi uniforme U[0,1] . Sa f.d.r. est F (x) = x sur [0, 1]. Posons
Y = a + (b a)X. Cette v.a.r. est clairement valeurs dans [a, b]. Sa fonction de
rpartition est donne, pour tout y dans [a, b] par
P (Y y) = P (a + (b a)X y)


ya
=P X
ba
ya
=
.
ba
Remarquons que lon aurait pu obtenir le mme rsultat en dterminant la loi de Y en
utilisant le thorme du changement de variable.
Le modle considr est donc un modle position chelle engendr par la loi U[0,1]
de paramtre de position a et de paramtre dchelle c = b a.

Exercice 3 (Statistiques dordre)


Soit X1 , . . . , Xn des v.a.r. dfinies sur un mme espace probabilis (, A, P ), indpendantes et de mme loi absolument continue par rapport la mesure de Lebesgue de
densit f . Pour tout dans , on peut ordonner les rels X1 (), . . . , Xi (), . . . , Xn ()
sous la forme
X(1) () X(2) () X(i) () X(n) ().
Lapplication
X(i) : X(i) ()
ainsi dfinie pour chaque i est une v.a.r. dite ie`me statistique dordre.
1) Calculer cette de X(n) = sup{X1 , . . . , Xn } (f.d.r. et densit).
2) Calculer la loi de X(1) = inf{X1 , . . . , Xn } (f.d.r. et densit).
3) Calculer la loi du couple (X(1) , X(n) ). En dduire celle de ltendue R = X(n) X(1)
(on donnera sa f.d.r et sa densit en fonction de F et f ).
4) Soit Ny le nombre de Xi infrieurs y. Quelle est la loi de Ny ? Que dire des
vnements {Ny k} et {X(k) y} ? En dduire la f.d.r. de X(k) .
5) On pourrait du rsultat prcdent tirer la densit de la v.a. X(k) . Mais cest
fastidieux. Il y a bien plus simple en attaquant le problme directement, ce que lon
propose de faire maintenant. On pourra utiliser le rsultat suivant : Si f est continue
sur un intervalle [a, b], alors, pour tout x dans cet intervalle, on a :
P (X ]x, x + h])
f (x) = lim+
h0
h
6) Montrer que si E(X) existe alors E(X(k) ) aussi.
7) Calculer la densit du vecteur (X(1) , . . . , X(n) ).
(Ind. on pourra calculer P ((X(1) , . . . , X(n) ) B), pour tout borlien B de BRn ).

c
Jean-Yves Dauxois Juillet
2011

82

Correction des exercices du Chapitre 2


Solution
1) On a
FX(n) (x) = P (X(n) x) = P

(ni=1 {Xi

x}) =

n
Y

P (Xi x) = F n (x),

i=1

o lavant dernire galit est justifie par lindpendance entre les v.a.r. X1 , . . . , Xn .
Cette fonction tant drivable (puisque F lest) sur R+ , la densit de Xn est :
fX(n) (x) = nF n1 (x)f (x).
2) On a
P (X(1) > x) = P

(ni=1 {Xi

> x}) =

n
Y

P (Xi > x) = (1 F (x))n ,

i=1

o lavant dernire galit est ici aussi justifie par lindpendance entre les v.a.r.
X1 , . . . , Xn . Do
FX(1) (x) = 1 (1 F (x))n
et
fX(n) (x) = n(1 F (x))n1 (f (x)) = n(1 F (x))n1 f (x).
3) Supposons dans un premier temps que x1 xn . On peut crire :
P (X(1) x1 , X(n) xn ) = P (X(n) xn ) P (X(1) > x1 , X(n) xn )
= F n (xn ) P (ni=1 {Xi ]x1 , xn ]}) = F n (xn ) (F (xn ) F (x1 ))n .
En drivant deux fois, on obtient

et

FX(1) ,X(n)
(x1 , xn ) = n (F (xn ) F (x1 ))n1 f (x1 )
x1
2
FX(1) ,X(n)
(x1 , xn ) = n(n 1) (F (xn ) F (x1 ))n2 f (x1 )f (xn ).
x1 xn

Maintenant si x1 > xn , on a
P (X(1) x1 , X(n) xn ) = P (X(n) xn ) = F n (xn )
qui en drivant par rapport x1 et xn sannule. On a donc la densit du couple
(X(1) , X(n) ) :
f(X(1) ,X(n) ) (x1 , xn ) = n(n 1) (F (xn ) F (x1 ))n2 f (x1 )f (xn )1l{x1 xn } .
Disposant de la densit du couple (X(1) , X(n) ), pour trouver la densit de la v.a.r. R =
X(n) X(1) , on peut dans un premier calculer la densit du couple (Q, R), o Q = X(1) ,
et ensuite calculer la loi marginale de la seconde coordonne de ce couple.
Le calcul de la loi du couple (Q, R) seffectue facilement grce la formule du
changement de variable. Prenons la fonction (u, v) = (u, v u) qui est videmment
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 2

83

un C 1 -diffomorphisme de fonction rciproque 1 (y1 , y2 ) = (y1 , y1 + y2 ). Le Jacobien


de 1 est gal 1. Ainsi la formule du changement de variable nous donne :

fQ,R (q, r) = fX(1) ,X(n) 1 (q, r) |J1 (q, r)|1lIm (q, r)
= n(n 1) (F (q + r) F (q))n2 f (q)f (q + r)1lRR+ (q, r).
La densit marginale de R est donc :
Z
fR (r) =
n(n 1)) (F (q + r) F (q))n2 f (q)f (q + r)dq.
R+

Sa f.d.r. est alors :

fR (x)dx.

FR (r) =
0

4) On a
Ny =

n
X

1lXi y .

i=1

Les v.a.r. 1lXi y , pour i = 1, . . . , n, tant i.i.d. de loi de Bernoulli de paramtre F (y),
la loi de Ny est une Binomiale de paramtres n et F (y), i.e.
Ny B(n, F (y)).
Par ailleurs, on a lgalit entre les vnements :
{Ny k} = {Il y a un nombre suprieur ou gal k de Xi infrieurs y} = {X(k) y}.
Ainsi, il vient :
FX(k) (x) = P (X(k) x) = P (Nx k) =

n
X

Cni (F (x))i (1 F (x))ni .

i=k

5) Calculons la probabilit P (X(k) ]x, x + dx]). Diffrents vnements disjoints


peuvent donner lvnement dont on veut calculer la probabilit :
k 1 variables tombent dans lintervalle ] , x], 1 variable dans lintervalle
]x, x + dx] et n k dans lintervalle ]x + dx, +[ ;
k 2 variables tombent dans lintervalle ] , x], 2 variables dans lintervalle
]x, x + dx] et n k dans lintervalle ]x + dx, +[ ;
k 1 variables tombent dans lintervalle ] , x], 2 variables dans lintervalle
]x, x + dx] et n k 1 dans lintervalle ]x + dx, +[ ;
k 3 variables tombent dans lintervalle ] , x[, 3 variables dans lintervalle
]x, x + dx] et n k dans lintervalle ]x + dx, +] ;
etc...
Le premier vnement scrit :
{X(1) , . . . , X(k1) sont infrieurs x,
X(k) est dans lintervalle ]x, x + dx]
et X(k+1) , . . . , X(n) sont suprieurs x + dx}
c
Jean-Yves Dauxois Juillet
2011

84

Correction des exercices du Chapitre 2

La probabilit P1 (dx) de cet vnement sobtient aisment en remarquant que lon


est dans la situation dun tirage dune loi multinomiale trois rsultats possibles. Ainsi:
n!
(F (x))k1 (F (x + dx) F (x)) (1 F (x + dx))nk .
P1 (dx) =
(k 1)!1!(n k)!
Do on tire :
P1 (dx)
n!
lim
=
(F (x))k1 f (x) (1 F (x))nk .
dx0
dx
(k 1)!(n k)!
Regardons maintenant les probabilits des autres vnements ci-dessus. Pour chacun
dentre eux, il y a au moins deux variables Xi qui se trouvent dans lintervalle ]x, x+dx].
La probabilit de ces vnements contiendra donc un terme de la forme (F (x + dx)
F (x))m avec 2 m n. Ces termes diviss par dx tendront alors vers 0 quand dx
tend vers 0. Ainsi toutes les probabilits des vnements autres que le premier de la
liste prcdente divises par dx ont une limite qui tend vers 0 quand dx tend vers 0.
On a donc :

P X(k) ]x, x + dx]
n!
fX(k) (x) = lim
=
(F (x))k1 f (x) (1 F (x))nk .
dx0
dx
(k 1)!(n k)!
6) Comme F (x) et 1 F (x) sont dans [0, 1], on peut crire :
Z
Z
n!
n!
|x|f (x)dx =
E|X|
E|X(k) | =
|x|fX(k) (x)dx
(k 1)!(n k)! R
(k 1)!(n k)!
R
dont on tire aisment le rsultat voulu.
7) Notons n lensemble des permutations sur lensemble {1, 2, . . . , n}. Soit B un
borlien de Rn . On a :
X


P (X(1) , . . . , X(n) ) B =
P {(X(1) , . . . , X(n) ) B} {X(1) < < X(n) }
n

XZ
n

Z
=

n!
B

1lu1 <u2 <<un

n
Y

!
f (ui ) du1 dun

i=1
n
Y

!
f (ui ) 1lu1 <u2 <<un du1 dun .

i=1

Cette galit tant vraie pour tout borlien B de Rn , on en dduit que


!
n
Y
f (ui ) 1lu1 <u2 <<un .
fX(1) ,...,X(n) (u1 , . . . , un ) = n!
i=1

c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 4

Exercice 1 (Modle Gamma et Mthode des moments)


On considre le Modle Statistique de la loi Gamma (R+ , BR+ , {G(, ) : > 0, >
0}). On rappelle que la densit dune v.a. X de loi G(, ) est :
1 x
f, (x) =
x e 1lR+ (x).
()
1) Calculer E, (X) et V ar, (X).
2) Par la mthode des moments, donner un estimateur du paramtre bidimensionnel
(, ) du modle, bas sur lobservation dun chnatillon X1 , . . . , Xn .
3) Dterminer des estimateurs de et en utilisant conjointement des estimateurs
empiriques des moments et la mthode de substitution.
Solution
1) On a :
Z
E, (X) =
0

1 x
1
x
x e dx =
()
()

x ex dx.

En effectuant le changement de variable u = x et en notant que ( + 1) = (), il


vient :
Z
1
du
1

u eu
E, (X) =
=
( + 1) = .
() 0

()

1
De la mme manire on montre que lon a :
( + 1)
E(X 2 ) =
.
2
Ainsi
( + 1) 2

Var(X) = E(X 2 ) E2 (X) =


2 = 2.
2

2) Les calculs de la question prcdente nous ont donn


E, (X) =

( + 1)
.
et E, (X 2 ) =

Ainsi on peut crire


h(, ) = E, ((X))
1Noter

que ( + 2) = ( + 1)().
85

86

Correction des exercices du Chapitre 4

avec

( + 1)
,
et (X) = (X, X 2 ).
h(, ) =

2
Des estimateurs de et par la mthode des moments sont alors
!
!
n
n
n
X
X
X
1
1
1
= h1
(
, )
(Xi ) = h1
Xi ,
X2 .
n i=1
n i=1
n i=1 i


Un calcul ais donne lexpression de h1 , la rciproque de h. On obtient :




u2
u
1
(, ) = h (u, v) =
.
,
v u2 v u2
Nous obtenons alors
2
X
i
i=1

= Pn
2
Pn
1
1
2
X

X
i
i
i=1
i=1
n
Pn n
1
Xi
= Pn n i=1 Pn
2 .
1
1
2
X

X
i
i
i=1
i=1
n
n
1
n

On remarque que lon peut crire :


!
n
2
1 X
1

Xi X
=
n i=1
n

Pn

n
X

+X

Xi2 2Xi X

!

2

i=1

n
n
n
1X
1X 2
1 X 2

=
X 2X
Xi +
X
n i=1 i
n i=1
n i=1
n

1X 2
2 + X
2
=
X 2X
n i=1 i
n

1X 2
2.
Xi X
=
n i=1
Une nouvelle expression des estimateurs
et est alors :
P
2
( ni=1 Xi )

= Pn

2
n i=1 Xi X
Pn
Xi

= Pn i=1
 .
2
Xi X
i=1

3) On a vu que
E, (X) =

et Var, (X) = 2 .

c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 4

87

Les estimateurs empiriques des moments dordre 1 et 2 de X nous donnent ainsi des
fonctions des estimateurs de et sous la forme :
n

1X
=
Xi
n i=1


1X

2.
=
Xi X
n i=1
2
De ces quations on tire
=

Pn
1
i=1
n
Pn
1
i=1 Xi
n

Xi

2

et
Pn
n
2
X
(
1
i=1 Xi )

=
X i = Pn
 .
2
n i=1
n i=1 Xi X
On retrouve donc les mmes estimateurs que dans la question prcdente.

Exercice 2 (Modle de la loi exponentielle et Mthode des moments)


On a vu en cours que la mthode des moments permet dobtenir un estimateur du
= 1/(X
n ) bas sur la relation
paramtre dans un modle de la loi exponentielle :
E(X) = 1/. Lintrt de cet exercice est de montrer que cette mthode permet la
construction de plusieurs estimateurs de ce mme paramtre .
1) On suppose quune v.a.r. X suit une loi exponentielle E(). Calculer E(X 2 ).
2) Soit t0 > 0. crire la fiabilit F (t0 ) = P (X > t0 ) sous forme dune esprance.
3) On considre le modle de la loi exponentielle (R+ , BR+ , {E() : > 0}). En vous
inspirant des rsultats des deux questions prcdentes et en utilisant chaque fois la
mthode des moments, proposer deux autres estimateurs du paramtre .
Solution
1) On a :
2

x e

E(X ) =
0

Z
dx =
0

u2 u du
(3)
2!
2
e
= 2 = 2 = 2,

o la deuxime galit est obtenue par changement de variable u = x.


2) On peut crire

F (t0 ) = E 1l]t0 ,+[ (X) .
3) Lgalit
E(X 2 ) =

2
2

c
Jean-Yves Dauxois Juillet
2011

88

Correction des exercices du Chapitre 4

peut scrire sous la forme E((X)]) = h(), o (x) = x2 et h(x) = 2/x2 . La fonction
h : R+ R+ tant bijective de rciproque
r
2
1
h (y) =
,
y
la mthode des moments nous donne
! s
n
X
2
1
= h1
Pn
Xi2 =

1
2
n i=1
i=1 Xi
n
comme estimateur de .
Par ailleurs, on sait (calcul ais !) que pour une loi exponentielle on a
F (t0 ) = et0 .
Posons
(x) = 1l]t0 ,+[ (x) et h() = et0
o h : R+ [0, 1] est bijective de rciproque h1 (y) = (ln y)/t0 .
La mthode des moments nous donne :
!
!
n
n
X
X
1
1
= h1 1

(Xi ) = ln
1l{Xi >t0 } .
n i=1
t0
n i=1
Exercice 3(Maximum de vraisemblance pour un modle gaussien)
1) On considre le modle gaussien {N (, 2 ) : R}. Donner lestimateur du
maximum de vraisemblance du paramtre bas sur une observation x1 , . . . , xn dun
chantillon issu de ce modle.
2) On considre maintenant le modle gaussien avec paramtre bidimensionnel, i.e.
{N (, 2 ) : R, 2 > 0}. Donner lestimateur du maximum de vraisemblance du
paramtre = (, 2 ), pour le modle dchantillonnage associ.
Solution
1) La vraisemblance pour un chantillon x1 , . . . , xn est :
(

2 )
n
n
Y
Y
1
1 xi

L(x1 , . . . , xn ; ) =
f (xi ) =
exp
2

2 2
i=1
i=1
(
)

n
2
n 
1
1 X xi

=
exp
.
2 i=1

2 2
Le logarithme de la vraisemblance est alors :
2
n 
 1X

xi
2
`(x1 , . . . , xn ; ) = ln L(x1 , . . . , xn ; ) = n ln
2
.
2 i=1

Les fonctions

7

xi

2
,

c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 4

89

pour i = 1, . . . , n, sont convexes. Ainsi, comme fonction de , la log-vraisemblance est


concave et son maximum est atteint en la valeur qui annule la drive premire. On
rsout donc :

`(x1 , . . . , xn ; ) = 0.

On a :


n

1X
xi
`(x1 , . . . , xn ; ) = 0
(1) = 0.
2

2 i=1
2
Lestimateur du maximum de vraisemblance est donc :
n
1X

Xi = X

=
n i=1
2) La log-vraisemblance est toujours :
n

n
n
1X
`(x1 , . . . , xn ; , ) = ln L(x1 , . . . , xn ; , ) = ln 2 ln 2
2
2
2 i=1
2

xi

2
.

En vrifiant que la matrice Hessienne (matrice des drives secondes partielles) de


la log-vraisemblance est dfinie ngative, la fonction log-vraisemblance est concave. Le
maximum est donc atteint en la valeur qui annule le gradient (vecteur des drives
partielles premires).
On a vu que

n 
X

xi
2
`(, ; x1 , . . . , xn ) =

2
i=1
et on a :

`(x1 , . . . , xn ; , 2 ) =
2

n
n
1 X (xi )2
ln 2 ln 2
2
2
2 i=1
2
n

n
1X
n
1 X (xi )2
(xi )2
= 2
= 2 +
.
(1)
2
2 i=1
4
2
2 i=1
4
En annulant ces deux drives partielles, on doit rsoudre en et 2 le systme :
 Pn

x P
=
i=1 (xi ) = 0
Pn (xi )2

.
n
1
n
)2 = 2
= 2
i=1 (xi x
n
i=1
4
Il apparat alors que les estimateurs du maximum de vraisemblance concident avec les
estimateurs empiriques de lesprance et de la variance :


=X
.
2

= Sn2
Exercice 4 (Maximum de vraisemblance pour un modle de loi uniforme)
On considre le modle uniforme {U[0,] : > 0}.
c
Jean-Yves Dauxois Juillet
2011

90

Correction des exercices du Chapitre 4

1) Montrer que la vraisemblance associe un chantillon x1 , . . . , xn observ dans


ce modle est :
1
L(x1 , . . . , xn ; ) = n 1lx(1) 0 1lx(n)

o x(1) et x(n) sont respectivement les observations des statistiques dordre X(1) et X(n) .
2) Donner lestimateur du maximum de vraisemblance du paramtre .
Solution
1) La densit de la v.a.r. gnrique dans ce modle de la loi uniforme est :
1
f (x) = 1l[0,] (x).

La vraisemblance de lchantillon (x1 , . . . , xn ) est alors :


n
n
Y
1 Y
1l[0,] (xi )
L(x1 , . . . , xn ; ) =
f (xi ) = n
i=1
i=1
=

1
1
1l
(
inf
x
)1l
(
sup
x
)
=
1l[0,+[ (x(1) )1l],] (x(n) ).
i
i
[0,+[
[0,]
i=1,...,n
n
n
i=1,...,n

2) La fonction 7 L(x1 , . . . , xn ; ) est nulle sur lintervalle ] , x(n) [ et concide


avec la fonction 1/n sur [x(n) , +[. Cette fonction nest pas continue en x(n) (et
donc pas drivable). Ainsi elle nest pas convexe sur R. On ne peut donc appliquer le
raisonnement habituel (recherche du zro de la drive premire).
Mais il apparat clairement que le maximum de la vraisemblance est atteint en
= x(n) puisque avant (strictement) ce point la vraisemblance est nulle, quen ce point
elle prend la valeur
1
n
L(x1 , . . . , xn ; x(n) ) =
x(n)
et quaprs elle est dcroissante. Ainsi lestimateur du maximum de vraisemblance est
n = X(n) .

Exercice 5 (Modles de la loi exponentielle et de la loi de Poisson en Fiabilit)


Partie 1
On sintresse la dure de vie X dun matriel lectronique. Il est raisonnable de
considrer que cette dure de vie est alatoire et que sa loi soit exponentielle (il existe
des mthodes statistiques, mais que nous ne verrons pas dans le cadre de ce cours, pour
vrifier cette hypothse). En revanche, on ignore la valeur du paramtre de cette loi.
1) crire le modle statistique engendr par X. Donner galement le modle
dchantillonnage associ.
2) Donner lestimateur du maximum de vraisemblance pour une observation x1 , . . . , xn
dun chantillon X1 , . . . , Xn de dures de vie de ces matriels.
3) Donner une estimation par maximum de vraisemblance de la quantit = P (X >
t0 ), o t0 est un temps fix.
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 4

91

4) Quels estimateurs de et de obtient-on si on utilise la mthode des moments ?


Partie 2
Supposons maintenant que les observations de ces dures de vie soient obtenues
grce lexprience suivante. Au temps t = 0, on dispose un matriel sur un banc
dessai. Quand celui-ci tombe en panne, on remplace immdiatement (ou on ne compte
pas le temps de remplacement) le matriel dfectueux par un matriel identique mais
neuf. Et ainsi de suite jusquau temps t0 . On note alors K le nombre de pannes releves
dans lintervalle [0, t0 ].
5) Calculer la probabilit que K soit nul.
6) On note Tk le temps coul jusqu la kme panne observe. Cest dire que
Tk = X1 + + Xk . Montrer que la loi de la v.a.r. Tk est une Gamma G(k, ) (Ind.
On pourra utiliser la transforme de Laplace ou la fonction caractristique).
7) Exprimer lvnement K = k en fonction dvnements liant les v.a.r. Tk et Xk+1 .
En dduire que la loi de K est une loi de Poisson, dont on dterminera la valeur du
paramtre.
Partie 3
On suppose que lon ralise n fois cette exprience et on note K1 , . . . , Kn les nombres
de pannes observes dans chaque intervalle [0, t0 ].
8) Donner le modle statistique associ ces observations.
9) Donner par la mthode du maximum de vraisemblance un autre estimateur du
paramtre , bas cette fois sur les observations k1 , . . . , kn .
10) Quobtient-on comme estimateur de si, dans ce modle, on utilise la mthode
des moments ?
Solution
1) La dure de vie du matriel est modlise par une v.a.r. X, suppose alatoire
de loi E(), o est inconnu. Ainsi X engendre le modle paramtrique

R+ , BR+ , {E(); > 0} = {E(); > 0} = {f (x) = ex 1lR+ (x); > 0}.
Le modle dchantillonnage associ est
(Rn+ , BRn+ , {E

(); > 0})

et la densit de lchantillon X1 , . . . , Xn est :


(
f (x1 , . . . , xn ) = n exp

n
X

)
xi

1lRn+ (x1 , . . . , xn ).

i=1

2) Daprs ce qui prcde, la vraisemblance de lchantillon observ est x1 , . . . , xn


est
(
L(x1 , . . . , xn ; ) = n exp

n
X

)
xi

1lRn+ (x1 , . . . , xn )

i=1
c
Jean-Yves Dauxois Juillet
2011

92

Correction des exercices du Chapitre 4

et la log-vraisemblance
`(x1 , . . . , xn ; ) = ln L(x1 , . . . , xn ; ) = n ln

n
X

xi + ln 1lRn+ (x1 , . . . , xn ).

i=1

On a :

n X
`(x1 , . . . , xn ; ) =
xi

i=1
et

2
n
`(x1 , . . . , xn ; ) = 2 < 0.
2

Ainsi, la log-vraisemblance est concave et son maximum est atteint en la valeur qui
annule la drive premire, cest dire en tel que :
n
n X

xi = 0.
i=1
Lestimateur du maximum de vraisemblance est donc :
1
= Pnn
= .

X
i=1 Xi
3) On a
P (X > t0 ) = et0 .
On cherche donc estimer = g(), o g(x) = et0 x . Daprs le cours, lestimateur
par maximum de vraisemblance de est donn par


t0
0
t

g() = e
= exp .
X
4) La relation E(X) = 1/ suggre destimer par
= 1.

X
On retrouve le mme estimateur que par maximisation de la vraisemblance.
Par ailleurs on peut crire :

= P (X > t0 ) = E 1l{X>t0 } .
La mthode des moments suggre destimer par
n
1X

=
1l{Xi >t0 } ,
n i=1
qui est un estimateur diffrent de celui obtenu par la mthode du maximum de vraisemblance.
5) Lvnement {K = 0} revient dire que la premire panne est intervenue aprs
le temps t0 . On peut donc crire :
P (K = 0) = P (X > t0 ) = exp (t0 ).
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 4

93

6) Calculons la transforme de Laplace de la loi Gamma de paramtres et , de


densit
1 x
f (x) =
x e 1lR+ (x).
()
Sa transforme de Laplace, quand elle existe, est :
Z
1 x
sX
LG(,) (s) = E(e ) =
esx
x e 1lR+ (x).
()
R+
Cette intgrale converge si, et seulement si, s < . Calculons cette intgrale, pour
s < . On a, en faisant le changement de variable u = ( s)x :
Z

()
u1
1
u du
 ,
LG(,) (s) =
=
e
=
1

() R+ ( s)
s
() ( s)
1 s

pour s < .
La loi exponentielle tant une loi Gamma particulire de paramtres 1 et , sa
transforme de Laplace est
1
.
LE() (s) =
1 s
Calculons la transforme de Laplace de la v.a. Tk = X1 + + Xk , modlisant le
temps coul jusqu obtenir k pannes. Puisque les v.a.r. X1 , . . . , Xn sont indpendantes
et de mme loi exponentielle de paramtre , on a :
LTk (s) = E(e

s(X1 ++Xk )

)=

k
Y

sXi

E(e

i=1

)=

k
Y
i=1

1
1
=
k .
s
1
1 s

On reconnat la transforme de Laplace dune loi G(k, ). Par la proprit de caractrisation de la loi par la transforme de Laplace, on en dduit que cette dernire est
donc la loi de la v.a. Tk .
7) On a
{K = k} = {Tk t0 < Tk+1 } = {Tk t0 < Tk + Xk+1 }.
Ainsi,
ZZ
P (K = k) = P (Tk t0 < Tk + Xk+1 ) =

fTk ,Xk+1 (u, v)dudv


ut0 <u+v

Z +

k k1 u
v
=
u e
e dv du
ut0 <u+v
ut0 (k)
t0 u
Z
Z
k k1 u (t0 u)
k t0 t0 k1
(t0 )k t0
=
u e e
du =
e
u du =
e
.
(k)
k!
ut0 (k)
0
ZZ

k k1 u v
u e e dudv =
(k)

On a vu dans la question 5) que cette formule est galement vraie pour k = 0. Ainsi la
loi de la v.a.r. K est une Poisson de paramtre t0 .
c
Jean-Yves Dauxois Juillet
2011

94

Correction des exercices du Chapitre 4

8) Le modle statistique associ nos observations est le modle dchantillonnage


tir du modle
(N, P(N), {P(t0 ); > 0}).
Le modle dchantillonnage est prcisment :
(Nn , P(Nn ), {P

(t0 ); > 0}).

9) La vraisemblance des observations (k1 , . . . , kn ) est :


L(k1 , . . . , kn ; ) =

n
Y
(t0 )ki et0

ki !

i=1
Pn

(t0 ) i=1 ki ent0


Qn
.
i=1 ki !

La log-vraisemblance est :
`(k1 , . . . , kn ; ) =

n
X

!
ki

ln(t0 ) nt0 ln

i=1

n
Y

!
ki ! .

i=1

Sa drive premire est :


(

`(; k1 , . . . , kn ) =

Pn

i=1

ki )t0

t0

nt0

et sa drive seconde

Pn
ki
2
`(; k1 , . . . , kn ) = i=1
,
2
2

qui est clairement ngative. La fonction log-vraisemblance est donc concave et son maximum atteint en la valeur qui annule la drive premire. Lestimateur du maximum de
vraisemblance est donc :
Pn
= i=1 Ki .

nt0
10) Effectuons le calcul de lesprance dune loi de Poisson de paramtre , mme
si ce rsultat est connu
+
+ k
+
X
X
X
k1

k e

= e
= e
= e e = .
E(X) =
k
k!
(k

1)!
k!
k=1
k=0
k=0
Dans notre cas, on a donc E(X) = t0 . Ainsi un estimateur par la mthode des
moments de est :
Pn
Ki
1

= K = k=1 ,
t0
nt0
qui est le mme que celui obtenu par la mthode du maximum de vraisemblance.

Exercice 6 (Maximum de vraisemblance)


c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 4

95

Pour les modles suivants, donner lestimateur du maximum de vraisemblance associ lobservation dun chantillon X1 , . . . , Xn .
1) Modle de la loi exponentielle dcale :
(R+ , BR+ , {Et0 () : > 0, t0 R}).
On rappelle que la densit de la loi exponentielle dcale Et0 () est :
f,t0 (x) = exp((x t0 ))1l[t0 ,+[ (x).
2) Modle de la loi Bta un seul paramtre :
(R+ , BR+ , {Beta(1, ) : > 1}).
On rappelle que la densit de la loi Beta(a, b) est :
1
xa1 (1 x)b1 1l[0,1] (x),
fa,b (x) =
(a, b)
o (a, b) est la valeur de la fonction Eulrienne Bta prise en a et b.
Ind. On pourra montrer en premier lieu que la densit pour le modle considr
est :
f (x) = (1 x)1 1l[0,1] (x).
Solution
1) La vraisemblance de lchantillon observ x1 , . . . , xn est donne par :
n
n
o
X
L(x1 , . . . , xn ; , t0 ) = n exp
(xi t0 ) 1l[t0 ,+[n (x1 , . . . , xn )
i=1

= n exp

n
o
X


(xi t0 ) 1l[t0 ,+[ x(1) ,


i=1

o x(1) = inf i=1,...,n xi .


La fonction t0 7 L(x1 , . . . , xn ; , t0 ) nest pas continue, et donc pas drivable, en
x(1) . On ne peut donc pas utiliser le critre de concavit. Cependant, en remarquant que
cette fonction est nulle sur ]x(1) , +[ et croissante sur lintervalle ], x(1) ] (puisquelle
est dexpression C ent0 sur cet intervalle), le maximum est atteint en x(1) et ceci pour
nimporte quelle valeur de .
Il nous reste maintenant maximiser la log-vraisemblance en fonction de . La
fonction
n
n
o
X


n
7 exp
xi exp nx(1)
i=1

est drivable et concave (on le vrifiera plus loin) sur R+ . Elle atteint donc son maximum
en la valeur qui annule la drive premire par rapport ou pour simplifier les calculs
la drive de son logarithme. On a
n
X
`(, t0 ; x1 , . . . , xn ) = ln L(, t0 ; x1 , . . . , xn ) = n ln
xi + nx(1) .
i=1
c
Jean-Yves Dauxois Juillet
2011

96

Correction des exercices du Chapitre 4


Il vient :
n
X

n
`(, t0 ; x1 , . . . , xn ) =

!
xi nx(1) .

i=1

La drive seconde est alors n/2 qui est bien ngative et donc la fonction concave.
Lestimateur du maximum de vraisemblance est alors :
n
= Pn

i=1 Xi nX(1)
En rsum, pour ce modle lestimateur du maximum de vraisemblance de =
(, t0 ), est :


n

, X(1)
= (, t0 ) = Pn
i=1 Xi nX(1)
2) La densit dune loi Beta(1, ) est
1
f (x) =
(1 x)1 1l[0,1] (x) = (1 x)1 1l[0,1] (x)
(1, )
puisque
(1)()
1
(1)()
=
= .
( + 1)
()

La vraisemblance de lchantillon x1 , . . . , xn est alors :


n
Y
L(x1 , . . . , xn ; ) = n (1 xi )1 1l[0,1] (xi )
(1, ) =

i=1

et la log-vraisemblance
`(x1 , . . . , xn ; ) = ln L(x1 , . . . , xn ) = n ln +

n
X

( 1) ln(1 xi ) + ln C,

i=1

o C est une constante.


On en dduit les drives partielles
n

n X

`(x1 , . . . , xn ; ) = +
ln(1 xi ) = 0

i=1
n
2
`(x1 , . . . , xn ; ) = 2 .
2

La log-vraisemblance est donc concave (puisque de drive seconde ngative) et son


maximum est donc atteint en
n
= Pn
.
i=1 ln(1 Xi )
Mais rappelons ici que lespace des paramtres pour est ]1, +[. Or si 1, la
fonction
L(x1 , . . . , xn ; ) : ]1, +[ R+

7 L(x1 , . . . , x, ; )
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 4

97

atteint son maximum en en = 1. Ainsi lestimateur du maximum de vraisemblance


pour ce modle est :


n
= max 1, Pn
= max(1, )
.
i=1 ln(1 Xi )

c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 5

Exercice 1(Qualit des estimateurs dans les modles de Poisson et de la loi exponentielle)
On considre deux modles :
celui de la loi de Poisson (N, P(N), {P() : > 0}) , o P() dsigne la loi de
Poisson de paramtre ;
celui de la loi de exponentielle (R+ , BR+ , {E() : > 0}), o E() dsigne la
loi exponentielle de paramtre .
On a vu que ces modles sont en particulier utiles pour modliser des problmes de
Fiabilit.
Pour chacun de ces modles, rpondre lensemble des questions suivantes. On
considrera chaque fois lobservation dun chantillon X1 , . . . , Xn .
1) Rappeler lexpression de lestimateur du maximum de vraisemblance dans ce
modle (on a vu quil est galement estimateur par la mthode des moments).
2) tudier la consistance, le biais et le risque quadratique de cet estimateur.
3) Si cet estimateur est biais, est-il asymptotiquement sans biais ? Donner, si
ncessaire, un estimateur sans biais. Lestimateur sans biais (linitial ou le second)
est-il efficace ? Est-il consistant ?
Solution
Modle de Poisson
1) On a vu que lestimateur du maximum de vraisemblance est :
n
X
n = 1

Xi = X
n i=1
2) Par la loi forte des grands nombres, on a p.s.
n
1X

n =
Xi E (X) = , quand n +,
n i=1
n est donc un estimateur consistant.
et
De plus, on a :
 
n = E (X) =
E
et cet estimateur est galement sans biais.
99

100

Correction des exercices du Chapitre 5

Calculons maintenant son risque quadratique. Comme lestimateur est sans biais,
on a :
n , ) = Var (X
n ) = 1 Var (X)
R(
n
On sait2 que la variance dune loi exponentielle de paramtre est . Ainsi, on a

2
n , ) = E
n = .
R(
n
n , ) 0, quand n +, et on a donc aussi la
Remarquons au passage que R(
2
n.
L -convergence de
3) On a vu que
n
2
1 X
xi ,
`(; x1 , . . . , xn ) = 2
2
i=1

o `(; x1 , . . . , xn ) est la log-vraisemblance du modle de Poisson. On en dduit linformation


de Fisher :
!
n
n
n
1 X
1 X
n
In () = E
Xi = 2
E (Xi ) = 2 =
2
i=1
i=1

Ainsi, la borne de Cramer-Rao est

.
n
n , ), lestimateur du maximum de vraisemblance est efficace.
Comme elle est gale R(
BCR =

Modle de la loi exponentielle


1) On a vu que
n = Pnn

1
=
Xn
i=1 Xi
est lestimateur du maximum de vraisemblance.
2) Par la loi forte des grands nombres, on a :
1
p.s.
n
X
E (X) = , quand n +,

ce qui implique que


p.s.
n

n est donc consistant.


et lestimateur
2Si

on ne sait pas, on peut le retrouver en effectuant le calcul

X
X
k
k2
E(X(X 1)) =
k(k 1) e = 2 e
= 2 .
k!
(k 2)!
k=0

k=2

Do

Var(X) = E X 2 (E(X))2 = E(X(X 1)) + E(X) (E(X))2 = 2 + 2 = .

c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 5

101

Pour dterminer le biais de lestimateur, rappelons que si X1 , . . .P


, Xn sont des
v.a.r. indpendantes et de mme loi exponentielle de paramtre , alors ni=1 Xi est de
loi Gamma(n, ). Ainsi,

 Z +
Z
n n n1 x
nn + n2 x
n

E (n ) = E Pn
=
x e dx =
x e dx
x (n)
(n) 0
0
i=1 Xi
Z
Z +
nn
nn +  y n2 y dy
=
y n2 ey dy
=
e
(n) 0

(n)n1 0
n(n 1)
n
=
=
,
(n 1)(n 1)
n1
o la quatrime galit est obtenue par le changement de variable y = x. Lestimateur
n est donc un estimateur biais.

valuons maintenant le risque quadratique de notre estimateur. On a :


n , ) = Var (
n ) + b2 ()
R(
n
o bn () est le biais de notre estimateur. Le calcul prcdent nous donne


 
n

bn () = E n =
1 =
.
n1
n1
n est donne par :
De plus, la variance de

2
2

Var (n ) = E (n ) E (n )
On a :

E

Z
n2 n n1 x
n2 n + n3 x
x e dx
x e dx =
x2 (n)
(n) 0
0
Z
Z +
n2 n +  y n3 y dy
n2 n
=
=
y n3 ey dy
e
n2
(n) 0

(n)
0
2 n
2 2
n (n 2)
n
= n2
=
,
(n 1)(n 2)(n 2)
(n 1)(n 2)

 Z
2

n =

o la troisime galit est ici aussi obtenue aprs le changement de variable y = x.


Do :
n2 2
n2 2
n) =
Var (
.

(n 1)(n 2) (n 1)2
et
n2 2
n2 2
2
n , ) =

+
R(
(n 1)(n 2) (n 1)2 (n 1)2

2
2
2
=
n
(n

1)

n
(n

2)
+
(n

2)
(n 1)2 (n 2)

2
=
n2 + n 2
2
(n 1) (n 2)
c
Jean-Yves Dauxois Juillet
2011

102

Correction des exercices du Chapitre 5

3) Nous avons vu que cet estimateur est biais. Il apparat clairement asymptotiquement sans biais.
Un estimateur sans biais de est donn par :
n1
n = n 1
n = n 1 Pnn
= Pn
.

n
n
i=1 Xi
i=1 Xi
Son risque quadratique est donn par :
n , ) = Var (
n)
R(


n 1
= Var
n
n

2
n1
n)
=
Var (
n

2 

n1
(n 1)n2 n2 (n 2)
2
=

n
(n 1)2 (n 2)


n1n+2
= 2
n2
2

=
n2
Par ailleurs, on a vu que :
2
n
`(; x1 , . . . , xn ) = 2 .
2

Linformation de Fisher est donc :



 2

n
`(; X1 , . . . , Xn ) = 2 .
In () = E
2

La borne de Cramer-Rao est donc :


2
BCR = .
n
Puisque
2
2
n , ) = > = BCR,
R(
n2
n

notre estimateur n natteint pas la borne de Cramer-Rao et nest donc pas efficace.
En revanche comme on a :
BCR
1
2 n 2
n2
=
=
=
1, quand n +,
2
n , )
n)
n
n
R(
In ()Var (
il est asymptotiquement efficace.
Pour la consistance, on sait que
p.s.
n

et donc

p.s.
n

,
n

c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 5

103

n est fortement consistant.


cest dire que

Exercice 2 (Fiabilit et fonction de rpartition empirique)


Un matriel a une dure de vie modlise par une v.a. X de f.d.r. F . Un tudiant
en Licence de Mathmatiques sait quil devra lutiliser pendant un temps x0 . Il souhaite
naturellement quil ny ait pas de panne durant cette priode.
Cet tudiant, ayant suivi le module de Statistique Infrentielle, cherche en premier
lieu estimer la loi (en fait la f.d.r.) de cette dure de vie, cest dire estimer F (x)
pour tout x de R+ . Il a alors lide de faire fonctionner, sur banc dessai, n machines
identiques celle quil utilisera dans lavenir. Il note x1 , . . . , xn les n temps de panne
observs, qui sont donc les ralisations des v.a. X1 , . . . , Xn i.i.d. de mme loi que X.
1) Par la mthode des moments il propose un estimateur de F (x), pour tout x dans
R+ . Pouvez-vous en faire autant ?
2) Son estimateur est-il consistant ? Que dire de son biais et de son risque quadratique ?
3) Se souvenant de ses cours, il sait que, pour tre prcis, il aurait d, au pralable,
introduire un modle paramtrique. Quel(s) modle(s) pourrait-il proposer ? Que sont
les observations sous ce(s) modle(s) ? Une estimation par maximum de vraisemblance
nous donnerait-elle quelque chose de diffrent dans ce modle ?
4) Que dire alors de lefficacit de lestimateur propos dans la premire question ?
Solution
1) On a

F (x) = P (X x) = E 1l{Xx} .
On estime donc F (x) par :
n

1X
F (x) =
1l{Xi x}
n i=1
2) Par la loi forte des grands nombres, on a pour tout x dans R+ :
n


1X
p.s.
1l{Xi x} F (x) = E 1l{Xi x} ,
F (x) =
n i=1
quand n + et F (x) est donc un estimateur consistant.
Par ailleurs,
n

1X

E(F (x)) =
E 1l{Xi x} = F (x)
n i=1
et F (x) est donc un estimateur sans biais.
c
Jean-Yves Dauxois Juillet
2011

104

Correction des exercices du Chapitre 5

Comme lestimateur est sans biais son risque quadratique est gal sa variance et
il est donc gal :
!
n
n


X

1 X
1

Var 1l{Xi x}
R(F (x), F (x)) = Var F (x) = 2 Var
1l{Xi x} = 2
n
n i=1
i=1
n
1 X
F (x)F (x)
= 2
,
F (x)F (x) =
n i=1
n

o F = 1 F , la troisime galit est justifie par indpendance des v.a.r. X1 , . . . , Xn


et lavant dernire galit est obtenue en remarquant, par exemple, que Yi = 1l{Xi x} est
une v.a.r. de loi de Bernoulli de paramtre F (x). Sa variance est donc F (x)(1 F (x)).
3) Soit x fix. On veut estimer F (x) qui est une probabilit, celle de lvnement
{X x}. En reprenant la v.a.r. Y = 1l{Xx} introduit dans la question prcdente, on
peut voir galement le problme comme lestimation du paramtre F (x) de la loi de Y .
Il sagit donc dun modle de Bernoulli :
({0, 1}, P ({0, 1}) , {B(F (x)) : F (x) [0, 1]}) .

4) On a vu dans le cours que la drive seconde, par rapport p, de la logvraisemblance `(y1 , . . . , yn ; p) dans un modle de Bernoulli est donne par
P
n
n ni=1 yi
2
1 X
`(y1 , . . . , yn ; p) = 2
yi
p2
p i=1
(1 p)2
Linformation de Fisher est donc donne par :

 2

`(Y1 , . . . , Yn ; p)
In (p) = Ep
p2
P
n
n ni=1 E(Yi )
1 X
= 2
E(yi ) +
p i=1
(1 p)2
n np
np
+
p2
(1 p)2
n
=
.
p(1 p)

Ainsi la borne de Cramer-Rao est :


p(1 p)
.
n
Revenant notre problmatique de lestimation de F (x), le risque quadratique de notre
estimateur sobtient en prenant p = F (x) et est alors gal :
F (x)F (x)
R(F (x), F (x)) =
= BCR.
n
BCR =

c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 5

105

Lestimateur F (x) atteint donc la borne de Cramer-Rao et est par consquent un estimateur efficace.

Exercice 3 (LAgriculteur et la Statistique)


Un agriculteur possde un champ carr dont il veut estimer la superficie. Quand
il mesure un ct de son champ, il sait (un statisticien de passage lui a confirm), ou
il suppose, que lerreur exprimentale de la mesure est une variable alatoire de loi
normale centre et de variance 2 . Il ralise une premire mesure de ce ct et trouve
une valeur x1 = 510 mtres. Il en dduit une superficie de s1 = 26.01 hectares. Il
ralise une deuxime mesure et trouve alors x2 = 490, do une valeur de la superficie
s2 = 24.01. Il abandonne ses mesures et rflchit pour savoir quelle est la bonne faon
de procder. Doit-il adopter comme estimation de la surface s1 , s2 , ou une estimation
combinant les deux mesures, telle que :
s3 = x1 x2 = 24.99,
s1 + s2
s4 =
= 25.01,
2

2
x1 + x2
s5 =
= 25 ?
2
Faut-il recommencer ses mesures jusqu ce quil trouve deux rsultats identiques, ou
bien combiner intelligemment n mesures pour construire des estimations du type s4 ou
s5 (gnralises ces n mesures) ?
1) On se propose daider lagriculteur rsoudre son problme. Prciser le modle
considr ainsi que la fonction q() que lon cherche estimer. tudier les cinq estimateurs proposs. On calculera notamment leurs biais, variances et risques quadratiques
moyens. (Ind. si X N (m, 2 ) alors Var(X 2 ) = 2( 4 + 2m2 2 )).
A laide de ces calculs, aider lagriculteur choisir lestimateur qui vous semble
prfrable aux autres.
2) Donner les estimateurs qui gnralisent s4 et s5 au cas o lagriculteur a pu faire
n mesures du cot de son champ. Effectuer la mme tude qu la question 1) pour ces
estimateurs. tudier galement leurs consistance. Que dire de leur L2 -consistance ?
Conclure.
3) Donner lestimateur du maximum de vraisemblance et ltudier sil est diffrent
de ceux considrs prcdemment.
Solution
1) La vraie longueur (inconnue) dun cot est . Lerreur exprimentale tant distribue suivant une loi N (0, 2 ), le modle correspondant aux mesures effectues par
lagriculteur est donc le modle paramtrique gaussien de variance 2 connue, i.e.

R+ , BR+ , {N (, 2 ) : > 0} .
Notons que le paramtre est suppos positif car il sagit dune longueur !
Notre problme est donc destimer la surface du champ, cest dire g() = 2 .
c
Jean-Yves Dauxois Juillet
2011

106

Correction des exercices du Chapitre 5


* tudions le premier estimateur S1 = X12 . On a
E (S1 ) = E X12 = Var (X1 ) + E2 X1 = 2 + 2 .

Lestimateur S1 est donc biais et son biais gal 2 . Sa variance est


Var (S1 ) = Var X12 = 2( 4 + 22 2 ).
Ainsi le risque quadratique de cet estimateur est :
R(S1 , ) = 2( 4 + 22 2 ) + 4 = 3 4 + 42 2 .
* Pour le second estimateur on a bien sr la mme chose puisque les v.a.r. X1 et
X2 ont mme loi.
* tudions maintenant le troisime estimateur S3 = X1 X2 . Par indpendance, on
a:
E S3 = E (X1 X2 ) = E X1 E X2 = 2 .
Cet estimateur est donc sans biais. Sa variance est :
Var (S3 ) = Var (X1 X2 ) = E (X12 X22 ) E2 (X1 X2 ) = E X12 E X22 4
= ( 2 + 2 )2 4 = 4 + 22 2 .
Son risque quadratique est alors :
R(S3 , ) = 4 + 22 2 .
Cet estimateur S3 est donc dj meilleur que S1 et S2 en terme de biais et de risque
quadratique.
* Considrons le quatrime estimateur :
S4 =

X 2 + X22
S1 + S2
= 1
.
2
2

On a
1
E S4 = (E X12 + E X22 ) = 2 + 2 .
2
Cet estimateur est donc biais de biais 2 . Grce lindpendance sa variance peut
scrire :
1
1
Var S4 = Var(X12 + X22 ) = (Var(X12 ) + Var(X22 )) = 4 + 22 2 .
4
4
On en dduit son biais :
R(S4 , ) = 4 + 22 2 + 4 = 2 4 + 22 2 .
Cet estimateur est donc moins bon que S3 qui est sans biais et de risque infrieur, qui
lui est donc prfrable.
* Le cinquime estimateur est dfini par :
2

X1 + X2
S5 =
.
2
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 5

107

Son esprance est :



2

X1 + X2
1
1
E (S5 ) = E
= E (X12 + 2X1 X2 + X22 ) =
2( 2 + 2 ) + 2E (X1 X2 )
2
4
4

1
1
2( 2 + 2 ) + 22 = 2 + 2 .
=
4
2
Cet estimateur est donc biais, de biais : 2 /2. Remarquons que lon aurait pu trouver
cette esprance plus rapidement en notant que la v.a.r. Y = (X1 + X2 )/2 est de loi
N (, 2 /2). Do
2
E S5 = E Y 2 = VarY + E2 Y =
+ 2 .
2
Cette approche est encore utile pour dterminer le risque quadratique de lestimateur
S5 . On a en effet :

2 !
 4

2
X1 + X2

4
2
2
Var
+ 2
+ 22 2 .
= Var Y = 2
=
2
4
2
2
Ainsi, le risque quadratique de S5 est :
4
4
3 4
+ 22 2 +
=
+ 22 2 .
2
4
4
Certes, comparativement S3 , lestimateur S5 est biais mais son risque quadratique
est infrieur. Au sens du risque quadratique, il est donc prfrable S3 .
R(S5 , ) = Var (S5 ) + b2S5 () =

2) On gnralise les estimateurs S4 et S5 , pour une taille quelconque n dchantillon,


sous la forme :
!2
n
n
X
X
1
1
2.
Xi2 et S5 =
Xi
=X
S4 =
n
n i=1
n i=1
On a

1X
E Xi2 = 2 + 2 .
E S4 =
n i=1
Ainsi S4 est donc biais de biais 2 . De plus,
n
1 X
2
Var S4 = 2
Var Xi2 = ( 4 + 22 2 ).
n i=1
n
Le risque quadratique de cet estimateur est
2
R(S4 , ) = ( 4 + 22 2 ) + 4 ,
n
4
qui tend vers , quand n +.
n est de loi N (, 2 /n), on peut crire :
Pour lestimateur S5 , comme on sait que X
2
+ 2 .
n
Ainsi, cet estimateur S5 est biais de biais 2 /n. Il est clairement asymptotiquement
sans biais.
2 = Var X
n + E2 X

E S5 = E X
n
n =

c
Jean-Yves Dauxois Juillet
2011

108

Correction des exercices du Chapitre 5


Par ailleurs,
R(S5 , ) = Var (S5 ) +

b2S5 ()


=2

2
4
2
+
2
n2
n


+

2
4
3 4
2
.
=
+
4
n2
n2
n

Pour dterminer quel est lestimateur prfrable entre S4 et S5 , comparons leurs


risques. On a :
2
2+n 4
+ 42
n
n
2
3 4

R(S5 , ) =
+ 42 .
2
n
n
R(S4 , ) =

Or,
n2 (2 + n) 3n = 2n2 + n3 3n = n(n2 + 2n 3)
et le dernier terme est positif ds n = 1. Ainsi
2+n
3
> 2
n
n
et donc
R(S4 , ) > R(S5 , )
pour n 1. Au sens du risque quadratique, S5 est donc toujours meilleur que S4 .
Comparons les maintenant en terme de consistance. Par la loi forte des grands
nombres nous avons p.s. :
n
1X 2
S4 =
X E X 2 = 2 + 2 ,
n i=1 i
quand n +. Cet estimateur nest donc pas consistant. En revanche lestimateur
n vers
S5 lest puisque la loi des grands nombres nous donne la convergence p.s. de X
2
et donc de S5 vers (par le thorme de Slustky). Cet estimateur est donc en
fait fortement consistant. Notons que lon aurait pu retrouver ce type de rsultats en
regardant leurs risques quadratiques. On constate en effet que
R(S4 , ) = E (S4 2 )2 4
R(S5 , ) = E (S5 2 )2 0,
quand n +. Ainsi S4 nest pas L2 -consistant alors que S5 lest.
3) On cherche estimer g() = 2 . Or, on sait que lestimateur du maximum de
n . La proprit de lestimation par maximum
vraisemblance de dans ce modle est X
de vraisemblance vue en cours permet daffirmer que lestimateur du maximum de
n2 , cest dire S5 .
vraisemblance de 2 est X
Exercice 4 (Comparaison destimateurs dans un modle uniforme)
On considre le modle uniforme {U[0,] : > 0}. On considre un chantillon
X1 , . . . , Xn et on note X(1) et X(n) respectivement la premire et la dernire statistique
dordre.
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 5

109

On a vu en cours que lon pouvait proposer les estimateurs suivants pour le paramtre
.
1 = X(n)
n+1
X(n)
2 =
n
3 = X(1) + X(n)
n,
4 = 2X
n est lestimateur de la moyenne empirique.
o X
1) Rappeler brivement lide la base de la proposition de chacun de ces estimateurs.
2) Pour chacun dentre eux, tudier la consistance, le biais et donner lexpression
de son risque quadratique.
3) Comparer les fonctions de risque quadratique. Quen conclure ?
Solution
1) Voir la fin du Chapitre 3.
2)
* Considrons le premier estimateur 1 = sup Xi = X(n) .
i=1,...,n

On a vu dans la correction de lexercice 3 du Chapitre 2 que :


FX(n) (x) = P (X(n) x) =

n
Y

FX (x) = (FX (x))n

i=1

Or, si X est une v.a.r. de loi U[0,] , sa f.d.r.

0
x
FX (x) =
1

est
if x 0;
if x [0, ]; .
if x .

Do
FX(n) (x) =


x n

if x 0;
if x [0, ];
if x .

On a alors
P (|X(n) | > ) = P (X(n) > ) + P (X(n) < )
= P (X(n) > + ) + P (X(n) < )
= 1 FX(n) ( + ) + FX(n) ( ) = FX(n) ( )
n 

n

=
= 1

c
Jean-Yves Dauxois Juillet
2011

110

Correction des exercices du Chapitre 5

qui tend vers 0 quand n +, au moins quand 0 < < . La probabilit prcdente
tant toujours nulle si > (X(n) et ne pouvant tre distants de plus de puisque
X(n) est dans [0, ]), On a donc
P
1 = X(n) ,

quand n +. Ainsi lestimateur 1 est consistent.


Considrons maintenant son biais. On peut crire :
Z
Z
 x n1 dx
n
= n
E 1 = E X(n) =
xn
xn dx

0
0
n+1
n
n
= n
=
.
n+1
n+1
Lestimateur 1 est donc biais de biais :
n

=
n+1
n+1
Calculons enfin le risque quadratique de 1 . On a
Z
Z
 x n1 dx
n
2
2
(x ) n (
R(1 , ) = E (1 ) =
= n
xn1 (x )2 dx

0
0
Z 1
n+2 Z 1
n
n
= n
(n)n1 2 (n 1)2 du =
(u)n1 2 (u 1)2 du
0
n
0
Z
n+2
nn+2 1 n1
n
(n)2!
=
u (1 u)2 du =
n
n

(n + 2)(n + 1)n(n)
0
22
,
=
(n + 2)(n + 1)
b1 () = E 1 =

en se souvenant que
Z
(n, 3) =

un1 (1 u)2 du =

(n)(3)
,
(n + 3)

o (, ) est la fonction dEuler de deuxime espce et () celle de premire espce.


* Considrons maintenant le second estimateur
n+1
2 =
X(n) .
n
On sait que
P
1 = X(n) ,
quand n +, ce qui implique bien sr que
n+1
P
2 =
X(n)
n
et 2 est donc un estimateur consistant.
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 5

111

On a de plus
E 2 =

n+1
n+1 n
n+1
E X(n) =
E 1 =
= .
n
n
n n+1

et 2 est donc un estimateur sans biais.


Calculons enfin son risque quadratique. Puisque lestimateur est sans biais, on peut
crire

 
2
n+1
n+1

R(2 , ) = Var
1 =
Var (1 )
n
n

2

  n + 1 2 
n+1 
22
2
2
=
R(1 , ) b1 () =

n
n
(n + 2)(n + 1) (n + 1)2

2 

2
n+1
2(n + 1) (n + 2)
2
2
n
=
.
=
=
n
(n + 1)2 (n + 2)
n2 (n + 2)
n(n + 2)

* Le troisime estimateur est dfini par 3 = X(1) + X(n) .


Remarquons en premier lieu que X(1) converge en probabilits vers 0, quand n tend
vers +. En effet, pour tout > 0, on peut crire :

0
if > 0
Qn
P (|X(1) | > ) =
P (X(1) > ) = i=1 (1 FX ()) if 0 < <
Mais, quand 0 < < , on a :
n
Y


n
(1 FX ()) = 1

i=1

qui tend vers 0 quand n tend vers +. Par le thorme de Slustky, les convergences
en probabilits respectives de X(1) et X(n) vers 0, entranent la convergence
P
3 ,

quand n + et 3 est donc un estimateur consistant.


Calculons maintenant le biais de cet estimateur. On a :
E 3 = E X(1) + E X(n) .
et on a vu que
E X(n) =

n
.
n+1

Toujours dans lexercice 3 du Chapitre 2, nous avons vu que la densit de X(1) est :
fX(1) (x) = n (1 F (x))n1 f (x).
c
Jean-Yves Dauxois Juillet
2011

112

Correction des exercices du Chapitre 5

On peut alors crire (en faisant le changement de variable u = x/ dans la premire


intgrale) :
Z
Z 1

x n1 1
E X(1) =
xn 1
dx = n
u(1 u)n1 du

0
0
(n + 1)

(2)(n)
=
=
= n(2, n) = n
(n + 2)
(n + 1)(n + 1)
n+1
Ainsi
E 3 =

+
=
n+1
n+1

et 3 est donc un estimateur sans biais.


Cet estimateur tant sans biais, son risque est gal sa variance et on a donc :

R(3 , ) = Var (3 ) = Var X(1) + X(n)



= Var X(1) + Var X(n) + 2Cov X(1) , X(n) .
Remarquons en premier lieu que X(1) et X(n) on mme variance. On montre en effet
aisment que si X U[0,] , alors la v.a.r. Y dfinie par Y = X est galement de loi
uniforme sur lintervalle [0, ]. Or,
Y(1) = min Yi = min ( Xi ) = max Xi = X(n) .
i=1,...,n

i=1,...,n

i=1,...,n

Do, par invariance par translation de la variance, il vient






Var Y(1) = Var X(n) = Var X(n) = Var X(n) .
Comme Y et X ont mme loi, on a bien


Var X(1) = Var X(n) .
Par ailleurs, nous avons dj vu que
R(1 , ) =

22
et b1 () =
.
(n + 1)(n + 2)
n+1

Do
22
2

(n + 1)(n + 2) (n + 1)2
2
n2
=
(2(n
+
1)

(n
+
2))
=
.
(n + 1)2 (n + 2)
(n + 1)2 (n + 2)


Var X(n) = Var(1 ) = R(1 , ) b21 () =

Il nous faut ensuite calculer la covariance





Cov (X(1) , X(n) ) = E X(1) X(n) E X(1) E X(n) .
Or, nous avons vu (toujours dans le mme exercice 3 du Chapitre 2) que
fX(1) ,X(n) (x1 , xn ) = n(n 1) (F (xn ) F (x1 ))n2 f (x1 )f (xn )1lx1 <xn .
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 5

113

En lappliquant dans le cas de la loi uniforme, on obtient :


Z
 v u n2 1

uv n(n 1)
E X(1) X(n) =

dudv

2
0<u<v<
Z
n(n 1)
uv(v u)n2 dudv
=
n
0<u<v<

Z Z v 
u
n(n 1)
u n2
n
=
v
1
du dv
n
v
0 v
0
Z 1

Z
n(n 1) n
n2
v
w(1 w) vdw dv
=
n
0
0


Z
n(n 1) (2)(n 1) v n+2
n(n 1) n+1
v (2, n 1)dv =
=
n
n
(n + 1)
n+2 0
0
n(n 1)
2
(n 1)
= 2
=
.
n + 2 n(n 1)(n 1)
n+2
Ainsi,

2

n
2
n2
2
Cov X(1) , X(n) =

=
.
n+2 n+1n+1
n + 2 (n + 1)2
(n + 1)2 (n + 2)
On a maintenant tout ce quil faut pour calculer le risque de lestimateur 3 . Celui-ci
est donc gal :


2n2
22

R(3 , ) = 2Var X(n) + 2Cov X(1) , X(n) =


+
(n + 1)2 (n + 2) (n + 1)2 (n + 2)
22
.
=
(n + 1)(n + 2)
* tudions enfin le dernier estimateur 4 . Par la loi forte des grands nombres, on a:
p.s.
n
X
,
2
quand n +, ce qui implique
p.s.
n
4 = 2X
2
et 4 est donc un estimateur fortement consistant.
n = /2. Do
Par ailleurs, on sait que E X
n =
E 4 = 2E X
et 4 est donc un estimateur sans biais.
Pour le calcul de son risque quadratique, on peut alors crire :
 

n ) = 4 Var(X)
R(4 , ) = Var 4 = 4Var (X
n
Or,
Var (X) = E X 2 E2 X
c
Jean-Yves Dauxois Juillet
2011

114

Correction des exercices du Chapitre 5

et
2

E X =
0

x2

dx
2
= .

Il vient

2 2
2

=
3
4
12
dont on dduit le risque quadratique de notre estimateur
2
4 2
=
.
R(4 , ) =
n 12
3n
Var(X) =

3) En rsum les fonctions de risque quadratique des quatre estimateurs sont :


22
(n + 2)(n + 1)
2
R(2 , ) =
n(n + 2)
22

R(3 , ) =
(n + 1)(n + 2)
2
.
R(4 , ) =
3n
On constate que 1 et 3 ont mme risque. De plus,
R(1 , )
2n(n + 2)
2n
=
=
(n + 1)(n + 2)
n+1
R(2 , )
R(1 , ) =

qui est strictement plus grand que 1, ds que n > 1. Ainsi, R(2 , ) < R(1 ) = R(3 , ),
pour tout n > 1. Enfin,
R(4 , )
n(n + 2)
n+2
=
=
3n
3
R(2 , )
qui est aussi strictement plus grand que 1 pour n > 1. Thus, R(2 , ) < R(4 , ), pour
tout n > 1.
En conclusion 2 est prfrable tous les autres estimateurs proposs. Ces derniers
ne sont donc pas admissibles. Mais ceci ne garantie pas que 2 le soit. On peut en fait
montrer que lestimateur optimal dans la classe des estimateurs de la forme X(n) est
n+2
=
X(n) .
n+1

c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 5

115

Exercice 5 (Optimalit pour les estimateurs linaires de lesprance mathmatique)


Soit P = (R, BR , {P : }), de v.a. gnrique X, un modle paramtrique tel
que lon ait E (X) = g(). Pour simplifier les notations on notera cette esprance
n est un estimateur sans biais de de risque
et 2 la variance de X. On a vu que X
2
n , ) = /n. Cet estimateur sexprime bien videmment comme une
quadratique R(X

combinaison linaire des v.a.r. de lchantillon X1 , . . . , Xn . On dit quil est linaire.


1) Montrer quun estimateur linaire et sans biais est forcment une combinaison
linaire des v.a. X1 , . . . , Xn ayant pour somme des coefficients 1. Calculer le risque
quadratique dun tel estimateur.
2) En utilisant lingalit de Cauchy-Schwarz pour la somme de rels, montrer que
la moyenne empirique est un estimateur optimal dans la classe des estimateur linaires
et sans biais de .
3) On considre maintenant la classe des estimateurs linaires, mais pas ncessairement sans biais. Ces estimateur sont de la forme
n
X
S(X) =
ci X i ,
i=1

o les c1 , . . . , cn sont des rels donns. Calculer le risque dun estimateur dans cette
classe (en fonction des c1 , . . . , cn ). On cherche lestimateur otpimal dans cette classe.
En admettant que la fonction minimiser est convexe, montrer que le minimum est
atteint pour les ci tous gaux 2 /(2 +n2 ). En dduire quil nexiste pas destimateur
optimal dans cette classe.
Solution
1) Un estimateur linaire est de la forme :
T (X) =

n
X

ci X i ,

i=1

o c1 , . . . , cn sont des rels fixs. Pour quil soit sans biais, on doit avoir E (T (X)) = ,
cest dire :
n
X
ci E Xi = .
i=1

Comme toutes les variables Xi ont mme esprance , il faut bien que lon ait :
n
X

ci = 1.

i=1

Comme cet estimateur est suppos sans biais, son risque scrit :
R(T (X), ) = Var T (X) = Var

n
X
i=1

ci X i =

n
X
i=1

c2i Var Xi

n
X
i=1

o lavant dernire galit est justifie par lindpendance des X1 , . . . , Xn .


c
Jean-Yves Dauxois Juillet
2011

c2i ,

116

Correction des exercices du Chapitre 5


2) Par Cauchy-Schwarz , on peut crire :
v
v

v
u n
u n
n
n
X
u
X
X
X
u
u

u
2t
t
1=
ci
ci
1 = nt
c2i ,


i=1

i=1

i=1

i=1

dont on tire :
n

1 X 2

ci .
n
i=1
On a donc :
R(T (X), ) = 2

n
X

c2i

i=1

2
n , ),
= R(X
n

n est optimal dans la classe des estimateurs


pour tout dans . Ainsi lestimateur X
linaires et sans biais de .
3) Soit maintenant
S(X) =

n
X

ci X i

i=1

un estimateur linaire mais pas forcment sans biais de . Son biais est :
!
n
n
X
X
bS () = E S(X) =
ci =
ci 1 .
i=1

i=1

Ainsi, le risque quadratique de cet estimateur scrit :


R(S(X), ) = 2

n
X

c2i + 2

i=1

!2

n
X

ci 1

i=1

La fonction
(c1 , . . . , cn ) f (c1 , . . . , cn ) = 2

n
X

c2i + 2

i=1

n
X

!2
ci 1

i=1

tant convexe, son minimum est atteint en la valeur qui annule le gradient
P

22 c1 + 22 ( ni=1 ci 1)
..
.
f (c1 , . . . , cn ) =
.P
22 cn + 22 ( ni=1 ci 1)
Or,
(1) f (c1 , . . . , cn ) = 0 22 ci + 22

n
X

!
ci 1

= 0, pour i = 1, . . . , n.

i=1
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 5

117

Pour que la fonction f atteigne son minimum, il faut donc dj que c1 , . . . , cn soient
tels que :
!
n
n
X
X
2
ci + n2
ci 1 = 0
i=1

n
X

i=1


ci 2 + n2 = n2

i=1

n
X
i=1

ci =

n2
.
2 + n2

En utilisant cette galit dans lquation (1), il vient, pour i = 1, . . . , n :


 2

n 2 n2
2
2
ci + 2
= 0,
2 + n2
cest dire :
2
ci = 2 2 ,
+ n
pour i = 1, . . . , n. La v.a.r.
n
X
2

S (X) = 2
Xi
+ n2 i=1
est donc celle qui minimise le risque quadratique. Mais ce nest pas une statistique
puisquelle dpend du paramtre inconnu du modle.

c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 6

Exercice 1(Statistiques exhaustives)


On considre les modles dj largement tudis dans les feuilles dexercices prcdentes :
modle de Poisson (N, P(N), {P() : > 0}) ;
modle de la loi de exponentielle (R+ , BR+ , {E() : > 0}) .
modle gaussien avec 2 positif connu : (R, BR , {N (, 2 ) : R}) ;
modle gaussien avec dans R connu : (R, BR , {N (, 2 ) : 2 > 0});
modle gaussien gnral : (R, BR , {N (, 2 ) : R, 2 > 0}).
1) Pour chacun de ces modles donner lexpression dune statistique exhaustive
(ventuellement vectorielle).
2) Retrouver le rsultat pour le modle de Poisson en utilisant une autre mthode.
Solution
1) Modle de Poisson (N, P(N), {P() : > 0}).
La vraisemblance des observations est dans ce modle :
n
n
Y
Y
Pn
xi
1
L(x1 , . . . , xn ; ) =
e = i=1 xi en
= g (T (x)) h(x),
x
!
x
!
i
i
i=1
i=1
en posant
h(x) = Qn

i=1

u n

xi !

; g (u) = e

et T (x) =

n
X

xi .

i=1

Par le thorme de factorisation la statistique T (x) =

Pn

i=1

xi est exhaustive pour .

Modle Exponentiel (R+ , BR+ , {E() : > 0})


On a :
(
)
n
n
Y
X
L(x1 , . . . , xn ; ) =
exi = n exp
xi = g (T (x)) h(x),
i=1

i=1

en posant
h(x) = 1 ; g (t) = n et et T (x) =

n
X

xi .

i=1

Par le thorme de factorisation, la statistique T (x) =


119

Pn

i=1

xi est exhaustive pour .

120

Correction des exercices du Chapitre 6


Modle Gaussien avec 2 connu : (R, BR , {N (, 2 ) : R})
La vraisemblance de lchantillon scrit :
(

2 )
n
Y
1
1 xi
exp
L(x1 , . . . , xn ; ) =
2

2
i=1
(
2 )
n 
1
1 X xi
n exp
=
2 i=1

n 2
!)
(
n
n
X
X
1
1
n exp 2
x2i 2
xi + n2
=
n
2

2
i=1
i=1
)
(
)
(
n
n
2
n
X
1
1 X 2
n exp
=
xi 2 exp 2
x
2 i=1
2
2 i=1 i
n 2
= g (T (x)) h(x),

en posant
(

)
n
1 X 2
h(x) = exp 2
x
2 i=1 i



n2
1
n exp
t 2
g (t) =
2
2
n 2
n
X
xi .
T (x) =
i=1

Le thorme de factorisation nous assure que T (x) =

Pn

i=1

xi est exhaustive pour .

Modle Gaussien avec connu (R, BR , {N (, 2 ) : 2 > 0})


On peut crire la vraisemblance sous la forme
(
)
n
X
1
1
n exp 2
L(x1 , . . . , xn ; 2 ) =
(xi )2 = g2 (T (x)) h(x)
n
2 i=1

2
avec

n
X
1
h(x) = 1 ; g2 (t) =
(xi )2 .
n exp 2 t et T (x) =
n
2

2
i=1
P
Le thorme de factorisation nous assure que la statistique T (x) = ni=1 (xi )2 est
exhaustive pour 2 .
1

Modle Gaussien (R, BR , {N (, 2 ) : R, 2 > 0})


La vraisemblance scrit
)
(
n
n
2
X
X
1
1

n
n exp 2
L( 2 ; x1 , . . . , xn ; ) =
x2i + 2
xi 2
n
2

2
i=1
i=1
= g,2 (T (x)) h(x)
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 6

121

avec
h(x) = 1


1

1
n2
n exp
g,2 (s, t) =
s 2t 2
2
2
2
n 2
!
n
n
X
X
T (x) =
xi ,
x2i .
i=1

i=1

Le thorme de factorisation nous assure que la statistique T (x) = (


est exhaustive pour (, 2 ).

Pn

i=1

xi ,

Pn

i=1

x2i )

2) On va retrouver le rsultat pour le modle de Poisson en revenant la dfinition


dune statistique exhaustive.
PnMontrons en premier lieu que si X1 , . . . , Xn sont i.i.d. de
loi de Poisson P(), alors i=1 Xi est de loi de Poisson P(n).
En effet, la transforme de Laplace de la loi P() est :
+
+
X
 X
k
(es )k
s
LP() (s) = E esX =
esk e = e
= e ee = exp{(es 1)}.
k!
k!
k=0
k=0
P
Celle de la v.a. ni=1 Xi est alors, par indpendance :
n
 Pn

Y

s i=1 Xi
Pn
L i=1 Xi (s) = E e
=
E esXi = (exp{(es 1)})n
i=1

= exp{n(es 1)} = LP(n) (s),


ce qui, par caractrisation de la loi par la transforme de Laplace prouve bien le rsultat
annonc.
Maintenant, on peut crire :
! (
Pn
n
X
ki 6= k
0
si
Pi=1
P X1 = k1 , . . . , Xn = kn |
Xi =
n
P (X1 P
=k1 ,...,Xn =kn )
si
i=1 ki = k.
P ( n Xi =k)
i=1

i=1

Or,
kn
k1
e kn ! e
k1 !
P
P ( ni=1 Xi = k)

P (X1 = k1 , . . . , Xn = kn )
P (X1 = k1 ) P (Xn = kn )
Pn
P
=
=
P ( i=1 Xi = k)
P ( ni=1 Xi = k)
=
Cette dernire ne dpendant pas de , la statistique T (X) =
la dfinition, une statistique exhaustive pour .

Pn

k!
1
.
k1 ! kn ! nk

i=1

Xi est donc, daprs

Exercice 2 (Statistique exhaustive et Famille Exponentielle Gnrale)


On considre une famille exponentielle gnrale de statistique canonique T (X) o
X est la variable gnrique dans ce modle.
c
Jean-Yves Dauxois Juillet
2011

122

Correction des exercices du Chapitre 6

P
1) Montrer que ni=1 T (Xi ) est une statistique exhaustive pour le modle dchantillonnage associ.
2) En utilisant un rsultat obtenu dans lExercice 1 du chapitre 2, montrer que la
n est une statistique exhaustive dans un modle dchantillonnage
moyenne empirique X
de la loi Binomiale.
Solution
1) Rappelons quune famille exponentielle gnrale est un modle paramtrique o
les densits sont de la forme :
f (x) = exp {h(), T (x)i} C()h(x)
o T (x) est la statistique canonique.
La vraisemblance dun chantillon x1 , . . . , xn est alors :
(
)
n
n
X
Y
n
L(x1 , . . . , xn ; ) = exp h(),
T (xi )i (C())
h(xi )
i=1

i=1

= g (S(x)) h(x)
o
h(x) =

n
Y

h(xi )

i=1

g (t) = exp {h(), ti} (C())n


n
X
S(x) =
T (xi ).
i=1

Ainsi, daprs le thorme


de factorisation, la statistique canonique du modle
P
dchantillonnage S(x) = ni=1 T (xi ) est toujours une statistique exhaustive .
2) On a vu que le modle binomial constitue une famille exponentielle naturelle,
donc de statistique
T (x) =
Daprs le rsultat de la question prcdente,
Pn canonique
Px.
n
1

les statistiques i=1 Xi et Xn = n i=1 Xi sont exhaustives pour le paramtre p du


modle binomiall.
Exercice 3 (Estimation optimale dans le modle de Poisson)
Il est courant de constater que le nombre dappels reus en une heure par un standard
tlphonique suit une loi de Poisson. On sintresse au problme de lestimation de la
probabilit quil ny ait pas dappel en une heure. Pour cela, on considre le modle
statistique (N, P(N), {P() : > 0}), de v.a. gnrique X. On note X = (X1 , . . . , Xn )
un chantillon dans un modle et on cherche donc estimer g() = P (X = 0) =
exp().
1) Proposer un estimateur W (X) de g() fonction des v.a. 1l{Xi =0} , pour i =
1, . . . , n.
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 6

123

2) Donner son biais, son risque quadratique et sa loi.


3) Lestimateur propos W (X) est-il fonction de la statistique exhaustive :
T (X) =

n
X

Xi ?

i=1

Sinon, que proposeriez-vous pour amliorer lestimation ?


4) Calculer la loi de chaque Xi , pour i = 1, . . . , n, conditionnelle {T (X) = t}.
5) On note
Yi = 1l{Xi =0} .
Calculer lesprance conditionnelle E (Yi |T (X) = t) et E (Yi |T (X)).
6) En dduire lexpression, en fonction de T , de lestimateur W (X), amlioration
de lestimateur W (X) par le thorme de Rao-Blacwell. Que dire du biais de W (X) ?
7) Calculer E (z T (X) ) puis Var (z T (X) ). En dduire le risque quadratique de lestimateur

W (X).
8) Montrer que la statistique T (X) est galement complte. Conclure.
Solution
1) On a

g() = P (X = 0) = E 1l{X=0} .
Ainsi un estimateur par la mthode des moments est :
n

W (X) =

1X
1l{Xi =0} .
n i=1

2) On a :
1
nP (X = 0) = g(),
n
ce qui prouve que W (X) est un estimateur sans biais de g() = P (X = 0).
E (W (X)) =

Par ailleurs, puisque W (X) est sans biais, son risque quadratique scrit :
!
n
X
1
R(W (X), ) = Var (W (X)) = 2 Var
1l{Xi =0}
n
i=1
On sait que
n
X

1l{Xi =0} B (n, P (X = 0)) = B (n, g())

i=1

et a pour variance ng() (1 g()).


Ainsi,
1
e (1 e )
.
R(W (X), ) = 2 ng() (1 g()) =
n
n
c
Jean-Yves Dauxois Juillet
2011

124

Correction des exercices du Chapitre 6

P
Dterminons maintenant la loi de W (X). Comme ni=1 1l{Xi =0} est de loi binomiale
de paramtres n et g(), la statistique W (X) est une v.a. discrte valeurs dans


1
n1
0, , ,
,1
n
n
telle que :
!


n
X
k
P W (X) =
= P
1l{Xi =0} = k
n
i=1
 
n
=
(g())k (1 g())nk
k
 
nk
n k
=
e
1 e
.
k
Pn3) La statistique W (X) nest pas une fonction de la statistique exhaustive T (X) =
i=1 Xi . Ainsi, grce au thorme de Rao-Blackwell, lestimateur
W (X) = E ((W (X)|T (X))
a un risque quadratique infrieur celui de W (X).
4) Effectuons le calcul pour X1 . Par symtrie le rsultat sera vrai pour tout i =
1, . . . , n.
P
Rappelons nous que ni=1 Xi est de loi de Poisson P(n). Conditionnellement
{T = t}, la valeur X1 est valeur dans {0, 1, . . . , t} et on a :
P
P (X1 = k, ni=2 Xi = t k)
P (X1 = k, T = t)
P
P (X1 = k|T = t) =
=
P (T = t)
P ( ni=1 Xi = t)
=
=

k
e
k!

((n1))tk (n1)
e
t!
(tk)!
=
(n)t n
k!(t
e
t!
 k 
tk

t!
k!(t k)!

1
n

1
n

(n 1)tk
k)!
nt

ce qui prouve que




1
L(X1 |T = t) = B t,
n
5) On a :

E (Yi |T = t]) = E 1l{Xi =0} |T = t = P (Xi = 0|T = t)

t
1
= 1
,
n
grce au rsultat de la question prcdente. Ainsi,
T

1
E (Yi |T ) = 1
n
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 6

125

6) On a :
!
n

X
1

W (X) = E (W (X)|T (X)) = E
Yi T (X)
n i=1
T 
T
n
n 
1
1X
1X
1
= 1
=
E (Yi |T (X)) =
1
n i=1
n i=1
n
n
Comme W (X) tait un estimateur sans biais, le thorme de Rao-Blackwell nous assure
que W (X) est galement sans biais.
7) On a :
E z

T (X)

z P (T (X) = t) =

t=0

= en

t=0

X
(nz)t

t!

t=0

t
t (n) n

t!

= exp {n + nz} = exp {n(z 1)} .

On sait que
Var z

T (X)

= E


T (X) 2

E z T (X)

2

Or,

E


T (X) 2




= E (z 2 )T (X) = exp n(z 2 1) ,

en appliquant le rsultat prcdent z 2 .


Ainsi,





Var z T (X) = exp n(z 2 1) exp 2n(z 1)
Le calcul du risque quadratique de W (X) donne alors

T (X) !
1
R (W (X), ) = Var (W (X)) = Var
1
n
( "
#)
2



1
1
= exp n 1
1
exp 2n 1 1
n
n

 
1
2
exp{2}
= exp n 1 + 2 1
n n



1
= exp 2
exp{2}
n

= e2 e/n 1 .
8) Soit f une fonction borlienne telle que
E (f (T (X))) = 0,
c
Jean-Yves Dauxois Juillet
2011

126

Correction des exercices du Chapitre 6

pour tout . On a :
E (f (T (X))) =

+
X

f (t)P (T (X) = t) =

t=0

+
X

f (t)

t=0

(n)t n
e ,
t!

qui est une fonction de . Notons h la fonction dfinie pour tout > 0 par :
h() =

+
X

f (t)

t=0

nt t
.
t!

Il sagit dune srie entire que lon sait pouvoir scrire sous la forme :
h() =

+ (t)
X
h (0)
t=0

t!

t ,

dont on tire par identification :


h(t) (0) = f (t)nt .
Par hypothse la fonction h doit tre identiquement nulle et donc ncessairement f (t) =
0, pour tout t dans N. Ceci montre que, par dfinition, la statistique T (X) est complte.
En rsum, la statistique T (X) est exhaustive et complte et daprs le thorme de
Lehmann-Scheff lestimateur W (X) est optimal dans la classe des estimateurs sans
biais de g().

Exercice 4 (Estimation optimale dans le modle uniforme)


On considre le modle de la loi uniforme (R+ , BR+ , {U[0,] : > 0}) et un chantillon

X1 , . . . , Xn dans ce modle. On se propose damliorer, si possible, lestimateur (X)


=
X(1) + X(n) vu en cours et dans lexercice 4 du chapitre 5 .
1) Donner une statistique exhaustive dans ce modle pour le paramtre .
2) Calculer la densit de la loi de X(1) conditionnelle {X(n) = xn }. En dduire
lexpression de E (X(1) |X(n) = xn ) puis de E (X(1) |X(n) ).

3) Dterminer alors (X),


estimateur amlior de (X)
par le thorme de RaoBlackwell.
4) La statistique X(n) est-elle complte ? Conclure.
Solution
1) La vraisemblance est :
n
1 Y
1l[0,] (xi )
n i=1

1
= n 1l[0,] x(n)

= g (T (x)) h(x),

L(; x1 , . . . , xn ) =

c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 6

127

avec
1
1l[0,] (t) et T (x) = x(n) .
n
Daprs le thorme de factorisation, la statistique T (x) = x(n) est exhaustive pour
le paramtre .
h(x) = 1 ; g (t) =

2) La loi conditionnelle de X(1) sachant {X(n) = x(n) } est de densit


X

(n)
fX(1)

=x(n)

(x1 ) =

fX(1) ,X(n) (x1 , xn )


.
fX(n) (xn )

Or, nous avons vu dans lexercice 3 du chapitre 2 que la loi de la n-ime statistique
dordre est de densit :
fX(n) (xn ) = nF n1 (xn ) f (xn )

et que celle du couple X(1) , X(n) est :
fX(1) ,X(n) (x1 , xn ) = n(n 1) (F (xn ) F (x1 ))n2 f (x1 )f (xn )1lx1 xn
Comme dans notre cas les v.a. initiales sont de loi uniforme, on a
 x n1 1
n
1l[0,] (xn )
fX(n) (xn ) = n

x
x1 n2 1
n
fX(1) ,X(n) (x1 , xn ) = n(n 1)

1l0<x1 xn <

2
n(n 1)
=
(xn x1 )n2 1l0x1 xn .
n
Ainsi,
X

(n)
fX(1)

=xn

(x1 ) =

n(n1)
n

(xn x1 )n2
n n1
x
n n

= (n 1)

(xn x1 )n2
1l[0,xn ] (x1 )
xn1
n

On a alors :
E X(1) |X(n) = xn

(xn x1 )n2
=
x1 (n 1)
dx1
xn1
0
n

n2
Z xn
x1
x1
= (n 1)
1
dx1
xn
xn
0
Z 1
= (n 1)
u(1 u)n2 xn du
Z

xn

= xn (n 1)(2, n 1),
o lavant dernire galit est obtenue par le changement de variable u = x1 /xn . Comme
(2, n 1) =

1 (n 1)
1
(2)(n 1)
=
=
,
(n + 1)
n(n 1)(n 1)
n(n 1)
c
Jean-Yves Dauxois Juillet
2011

128

Correction des exercices du Chapitre 6

on a

 x(n)
E X(1) |X(n) = xn =
n

et finalement :

 X(n)
.
E X(1) |X(n) =
n

3) Lestimateur (X)
amlior par le thorme de Rao-Blackwell est :



(X) = E (X)|X(n)

= E X(1) + X(n) |X(n)

= E X(1) |X(n) + X(n)
X(n)
=
+ X(n)
n
n+1
=
X(n) .
n
4) Pour toute fonction h mesurable telle que lintgrale suivante existe, on peut
crire :
Z
xn1
nh(xn ) nn dxn .
Eh(X(n) ) =

0
Ainsi, la condition
Eh(X(n) ) = 0, > 0
est quivalente
Z

h(xn )xn1
n dxn = 0, > 0.

Si la fonction h est continue, on obtient en diffrentiant par rapport que lon doit
avoir :
h(x)xn1 = 0, x > 0 et donc h(x) = 0, x > 0.
Si h nest pas continue on pourrait montrer que le rsultat reste vrai sauf sur un ensemble
de P mesure nulle.

La statistique X(n) est donc complte. Comme (X)


est un estimateur sans biais, le thorme de Lehmann-Scheff nous assure quil est optimal dans la classe des
estimateurs sans biais de .

c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 8

Exercice 1(Etude asymptotique du modle de Bernoulli)


On considre le modle de Bernoulli ({0, 1}, P({0, 1}, {B(p) : p ]0, 1[}). On a
vu, maintes reprises (en particulier dans lexercice 2 du chapitre 5 dont on gardera
les notations), que ce modle pouvait tre, entre autres, utile dans un problme de
modlisation en Fiabilit.
1) Montrer, de deux manires diffrentes, que lestimateur par maximum de vraisemblance pn du paramtre p de ce modle est asymptotiquement normal. Donner une
approximation de la loi de pn quand la taille n de lchantillon est grande.
2) En utilisant les rsultats de lexercice 2 du chapitre 5, montrer que lestimateur de
la fonction de rpartition empirique en Fn (x) est galement asymptotiquement normal.
3) Construire un intervalle de confiance asymptotique 1 pour le paramtre p du
modle de Bernoulli.
4) En dduire un intervalle de confiance asymptotique 1 pour F (x), avec x fix.
Solution
1) On a vu que lestimateur du maximum de vraisemblance pour lchantillon observ x1 , . . . , xn est :
n
1X
n.
pn =
Xi = X
n i=1
Montrons en premier lieu lasymptotique normalit, via le thorme de la limite
centrale. Les v.a.r. X1 , . . . , Xn sont i.i.d. et dans L2 , desprance p et variance p(1 p).
Le thorme de la limite centrale nous donne
!

pn p
L
N (0, 1),
n p
n
p(1 p)
dont on tire

n (
pn p) N (0, p(1 p)) .
n

On peut galement obtenir ce rsultat en utilisant les proprits asymptotiques de


lestimateur du maximum de vraisemblance (Cf. Chapitre 7, Section 3). On vrifie en
effet aisment que les hypothses du Thorme 7.5 sont remplies et que lon a donc :


L
n (
pn p) N 0, I 1 (p) ,
n

129

130

Correction des exercices du Chapitre 8

o I(p)est la matrice dinformation de Fisher de la v.a.r. X de loi de Bernoulli B(p)


(i.e. pour un chantillon de taille 1).
On a vu dans la question 4) de lExercice 2 du Chapitre 5 que :
n
In (p) =
p(1 p)
et donc que pour un chantillon de taille 1 (n = 1), on a
1
I(p) =
= I 1 (p) = p(1 p).
p(1 p)
Ainsi on retrouve bien la convergence

L
n (
pn p) N (0, p(1 p)) .
n

On en dduit que, pour de grandes valeurs de la taille dchantillon n, la loi de


n (
pn p) est approximativement une loi N (0, p(1 p)) et donc, toujours pour n
grand,


p(1 p)
pn N p,
.
n
2) On a aussi vu dans le mme Exercice 2 du Chapitre 5 que, si X1 , . . . , Xn sont
i.i.d. de f.d.r. F , on peut alors estimer F par la fonction de rpartition empirique :
n
1X
1l{Xi x} .
F (x) =
n i=1
On a galement vu que, pour x fix, cela revenait mener une estimation paramtrique
dans le modle de Bernoulli, en utilisant les v.a.r.
Yi = 1l{Xi x} , pour i = 1, . . . , n,
qui sont de loi de Bernoulli B(F (x)). Lestimateur de la f.d.r. empirique scrit alors,
en x fix, comme :
n
1X

Fn (x) = Yn =
Yi .
n i=1
En utilisant les rsultats de la question 1 on a :


L
n Fn (x) F (x) N (0, F (x)(1 F (x))) .
n

3) On aurait peut tre envie de prendre comme variable asymptotiquement pivotale


la variable
!

pn p
(X n , p) = n p
,
p(1 p)
de laquelle nous dduirions un intervalle de confiance asymptotique 1 pour p. Mais
on voit vite quil nest pas ais disoler p partir de la double ingalit
!

pn p
z1/2 n p
z1/2
p(1 p)
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 8

131

o z est le -quantile de la N (0, 1).


Il est bien plus facile dutiliser la variable asymptotiquement pivotale
!

pn p
(X n , p) = n p
pn (1 pn )
qui converge, elle aussi, vers une loi N (0, 1) :
L

(X n , p) N (0, 1).

(2)

On a en effet

p p
pn
p(1 p)

et

!
L

N (0, 1)

p(1 p) p.s.
1,
pn (1 pn ) n
la dernire convergence tant justifie par la proprit de forte consistance de lestimateur
du maximum de vraisemblance (Cf. Thorme 7.5). On aurait pu galement invoquer
ici la loi des grands nombres.
On peut alors crire :
!

pn p
z1/2 n p
z1/2
pn (1 pn )
r
r
pn (1 pn )
pn (1 pn )
z1/2
pn p z1/2
n
n
r
r
pn (1 pn )
pn (1 pn )
p pn + z1/2
pn z1/2
n
n
De la convergence obtenue en (2) on tire :
!
!

pn p
P z1/2 n p
z1/2 1 .
n
pn (1 pn )
Ainsi, lintervalle
"

r
pn z1/2

pn (1 pn )
, pn + z1/2
n

pn (1 pn )
n

est alors un intervalle de confiance asymptotique (1 ) pour p.


4) En utilisant les notations de la question 2), lintervalle

v
v




u
u
u F (x) 1 F (x)
u F (x) 1 F (x)
n
n

t n
t n
n (x) + z1/2
Fn (x) z1/2

,
F

n
n
est un intervalle de confiance asymptotique (1 ) pour F (x).
c
Jean-Yves Dauxois Juillet
2011

132

Correction des exercices du Chapitre 8

Exercice 2 (Etude asymptotique et Intervalles de confiance (exacts et asymptotiques)


dans le modle de la loi exponentielle)
On considre le modle de la loi exponentielle (R+ , BR+ , {E() : > 0}) et X =
(X1 , . . . , Xn ) un chantillon dans ce modle. On rappelle que lestimateur du maximum
de vraisemblance du paramtre bas sur lobservation dun tel chantillon est
n = 1 .

n
X
1) En utilisant la proprit vue en cours sur lestimateur du maximum de vraisem n est asymptotiquement normal (on prcisera bien
blance, montrer que lestimateur
la convergence en loi obtenue).
2) Retrouver le rsultat de la question prcdente en utilisant en particulier la mthode.
n , un intervalle de
3) Dduire, de ce comportement asymptotiquement normal de
confiance asymptotique 1 pour .
4) Montrer que si Y est une v.a. de loi Gamma G(, ), alors la v.a. Y est de loi
G(, 1).
5) En utilisant le rsultat de la question prcdente et celui vu dans lexercice 5
(partie 2) du chapitre 4, montrer que lintervalle
#
" 2
/2 (2n) 21/2 (2n)
n , 2nX
n
2nX
est un intervalle de confiance 1 exact pour , o 2 (n) est le quantile dordre
dune loi 2 (n). (Ind. On rappelle quune loi 2 (n) est une loi G(n/2, 1/2))
Solution
1) Grce nouveau au Thorme 7.5 sur le comportement asymptotique de lestimateur
du maximum de vraisemblance, on a :



L

n n N 0, I 1 () .
n

On a vu dans lExercice 1 du Chapitre 5 que linformation de Fisher pour un chantillon


de taille n dans ce modle est
n
In () = 2 .

Celle pour un chantillon de taille 1 est donc 1/2 . Finalement on a prcisment :





L
n
n
N 0, 2 .
n

2) Daprs le thorme de la limite centrale, on a :





Xn EX
L
n
N (0, 1)
n
X
c
Jean-Yves Dauxois Juillet
2011

Correction des exercices du Chapitre 8


donc ici :

133



Xn 1
1

N (0, 1).

On en dduit que



1
1
L

n Xn
N (0, 2 ).
n

En utilisant la -mthode avec la fonction g(x) = 1/x drivable sur R+ , de drive


g 0 (x) = 1/x2 , on a
  2 !
 L

1
1
0
n ) g(1/) N 0,
g
,
n g(X
n
2

cest dire


L
n
n
N

1
0, 2

3) Du rsultat prcdent on tire :


!

n
n
= n
n

1/2

2 !

= N (0, 2 ).

L
N (0, 1)

n n

n est fortement consistant par proprit de lestimateur du maximum de


puisque
vraisemblance. Ainsi
!
n

(X n , ) = n
n

est une v.a. asymptotiquement pivotale et normale.


En notant toujours z le -quantile de la loi N (0, 1), on a :
!
n

z1/2
z1/2 n
n

n
n

n
z1/2
z1/2
n
n
n
n

n
n +

z1/2
z1/2 .
n
n

Comme on a
P

z1/2

!
z1/2

1 ,

daprs la convergence obtenue plus haut, lintervalle


#
"
n
n

n z1/2 ,
n + z1/2

n
n
est un intervalle de confiance asymptotique (1 ) pour .
c
Jean-Yves Dauxois Juillet
2011

134

Correction des exercices du Chapitre 8

4) Soit Y une v.a.r. de loi G(, ) et h une fonction mesurable borne. On a :


Z
1 y
y e dy
E (h(Y )) =
h(y)
()
0
Z
1 u du
h(u)
=
u e
()

0
Z
1 1 u
h(u)
=
u e du,
(u)
0
en effectuant le changement de variable u = y dans la premire intgrale pour obtenir
la seconde. Ainsi, daprs le critre des fonctions positives, la v.a.r. Y est de loi
G(, 1).
5) On sait, daprs lExercice 5 du Chapitre 4, que si les v.a.r. X1 , . . . , Xn sont
i.i.d. de loi E(), on a :
n
X
Xi G(n, ).
i=1

En utilisant le rsultat de la question prcdente, on en dduit que


n
n
X
X

Xi G(n, 1) et aussi que 2


Xi G(n, 1/2).
i=1

i=1

Ainsi
n G
2nX

2n 1
,
2 2

= 2 (2n).

La v.a.r.
n
(X n , ) = 2nX
est alors une variable pivotale.
En notant 2/2 (2n) et 21/2 (2n) les quantiles dordre respectifs /2 et 1 /2 de
la loi 2 (2n), on a alors :
n 21/2 (2n)) = 1 .
P (2/2 (2n) 2nX
Or,
n 2
2/2 (2n) 2nX
1/2 (2n)
21/2 (2n)
2/2 (2n)

n 2nX
n .
2nX
Un intervalle de confiance exacte 1 pour est donc :
" 2
#
/2 (2n) 21/2 (2n)
.
n , 2nX
n
2nX

c
Jean-Yves Dauxois Juillet
2011

Partie 5

Devoirs

Licence de Mathmatiques 3me anne,


CTU, Universit de Franche-Comt,
Anne 2011/2012.

Devoir no1
Ce devoir peut tre abord ds que les sections 1 et 2 du Chapitre 5 ont t travailles
(ainsi que les chapitres prcdents bien sr !).
Exercice 1
1) On considre le modle statistique paramtrique des lois uniformes sur [, a] pour
a fix, i.e. P = {U[,a] : < a}. On rappelle que la densit dune loi U[,a] est :
1
f (x) =
1l[,a] (x).
a
On suppose que lon observe un chantillon X1 , . . . , Xn dans ce modle. Donner au
moins deux estimateurs du paramtre . Quel est lestimateur du maximum de vraisemblance dans ce modle (justifier votre rponse) ?
2) Quel est lestimateur du maximum de vraisemblance si on considre maintenant
le modle :
P = {U[,+a] : > 0},
o a est toujours un rel fix ?
Exercice 2
On considre un modle statistique paramtrique (R+ , BR+ , {Pa : a R+ }), o Pa
est une loi de probabilit continue de densit
fa (x) =

(k + 1)xk
1l[0,a] (x),
ak+1

avec k un paramtre connu (k > 1).


On note X la v.a. gnrique dans ce modle et X1 , . . . , Xn un chantillon dans ce
modle.
1) Montrer que fa est bien une densit de probabilit.
2) Calculer Ea (X). En dduire un estimateur du paramtre a. Sagit-il dun estimateur sans biais ? Que dire de sa consistance (on considrera la convergence p.s et
dans L2 ) ?
3) Quel est lestimateur du maximum de vraisemblance de a (on justifiera bien quil
sagit dun maximum) ?
4) Dterminer la fonction de rpartition, puis la densit de la loi de la nime statistique dordre X(n) = maxi=1,...,n Xi pour cet chantillon. Calculer son esprance. Dduire de ceci et de la question prcdente un estimateur sans biais de a.

137
Licence de Mathmatiques 3me anne,
CTU, Universit de Franche-Comt,
Anne 2011/2012.

Devoir no2
Ce devoir peut tre abord ds que le Chapitre 5 a t travaill (ainsi que les chapitres
prcdents bien sr !).

Exercice 1
On considre le modle constitu par lensemble des lois de Poisson de paramtre
pour > 0. Dterminer lestimateur du maximum de vraisemblance de la probabilit
P (X = 0). Cet estimateur est-il consistant ?
Exercice 2 On considre le modle statistique paramtrique dont la v.a. gnrique
X est discrte de loi dfinie, pour k N, par :
P (X = k) =

k
,
(1 + )k+1

o est un paramtre positif.


1) Montrer3 que E (X) = et Var (X) = 2 + .
2) Donner un estimateur de par la mthode des moments.
3) Donner une statistique exhaustive pour le modle.
4) Dterminer lestimateur du maximum de vraisemblance n de . On pourra
admettre lexistence du maximum au zro de la drive premire.
5) Cet estimateur est-il sans biais ? Consistant ? Prciser les ventuels modes de
convergence (p.s. ? dans L2 ?).
6) Cet estimateur est-il efficace ?

3On

pourra utiliser la somme de la srie gomtrique et pour la variance calculer E (X(X 1)).
c
Jean-Yves Dauxois Juillet
2011

138
Licence de Mathmatiques 3me anne,
CTU, Universit de Franche-Comt,
Anne 2011/2012.

Devoir no3
Ce devoir peut tre rsolu progressivement mais ne sera entirement ralisable quune
fois lensemble du cours et des exercices travaills. Il peut servir de bon exercice de
rvision puisquil porte sur lensemble du programme.
Soit g une fonction de R vers R suppose positive, paire, intgrable et dintgrale 1.
Pour dans [1, 1], on dsigne par P la loi de probabilit sur (R, BR ) continue et de
densit :
f (x) = g(x)[(1 )1lR (x) + (1 + )1lR+ (x)].
On considre le modle statistique (R, BR , {P : [1, 1]}) et X = (X1 , . . . , Xn )
un chantillon dans ce modle. On dfinit la statistique
n
X
T (X) =
Yi ,
i=1

avec Yi = 1lR+ (Xi ), pour i = 1, . . . , n.


1) Que reprsente T (X) ?
2) Montrer que la vraisemblance pour lobservation x = (x1 , . . . , xn ) de lchantillon
X peut scrire sous la forme :
n
Y
T (x)
nT (x)
L(x1 , . . . , xn ; ) = (1 + )
(1 )
g(xi ).
i=1

3) Dterminer lestimateur du maximum de vraisemblance n (X) de (on justifiera


bien quil sagit dun maximum).
4) Montrer que n (X) est un estimateur sans biais et consistant de .
5) Lestimateur n (X) est-il efficace ?

6) tudier la convergence en loi de n(n (X) ).


7) En dduire un intervalle de confiance asymptotique 1 pour le paramtre .

c
Jean-Yves Dauxois Juillet
2011

139
Licence de Mathmatiques 3me anne,
CTU, Universit de Franche-Comt,
Anne 2011/2012.

Devoir no4
Ce devoir peut tre rsolu progressivement mais ne sera entirement ralisable
quune fois lensemble du cours et des exercices travaills. Il peut servir de bon exercice
de rvision puisquil porte sur lensemble du programme.
On considre le modle de la loi Bta un seul paramtre :
(R+ , BR+ , {Beta(1, ) : > 0}).
On rappelle que la densit de la v.a. gnrique X dans ce modle est
f (x) = (1 x)1 1l[0,1] (x).
On suppose que lon observe un chantillon X1 , . . . , Xn dans ce modle.
1) Donner un estimateur de par la mthode des moments
2) crire la vraisemblance de lchantillon observ x1 , . . . , xn .
3) Donner une statistique exhaustive.
4) Donner lestimateur du maximum de vraisemblance de . On note cet estimateur.
5) Montrer que la v.a. Y = ln(1 X) est de loi exponentielle de paramtre .
6) Lestimateur est-il consistant
Pn ?
7) Montrer que la v.a. Z = i=1 Yi , o Yi = ln(1 Xi ) pour tout i = 1, . . . , n,
est de loi Gamma de paramtre n et .
8) Calculer lesprance de et en dduire que
n1
=
Z
est un estimateur sans bais de .
9) Ce dernier estimateur est-il consistant ?
10) Calculer linformation de Fisher apporte par lchantillon.
11) Lestimateur est-il efficace ? Sinon, lest-il asymptotiquement ?
12) On note Y la moyenne empirique des v.a. Y1 , . . . , Yn . Montrer que lon a la
convergence en loi

L
n(Y 1) N (0, 1),
quand n +.
13) En dduire un intervalle de confiance asymptotique 1 pour .

c
Jean-Yves Dauxois Juillet
2011

140

Quelques rappels
On rappelle que la fonction Bta est dfinie par
Z 1
xa1 (1 x)b1 dx,
(a, b) =
0

pour tout a et b strictement positifs et que lon a la relation


(a)(b)
(a, b) =
,
(a + b)
o
Z +
xa1 ex dx.

(a) =
0

On rappelle que lon a galement : (a + 1) = a(a) pour tout a strictement


positif.
Une v.a. X est dite de loi exponentielle de paramtre si elle est absolument
continue de densit
f (x) = ex 1lR+ (x).
Une v.a. X est dite de loi Gamma de paramtres et si elle est absolument
continue de densit
1 x
f (x) =
x e 1lR+ (x).
()
Une v.a. X est dite de loi de Poisson de paramtres si elle est discrte avec
les probabilits
k
P (X = k) = e ,
k!
pour k N.

c
Jean-Yves Dauxois Juillet
2011

141
Licence de Mathmatiques 3me anne,
CTU, Universit de Franche-Comt,
Anne 2011/2012.

Devoir no5
Ce devoir peut tre rsolu progressivement mais ne sera entirement ralisable
quune fois lensemble du cours et des exercices travaills. Il peut servir de bon exercice de rvision puisquil porte sur lensemble du programme.
On dit quune v.a.r. X est de loi de Pareto de paramtres (suppos strictement
suprieur 1) et (suppos strictement positif) si elle est absolument continue de
densit
f, (x) = ( 1)1 x 1l[,+[ (x).
Cette loi est trs utilise en gestion de la qualit, en actuariat ou bien encore en thorie
des files dattente (par exemple pour la modlisation des rseaux internet). Lobjet de
ce problme est dtudier cette loi et quelques problmes dinfrence statistique dans ce
cadre.
Partie A Quelques rsultats de probabilits (utiles dans la suite du problme)
1) Montrer que la fonction de rpartition dune telle v.a.r. est non nulle seulement
si x > et que dans ce cas elle peut scrire sous la forme :
 1

F (x) = 1
.
x
2) Soit Y la v.a.r. dfinie par

Y = log


.

Montrer que la loi de Y est une loi exponentielle4 de paramtre 1.


Partie B Infrence sur le paramtre , en supposant connu
Dans cette partie, on suppose que le paramtre est connu. On considre donc le
modle paramtrique
(R+ , BR+ , {P : > 1}),
o P est la loi de Pareto de paramtre et . On suppose que lon observe un
chantillon X1 , . . . , Xn dans ce modle.
1) Donner une statistique exhaustive dans ce modle.
4On

rappelle quune v.a.r. est dite de loi exponentielle de paramtre si elle est absolument
continue de densit :
f (x) = ex 1lR+ (x).

c
Jean-Yves Dauxois Juillet
2011

142
2) Donner lestimateur du maximum de vraisemblance
. On justifiera bien quil
sagit dun maximum.
3) Montrer que cet estimateur est fortement consistant.
4) Montrer, en utilisant les rsultats sur le comportement asymptotique des estimateurs du maximum de vraisemblance, que lon a :

L
n(
) N (0, ( 1)2 ),
quand n +.
5) Retrouver ce rsultat par une autre mthode5.
6) Donner un intervalle de confiance asymptotique 95% pour .
Partie C Infrence sur le paramtre , en supposant connu
Dans cette partie, on suppose que le paramtre est connu et que ne lest plus.
On considre donc le modle paramtrique
(R+ , BR+ , {P : > 0}),
o P est la loi de Pareto de paramtre et . On suppose que lon observe un
chantillon X1 , . . . , Xn dans ce modle.
1) Donner une statistique exhaustive pour le paramtre .
2) Donner lestimateur du maximum de vraisemblance de .
3) Calculer la loi de cet estimateur.
Partie D Infrence dans le modle gnral
On considre maintenant le modle paramtrique
(R+ , BR+ , {P, : > 1, > 0}),
o P, est la loi de Pareto de paramtre et . On suppose que lon observe un
chantillon X1 , . . . , Xn dans ce modle.
1) Donner une statistique exhaustive dans ce modle.
2) Quel est lestimateur du maximum de vraisemblance du paramtre multidimensionnel (, ) ?

5On

rappelle que la variance dune loi exponentielle E() est 1/2 .


c
Jean-Yves Dauxois Juillet
2011

Anda mungkin juga menyukai