Anda di halaman 1dari 409

UNIVERSITE VICTOR SEGALEN BORDEAUX 2

U.F.R. "Sciences et Modélisation"

COURS de STATISTIQUE MATHEMATIQUE


Modèles, Méthodes, Applications

à
l’usage des étudiants de DEUG, Licence et Master

M. Nikulin
V. Bagdonavičius
C. Huber
V. Nikoulina

BORDEAUX
2004/2005

1
2
Table des matières

0 LOIS USUELLES. APPROXIMATIONS. 11


0.1 Lois discrètes. Approximations normale et de Poisson. Théorème limite
central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
0.2 Approximations normales et de Poisson . . . . . . . . . . . . . . . . . . . 14
0.3 Lois continues. Liaisons entre des lois . . . . . . . . . . . . . . . . . . . . 15
0.4 Epreuves de Bernoulli et marches aléatoires. . . . . . . . . . . . . . . . . 22
0.5 Représentation d’une suite d’épreuves de Bernoulli indépendante . . . . . 22
0.6 Probabilités associées à une marche aléatoire reliant 2 points du treillis S . 23
0.7 Frontière absorbante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
0.8 Marches aléatoires et distributions discrètes . . . . . . . . . . . . . . . . . 24

1 QUELQUES PROBLÈMES CLASSIQUES DE LA STATISTIQUE MATHE-


MATIQUE. 31
1.1 Problèmes d’estimation et de comparaison des probabilités de succès. . . . 31
1.2 Modèle probabiliste de l’erreur de mesure. . . . . . . . . . . . . . . . . . 41
1.3 Méthode de Monte-Carlo. . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2 ELEMENTS DE LA THEORIE DE L’ESTIMATION PONCTUELLE. 55


2.1 Modèle statistique. Fonction de vraisemblance. . . . . . . . . . . . . . . . 55
2.2 Statistique. Échantillon. Loi empirique. . . . . . . . . . . . . . . . . . . . 56
2.3 Estimateur ponctuel. Consistance. Estimateur invariant . . . . . . . . . . . 62
2.4 Fonction de perte, fonction de risque. . . . . . . . . . . . . . . . . . . . . 64
2.5 Statistiques exhaustives, nécessaires, minimales et complètes. . . . . . . . 65
2.6 Information de Fisher. Inégalité de Rao-Cramer-Fréchet. Théorème de Rao-
Blackwell-Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.7 Méthode des moments. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.8 Méthode des moindres carrés. Modèle de Gauss de la théorie des erreurs. . 81
2.9 Régions, intervalles, limites de confiance. . . . . . . . . . . . . . . . . . . 86
2.10 Méthode de Bolshev de construction des limites de confiance. . . . . . . . 88
2.11 Théorème de Fisher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
2.12 Intervalle de confiance pour la moyenne d’une loi normale . . . . . . . . . 100
2.13 Intervalle de confiance pour la variance d’une loi normale . . . . . . . . . 105
2.14 Intervalle de confiance pour la différence des moyennes de deux lois normales112
2.15 Intervalle de confiance pour le quotient des variances de deux lois normales. 117
2.16 La loi de Thompson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.17 Méthode du maximum de vraisemblance. . . . . . . . . . . . . . . . . . . 121
2.18 Propriétés asymptotiques du rapport de vraisemblance . . . . . . . . . . . 132

3
2.19 Decomposition orthogonale de Fisher . . . . . . . . . . . . . . . . . . . . 151
2.20 Modèle d’analyse des variances à 2 facteurs. . . . . . . . . . . . . . . . . 154
2.21 Modèle exponentiel. Analyse statistique. . . . . . . . . . . . . . . . . . . 163

3 ELEMENTS DE LA STATISTIQUE NON PARAMETRIQUE. 169


3.1 La loi empirique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
3.2 Médiane de la loi empirique. . . . . . . . . . . . . . . . . . . . . . . . . . 180
3.3 Théorème de Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . 183
3.3.1 Transformation de Smirnov. Test de type de Kolmogorov-Smirnov
pour des lois discrètes. . . . . . . . . . . . . . . . . . . . . . . . . 184
3.4 Tests de Kolmogorov et Smirnov pour un échantillon. . . . . . . . . . . . 186
3.5 Test de Kolmogorov-Smirnov pour deux échantillons. . . . . . . . . . . . 189
3.6 Test ω2 de Cramer-von Mises et statistiques associées de Lehmann, Gini,
Downton, Moran-Greenwood et Sherman. . . . . . . . . . . . . . . . . . . 190
3.7 Les statistiques de Kolmogorov et Gihman. . . . . . . . . . . . . . . . . . 195
3.8 Test des signes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
3.9 Test de Wilcoxon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
3.10 Estimation non paramétrique de la densité. Histogramme. Estimateur de
Rosenblatt. Le noyau de Parzen. . . . . . . . . . . . . . . . . . . . . . . . 204

4 TESTS STATISTIQUES. 207


4.1 Principe des tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
4.2 Test de Neyman-Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . 209
4.3 Loi multinomiale et test du chi-deux de Pearson. . . . . . . . . . . . . . . 214
4.4 Théorème de Fisher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
4.5 Théorème de Chernoff-Lehmann. . . . . . . . . . . . . . . . . . . . . . . 224
4.6 Test du chi-deux pour une loi logistique. . . . . . . . . . . . . . . . . . . . 225
4.7 Test du chi-deux dans un problème d’homogénéité. . . . . . . . . . . . . . 228
4.8 Test du χ2 d’homogénéité pour des lois multinomiales. . . . . . . . . . . . 233
4.9 Test du χ2 pour l’indépendance dans une table de contingence. . . . . . . . 236
4.10 Test du Chauvenet pour la détection des observations aberrantes. . . . . . . 241

5 REGRESSION 243
5.1 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
5.1.1 Modèle de la régression linéaire . . . . . . . . . . . . . . . . . . . 243
5.1.2 Codage des covariables . . . . . . . . . . . . . . . . . . . . . . . 244
5.1.3 Interprétation des coefficients β. . . . . . . . . . . . . . . . . . . . 245
5.1.4 Modèle avec interactions . . . . . . . . . . . . . . . . . . . . . . 245
5.1.5 Estimateurs des moindres carrés . . . . . . . . . . . . . . . . . . . 246
5.1.6 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . 247
5.1.7 Décomposition des sommes de carrés . . . . . . . . . . . . . . . . 250
5.1.8 Le coefficient de détermination. . . . . . . . . . . . . . . . . . . . 252
5.1.9 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . 253
5.1.10 Régression normale . . . . . . . . . . . . . . . . . . . . . . . . . 254
5.1.11 Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . 255
5.1.12 Lois des estimateurs β̂ et σ̂2 . . . . . . . . . . . . . . . . . . . . . . 255
5.1.13 Test de l’hypothèse H0 : βk+1 = ... = βm = 0 . . . . . . . . . . . . 257
5.1.14 Les coefficients empiriques de la correlation partielles . . . . . . . 260

4
5.1.15 Intervalles de confiance pour les coefficients β et leur combinaisons
linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
5.1.16 Intervalles de confiance pour les valeurs de la fonction de régres-
sion m(x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
5.1.17 Prédiction de la nouvelle observation . . . . . . . . . . . . . . . . 263
5.1.18 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . 263
5.2 Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
5.3 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
5.3.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

6 ELEMENTS D’ANALYSE DES DONNEES CENSUREES ET TRONQUEES.281


6.1 Distribution de survie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
6.2 Risque de panne ou taux de défaillance. . . . . . . . . . . . . . . . . . . . 284
6.3 Modèles paramétriques de survie. . . . . . . . . . . . . . . . . . . . . . . 289
6.4 Modèles nonparamétriques . . . . . . . . . . . . . . . . . . . . . . . . . . 298
6.5 Types de censure. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
6.6 Troncature. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
6.7 Estimateur de Kaplan-Meier. . . . . . . . . . . . . . . . . . . . . . . . . . 316
6.8 Modèle de Cox. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
6.9 Sur l’estimation semiparamétrique pour le modèle de Cox . . . . . . . . . 323
6.10 Processus de comptage et l’estimation non paramétrique . . . . . . . . . . 328
6.11 Estimation dans des expériences accélérées . . . . . . . . . . . . . . . . . 336
6.11.1 Modèles de vie accélérée . . . . . . . . . . . . . . . . . . . . . . 336
6.11.2 Estimation paramétrique . . . . . . . . . . . . . . . . . . . . . . . 341
6.11.3 Estimation semiparamétrique . . . . . . . . . . . . . . . . . . . . 350

7 INFERENCE BAYESIENNE 357


7.1 La règle Bayesienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
7.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
7.3 Approche bayesienne empirique . . . . . . . . . . . . . . . . . . . . . . . 370
7.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
7.4.1 La loi beta et ses propriétés . . . . . . . . . . . . . . . . . . . . . 370
7.5 Résultats principaux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
7.6 Aproximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373

8 EXERCICES. 375

9 SOLUTIONS. 383

5
6
AVANT PROPOS

Ce fascicule est destiné tout d’abord aux étudiants de


l’UFR "Sciences et Modélisation"
(ancienne l’UFR MI2S) de l’Université Victor Segalen Bordeaux 2, qui veulent apprendre
les notions fondamentales de la statistiques mathématiques. Le contenu de ce fascicule est
une synthèse des des cours de statistique que j’ai donné à l’Université Bordeaux 2, l’Univer-
sité Bordeaux 1 et l’Univrsité Bordeaux 4 dans les années 1992-2002. Il est supposé que les
étudiants aient la connaissance avec des notions fondamentalles de la théorie de probabilité
pour apprendre la première partie de cours et de la théorie des processus stochastiques pour
la deuxième partie, exposées par exemple, dans le fascicule
"Calcul des Probabilités et Introduction aux Processus Aléatoires", 2000/2001, UFR
MI2S, (V.Bagdonavičius, V.Nikoulina et M.Nikulin). Il y a une corrélation forte positive
entre ces deux cours.
Il faut remarquer qu’à la base de cet ouvrage se trouvent les mêmes idées statistiques
qui étaient exposées dans les deux polycopies de C.Huber et M.Nikulin :
"Transformations des variables aléatoires. Applications au choix et à la réduction d’un
modèle statistique", (1991), UFR "Etudes Médicales et Biologiques", Université Paris 5,
et "Applications Statistiques des Transformations des Variables Aléatoires", (1993), UFR
MI2S, Université Bordeaux 2.
Pour traiter bien les données, c’est-à-dire pour mener à bien les estimations et les tests
classiques, paramétriques ou non paramétriques, on transforme les observations brutes en
calculant des statistiques bien choisies qui doivent avoir les propriétés suivantes :
1. Perdre le moins d’information possible, éventuellement pas du tout et c’est le cas des
statistiques exhaustives, tout en réduisant au minimum le volume initial des observations.
2. Etre calculable ou avoir une bonne approximation. Par exemple s’il s’agit d’un esti-
mateur obtenu par la méthode de maximum de vraisemblance, il se peut que l’on ne puisse
en obtenir aisément qu’une valeur approchée au premier pas à partir d’un estimateur moins
bon.
3. Leurs lois doivent être, soit connues explicitement, soit admettre une bonne approxi-
mation. Bonne voulant dire à la fois simple à calculer et ayant une bonne vitesse de conver-
gence vers la vraie valeur.
Ce qui suit donne, grâce à des transformations appropriées des observations, des statis-
tiques qui ont ces propriétés et aussi de bonnes approximations des lois usuelles et permet
ainsi de n’utiliser essentiellement que deux tables : celle de la loi normale standard et celle
des lois gamma (ou chi-deux). Des exemples illustrent l’application de ces méthodes, qui
donnent des approximations meilleures ( vitesse de convergence plus rapide) que les ap-
proximations usuelles.
Ces techniques sont très utiles pour tous les statisticiens qui travaillent sur des pro-

7
blèmes concrets, en particulier pour les ingénieurs, mais aussi, et c’est moins connu, dans
les domaines de la médecine, de la biologie et de la sociologie.
De plus cette approche nous permet de considérer "les transformations des variables
aléatoires" comme le synonyme d’une partie de "la statistique mathématique", qui est basée
sur la théorie de la probabilité. Ce point de vue sur le rôle des transformations des variables
aléatoires dans la statistique a été exprimé tres nettement par Professeur L.N. Bolshev dans
ces articles, voir, par exemple, (1959), (1963) etc.
Dans cette optique C.Huber, T.Smith and M.Nikulin ont préparé le manuscript "Intro-
duction to the Theory of Statistical Inference",(1992), Departement of Mathematics and
Statistics, Queen’s University, Kingston, Canada. Ce manuscrit a été largement utilisé pour
créer la base du cours de la statistique que j’ai donné à Queen’s University en 1991-1992,
ainsi que les cours de statistiques donnés au sein de l’UFR MI2S à l’Université Bordeaux
2.
Il faut noter que pour préparer le cours actuel nous avons utilisé aussi les livres suivants :
V. Bagdonavičius & M.Nikulin, "Accelerated Life Models", 2002,
Chapman&Hall/CRC : Boca Raton,
C.Huber, "Statistique au PCEM",1992, Masson, Paris,
V.Voinov & M.Nikulin, "Unbiased Estimators and Their Applications. Vol.1 : Univa-
riate Case" 1993, Kluwer Academic Publishers, Dortrecht),
V.Voinov & M.Nikulin, "Unbiased Estimators and Their Applications. Vol.2 : Multiva-
riate Case", 1996, Kluwer Academic Publishers, Dortrecht,
P.E.Greenwood & M.Nikulin, "A Guide to Chi-Squared Testing", 1996, John Wiley and
Sons, New-York,
Encyclopaedia of Mathematics, 1994, (Editor : M.Hasewinkel), Kluwer Academic Pu-
blishers, v. 1-10,
Probability & Mathematical Statistics : Encyclopaedia, 1999, (Ed. : Yu.V.Prokhorov),
Big Russian Encyclopaedia,Moscow,
d’où était tiré la plupart des exemples, définitions, remarques, exercises et démonstrations
des résultats à caractère théorique pour construire les cours de statistique que nous avons
donné à l’Université Bordeaux 2 (DEUG, Licence et Maîtrise de la filère MASS, DESS et
DEA de la filière Sciences Cognitive à l’UFR MI2S, DESS de Statistique Appliquée aux
Sciences Sociales et de Santé de l’ISPED. Ce cours est lié avec d’autres cours de statis-
tiques donnés à l’Université Bordeaux 2 ( les UFR’s STAPS, Sciences de la Vie, Sciences
Pharmaceutiques, l’ISPED) et peut-être bien utilisé comme le support de base dans l’en-
seignement des cours de statistiques de niveau de DESS et DEA orientés vers le milieu
biomédicale, ainsi que pour les sciences sociales et économiques. En particulier, il est bien
adapté pour le DESS "Statistique Appliquée aux Sciences Sociales et de la Santé" et DEA
d’Epidémiologie (Option Biostatistique) à l’Institut de Santé Publique, d’Epidémiologie et
de Développement. Cet ouvrage est tres lié avec notre ouvrage précident "Statistique ma-
thématique : Théorie, Méthodes and Applications", (2000/2001).
Dans ces cours nous avons essayé d’exposer les idées et les notions fondamentales de
la statistique mathématique en termes de définitions, exemples et remarques et d’introduire
les techniques des transformations des données et les méthodes statistiques que l’on utilise
souvent dans les applications. Tout cela ensemble permet d’apprendre les bases fondamen-
tales de la statistique mathématique, d’apprendre à travailler avec des logiciels et des tables
statistiques, de construire des modèles probabilistes et de faire des inférences statistiques,
et par conséquent, à être pret de travailler dans les différents domaines d’applications des

8
modèles et méthodes de la statistique mathématique. Il est évident que ce cours de statis-
tique reflète des intérets statistiques des auteurs et que nous avons traité plus profondément
les thèmes qui sont proches aux thèmes de recherches, développés au sein du Laboratoire
"Statistique Mathématiques et ses Applications" de l’Université Bordeaux 2. Il faut noter
que parallelement à l’Université Bordeaux 2 on fait d’autres cours de statistiques, qui sont
plus appliqués et où on considère des méthodes d’analyse des données, de la statistique
multivariée, de l’analyse des régressions et surtout de l’analyse de survie dans le cadre des
cours de statistiques de l’ISPED.
Vu l’importance d’applications des modèles semiparamétriques avec des covariables dé-
pendant du temps dans l’analyse de survie, en fiabilité, dans l’économie etc., nous avons mis
quelques résultas récents, liés avec la théorie des épreuves accélérées. Plus d’informations
on peut voir, par exemple, dans nos monographies avec V.Bagdonavičius “Semiparametric
Models in Accelerated Life Testing”, (1995), et "Additive and Multiplicative Semiparame-
tric Models in Accelerated Life Testing and Survival Analysis", (1998).
A la fin il faut ajouter que nos cours de statistiques sont accompagnés des travaux pra-
tiques en Statistiques avec l’utilisation de SPSS.
Je remercie mes collegues des Universités Bordeaux 1, 2 et 4, de l’Université Paris
5, et tous les participants au Séminaire Statistique des Universités de Bordeaux et du Sé-
minaire Européan "Mathematical Methods in Survival Analysis and Reliability", avec les-
quels nous avons discuté sur les problèmes d’enseignement de la statistique. Les discus-
sions ont été très intéressantes et très utiles pour nous, et surtout avec A.Alioum„ Ch.Bulot,
D.Commenges, V.Couallier, L.Gerville-Réache, H.Lauter, M.Mesbah, J.Poix, V.Solev, V.Voinov.
Mikhail Nikouline

9
10
Chapitre 0

LOIS USUELLES.
APPROXIMATIONS.

0.1 Lois discrètes. Approximations normale et de Poisson.


Théorème limite central

Ici nous allons exposer des lois probabilistes que l’on utilise souvent en applications sta-
tistiques, des liaison entre elles et des approximations utiles. Plus d’information à ce sujet
on peut trouver dans les publications de L.Bolshev (1963), C.Huber et M.Nikulin (1993),
où, en particulier, est exposé la théorie des transformations asymptotique de Pearson, dé-
veloppée par L.Bolshev, voir aussi, L.Bolshev et N.Smirnov (1968), M.Nikulin (1984),
Bagdonaviv̧uis et Nikulin (2002).
Définition 1. On dit qu’une variable aléatoire discrète X suit la loi de Bernoulli de
paramètre p, p ∈ [0, 1], si X ne prend que 2 valeurs 1 et 0 avec les probabilités

p = P{X = 1} et q = 1 − p = P{X = 0},

i.e.
P{X = x} = px (1 − p)1−x , x ∈ {0, 1}. (1)
Il est clair que
1
EX = p, Var X = EX 2 − (EX)2 = pq ≤ .
4
On remarque que
Var X
= q < 1.
EX
Définition 2. Soient X1 , ..., Xn des variables aléatoires indépendantes et qui suivent la
même loi de Bernoulli (1) de paramètre p. Dans ce cas on dit que la statistique
n
µn = ∑ Xi
i=1

suit la loi binomiale B(n, p) de paramètres n et p, 0 ≤ p ≤ 1, et on note µn ∼ B(n, p).

11
Il est facile de montrer que
µ ¶
n
P{µn = k} = pk (1 − p)n−k , k ∈ {0, 1, ..., n}, (2)
k

Eµn = np, Var µn = np(1 − p) = npq.


La fonction de répartition de µn est
m µ ¶
n
P{µn ≤ m} = ∑ pk (1 − p)n−k = 1 − I p (m + 1, n − m) =
k=0
k

I1−p (n − m, m + 1), 0 ≤ m ≤ n, (3)


où Z x
1
Ix (a, b) = ua−1 (1 − u)b−1 du, 0 < u < 1, (4)
B(a, b) 0

est la fonction Béta incomplète de Euler (a > 0, b > 0),


Z 1
B(a, b) = ua−1 (1 − u)b−1 du (5)
0

la fonction Béta de Euler.


Exemple 1. Soit X1 , ..., Xn une suite de variables aléatoires, qui suivent la même loi de
Bernoulli de paramètre p = 0.5 :

P{Xi = 1} = P{Xi = 0} = 0.5.

Notons
Sn = X1 + ... + Xn et τ = min{k : Sk > a},
où a est une constante positive.
Construisons des variables aléatoires

Yn = Sτ+n − Sτ+(n−1) , n = 1, 2, ....

Il est facile de montrer que Y1 ,Y2 , ...,Yn , ... forment une suite de variables aléatoires indé-
pendantes, ayant la même loi de Bernoulli de paramètre p = 0.5 :

P{Yn = 1} = P{Yn = 0} = 0.5.

Définition 3. On dit qu’une variable aléatoire X suit la loi uniforme discrète sur l’en-
semble {1, 2, ..., N}, si

1
P{X = k} = , ∀k ∈ {1, 2, ..., N}.
N
Il est facile de montrer que

N +1 N2 − 1
EX = , Var X = .
2 12

12
Définition 4. On dit que la variable aléatoire discrète X suit la loi géométrique de
paramètre p, 0 < p < 1, si

P{X = k} = p(1 − p)k , ∀k ∈ {0, 1, 2, ...}.

On peut montrer que


1− p 1− p
EX = , Var X = ,
p p2
et la fonction de répartition de X est
n
P{X ≤ n} = ∑ p(1 − p)k = 1 − P{X ≥ n + 1} =
k=0

1 − I1−p (n + 1, 1) = I p (1, n + 1), n ∈ {0, 1, ...}.

On remarque que
Var X 1
= > 1.
EX p
Définition 5. On dit que la variable aléatoire discrète X suit la loi de Poisson de para-
mètre λ, λ > 0, si
λk
P{X = k} = e−λ , k ∈ {0, 1, 2, ...}.
k!
Il est facile de montrer que
EX = Var X = λ,

et donc
Var X
= 1.
EX
La fonction de répartition de X est

m
λk −λ
P{X ≤ m} = ∑ e = 1 − Iλ(m + 1),
k=0 k!

où Z x
1
Ix ( f ) = t f −1 e−t dt, x > 0,
Γ( f ) 0

est la fonction Gamma incomplète de Euler avec f degrés de liberté, f > 0.


Pour les calculs très approximatifs quand les valeurs de λ sont assez grandes on peut
utiliser l’approximation normale simple :
µ ¶ µ ¶
m + 0.5 − λ 1
P{X ≤ m} = Φ √ +O √ , λ → ∞.
λ λ

13
0.2 Approximations normales et de Poisson

Théorème Limite Central de Moivre-Laplace. Soit {Xn }∞ n=1 } une suite de variables
aléatoires indépendantes de même loi de Bernoulli de paramètre p, 0 < p < 1 :

P{Xi = 1} = p, P{Xi = 0} = q = 1 − p,
½ ¾
µn − np
µn = X1 + ... + Xn , Fn (x) = P √ ≤x , x ∈ R1 .
npq
Alors, uniformément par rapport à x, x ∈ R1 ,
Z x
1 2 /2
Fn (x) → Φ(x) = √ e−t dt, n → ∞.
2π −∞

Du théorème limite central il suit que pour les grands valeurs de n


½ ¾
µn − np
P √ ≤ x ≈ Φ(x).
npq

Souvent on utilise cette approximation avec la correction de continuité 0.5 :


½ ¾
µn − np + 0.5
P √ ≤ x ≈ Φ(x),
npq

voir, par exemple, Greenwood & Nikulin (1996).


Théorème de Poisson.
Soit {µn } une suite de variables binomiales, µn ∼ B(n, pn ), 0 < pn < 1, telle que

npn → λ, quand n → ∞, où λ > 0.

Alors
λm −λ
lim P{µn = m} = e .
n→∞ m!
En pratique cela signifie que pour n “grand” et p “petit” on obtient l’approximation de
Poisson de la loi binomiale B(n, p) par une loi de Poisson de paramètre λ = np :

λm −λ
P{µn = m} ≈ e .
m!
On peut montrer (J.L. Hodges et L. Le Cam, 1968) que
x µ ¶ √
n x
λm −λ C
sup | ∑ pm (1 − p)n−m − ∑ e |≤ √ , avec C ≤ 3 λ.
x m=0 m m=0 m! n

Théorème Limite Central de Lévy.


Soit {Xn }∞
n=1 une suite de variables aléatoires indépendantes de même loi telle que

EXi = µ et Var Xi = σ2

14
existent. Notons Sn = X1 + ...Xn . Alors, uniformément par rapport à x ∈ R1
½ ¾
Sn − nµ
P √ ≤ x → Φ(x), n → ∞.
σ n
Corrolaire 1. Dans les conditions du Théorème de Lévy on a : quelque soit ε > 0
½¯ ¯ √ ¾
1 n ¯ Sn − nµ ¯ ε n
P{| ∑ X j − µ| ≥ ε} = P ¯¯ √ ¯¯ >
n j=1 σ n σ
µ√ ¶
ε n
≈ 2Φ − .
σ

Par exemple, si ε = 3σ/ n, alors
n
1
P{|
n ∑ X j − µ| ≤ ε} ≈ 0.997,
j=1

si ε = 2σ/ n, alors
n
1
P{|
n ∑ X j − µ| ≤ ε} ≈ 0.965.
j=1

0.3 Lois continues. Liaisons entre des lois

Définition 1. On dit qu’une variable aléatoire U suit la loi uniforme sur [a, b], si la
densité de probabilité de U est donnée par la formule :
1
f (x; a, b) = 1 (x), x ∈ R1 .
b − a [a,b]
La fonction de répartition de U est
x−a
F(x; a, b) = P{U ≤ x} = 1 (x) + 1]b,+∞[ (x), x ∈ R1 .
b − a [a,b]
Il est facile de vérifier que
a+b (b − a)2
EU = , VarU = .
2 12
Remarque 1. Soit X une variable aléatoire continue. Notons F(x) sa fonction de répar-
tition. Il est facile de vérifier que la variable aléatoire U = F(X) suit la loi uniforme sur
[0, 1]. Souvent on dit que pour obtenir U on a appliquée la transformation de Smirnov.
Définition 2. On dit qu’une variable aléatoire Z suit la loi normale standard N(0, 1) ou
réduite, si la densité de probabilité ϕ(x) de Z est donnée par la formule
1 2
ϕ(x) = √ e−x /2 , x ∈ R1 . (1)

15
La fonction de répartition correspondante joue un rôle important dans la suite. Aussi lui
donne-t-on un nom particulier, on l’appelle Φ :
Z x
1 2 /2
Φ(x) = P{Z ≤ x} = √ e−z dz, x ∈ R1 . (2)
2π −∞

De (2) on déduit que


Φ(x) + Φ(−x) ≡ 1, x ∈ R1 . (3)
Soit x un nombre quelconque fixé et soit

p = Φ(x), 0 < p < 1. (4)

Si nous notons Ψ(y) = Φ−1 (y) la fonction inverse de y = Φ(x), 0 < y < 1, de (3) et (4) il
résulte que
Φ[Ψ(p)] ≡ p et Φ[Ψ(1 − p)] ≡ 1 − p (5)
pour tout p, 0 < p < 1. De plus comme

Φ(−x) = 1 − Φ(x) = 1 − p et − x = Ψ(1 − p),

quand x = Ψ(p), on en déduit que

Ψ(p) + Ψ(1 − p) ≡ 0, 0 < p < 1. (6)

Il est connu que EZ = 0, Var Z = 1.


Soit X = σZ + µ, où Z ∼ N(0, 1), |µ| < ∞, σ > 0. Dans ce cas on dit que X suit la
loi normale N(µ, σ2 ) de paramétres

µ = EX et σ2 = Var X. (7)

La densité de X est
µ ¶ ½ ¾
1 x−µ 1 (x − µ)2
ϕ =√ exp − , x ∈ R1 , (8)
σ σ 2πσ 2σ2

et la fonction de répartition est


¶ µ
x−µ
P{X ≤ x} = Φ , x ∈ R1 . (9)
σ

Définition 3. On dit qu’une variable aléatoire χ2f suit la loi de chi-deux à f degrés de
liberté, f > 0, si sa densité de probabilité est donnée par la formule

1 f
q f (x) = f
³ ´ x 2 −1 e−x/2 1]0,∞[ (x), x ∈ R1 , (10)
2 Γ 2f
2

où Z ∞
Γ(a) = t a−1 e−t dt, a>0 (11)
0
est la fonction Gamma de Euler.

16
Nous allons noter Q f (x) = P{χ2f ≤ x} la fonction de répartition de χ2f . Par des calculs
directs il est facile de montrer que

Eχ2f = f et Var χ2f = 2 f . (12)

Cette définition de la loi du chi-deux n’est pas constructive. Pour construire une variable
aléatoire χ2n , n ∈ N ∗ , il suffit de prendre n variables aléatoires indépendantes Z1 , ..., Zn , qui
suivent la même loi normale standard N(0, 1) et construire la statistique

Z12 + ... + Zn2 .

On peut montrer que P{Z12 + ... + Zn2 ≤ x} = Qn (x), i.e.,

Z12 + ... + Zn2 = χ2n (13)

suit la loi de chi-deux à n degrés de liberté. Souvent (13) on prend pour la définition de χ2n .
Nous allons suivre aussi cette tradition.
D’après le Théorème Limite Central il résulte que si n est assez grand alors on a l’ap-
proximation normale :
½ 2 ¾ µ ¶
χn − n 1
P √ ≤ x = Φ(x) + O √ .
2n n

On utilise aussi souvent pour la loi du χ2 l’approximation normale de Fisher, d’après la-
quelle µ ¶
q √ 1
P{ 2χ2n − 2n − 1 ≤ x} = Φ(x) + O √ , n → ∞.
n
Les meilleurs résultats donne l’approximation normale de Wilson-Hilferty :
"µr ¶r # µ ¶
x 2 9n 1
P{χn ≤ x} = Φ
2 3
−1+ +O , n → ∞.
n 9n 2 n

Définition 4. On dit qu’une variable aléatoire γ f suit la loi Gamma à f degrés de liberté
( f > 0), si pour tout x > 0
P{γ f ≤ x} = Ix ( f ), (14)
où x Z
1
Ix ( f ) = t f −1 e−t dt (15)
Γ( f ) 0
est la fonction Gamma incomplète de Euler.
Il est facile de vérifier que
1 2
χ = γf . (16)
2 2f
En effet, ∀x > 0 on a
Z 2x
1 1
P{ χ22 f ≤ x} = P{χ22 f ≤ 2x} = Q2 f (2x) = f t f −1 e−t/2 dt.
2 2 Γ( f ) 0

En faisant le changement de variable t = 2u, on trouve que


Z x
1 1
P{ χ22 f ≤ x} = u f −1 e−u du = Ix ( f ) = P{γ f ≤ x},
2 Γ( f ) 0

17
où γ f est une variable aléatoire qui suit la loi gamma à f degrés de liberté. En utilisant la
relation (16) on trouve que
1 1 1
Eγ f = E χ22 f = f , Var γ f = Var χ22 f = Var χ22 f = f .
2 2 4
Si f = 1, alors de (14) on déduit
Z x
P{γ1 ≤ x} = e−t dt = 1 − e−x , x > 0, (17)
0
c’est-à-dire que la variable aléatoire γ1 suit la loi exponentielle standard. De cette propriété
et de (16) on tire que 12 χ22 suit la loi exponentielle standard aussi.
Théorème 1 Soient X1 , ..., Xn des variables aléatoires indépendantes, qui suivent la
même loi exponentielle (17). Alors leur somme suit la loi gamma à n degrés de liberté, i.e.
X1 + ... + Xn = γn . (18)
Remarque 2. Soit X une variable aléatoire qui suit la loi de Poisson de paramètre λ,
λ > 0. Il est facile de montrer que pour tout m ∈ N
P{X ≤ m} = P{γm+1 ≥ λ} = P{χ22m+2 ≥ 2λ} =
1 − P{χ22m+2 ≤ 2λ} = 1 − Q2m+2 (2λ). (19)
En effet, soit γm une variable aléatoire qui suit la loi gamma de paramètre m. Dans ce cas la
fonction de survie de γm est
Z ∞
1
P{γm ≥ λ} = xm−1 e−x dx =
Γ(m) λ
Z ∞
1 1
e−x dxm = P{γm+1 ≥ λ} − e−λ λm ,
Γ(m + 1) λ Γ(m + 1)
i.e. on a reçu que
λm −λ
P{γm+1 ≥ λ} = P{γm ≥ λ} + e ,
m!
d’où par la récurrence il résulte que pour tout m ∈ {0, 1, 2, ...}
Z ∞
λkm
1
P{X ≤ m} = ∑ e−λ = P{γm+1 ≥ λ} = xm e−x dx.
k=0 k! Γ(m + 1) λ

Supposons maintenant que λ est grand (en pratique cela signifie que λ ≥ 25). Comme
EX = Var X = λ
de l’inégalité de Tchebyshev il suit que nous pouvons compter que
m − λ = o(λ), λ → ∞,
parce que pour chaque m, qui ne vérifie pas cette condition, la probabilité P{X ≤ m} coin-
cide pratiquement avec 0 ou avec 1. De l’autre côté, de la relation (19) et de l’approxima-
tion normale pour la loi du chi-deux on obtient l’approximation normale de Bolshev (1963),
d’après laquelle
( )
χ22m+2 − (2m + 2) 2λ − 2m − 2
P{X ≤ m} = 1 − P √ ≤ √ =
4m + 4 4m + 4

18
µ ¶ µ ¶ µ ¶ µ ¶
λ−m−1 1 m−λ+1 1
1−Φ √ +O √ =Φ √ + O √ , λ → ∞.
m+1 λ m+1 λ
On remarque que en utilisant l’approximation normale de Fisher pour la loi de chi-deux on
obtient facilement une autre approximation normale de Bolshev :
√ √
P{X ≤ m} = P{χ22m+2 ≥ 2λ} ≈ 1 − Φ( 4λ − 4m + 3) =
√ √ p √
Φ( 4m + 3 − 2 λ) = Φ( 4(m + 0.5) + 1 − 2 λ), λ → ∞.
Le nombre 0.5 dans la dernière formule peut être considéré comme la correction de conti-
nuité dans cette approximation.
En pratique cela signifie que
³√ √ ´ √ √
P{X ≤ m} ≈ Φ 4m + 1 − 2 λ ≈ Φ(2 m − 2 λ), λ → ∞,
√ √
i.e., si λ ≥ 25, alors la statistique 4X + 1 suit approximativement la loi normale N(2 λ, 1).
Les meilleurs résultats on obtient en utilisant l’approximation de Wilson-Hilferty, voir, par
exemple, Bolshev (1963), Huber et Nikulin (1993), Nikulin (1984), d’après laquelle
" Ã r !#
√ λ 4
P{X ≤ m} = P{χ2m+2 ≥ 2λ} ≈ Φ 3 m + 1 1 −
3
− .
m + 1 9(m + 1)

Définition 5. On dit que la variable aléatoire β = βa,b suit la loi Béta de paramètres a
et b (a > 0, b > 0), si la densité de β est
1
f (x; a, b) = xa−1 (1 − x)b−1 1]0,1[ (x), (20)
B(a, b)
où Z 1
Γ(a)Γ(b)
B(a, b) = t a−1 (1 − t)b−1 dt = (21)
0 Γ(a + b)
est la fonction Béta de Euler.
En notant x Z
1
Ix (a, b) = t a−1 (1 − t)b−1 dt (22)
B(a, b) 0
la fonction incomplète Béta de Euler, on voit que

P{β ≤ x} = Ix (a, b), 0 < x < 1, (23)

et
P{β > x} = 1 − Ix (a, b) = I1−x (b, x), 0 < x < 1.
Il est facile de vérifier que
a ab
Eβ = , Var β = . (24)
a+b (a + b)2 (a + b + 1)
Remarque 4. Soit µn une variable aléatoire Binomiale de paramétres n et p. Il est facile
de montrer que pour m = 0, 1, ..., n
m µ ¶
n
P{µn ≤ m} = ∑ pk (1 − p)n−k = I1−p (n − m, m + 1). (25)
k=0
k

19
Remarque 5. Soit γn et γm sont indépendantes. Il est utile de remarquer que les statis-
tiques
γn
β= γn+m = γn + γm
γn + γm
sont indépendantes, β suit la loi béta de paramètres a = n et b = m, γn+m suit la loi gamma
à n + m degrés de liberté.
Définition 6. Soit
1 1
χ2m = γ m2 et χ2n = γ 2n
2 2
indépendantes. Dans ce cas on dit que la statistique

m χm
1 2 nγm/2 1
Fm,n = = = (26)
n χn
1 2 mγn/2 Fn,m

la loi de Fisher à n et m degrés de liberté (m > 0, n > 0).


La fonction de répartition de Fm,n est
m n
mx (
P{Fm,n ≤ x} = I n+mx , ), x > 0. (27)
2 2
On peut montrer que si n > 2, alors
n
EFm,n =
n−2
et si n > 4, alors
2n2 (n + m + 2)
Var Fm,n = .
m(n − 2)2 (n − 4)
Posant
1 2
χ ,
Fm,∞ =
m m
on en tire l’approximation de Fisher, d’après laquelle pour tout m fixé
µ ¶
1
P{Fm,n ≤ x} = P{χm ≤ mx} + O √ , n → ∞.
2
n

Si m = 1, on en déduit que

P{F1,∞ ≤ x} = P{χ21 ≤ x} = 2Φ( x) − 1.

Cette relation nous permet de calculer les valeurs de Φ(x) en utilisant les tables statistiques
de la loi F. La relation suivante
χ2
F1,n = 1 12 = tn2 (28)
n χn
nous montre que F1,n représente le carré de la variable aléatoire tn de Student à n degrés de
liberté, d’où on tire que pour chaque x ∈ R1

1 n
P{F1,n ≤ x2 } = P{tn2 ≤ x2 } = I x2 ( , ) = 2Sn (|x|) − 1, (29)
n+x2 2 2

20

¡ ¢Z µ
2 ¶− 2
n+1
1 Γ n+1 x u
Sn (x) = P{tn ≤ x} = √ ¡2¢ 1+ du (30)
πn Γ n2 −∞ n
est la fonction de répartition de la variable aléatoire tn de Student à n degrés de liberté. La
variable aléatoire tn peut être construite par la façon suivante.
Soit X = (X1 , ..., Xn )T un échantillon normale, Xi ∼ N(µ, σ2 ). On construit deux statis-
tiques
1 n 1 n
X̄n = ∑ Xi et Sn2 = ∑ (Xi − X̄n )2 ,
n i=1 n i=1
représentant les meilleurs estimateurs sans biais pour µ et σ2 . Alors la variable aléatoire
√ X̄n − µ
tn = n−1 (31)
Sn
suit la loi de Student à n degrés de liberté :

P{tn ≤ x} = Sn (x), x ∈ R1 .

De (28) on tire que, si n → ∞, alors, puisque


1 2 P
χ → 1, (32)
n n
on a µ

1
Sn (x) = Φ(x) + O √ , x ∈ R1 ,
n
i.e. pour les grandes valeurs de n la loi de Student est approximée par la loi normale stan-
dard.
Par contre, si dans (28)-(30) on pose n = 1, on en tire que la variable aléatoire t1 suit la
loi de Student à 1 degré de liberté
Z x
1 dt
P{t1 ≤ x} = S1 (x) = , x ∈ R1 . (33)
π −∞ 1 + t
2

Cette loi est plus connue sous le nom de la loi standard de Cauchy ou tout simplement de
Cauchy. Cette loi nous donne un très simple exemple d’une variable aléatoire t1 , dont l’es-
pérance mathématique n’existe pas. Un autre exemple intéressant lié avec la loi de Cauchy
est le suivant.
Soit X = (X1 , ..., Xn )T un échantillon de la loi de Cachy de densité

1
, x ∈ R1 ,
π[1 + (x − µ)2 ]

avec le paramètre de translation µ, |µ| < ∞. Dans ce cas la statistique

1 n
X̄n = ∑ Xi
n i=1

suit la même loi de Cauchy que Xi et donc X̄n ne converge pas en probabilité vers µ.

21
Exercices 1. Soit X suit la loi standard de Cauchy . Montrer que les statistiques
1 2X 3X − X 2
, ,
X 1 − X2 1 − 3X 2
suivent la même loi de Cauchy.
Exercices 2. Soient X et Y deux variables aléatoires standards normales indépendantes.
Trouver la loi de Z = X/Y .
Exercices 3. Soit X = (X1 , ..., Xn ) un échantillon,
1 −1
P{Xi = k} = e , k ∈ N,
k!
i.e. Xi suit la loi de Poisson de paramètre λ = 1. Considérons la statistique

Sn = X1 + ... + Xn , n = 1, 2, ....

1. Montrer que Sn suit la loi de Poisson de paramètre λ = n :


nk −n
P{Sn = k} = e , k ∈ N,
k!
en particulier
nn −n
pn = P{Sn = n} = e , n ∈ N∗ .
n!
2. En utilisant le théorème limite central montrer que
µ ¶ µ ¶
1 1 1 1
pn ≈ Φ √ − Φ − √ ≈ √ ϕ(0) = √ , (n → ∞),
2 n 2 n n 2πn
où Φ(·) est la fonction de répartition de la loi normale standard, ϕ(x) = Φ0 (x).
3. En utilisant 1) et 2) obtenir la formule asymptotique de Stirling

n! ≈ 2πnnn e−n , (n → ∞).

0.4 Epreuves de Bernoulli et marches aléatoires.

0.5 Représentation d’une suite d’épreuves de Bernoulli


indépendante

Considérons une suite d’épreuves de Bernoulli indépendantes avec la probabilité de


succès p (0 < p < 1).
On peut représenter l’ensemble des résultats possibles de cette expérience à l’aide de la
marche aléatoire d’une particule se déplaçant sur un treillis S dans le plan (xOy)

S = {(x, y); x ∈ N; y ∈ N}. (voir fig. 1)

22
Donc, un résultat de l’expérience sera représenté par un chemin dans le treillis S.
Si, après une épreuve, la particule se trouve au point de coordonnées (x, y), après l’épreuve
suivante elle se trouvera soit au point (x, y + 1) avec la probabilité p s’il y a eu succès, soit
au point (x + 1, y) avec la probabilité q = 1 − p s’il y a eu échec parce qu’il n’y a pas d’autre
possibilité.
Nous supposerons que le point de départ de la particule est l’origine des axes O(0, 0). Soit
A0 , A1 , · · · , An , · · · la suite des points obtenus à l’issue de l’expérience, A0 = O(0, 0). Un
chemin dans S peut être représenté par une ligne brisée reliant ces points (fig. 1).
On peut associer à cette expérience la suite X1 , X2 , · · · , Xn , · · · des variables aléatoires indé-
pendantes de Bernoulli,
½
1, s’il y a eu succès à la i-ème epreuve,
Xi =
0, s’il y a eu échec à la i-ème epreuve.

Ces variables aléatoires sont idépendantes par construction et

P{Xi = 1} = p et P{Xi = 0} = q.

0.6 Probabilités associées à une marche aléatoire reliant


2 points du treillis S

Soient Ax et AX les points de S dont les coordonnées sont (x, y) et (X,Y ) respectivement
(0 ≤ x ≤ X; 0 ≤ y ≤ Y ).

23
Un chemin reliant Ax à AX comporte (X − x) déplacements horizontaux et (Y − y) déplace-
ments verticaux, chaque combinaison différente définissant un chemin différent ; le nombre
de chemins possibles relient Ax à AX sera donc :
µ ¶ µ ¶
X − x +Y − y X − x +Y − y
= . (1)
X −x Y −y
Il est évident que chacun de ces chemins a la même probabilité de réalisation égale à
pY −y (1 − p)X−x , (2)
donc la probabilité d’arriver au point AX en étant parti du point Ax est
µ ¶
X − x +Y − y
pY −y (1 − p)X−x . (3)
X −x
En particulier, si on part de l’origine A0 , la probabilité d’arriver en AX est
µ ¶
X +Y
pY (1 − p)X . (4)
X
Remarque 1. De façon évidente, on déduit des formules précédentes que le nombre de
chemins possibles pour aller de Ax (x, y) à AU (u, v) en passant par AX (X,Y ) est égal au
produit du nombre de chemins allant de Ax à AX par le nombre de chemins allant de AU à
AX .

0.7 Frontière absorbante

Nous allons nous intéresser aux expériences pour lesquelles la réalisation de la marche
aléatoire est limitée (avec la probabilité 1) par une frontière absorbante B (B ⊂ S). Cela
signifie que l’expérience s’arrête dès que la particule a atteint la frontière. Un point b ∈ B
est appelé point limite ou point frontière. Si un chemin atteint ce point, il s’arrête. On dit
que b est une réalisation de la statistique temps d’arrêt.
Nous verrons plus tard que pour certaines expériences, la seule connaissance des coordon-
nées du point de la frontière où le chemin s’arrête nous permet d’estimer de la meilleure
façon le paramétre p lorsque celui-ci est inconnu.
La frontière B est généralement définie par une équation de la forme y = f (x). Nous allons
étudier différentes frontières et leur associer des variables aléatoires connues.

0.8 Marches aléatoires et distributions discrètes

Loi de Bernoulli (fig. 2)

Considérons une marche aléatoire à 1 pas dans un treillis limité par la frontière B donné
par l’équation :
x + y = 1.

24
Dans ce cas il existe seulement 2 points limites. Si nous considérons la variable aléatoire
X qui prend la valeur 1 lorsque le chemin se termine en A1 (0, 1) et la valeur 0 lorsqu’il se
termine en A01 (0, 1) nous obtenons :
P{X = 1} = p et P{X = 0} = 1 − p, 0 < p < 1.
La variable X suit une distribution de Bernoulli de paramètre p : X ∼ B(1, p) = B(p).
X représente le résultat d’une unique épreuve de Bernoulli.
On peut par exemple associer à cette épreuve un contrôle de qualité :
on contrôle un article dans une production et on lui affecte la note 1 s’il est deféctueux, 0
s’il est bon.

Loi Binomiale (fig. 3)

Considérons une marche aléatoire dans le treillis S commençant à l’origine et limitée par
la frontière B d’équation x + y = n (le nombre de points frontières est n + 1). Cette marche
comporte n pas. Nous pouvons associer à cette marche n variables aléatoires de Bernoulli
indépendantes de paramètres p : X1 , X2 , · · · , Xn .
Considérons la statistique :
n
Tn = ∑ Xi .
i=1
Elle représente le nombre de succès au cours des n épreuves ou bien le nombre d’articles
défectueux dans un échantillon de taille n si on s’intéresse à un probléme de contrôle de
qualité.
Pour tout k = 0, 1, · · · , n l’événement {Tn = k} est équivalent à une marche aléatoire se
terminant au point b de B de coordonnées (n − k, k). Par suite d’après (4)
n k
P{Tn = k} = ( )p (1 − p)n−k , k = 0, 1, · · · , n,
k

25
et donc la loi de Tn est une loi binomiale de paramètres n et p, Tn ∼ B(n, p).

Loi géométrique (fig. 4)

Supposons maintenant que la frontière B a pour équation y = 1. Cela siginifie que la


marche aléatoire s’arrête dès qu’on a obtenu le premier succès. Les points limites sont dans
ce cas les points de coordonnées (x, 1), x ∈ N, et la probabilité d’arriver au point (x, 1)
par un chemin issu de l’origine est
p(1 − p)x .
Nous pouvons associer à cette marche la variable aléatoire Z : rang du premier succès" ou
"rang du premier article défectueux" rencontré dans le lot.
L’événement {Z = k}, k ∈ N ∗ , est équivalent à une marche aléatoire se terminant au point
de B de coordonnées (k − 1, 1) et par suite

P{Z = k} = p(1 − p)k−1 .

On dit que Z suit la loi géométrique de paramètre p : Z ∼ G(p).


On peut montrer que
1 1− p
EZ = et VarZ = 2 .
p p

Loi binomiale négative (fig. 5)

On choisit la frontière B donné par l’équation y = r. Cela signifie que l’expérience


cesse dès qu’on a obtenu le r-ème succès. Si la marche considérée comporte k étapes,

26
r ≤ k k ∈ N, on doit avoir k − r déplacements horizontaux et r déplacements verticaux
mais le dernier pas est obligatoirement un déplacement vertical : le point (k − r, r) n’est
accessible qu’à partir du point (k − r, r − 1) et ce passage se fait avec la probabilité p.
Considérons la statistique Sr , rang du r-ème succès.
Alors

µ ¶
k−1
P{Sr = k} = pr−1 (1 − p)k−r p, k = r, r + 1, · · · .
r−1

On dit que Sr suit la loi binomiale négative de paramètres r et p, Sr ∼ NB(r, p).

Remarques

1. Si r = 1, on retrouve la loi géométrique de paramètre p : G(p).

2. Soient Z1 , Z2 , · · · , Zr r variables aléatoires indépendantes de même loi géométrique


de paramètre p Zi ∼ G(p). Alors la statistique

r
Sr = ∑ Zi
i=1

suit de façon évidente la loi binomiale négative de paramètres r et p et on en déduit


que

r r(1 − p)
ESr = et VarSr = .
p p2

3. De la même façon, on constate que si Z1 , · · · Zn sont n variables aléatoires indépen-


dantes, Zi ∼ NB(ri , p), alors la statistique :

n
Un = ∑ Zi
i=1

suit la loi binomiale négative de paramètres r = ∑ni=1 ri et p.

Loi de Polya (fig. 6)

27
On choisit la frontière B donnée par l’équation y = x + r, r ∈ N ∗ . Cela signifie qu’on
arrête l’expérience dès que le nombre de succès est supérieur de r au nombre d’échecs (ou
que le nombre d’articles défectueux dépasse de r le nombre d’articles bons).
Une marche issue de l’origine O et s’arrêtant au point frontière de coordonnées
(k, r + k), k ∈ N, comporte donc (k, k + r) étapes mais le point(k + r, k) n’est accessible
qu’à partir du point M(k, k + r − 1) par un chemin qui ne doit pas avoir encore rencontré
la frontière. Le nombre de chemins allant de O à M et qui touchent ou coupent la frontière
peut être calculé de la façon suivante : lorsque le chemin touche la frontière B pour la
première fois on prend son symétrique par rapport à B : c’est un chemin qui arrive au point
M 0 (k − 1, k + r) (symétrique de M par rapport à B). Le nombre de chemins reliant O à M 0
est égale à
µ ¶
2k + r − 1
k−1
et le nombre de chemins reliant O à M est égale à
µ ¶
2k + r − 1
,
k

d’où on déduit donc que le nombre de réalisations possibles de la marche considérée est
égale à
µ ¶ µ ¶ µ ¶
2k + r − 1 2k + r − 1 (2k + r − 1)! r 2k + r
− = (k + r − k) = .
k k−1 k!(k + r)! 2k + r k

Si nous associons à cette marche la variable Vr : rang de l’épreuve pour laquelle le nombre
de succès est pour la première fois supérieur de r au nombre d’échecs, alors l’événement
{Vr = v} est équivalent à une marche partant de l’origine et comportant v étapes :
v − r/2 déplacements horizontaux et v − r/2 déplacements verticaux.
De façon évidente on doit avoir v ≥ r et v − r ∈ 2N, c’est-à-dire v = 2k + r, k ∈ N.
Dans ce cas, pour r > 0 on a :
µ ¶
r 2k + r
P{Vr = v} = P{Vr = 2k + r} = pk+r (1 − p)k .
2k + r k

Examinons le cas r = 0. Nous devons dans ce cas considérer les chemins partant non plus
de l’origine O mais du point A1 (1, 0).
Un raisonnement analogue du précédent nous montre alors que
·µ ¶ µ ¶¸
2k − 2 2k − 2
P{V0 = 2k} = − [p(1 − p)]k =
k−1 k
µ ¶
2k − 1
2(k − 1) [p(1 − p)]k .
k

Loi hypergéométrique (fig. 7)

28
Soient N et M deux entiers positifs fixés et 0 ≤ M ≤ N.
Considérons une marche aléatoire dans le treillis S limitée par la frontière B : x + y = N.
Nous nous intéressons plus particulièrement à la marche aléatoire partant de l’origine et
atteignant le point B de coordonnées (N − M, M). Soit
n
Tn = ∑ Xi , où Xi ∼ B(p),
i=1

les Xi étant indépendantes, et donc Tn ∼ B(n, p). Nous savions que TN = M et il est intéres-
sant de savoir comment cette information influe sur la distribution de la statistique Tn , n < N.
C’est-à-dire que, sachant que la marche a atteint le point (N − M, M), nous allons évaluer
la probabilité pour qu’après n pas elle soit à un point donné de la frontière

β : x + y = n.

Nous cherchons donc la probabilité :

P{Tn = k; TN = M}
P{Tn = k|TN = M} = ,
P{TN = M}


Max(0, n + M − N) ≤ k ≤ Min(n, M).
On sait que :
µ
¶µ ¶
n N −n
P{Tn = k; TN = M} = pk (1 − p)n−k .pN−k (1 − p)N−n =
k M−k
µ ¶µ ¶
n N −n
= pM (1 − p)N−M
k M−k
et µ ¶
N
P{TN = M} = pM (1 − p)N−M .
M
Par suite, la probabilité cherchée est égale à
µ ¶µ ¶ µ ¶µ ¶
n N −n N −M M
k M −k n−k k
P{Tn = k|TN = M} = µ ¶ = µ ¶ ,
N N
M n


1 ≤ n ≤ N, 1 ≤ M ≤ N, Max(0, n + M − N) ≤ k ≤ Min(n, M).
Cette loi conditionnelle de Tn est la loi hypergéométrique H(N, M, n) de paramètres N, M
et n. On peut remarquer qu’elle ne dépend pas du paramètre p .
On peut montrer que si X suit une loi H(N, M, n), alors

nM n(N − n)M(N − M)
EX = et Var X = .
N N 2 (N − 1)

29
30
Chapitre 1

QUELQUES PROBLÈMES
CLASSIQUES DE LA STATISTIQUE
MATHEMATIQUE.

1.1 Problèmes d’estimation et de comparaison des proba-


bilités de succès.

Exemple 1. Estimation de la probabilité dans le schéma d’expériences de Bernoulli.


On a coutume de considérer l’hypothèse H0 : p = 0.5 selon laquelle la probabilité de la
naissance d’un garçon est la même que celle d’une fille. On possède beaucoup de données
statistiques pour sa vérification. Nous utiliserons ceux qui ont été données sur la Suisse :
entre 1871 et 1900 naquirent en Suisse n = 2644757 enfants et parmi eux

µn = 1359671 garçons et n − µn = 1285086 filles.

Est-ce que ces données confirment l’hypothèse H0 : p = 0.5 ?


Nommons succès ( !) la naissance d’un garçon et posons la question autrement en uti-
lisant le schéma d’expériences de Bernoulli avec la probabilité de succès p. L’hypothèse
H0 : p = 0.5 concorde-t-elle avec le fait que dans la série de n = 2644757 expériences la
fréquence de “succès” soit égale à

µn 1359671
= = 0.5141?
n 2644757
Il est évident que si au lieu de l’hypothèse H0 : p = 0.5 on avait pris une autre hypothèse
H1 : p = 0.1, par exemple, alors cette hypothèse H1 serait rejetée par tous comme une
hypothèse peu probable (ou même impossible). La question est : sur quoi est basée cette
décision ?
La réponse peut être donnée puisqu’on sait que l’estimateur
µn
p̂n =
n

31
de la probabilité p, p ∈]0, 1[, est basé sur la statistique µn qui suit une loi binomiale B(n, p)
µ ¶
n
P{µn = k|p} = P p {µn = k} = pk (1 − p)n−k , k = 0, 1, . . . , n,
k

d’où on tire que


E p µn = np, Varµn = np(1 − p),
et par conséquent pour tout p ∈]0, 1[

µn µn p(1 − p)
Ep =p et Var = .
n n n
De l’inégalité de Tchebyshev il suit que pour tout ε > 0

P p {| p̂n − p| > ε} → 0, quand n → ∞. (1)

Nous disons que { p̂n } est une suite consistante (cohérente) d’estimateurs sans biais du
paramètre p, puisque
Pp
E p p̂n = p et p̂n → p.
La relation (1) on peut préciser, notamment, pour tout λ > 0 on a :
r
p(1 − p) 1
P p {| p̂n − p| < λ } ≥ 1− 2.
n λ
En particulier, si λ = 2, on en tire que
1
P p {| p̂n − p| < √ } ≥ 0.75.
n
En utilisant l’approximation normale, basée sur le théorème limite central de de Moivre-
Laplace, on a
 
 µn − p 
lim P p q n
≤ x = Φ(x) pour tout x ∈ R1 , (2)
n→∞  p(1−p) 
n

où Z
x
1 2
Φ(x) = √ e−t /2 dt, −∞ < x < ∞. (3)
2π −∞
En prenant α assez petit, 0 < α < 0.5 ), ( on va appeler ce nombre α le niveau de significa-
tion, on peut affirmer, par exemple, que
½ r ¾
n µn
P p −x̄α/2 ≤ ( − p) ≤ x̄α/2 ≈ 1 − α, (4)
p(1 − p) n

où le nombre x̄α/2 est donné par

Φ(x̄α/2 ) = 1 − α/2. (5)

La quantité x̄α/2 s’appelle quantile supérieur de niveau α/2 de la loi normale standard.

32
Par exemple,

x̄α/2 = 3 est le quantile supérieur de niveau α/2 = 0.00135,


½¯r ¯ ¾
¯ n µ ¯
P p ¯¯ ( − p)¯¯ > 3 ≈ 0.0027 = α,
n
p(1 − p) n
tandis que

le quantile x̄α/2 = 4 correspond déjà à α/2 = 0.00003167 (= 0.0000),

d’oú on tire que ½¯r ¯ ¾


¯ n µn ¯
¯
P ¯ ¯
( − p)¯ > 4 ≈ 0.000063,
p(1 − p) n
(en pratique cette probabilité = 0.000) et
½¯r ¯ ¾
¯ n µ ¯
P ¯¯ ( − p)¯¯ ≤ 4 ≈ 0.999937
n
p(1 − p) n

(en pratique cette probabilité = 1).


Revenons à nos données et à l’hypothèse H0 . L’hypothèse H0 suppose que p = 0.5 et
donc sous H0 on a : r µ ¶
n ³µ ´ √ µn 1
n
−p =2 n − .
p(1 − p) n n 2
Tout d’abord on remarque qu’il y a 3 contrehypothèses naturelles pour H0 :

H1 : p 6= 0.5, H1+ : p > 0.5, H1− : p < 0.5

qui sont en concurence avec H0 . Il est naturel de dire que l’intervalle

S = [−x̄α/2 , x̄α/2 ] ⊂ R1

représente l’ensemble des valeurs de la statistique


µ ¶
√ µn 1
Tn = T (µn ) = 2 n − ,
n 2

qui sont favorable à l’hypothèse H0 , tandis que l’ensemble


[ [
K = R1 \ S = K1− K1+ =] − ∞, −x̄α/2 [ ]x̄α/2 , ∞[,

appelé la région critique pour H0 , représente l’ensemble des valeurs de la statistique Tn , qui
sont favorable à H1 . Par contre, l’ensemble S s’appelle la région d’acceptation de l’hypo-
thèse H0 .
On remarque que

P{Tn ∈ S | H0 } ≈ 1 − α, P{Tn ∈ K|H0 } ≈ α.

Il est clair que l’événement


{Tn ∈ K1− } ⊂ {Tn ∈ K}

33
est favorable à H1− , et l’événement

{Tn ∈ K1+ } ⊂ {Tn ∈ K}

est favorable à H1+ , et que


α
P{Tn ∈ K1− |H0 } = P{Tn ∈ K1+ |H0 } ≈ .
2
Dans notre cas pour les données de Suisse nous constatons que
µ ¶ r
√ µn 1 2644757
Tn = T (µn ) = 2 n − = (0.5141 − 0.5) = 45.86 > 4,
n 2 0.5 · 0.5

i.e. l’événement {Tn > 4} est apparu. La valeur observée de Tn est très supérieure à la
valeur critique x̄α/2 = 4, correspondant au niveau de signification α/2 = 0.00003167, qui
est égal pratiquement à 0, et donc ce phenomène doit être considéré comme impossible sous
l’hypothèse H0 : p = 0.5. Que devons nous faire ? Il faut évidemment rejeter l’hypothèse
H0 : p = 0.5 en faveur de H1 , puisque Tn ∈ K. Nous disons que l’hypothèse H0 ne concorde
pas avec les données observées. En plus comme dans l’expérience on a observé l’événement
{Tn ∈ K1+ }, il est raisonable d’accepter l’hypothèse H1+ . Comme estimateur de la valeur
inconnue de p sous l’hypothèse H1+ il est recommandé de prendre p̂n = 0.514.
Enfin de (4) on tire que
r r
µn p(1 − p) µn p(1 − p)
P{ − x̄α/2 ≤ p ≤ + x̄α/2 } ≈ 1 − α,
n n n n
c’est-à-dire pour les grandes valeurs de n on obtient l’intervalle de confiance pour p avec
le coefficient de confiance P ≈ 1 − α :
µn 1 µn 1
P{ − x̄α/2 √ ≤ p ≤ + x̄α/2 √ } ≈ 1 − α (= 0.9973 si x̄α/2 = 3).
n 2 n n 2 n

Si, par exemple,


α
= 0.00135 i.e. α = 0.0027,
2
dans ce cas x̄α/2 = 3 et d’après nos données on obtient la réalisation de l’intervalle de
confiance
0.5141 − 0.0003x̄α/2 ≤ p ≤ 0.5141 + 0.0003x̄α/2 ,
i.e.
0.5132 ≤ p ≤ 0.5150.
Remarque 1. On remarque que

Φ(0) = 0.500000, Φ(1) = 0.841345, Φ(1.6) = 0.945201, Φ(2) = 0.97725,

Φ(2.6) = 0.995339, Φ(3) = 0.998650, Φ(4) = 0.999968,


où Φ(x) est donnée par (3), i.e.

0 = x̄0.5 , 1 = x̄0.158655 , 1.6 = x̄0.054799 , 2 = x̄0.02275 , ...

34
Exemple 2. K. Pearson a jeté une pièce symétrique n = 24000 fois et a observé

µn = 12012

succès. On sait que


µn
p̂n =
n
est un bon estimateur pour la probabilité de succès p = 0.5 (on a supposé que la pièce est
symétrique c’est-à-dire l’hypothèse H0 : p = 0.5). Dans notre cas p̂n = 0.5005. Nous savons
que
1
E p̂n = 0.5 et Var p̂n = .
4n
En étudiant le résultat de l’expérience de K. Pearson, nous pouvons constater que la statis-
tique µn a pris une valeur très proche de sa moyenne Eµn = np = 12000. Est-ce vraisem-
blable ou non ? On note que sous l’hypothèse H0 : p = 0.5 on a
n
Varµn = np(1 − p) = ,
4
et comme l’écart-type de µn est
p p
Varµn = np(1 − p) = 77.5,

on pourrait donner plusieurs raisons à l’apparition de l’événement


n n o
|µn − | > 77.5 = {|µn − 12000| > 77.5}
2
Mais dans son expérience K. Pearson a obtenu

|µn − 12000| = 12 ¿ 77.5.

On pourrait penser que c’est trop beau pour être vrai. Quelle est donc la probabilité d’ob-
server l’événement {|µn − n2 | ≤ 12} sous l’hypothèse H0 ?
On a ½ ¯ ¾
n |µn − n2 | 12 ¯¯
P{|µn − | ≤ 12|H0 } = P √ ≤ H0 ≈
2 n 0.5 · 0.5 77.5 ¯
1
≈ Φ(0.155) − Φ(−0.155) ≈ 0.124 = .
8
Il est évident que cet événement est bien probable, donc K. Pearson pouvait observer ce
résultat.
Exemple 3. Supposons que nous avons un générateur de nombres aléatoires et que ce géné-
rateur nous fournit les “nombres aléatoires” x1 , x2 , ..., xn qu’on peut considérer (hypothèse
H0 ) comme des réalisations de variables aléatoires indépendantes

X1 , X2 , ..., Xn ,

ayant chacune la distribution discrète uniforme sur l’ensemble S = {0, 1, ..., 9} i.e.,

P{X j = i | H0 } = 0.1, i ∈ S. (6)

35
Considérons maintenant un échantillon X = (X1 , X2 , ..., Xn )T de taille n = 10 000, associé
au générateur de nombres aléatoires mentionné précédemment. Nous désirons tester l’hypo-
thèse H0 que l’échantillon X est issu de la distribution uniforme (1) si dans notre échantillon
on a observé seulement 4999 fois xi ne dépassant pas 4. Quel niveau de signification doit
on avoir pour rejeter H0 ?
Solution. Soit
µn = #{Xi ≤ 4}. (7)
On remarque que
P{Xi ≤ 4|H0 } = 0.5.
D’après nos données :
µn 4999
p̂n = =
n 10 000
qui est très voisin de 0.5. Par ailleurs, sous l’hypothèse H0 , la statistique µn suit une distri-
bution binomiale B(n, p) de paramètres n = 10 000, p = 0.5 et donc sous H0
Eµn = np = 5000 and Varµn = np(1 − p) = 2500. (8)
D’où pour tout x = 1, 2, ..., d’après le théorème de de Moivre-Laplace, nous avons (avec la
correction de continuité de 0.5)
nn n o
P{| µn − np |≤ x | H0 } = P − x ≤ µn ≤ + x|H0 ≈
2 2
µ ¶ µ ¶ µ ¶
0.5n + x + 0.5 − 0.5n 0.5n − x − 0.5 − 0.5n 2x + 1
Φ √ −Φ √ = 2Φ √ − 1. (9)
n · 0.5 · 0.5 n · 0.5 · 0.5 n
Notons α le niveau de signification du test (0 < α < 0.5) avec la région critique :

¯ n ¯¯ o nn n o
¯µn − ¯ ≤ x̄α/2 = − x̄α/2 ≤ µn ≤ + x̄α/2 . (10)
2 2 2
Alors, à la valeur critique x̄α/2 , correspond le niveau de signification α :
µ ¶
2x̄α/2 + 1
α ≈ 2Φ √ − 1, (n = 10000). (11)
n
En particulier, si x̄α/2 = 1, alors
µ ¶
3
α ≈ 2Φ √ − 1 = 2Φ(0.03) − 1 = 2 · 0.512 − 1 = 0.024.
n
Inférence statistique : d’après le test statistique, basé sur la région critique :
{| µn − 5000 |≤ 1},
l’hypothèse H0 sera rejetée avec le niveau de signification α ≈ 0.025, puisque
P{|µn − 5000| ≤ 1|H0 } ≈ 0.024 < α = 0.025.
(Voir, aussi, Cuadras C., Nikulin (1993)).
Exemple 4. Le problème du Chevalier de Méré. D’abord on considère l’épreuve sui-
vante : on jette 4 fois un dé.
Soit A l’événement :
A = {obtenir au moins une fois le 1 au cours de cette expérience}.

36
Considérons ensuite la deuxième expérience qui consiste à jeter 24 fois 2 dés.
Soit B l’événement :

B = {obtenir au moins une fois le (1,1) au cours de cette expérience}.

Le Chevalier de Méré ayant supposé que

p1 = P(A) < p2 = P(B)

avait misé sur B. Avait-il raison ?


On remarque que
µ ¶4
5
p1 = P(A) = 1 − = 0.5177,
6
µ ¶24
35
p2 = P(B) = 1 − = 0.4914.
36
Mais Méré ne pouvait pas faire ces calculs. Par contre, il aurait pu faire une expérience pour
résoudre ce problème par des méthodes statistiques, basées sur la loi des grands nombres.
(1) (2)
Soient µn = µn (A) et µn = µn (B) les résultats de la modélisation de ces expériences
lorsqu’on les a répété n = 25, 50, 100, 250 fois chacune.

n 25 50 100 250
µn (A) 18 27 52 121
µn (B) 14 24 47 126

Ici µn (A) et µn (B) représentent les nombres de succès dans la première et la seconde expé-
riences respectivement.
D’après la loi des grands nombres
(1) (2)
µn P µn P
p̂1n = → p1 p̂2n = → p2 , (n → ∞),
n n
c’est-à-dire il y a la consistance de deux suites d’estimateurs { p̂1n } et { p̂2n } de paramètres
p1 et p2 . En plus on sait que
1 (1) 1 (2)
E p̂1n = Eµn = p1 , E p̂2n = Eµn = p2 ,
n n
donc pour tout n ∈ N∗ p̂1n et p̂2n sont les estimateurs sans biais pour p1 et p2 respectivement.
Enfin, on remarque, que quand n → ∞

p1 (1 − p1 ) p2 (1 − p2 )
Var p̂1n = → 0, Var p̂2n = → 0.
n n
En utilisant les résultats de modélisation du jeu on obtient une nouvelle table

n 25 50 100 250
(1)
µn
n 0.72 0.54 0.52 0.484
(2)
µn
n 0.56 0.48 0.47 0.504

37
Il faut noter que bien que p1 soit supérieur à p2 l’expérience nous donne ici
(1) (2)
µn = 121 < µn = 126 pour n = 250,

et donc
(1) (2)
µn µn
= 0.484 < = 0.504 pour n = 250.
n n
Si on arrête “le jeu” à n = 250, on aura une conclusion erronée que p1 < p2 . On va évaluer
(1) (2)
P{µn < µn }
(1) (2)
la probabilité d’événement {µn < µn }. Notons
(1) (2)
µn − np1 µn − np2
Xn = p , Yn = p , n ∈ N∗ .
np1 (1 − p1 ) np2 (1 − p2 )

Pour tout n les variables aléatoires Xn et Yn sont indépendantes, et

EXn = EYn = 0, Var Xn = VarYn = 1.

En plus, du théorème de de Moivre-Laplace il suit que pour tout x ∈ R1

lim P{Xn ≤ x} = lim P{Yn ≤ x} = Φ(x),


n→∞ n→∞


Zx
1 2 /2
Φ(x) = √ e−t dt.

−∞

De ce résultat il suit que


(1) (2)
X −Yn (µn − µn ) + n(p2 − p1 )
p n =p
Var (Xn −Yn ) np1 (1 − p1 ) + np2 (1 − p2 )

est aussi asymptotiquement normale quand n → ∞,


( )
Xn −Yn
P p ≤ x ≈ Φ(x), x ∈ R1 .
Var (Xn −Yn )

(1) (2)
Maintenant nous somme capable d’évaluer la probabilité de l’événement {µn < µn }.
En effet,
(1) (2) (1) (2)
P{µn < µn } = P{µn − µn < 0} =
( (1) (2) √ )
µn − µn + n(p2 − p1 ) n(p2 − p1 )
P p <p ≈
np1 (1 − p1 ) + np2 (1 − p2 ) p1 (1 − p1 ) + p2 (1 − p2 )
à √ !
n(p2 − p1 )
≈Φ p → 0, n → ∞, si p2 < p1 .
p1 (1 − p1 ) + p2 (1 − p2 )

38
On remarque qu’en utilisant les tables statistiques on peut calculer cette probabilité pour

n = 25, 50, 100, 250 et 1000 et pour p1 = 0.5177 et p2 = 0.4914 :


n 25 50 100 250 1000
(1) (2)
P{µn < µn } 0.42 0.39 0.35 0.18 0.12
On constate que même pour n assez grand (n = 1000) on a 12 pour cent de chances de faire
une conclusion erronnée, et on comprend le trouble du Chevalier.

Exemple 5. Comparaison de deux probabilités. On veut comparer la qualité de pro-


duction de deux usines qui produisent le même article. Soit p1 (respectivement p2 ) la pro-
babilité qu’un article de la 1ère usine (respectivement de la 2ème ) soit défectueux. Pour
effectuer le contrôle on a prélevé n1 articles dans la première usine et n2 articles de la
seconde. Soit µn1 (respectivement µn2 ) le nombre d’articles défectueux pour la première
(respectivement pour la seconde) usine. Supposons que nous voulions tester l’hypothèse
d’homogénéité
H0 : p1 = p2 = p, p ∈]0, 1[.
Sous l’hypothèse H0 on a
µn1 µn
E = E 2 = p,
n1 n2
µn p(1 − p)
Var 1 = → 0, (n1 → ∞),
n1 n1
µn p(1 − p)
Var 2 = → 0, (n2 → ∞).
n2 n2
Donc, sous l’hypothèse H0 on a deux suites consistantes { p̂1n } et { p̂2n } d’estimateurs sans
biais pour le paramètre p. On remarque que quels que soient n1 et n2 les estimateurs p̂1n et
p̂2n sont indépendants.
En général, même si l’hypothèse H0 est vraie, dans l’expérience on observe l’événement
½ ¾
µn1 µn2
6= .
n1 n2
Il est évident que pour tester H0 contre l’alternative H1 : p1 6= p2 il est raisonnable d’utiliser
la statistique ¯ ¯
¯ µn1 µn2 ¯
¯ ¯
¯ n1 − n2 ¯
comme l’estimateur de |p1 − p2 | et rejeter H0 si
¯ ¯
¯ µn1 µn2 ¯
¯ ¯
¯ n1 − n2 ¯ ≥ cα ,

où il faut choisir la valeur critique cα de façon que


½¯ ¯ ¯ ¾
¯ µn1 µn2 ¯ ¯
P ¯¯ − ¯ ≥ cα ¯ H0 ≥ α,
¯ ¯ 0 < α < 0.5.
n1 n2
Par contre, si ¯ ¯
¯ µn1 µn2 ¯
¯ ¯
¯ n1 − n2 ¯ < cα ,

39
on accepte H0 . On remarque que
½¯ ¯ ¯ ¾
¯ µn1 µn2 ¯ ¯
P ¯¯ − ¯ < cα ¯ H0 ≥ 1 − α.
n1 n2 ¯ ¯

Comment trouver la valeur critique cα , correspondant au niveau de signification α ? Pour


n1 et n2 suffisamment grands on peut s’attendre à ce que la variable aléatoire
µn1 µn2

n1 n2
r ³ ´
p(1 − p) n11 + n12

soit approximativement normale, puisque


 ¯ 
 µn1 µn2 ¯ 

 − ¯ 
n1 n2 ¯ 
¯
lim P r
min(n1 ,n2 )→∞ 
³ ´ ≤ x¯ H0  = Φ(x).

 p(1 − p) 1 + 1 ¯ 
n1 n2 ¯ 

Donc, en choisissant cα = x̄α/2 on a


¯ ¯ ¯ 
 ¯ µ µ ¯ ¯ 
 ¯¯
 n 1

n 2 ¯ ¯ 
n1 n2 ¯ ¯ 
P ¯r¯ ¯ ≥ x̄ ¯
α/2 ¯ H0 ≈ α,
 ³ ´¯ 
 ¯
 ¯ p(1 − p) ¯ ¯ 
¯ 
1 1
n1 + n2 ¯

et, par conséquent, on rejette H0 en faveur de H1 , si


¯ ¯
¯ µn1 µn2 ¯
¯ n1 − n2 ¯
r ³ ´ ≥ x̄α/2 ,
µn ¡ µn ¢ 1 1
n 1− n n1 + n2


µn µn1 + µn2
= = p̂n
n n1 + n2
est le meilleur estimateur sans bias pour p sous l’hypothèse H0 .
Il est évident que
¯ ¯ ¯ 
 ¯ µn1 µn2 ¯ ¯ 

¯ ¯ − ¯ ¯ 
n n ¯ ¯ 
P ¯¯ r 1 2 ¯ > x̄α/2 ¯ H0 ≈ α,

 ¡ ¢³ 1 ´¯ ¯ 
 ¯¯ µn 1 − µn 1 ¯ ¯ 
¯ 
n n n1 + n2 ¯

quand n1 et n2 sont sufisamment grands.


Remarque 1. Il est clair que si nous voulons tester l’hypothèse H0 : p1 = p2 contre
l’hypothèse unilatérale H1+ : p1 > p2 , dans ce cas il faut choisir cα = x̄α et rejeter H0 si
µn1 µn2

n1 n2
r ³ ´ ≥ x̄α ,
µn ¡ µn ¢ 1 1
n 1− n n1 + n2

40
où Φ(x̄α ) = 1 − α. Le niveau de ce test unilatéral ≈ α.
Remarque 2. Si nous voulons tester H0 : p1 = p2 contre l’alternative H1− : p1 < p2 , qui
est unilatérale, il faut rejeter H0 si
µn1 µn2

n1 n2
r ³ ´ < −x̄α .
µn ¡ µn ¢ 1 1
n 1− n n1 + n2

Le niveau de ce test unilatéral ≈ α.

1.2 Modèle probabiliste de l’erreur de mesure.

Tout résultat d’observation provenant de quelque façon que ce soit de mesures engendre
des erreurs d’origines diverses.
Les erreurs se divisent en trois groupes : erreurs grossières, erreurs systématiques et
erreurs aléatoires.

Les erreurs grossières :

Les erreurs grossières sont souvent appelées en statistique observations aberrantes (aber-
rations) ; elles proviennent de mauvais calculs, de lectures incorrectes sur l’appareil de me-
sure etc ... ; cela induit donc une donnée erronée. En général ces résultats de mesures qui
contiennent des erreurs grossières diffèrent sensiblement des autres résultats et sont ainsi
faciles à identifier.

Les erreurs systématiques

Les erreurs systématiques surestiment ou sousestiment toujours les résultats de me-


sures, et sont dues à différentes raisons (mauvaise installation de l’équipement, effet de
l’environnement, etc ...). Elles affectent systématiquement toutes les mesures et les altèrent
dans une seule direction.

Les erreurs aléatoires :

Les erreurs aléatoires ont un effet imprévisible sur les mesures, à la fois en surestimant
certaines et en sousestimant d’autres résultats.

Considérons maintenant le modèle probabiliste (appelé le modèle de l’erreur de mesure)


utilisé dans la pratique, lorsque nous avons à mesurer une certaine quantité µ. Selon ce mo-
dèle, tout résultat de l’expérience destinée à estimer la quantité inconnue µ, sera considéré
comme la réalisation d’une variable aléatoire X. Dans ce cas, la variable aléatoire :

δ = X −µ (1.1)
est appelée erreur de mesure ou erreur vraie.

41
De (1) il s’ensuit que

X = µ + δ, (1.2)
et puisque µ est une constante, on en tire

EX = µ + Eδ et Var X = Var δ. (1.3)


Notons

b = Eδ et σ2 = Var δ (1.4)
l’espérance mathématique et la variance de l’erreur vraie δ.

Alors on a

X = µ + b + (δ − b). (1.5)
La quantité b = Eδ est appelée erreur systématique ou biais de la procédure de mesure.

La variable aléatoire

ξ = δ−b (1.6)
est appelée erreur aléatoire de la procédure de mesure. De (2), (5) et (6) il s’ensuit que la
variable aléatoire X peut être représentée par la façon suivante

X = µ + b + ξ, (1.7)

Eξ = 0 et Var ξ = σ2 (1.8)
Nous obtenons donc pour notre modèle :

EX = µ + b, VarX = σ2 . (9)
Souvent on dit que σ2 est la précision de la méthode ou de l’instrument qu’on utilise
pour faire les mesures. Traditionellement, en statistique mathématique on dit que X est un
estimateur sans biais de µ + b.

Si le biais b = 0, alors X est un estimateur sans biais de µ.

Nous avons maintenant une décomposition très intéressante (7) de la variable aléatoire
X dont nous utiliserons la réalisation pour estimer la quantité inconnue µ.

Selon notre modèle, l’observation X est la somme de la vraie (mais inconnue) valeur µ,
du biais b qui est la valeur de l’erreur systématique de l’instrument de mesure et de l’er-
reur aléatoire ξ, qui satisfait (8) et dont la variance donne donc la mesure de l’imprécision
et décrit la dispersion ou la variation des données si nous avons besoin de plusieurs mesures.

42
De façon évidente, la mesure parfaite serait celle pour laquelle b = 0 et σ2 = 0 mais
on ne peut l’obtenir dans la pratique. Par contre, on peut organiser l’expérience de façon
à avoir b = 0 et en même temps à minimiser σ2 , c’est-à-dire à augmenter la précision des
mesures ou de l’appareil qu’on utilise pour obtenir ces mesures.
Si b = 0, alors EX = µ ce qui signifie l’absence d’erreur systématique. Dans ce cas δ
représente l’erreur aléatoire et nous dirons comme nous l’avons vu plus haut que X est un
estimateur sans biais pour µ.

Pour estimer la taille de l’erreur de mesure δ = X − µ d’un estimateur X d’une quantité


inconnue µ, on utilise souvent l’erreur quadratique moyenne (le risque quadratique ) ou
l’erreur absolue moyenne (le risque absolu) qui sont respectivement définies par

E(X − µ)2 et E|X − µ|. (10)


Dans notre modèle nous utiliserons l’erreur quadratique moyenne pour caractériser la
performance de l’estimateur X de µ. Dans ce cas, de (10), on déduit :

E(X − µ)2 = E [(X − EX) + (EX − µ)]2 = E(X − EX)2 + b2 = σ2 + b2 .


Nous avons donc montré que l’erreur quadratique moyenne peut se décomposer en la
somme b2 + σ2 du carré du biais b de la procédure de mesure et de la variance σ2 de l’erreur
aléatoire ξ.

Remarque 1. Souvent dans la pratique, le coefficient

1
k= p
2(σ2 + b2 )
est appelé précision de l’estimateur X.
Dans le cas d’absence d’erreur systématique (b = 0)

1 1
k= √ = √ .
2σ2 σ 2
Lorsque la déviation standard σ et le biais b sont petits, nous avons une haute préci-
sion et dans ce cas l’erreur quadratique moyenne est petite ; d’où une erreur quadratique
moyenne petite signifie une précision plus grande.

Exemple 1. Supposons que l’on cherche à déterminer le poids µ1 d’un objet à l’aide d’une
balance. On utilise un modèle Gaussien pour l’erreur de mesure en représentant le résultat
d’une mesure comme la réalisation de la variable aléatoire

X = µ1 + δ, (14)
où δ est l’erreur de mesure, δ ∼ N(0, σ2 ), et σ2 ne dépend pas de µ1 . Il est évident que si σ2
est connu et que nous voulons avoir une précision σ2 /N, alors nous devons faire N mesures
et prendre comme estimateur µ̂1 de µ1 , la réalisation de la statistique :

1
µ̂1 = X̄N = (X1 + X2 + . . . + XN ), (15)
N

43
moyenne des N mesures. De (14) il s’ensuit que

σ2
X̄N ∼ N(µ1 , ). (16)
N
Supposons maintenant que nous voulions déterminer les poids µ1 et µ2 de deux objets. De
combien de mesures avons nous besoin pour obtenir des estimateurs µ̂1 et µ̂2 pour µ1 et
µ2 respectivement, chacun avec la précision σ2 /N ? Il est évident qu’on peut peser chaque
objet N fois et de cette façon obtenir les estimateurs
1
µ̂1 = (X11 + X12 + . . . + X1N )
N
et
1
µ̂2 = (X21 + X22 + . . . + X2N ) (17)
N
pour µ1 et µ2 . Puisque
σ2 σ2
µ̂1 ∼ N(µ1 ,) et µ̂2 ∼ N(µ2 , ), (18)
N N
notre but est atteint mais au prix de 2N mesures.
Nous allons maintenant montrer comment on peut obtenir la même précision avec seule-
ment N mesures.
On peut remarquer qu’avec une balance et 2 objets, on peut faire plusieurs choses :
1) on peut déterminer le poids de chaque objet séparément.
2) on peut les peser tous les 2 ensemble ;
3) on peut déterminer la différence entre les 2.
En tenant compte de cette remarque, on peut représenter aussi les résultats de ces mesures :

X1i = µ1 + δ1i , i = 1, 2, . . . , n1 ,

X2i = µ2 + δ2i , i = 1, 2, . . . , n2 ,
X3i = µ1 + µ2 + δ3i , i = 1, 2, . . . , n3 ,
X4i = µ1 − µ2 + δ4i , i = 1, 2, . . . , n4 ,
où {δki } sont des variables aléatoires indépendantes identiquement distribuées :

δki ∼ N(0, σ2 ), i = 1, ..., nk , k = 1, 2, 3, 4. (19)

Par symétrie, il est naturel de prendre

n1 = n2 , n3 = n4 .
Il est évident que les statistiques

1 n1 1 n2 1 n3 1 n4
X̄1 = ∑ 1i 2 n2 ∑ 2i 3 n3 ∑ 3i 4 n4 ∑ X4i,
n1 i=1
X , X̄ = X , X̄ = X , X̄ = (20)
i=1 i=1 i=1

sont indépendantes et

σ2 σ2
X̄1 ∼ N(µ1 , ), X̄2 ∼ N(µ2 , ), (n1 = n2 )
n1 n1

44
et
σ2 σ2
X̄3 ∼ N(µ1 + µ2 , ), X̄4 ∼ N(µ1 − µ2 , ), (n3 = n4 ) (21)
n3 n3
d’où on déduit que
µ̂1 = X̄1 et µ̂2 = X̄2
sont des estimateurs sans biais pour µ1 et µ2 ayant chacun pour précision σ2 /n1 . Construi-
sons les statistiques
1 1
µ∗1 = (X̄3 + X̄4 ) et µ∗2 = (X̄3 − X̄4 ). (22)
2 2
Il est clair que
σ2 σ2
µ∗1 ∼ N(µ1 , ) et µ∗2 ∼ N(µ2 , ), (23)
2n3 2n3
d’où il s’ensuit que µ∗1 et µ∗2 sont aussi des estimateurs sans biais de µ1 et µ2 . De l’autre
côté, on peut remarquer que si n1 = n3 , alors la variance de µ∗1 est 2 fois plus petite que la
variance de µ̂1 . De même pour µ∗2 et µ̂2 . En posant n1 = N/2, notre but est atteint :

1
Varµ∗2 = Varµ̂2 . (24)
2
Exemple 2. (suite). Supposons maintenant que l’on a 3 objets dont on veut déterminer les
poids, en les pesant sur une balance non calibrée. Dans ce cas, les mesures pour ces trois
objets peuvent être représentés de la façon suivante :

X1 = µ1 + b + δ1 , X2 = µ2 + b + δ2 , X3 = µ3 + b + δ3 , (25)
respectivement, où b est l’erreur systématique ou le biais (supposé inconnu) de la procédure
de mesure due au fait que la balance n’est pas calibrée et δi est l’erreur aléatoire, δi ∼
N(0, σ2 ). Puisque
EXi = µi + b, (26)
pour estimer µi , nous avons besoin du biais. Cela demande une lecture sans aucun objet sur
la balance, c’est-à-dire qu’on obtient

X4 = b + δ4 , δ4 ∼ N(0, σ2 ). (27)

Puisque
EX4 = b, (28)
on peut utiliser X4 comme estimateur de b.
Considérons les statistiques

µ̂i = Xi − X4 , i = 1, 2, 3. (29)

Puisque toutes les mesures sont indépendantes, on peut dire que δ1 , δ2 , δ3 , δ4 sont des va-
riables aléatoires i.i.d.,
δi ∼ N(0, σ2 ), i = 1, . . . , 4,
et puisque
µ̂i = Xi − X4 = µi + b + δi − b − δ4 = µi + δi − δ4 (30)

45
des propriétées de δ1 , δ2 , δ3 , δ4 , on déduit que

µ̂i ∼ N(µi , 2σ2 ), i = 1, 2, 3. (31)

Puisque

Eµ̂i = µi , (32)
on peut dire que µ̂i est un estimateur sans biais pour µi . On remarque que

Varµ̂i = 2σ2 , i = 1, 2, 3. (33)

On peut représenter notre expérience à l’aide de la matrice d’expérience


° °
° µ1 µ2 µ3 b °
° °
° 1 0 0 1 °
° °
Σ1 = °
° 0 1 0 1 °.
°
° 0 0 1 1 °
° °
° 0 0 0 1 °

Considérons une autre représentation d’expérience donnée par la matrice :


° °
° µ1 µ2 µ3 b °
° °
° 1 0 0 1 °
° °
Σ2 = °° 0 1 0 1 °.
°
° 0 0 1 1 °
° °
° 1 1 1 1 °
Dans cette expérience les 3 premiers mesures sont comme précédemment (dans Σ1 ) mais la
quatrième détèrmine le poids des 3 articles ensemble, c’est à dire :

X4 = µ1 + µ2 + µ3 + b + δ4 .

Il est évident que :


X4 ∼ N(µ1 + µ2 + µ3 + b, σ2 ),
EX4 = µ1 + µ2 + µ3 + b, VarX4 = Varδ4 = σ2 .
Considérons maintenant les statistiques

Y1 = X1 + X4 − X2 − X3 , Y2 = X2 + X4 − X1 − X3 , Y3 = X3 + X4 − X1 − X2 .

Alors :

EY1 = 2µ1 , EY2 = 2µ2 , EY3 = 2µ3 ,


d’où on déduit que
1
µ∗i = Yi , i = 1, 2, 3
2
sont des estimateurs sans biais pour µ1 , µ2 , µ3 respectivement, c’est à dire

Eµ∗i = µi , i = 1, 2, 3.

46
De plus les variables aléatoires δ1 , δ2 , δ3 , δ4 sont indépendantes, δi ∼ N(0, σ2 ), d’où nous
obtenons
1 4σ2
Varµ∗i = VarYi = = σ2 .
4 4
Ainsi, si nous organisons l’expérience selon la matrice Σ2 , nous pouvons obtenir les mêmes
résultats qu’avec une balance calibrée sans erreur systématique.
Enfin on remarque que si, par exemple, il nous faut déterminer les poids µ1 , . . . , µ4 de
4 objets et que la balance est calibrée, alors dans ce cas au lieu d’utiliser le plan avec la
matrice ° °
° µ1 µ2 µ3 µ4 °
° °
° 1 0 0 0 °
° °
Σ3 = ° ° 0 1 0 0 °,
°
° 0 0 1 0 °
° °
° 0 0 0 1 °
d’après lequel on a
Xi = µ̂i ∼ N(µi , σ2 ),
il est évident qu’il est mieux de choisir le plan avec la matrice
° °
° µ1 µ2 µ3 µ4 °
° °
° 1 1 0 0 °
° °
Σ4 = °
° 1 −1 0 0 °.
°
° 0 0 1 1 °
° °
° 0 0 1 −1 °

Dans ce cas on obtient les estimateurs


σ 2
µ̂ˆ i ∼ N(µi , ), i = 1, . . . , 4.
2
Example 3. Supposons que nous observons un objet A qui se déplace uniformément avec
une vitesse constante et inconnue θ, θ > 0. Soit s(t) la distance parcourue par cet objet A
entre les temps t = 0 et t, t > 0. En supposant que s(0) = 0, on a

s(t) = θt, pour tout t ≥ 0.

Pour estimer θ on mesure les distances

s1 = s(t1 ), s2 = s(t2 ), . . . , sn = s(tn )

aux moments t1 < t2 < . . . < tn , on suppose que s0 = s(0) = 0.


Par ailleurs on sait que la précision de mesure de si est égale à ki σ2 , où les constantes ki
sont données, i = 1, . . . , n; σ2 > 0. Dans ces conditions on propose souvent comme valeur
expérimentale pour θ le nombre
n
θ̂ = ∑ ĉi si ,
i=1

n 2
ti t
ĉi = et α = ∑ i .
αki i=1 ki

47
On remarque que les coefficients ĉi sont choisis de facon que

ĉT t = 1, où ĉ = (ĉ1 , . . . , ĉn )T et t = (t1 , . . . ,tn )T .

Construire un modèle probabiliste permettant de donner des explications raisonnables sur


l’origine et l’optimalité dans un certain sens de cette procédure d’estimation.
Solution. Supposons que s = (s1 ,s2 , . . . , sn )T est une réalisation d’un vecteur aléatoire
S = (S1 , . . . , Sn )T dont les coordonnées Si sont des variables aléatoires indépendantes telles
que

ESi = θti et σ2i = VarSi = ki σ2 = σ2i , i = 1, . . . , n.


Dans ce cas nous pouvons dire que

Si = θti + δi , i = 1, . . . , n;
Eδi = 0, Varδi = ki σ2 = σ2i , i = 1, . . . , n.
Nous supposons que ti et ki sont donnés, mais le paramètre θ et la variance σ2 ne sont
pas connus. Notre but est de montrer que θ̂ est une réalisation du meilleur estimateur (de
variance minimale) sans biais dans la classe ∆θ de tous les estimateurs linéaires sans biais
θ∗n pour θ :
n
∆θ = {θ∗n = θ∗n (S) : θ∗n = ∑ ci Si , Eθ θ∗n = θ}.
i=1
Pour montrer cela nous considérons en plus la classe
n
∆ = {θ∗n = θ∗n (S) : θ∗n = ∑ ci Si }
i=1
de toutes les statistiques linéaires. Il est évident que ∆θ ⊂ ∆.
Soit θ∗n une statistique linéaire, θ∗n ∈ ∆. Puisque
n n n
Eθ θ∗n = ∑ ci ESi = ∑ ci θti = θ ∑ citi ,
i=1 i=1 i=1

on en tire que θ∗n ∈ ∆θ si et seulement si


n
∑ citi = cTt = 1.
i=1

Comme on l’a déja remarqué, le choix des coefficiens ĉi a été fait de façon à satisfaire cette
condition, et donc la statistique
n
θ̂n = ∑ ĉi Si
i=1

appartient à notre classe ∆θ des estimateurs linéaires sans biais. Montrons que θ̂n a la va-
riance minimale dans la classe ∆θ :

Varθ̂n = min Varθ∗n .


∗ θn ∈∆θ

Pour tout θ∗n ∈ ∆θ on a :

48
n n
Varθ∗n =∑ c2i VarSi =σ 2
∑ kic2i .
i=1 i=1

Il nous faut construire l’estimateur θ̂n , θ̂n ∈ ∆θ , tel que

Varθ̂n = min Varθ∗n .


∗ θn ∈∆θ

Cela signifie qu’il nous faut minimiser la fonction


n
∑ kic2i
i=1

à condition que
n
cT t = ∑ citi = 1.
i=1
En utilisant la méthode de Lagrange nous pouvons trouver ce minimum lié. Soit λ un mul-
tiplicateur de Lagrange. Nous voulons minimiser la fonction de Lagrange

Φ(c, λ) = ∑ c2i ki − 2λ(∑ citi − 1),

donc il nous faut résoudre l’équation

gradΦ(c, λ) = 0, 0 ∈ Rr+1 ,

ce qui est équivalent à résoudre le système de n + 1 équations


∂Φ(c, λ)
= 2ci ki − 2λti = 0, i = 1, 2, . . . , n,
∂ci
et
∂Φ(c, λ)
= ∑ citi − 1 = 0.
∂λ
On trouve que
ci = λti /ki , i = 1, . . . , n.
Pour trouver λ il faut mettre les valeurs trouvées de ci dans la dernière équation du système,
d’où on obtient que
1
λ= n 2,
t
∑ kii
i=1
et donc
ti
ki ti
ĉi = = , i = 1, . . . , n.
n t2 αki
∑ i
ki
i=1

Ces valeurs de ci nous donnent justement l’estimateur θ̂n sans biais, θ̂n ∈ ∆θ, dont la va-
riance est minimale :
n n
ti
θ̂n = ∑ ĉi Si = ∑ Si .
i=1 i=1 αk i

49
Puisque les statistiques Si sont indépendantes, par des calculs directs on trouve que
n n n
Varθ̂n = Var ∑ ĉi Si = ∑ (ĉi )2 VarSi = σ2 ∑ ki (ĉi )2 =
i=1 i=1 i=1

à !−1
n n
t2 ti2 1 2
σ2 α−2 ∑ i = σ2 ∑ ki = σ .
i=1 ki =1 α

1.3 Méthode de Monte-Carlo.

Considérons le problème d’évaluation d’un intégrale multidimensionnelle


Z 1 Z 1 Z
In = ··· fn (x1 , ..., xn )dx1 ...dxn = f (x)dx, (1)
0 0 Kn


x = (x1 , ..., xn )T ∈ Kn = [0, 1] × [0, 1] × ... × [0, 1] = [0, 1]n ,
{ fn (·)} est une suite de fonctions données, fn (·) : Kn → R1 , n ∈ N.
Il est connu que le problème d’évaluation d’intégrales de ce type devient compliqué
avec l’augmentation de n.
Supposons que nous pouvons construire un èchantiiilon X1 = (X11 , ..., X1n )T de taille
n, formé des variables aléatoires indépendantes suivant la même loi uniforme U ([0, 1]) sur
[0, 1]. Dans ce cas le vecteur X1 suit une loi uniforme U (Kn ) sur le cube Kn .
Supposons en plus que nous pouvons construire un échantillon X = (X1 , ..., XN )T de
taille N quelque soit N ∈ N des vecteurs aléatoires indépendants, ayant la même loi uni-
forme U (Kn ) sur le cube Kn , c’est-à-dire nous pouvons construire nN variables aléatoires
indépendantes Xi j uniformément distribuées sur [0, 1]. On remarque que de la construction
des variables aléatoires Xi j il suit que
Z
E fn (Xi ) = fn (x)dx = In , (2)
Kn

i.e. la valeur numérique de l’intégrale n’est que la moyenne E fn (Xi ) de la variable aléa-
toire fn (Xi ). Dans ce cas pour estimer la moyenne E fn (Xi ) = In nous avons la possibilité
d’utiliser la loi faible des grands nombres de Bernoulli d’après laquelle

1 N

P
fn (Xi ) → In , N → ∞, (3)
N i=1

i.e. pour tout ε > 0

1 N
P{| ∑ fn(Xi) − In| > ε} → 0,
N i=1
si N → ∞, (4)

50
ou
1 N
P{| ∑ fn(Xi) − In| ≤ ε} → 1,
N i=1
si N → ∞, (5)

d’où on tire que pour les grandes valeurs de N avec une probabilité proche à 1 on a

1 N
In ≈ ∑ fn (Xi ) (6)
N i=1

De (4) et du Théorème Limite Central on tire que pour les grandes valeurs de N
µ √ ¶
1 N ε N
P{| ∑ fn (Xi ) − In | ≥ ε} ≈ 2Φ − (7)
N i=1 σn

et donc µ √ ¶
1 N ε N
P{| ∑ fn (Xi ) − In | ≤ ε} ≈ 1 − 2Φ −
N i=1 σn
où Z
σ2n 2
= Var fn (Xi ) = E[ fn (Xi ) − In ] = [ fn (x − In ]2 dx (8)
Kn

est la variance de fn (Xi ). (On suppose que Var fn (Xi ) existe). Donc si nous voulons que la
probabilité dans (7) soit proche à 0.997, par exemple, il faut choisir ε de façon que

ε N
=3
σn
i.e.
3σn
ε= √ ,
N
d’où on tire que la précision ε d’approximation de In , donnée par (7), est de l’ordre de
N −1/2 . Il est important de noter que la précision de l’approximation ne dépend que de la
variance σ2n de fn (Xi ). Donc pour évaluer l’intégrale In avec la précision √ 3σn
N
il suffit de
modeliser N vecteurs aléatoires Xi et calculer N valeurs fn (Xi ).
Comparons ce résultat avec la méthode classique du calcul des intégrales en utilisant
une approximation par les sommes.
Si n = 1, la méthode de Simpson avec N noeuds d’interpolation donne (pour une fonc-
tion f régulière ) la précision N14 . Mais pour n > 1 l’utilisation de cette méthode pour
chacune des variables même seulement avec 10 noeuds d’interpolation exige 10n calculs
des valeurs de la fonction fn (x) = fn (x1 , ..., xn ). Alors avec augmentation de n le calcul de
l’intégral In par cette méthode devient pratiquement impossible à cause de cumulation des
erreurs de calcul. Méthode de Monte-Carlo dans les mêmes conditions exige nN modelisa-
tions des variables aléatoires Xi j et N calculs des valeurs de la fonction fn (Xi ) au lieu de
10n dans la méthode de Simpson. Il est clair que pour n grand la méthode de Monte-Carlo
est uniquement possible. Mais il est raisonable bien sûr de trouver un estimateur supérieur
de la variance σ2n .
Exercice 1. Soit f une fonction continue périodique de période T = 1 sur R1 :

f (x + T ) = f (x), x ∈ R1 .

51
Considérons une suite des variables aléatoires indépendantes {Xn }, uniformément distri-
buées sur [0, 1], Xi ∼ U([0, 1]). Montrer que
Z 1
1 n

P
f (x + Xk ) → f (x)dx.
n k=1 0

Exercice 2. Soit f continue sur [0, 1]. Montrer que


Z 1 Z 1 µ ¶
x1 + x2 + ... + xn 1
lim ··· f dx1 dx2 ...dxn = f ( ).
n→∞ 0 0 n 2
Exercice 3. Calculer
Z 1 Z 1
π
lim ··· cos2m (x1 + x2 + ... + xn )dx1 dx2 ...dxn , m ∈ N.
n→∞ 0 0 2n
Exercice 4. Soient g continue et bornée sur R1 et
P
{Xn } → X.

Montrer que
a) limn→∞ Eg(Xn ) = Eg(X) ( la suite du théorème de Lebesgue) ;
b) limn→∞ E |g(Xn − g(X)|r = 0, r > 0.
Exercice 5. Soit f continue sur [0, 1]. Montrer que
Z 1 Z 1
√ 1
lim ··· f ( n x1 ...xn ) dx1 ...dxn = f ( ).
n→∞ 0 0 e
Exercice 6. Soient f et g continues sur [0, 1] et telles que pour tout x ∈]0, 1[

0 ≤ f (x) < cg(x), c > 0.

Montrer que
Z 1 Z 1 R1
f (x1 ) + ... + f (xn ) f (x)dx
lim ··· dx1 ...dxn = R01 .
n→∞ 0 0 g(x1 ) + ... + g(xn ) 0 g(x)dx
Exercice 7. Montrer que
Z 1 Z 1 2
x1 + ... + xn2 2
lim ··· dx1 ...dxn = .
n→∞ 0 0 x1 + ... + xn 3
Exercice 8. Soit f telle que f 00 est continue sur [0, 1]. Montrer que
Z 1 Z 1· µ ¶ µ ¶¸ ¡ ¢
x1 + ... + xn 1 f 00 12
lim n ··· f −f dx1 ...dxn = .
n→∞ 0 0 n 2 24
Exercice 9. Montrer que
a) Z Z
lim ... dx1 ...dxn = 0;
n→∞

0≤xi ≤1, x12 +...+xn2 ≤ n

52
b) Z Z
lim ... dx1 ...dxn = 0;
n→∞
0≤xi ≤1, x12 +...+xn2 ≤ n4

c) Z Z
lim ... dx1 ...dxn = 1.
n→∞
0≤xi ≤1, x12 +...+xn2 ≤ n2

Exercice 10. Calculer


a) Z Z
lim ... f (x1 )... f (xn )dx1 ...dxn ;
n→∞
{x12 +...+xn2 ≤n}

b) Z Z
lim ... f (x1 )... f (xn )dx1 ...dxn (a < σ2 );
n→∞
{∑nk=1 xk2 ≤an}

c) Z Z
lim ... f (x1 )... f (xn )dx1 ...dxn (a > σ2 );
n→∞
{∑nk=1 xk2 ≤an}

si f satisfait aux condition


Z ∞ Z ∞
1= f (x)dx, σ =
2
x2 f (x)dx < ∞.
−∞ −∞

Exercice 11. On dit qu’une suite de nombres {an }, n ∈ N∗ , an ∈ [0, 1] est uniformément
distribuée au sens de H.Weyl sur [0, 1] si pour toute fonction continue f , intégrable sur
[0, 1] au sens de Riemann
Z 1
1 n
lim
n→∞ n
∑ f (ak ) = 0
f (x)dx.
k=1

Soit {Xn } une suite de variables aléatoires indépendantes uniformément distribuées sur
[0, 1]. Montrer que avec probabilité égale à 1 {Xn } est uniformément distribuée au sens
de Weyl sur [0, 1].

Remark 1. On rappele que


Z b Z u(b)
f (u−1 (t)
f (x)dx = dt,
a u(a) u0 (u−1 (t))

en faisant le changement de variables t = u(x). En statistique on utilise souvent les trans-


formations en choisissant :

u(x) = e−x , u(x) = 1/x, u(x) = x/(1 + x).

53
54
Chapitre 2

ELEMENTS DE LA THEORIE DE
L’ESTIMATION PONCTUELLE.

2.1 Modèle statistique. Fonction de vraisemblance.

Soient (Ω, A , P) un espace probabilisé et (Rn , Bn ) un espace borélien.


Définition 1. Une application
X = X(ω) = (X1 (ω), X2 (ω), . . . , Xn (ω))T : Ω → Rn
de l’ensemble Ω = {ω} de tous les événements élémentaires dans Rn est appelée un vecteur
aléatoire si
X−1 (B) ∈ A , pour tout B ∈ Bn . (1)
Définition 2. Soit PX une mesure sur (Rn , Bn ), déterminée par la formule suivante :
PX (B) = P{ω : X(ω) ∈ B} = P{X−1 (B)} = P{X ∈B}. (2)
La mesure PX , déterminée sur la σ-algèbre borélienne Bn par l’égalité (2), s’appelle la
distribution (la répartition) de X dans Rn .
Supposons que la distribution PX de X appartienne à une famille
P = {Pθ , θ ∈ Θ}.
Définition 3. On appelle modèle statistique le triplet (Rn , Bn , P ).
Souvent au lieu de (Rn , Bn , P ) on écrit (Rn , Bn , Pθ , θ ∈ Θ) pour indiquer l’espace des
paramètres Θ.

Définition 4. Un modèle (Rn , Bn , Pθ , θ ∈ Θ) est dit dominé par une mesure σ-finie µ dans
Rn , si la famille P = {Pθ , θ ∈ Θ} est absolumemt continue par rapport à µ :
Pθ ¿ µ, ∀θ ∈ Θ.
Autrement dit, le modèle (Rn , Bn , Pθ , θ ∈ Θ) est dominé par µ, si pour tout θ ∈ Θ il
existe une fonction non négative Bn - mesurable p(x; θ) telle que
Z
Pθ (B) = p(x; θ)dµ(x)
B

55
pour tout B ∈ Bn . La fonction p(x; θ) = pθ (x) est appelée la dérivée de Radon-Nikodym de
la mesure Pθ par rapport à la σ-mesure µ, et on note souvent

dPθ
p(x; θ) = (x) ou dPθ (x) = p(x; θ)dµ(x).

Considérons le modèle :

H0 : X ∼ p(x; θ), θ ∈ Θ, x ∈ Rn ,
d’après lequel la densité d’un vecteur aléatoire X = X(ω) de dimension n appartient à une
famille des densités

{p(x; θ), θ ∈ Θ}, x = (x1 , x2 , . . . , xn )T ∈ Rn .


Définition 5. Si Θ est un ensemble Θ de Rm , on dit que le modèle H0 est paramétrique,
sinon le modèle H0 s’appelle non paramétrique.
Définition 6. La variable aléatoire

L(θ) = L(X, θ) = p(X; θ), θ ∈ Θ ⊂ Rm , (3)

est appelée la fonction de vraisemblance de X.


Remarque 1. On appelle L(θ) ainsi car la fonction de vraisemblence L(θ), sachant la réali-
sation x du vecteur aléatoire X, nous permet de comparer les paramètres θ1 ∈ Θ et θ2 ∈ Θ .
Si
L(θ1 ) > L(θ2 ),
il est plus probable que X = x pour θ = θ1 .
Avec cette optique il est très naturel de considérer

θ̂n = θ̂n (X) = argθ max L(θ), i.e. L(θ̂n ) = max L(θ),
θ∈Θ
Θ

comme un estimateur de θ, appelé l’estimateur de maximum de vraisemblance.

2.2 Statistique. Échantillon. Loi empirique.

Définition 1. Soit T = T(x) une application de (Rn , Bn ) dans un espace E muni d’une σ-
algèbre borélienne E , T : Rn → E. On dit que T est une application borélienne si pour
tout ensemble borélien B de l’espace (E, E ), B ∈ E , T−1 (B) est un ensemble borélien dans
(Rn , Bn ), i.e.

{x : T(x) ∈ B} = T−1 (B) ∈ Bn , pour tout B ∈ E .


Définition 2. Soient X = X(ω) un vecteur aléatoire sur (Ω, A , P), X : Ω → Rn , et T(x), une
application borélienne de Rn dans un espace mesurable (E, E ),

T : Rn → E.

56
Dans ce cas on dit que T(X) = T(X(ω)) est une statistique et l’application T elle-même
s’appelle une fonction de décision.
En d’autres termes n’importe quelle transformation du vecteur d’observations X ne dé-
pendant pas du paramètre inconnu θ est une statistique.
Définition 3. Soit X(ω) = (X1 (ω), X2 (ω), . . . , Xn (ω))T un vecteur aléatoire. Considérons un
modèle H0 d’après lequel les variables aléatoires X1 , . . . , Xn sont indépendantes et suivent
la même loi. Dans ce cas on dit que X est un échantillon de taille n et on écrit X au lieu de
X.
Remarque 1. Soit X = (X1 , . . . , Xn )T un échantillon de taille n, X : Ω → Rn . Considérons
un modèle paramétrique

H0 : X ∼ p(x; θ), θ ∈ Θ , x ∈ Rn .
Soit f (xi ; θ) la densité de Xi : R1 × Θ → R1 . Dans ce cas pour tout x ∈ Rn
n
p(x; θ) = ∏ f (xi ; θ), θ ∈ Θ ,
i=1

et la fonction de vraisemblance de l’échantillon X est


n
L(θ) = p(X; θ) = ∏ f (Xi ; θ), θ ∈ Θ .
i=1

Exemple 1. Statistiques d’ordre. Vecteur des rangs. Soit X = (X1 , ..., Xn )T un échantillon,
X ∈ X ⊂ Rn . A toute réalisation x = (x1 , ..., xn )T ∈ X de X on peut associer le vecteur
x(n) = (x(1) , ..., x(n) )T obtenu en ordonnant les xi par ordre croissant

x(1) ≤ x(2) ≤ ... ≤ x(n) .

La statistique correspondante X(n) = (X(1) , ..., X(n) )T est appelée le vecteur des statistiques
d’ordre et X(i) est la i-ème statistique d’ordre dans A ⊂ Rn :

A = {x = (x1 , ..., xn )T ∈ Rn : x1 ≤ x2 ≤ ... ≤ xn }.

Si de plus on associe à X le vecteur R = (R1 , ..., Rn )T des rangs Ri des Xi (i = 1, ..., n), dans
X(n) , avec
n
Ri = ∑ 1{X j ≤Xi}
j=1

et on suppose que
P{X(1) < X(2) < · · · < X(n) } = 1,

alors dans ce cas la correspondence entre X et la statistique (X(n) , R) est bijective. En gé-
néral, R est à valeurs dans l’ensemble σn des permutations des n premier entiers, avec
répétition car il peut y avoir des ex aequo parmi les composantes de X. Cependant, si la
probabilité pour qu’au moins deux des composants de X soient égales est nulle, R est à
valeurs dans l’ensemble σn des permutations de {1, 2, ..., n}. Cela se produit en particulier
si la loi de X admet une densité p(x) par rapport à la mesure de Lebesgue sur Rn . Parfois,
au lieu de X (n) on utilise le signe X (·) .

57
La statistique Jn = (J1 , ..., Jn )T , oú
n
Jk = ∑ j1{R j =k}, k = 1, 2, ..., h,
j=1

est connue comme le vecteur des antirangs.


Soit F(x) = P{X1 ≤ x} la fonction de répartition de X1 . Dans ce cas on a, par exemple,

P{X(n) ≤ x} = F n (x), P{X(1) ≤ x} = 1 − [1 − F(x)]n ,


n
F k (x)(1 − F(x))n−k
P{X(r) ≤ x} = n! ∑ ,
k=r k!(n − k)!
puisque
n!
P{X(r) ≤ x < X(r+1) } = (F(x))r [1 − F(x)]n−r .
r!(n − r)!
Donc si la loi F de X1 est absolument continue, i.e. s’il existe la densité f (x) telle que
Z x
F(x) = f (u)du, x ∈ R1 ,

alors la loi de X(r) est absolument continue aussi et sa densité est donnée par la formule

n!
fX(r) (x) = (F(x)r−1 [1 − F(x)]n−r , r = 1, ..., n.
(r − 1)!(n − r)!

Exemple 2. Soit X = (X1 , ..., Xn )T un échantillon. Dans ce cas les statistiques


n n
T1 1 n
T1 = ∑ Xi , T2 = ∑ Xi2 , X̄n = , s2n = ∑ (Xi − X̄n)2,
i=1 i=1 n n i=1
sn
T3 = X(1) , T4 = X(n) , T5 = X(n) − X(1) , Vn =
X̄n
donnent des exemples simples de statistiques scalaires, tandis que

T = (T1 , T2 )T et U = (X̄n , s2n )T

sont deux statistiques vectorielles de dimension deux. La statistique Vn s’appelle le coeffi-


cient de variabilité, T5 est l’étendu de l’échantillon, T3 et T4 sont les statistiques extrémales.
Exemple 3. La loi empirique. Soit X = (X1 , ..., Xn )T un échantillon, F(x) = P{Xi ≤ x}
est la fonction de répartition de Xi . Ayant la réalisation x = (x1 , ..., xn )T de la statistique
X = (X1 , ..., Xn )T , nous pouvons construire la fonction

1 n 1 n
Fn (x) = Fn (x; x1 , ..., xn ) = ∑ ]−∞,x] i n ∑ 1]−∞,x](x(i)),
n i=1
1 (x ) = x ∈ R1 ,
i=1

dont la valeur Fn (x) en n’importe quel point x, x ∈ R1 , représente la réalisation de la statis-


tique
1 n 1 n
Fn (x) = Fn (x; X1 , ..., Xn ) = ∑ 1]−∞,x] (Xi ) = ∑ 1]−∞,x] (X(i) ),
n i=1 n i=1

58
calculée au point choisi x.
Par construction, la fonction Fn (x), x ∈ R1 , a toutes les propriétés d’une fonction de
répartition, car elle est croissante de 0 à 1 et continue à droite, et pour cette raison nous
pouvons introduire une variable aléatoire discrète, disons X, dont la loi conditionnelle,
conditionnée par X = x, est donnée par la fonction Fn (x), c’est-à-dire

Fn (x) = P{X ≤ x | X = x} = P{X ≤ x | X1 = x1 , ..., Xn = xn }, x ∈ R1 ,

et par conséquent
Fn (x) = P{X ≤ x | X}, x ∈ R1 .
Cette formule détermine la fonction de répartition aléatoire et, par tradition, on l’appelle la
fonction de répartition empirique. Par conséquent, la loi conditionnelle de la variable aléa-
toire X, conditionnée par X, s’appelle la loi empirique. La loi empirique est la loi discrète
de X telle que
1
P{X = Xi | X} =
n
pour tout i = 1, 2, ..., n et Fn (x) est la fonction de répartition de cette loi.
Les statistiques X̄n et s2n représentent la moyenne et la variance de la loi empirique. Par
définition la statistique
x̂P = X([nP]+1)
représente P- quantile de la loi empirique, et par conséquant, x̂0.5 = X([ 2n ]+1) est la médiane
de la loi empirique.

Remarque 2. Soit X = (X1 , . . . , Xn )T un vecteur aléatoire, X ∈ Rn , dont la densité est pX (x),


x = (x1 , . . . , xn )T .
Considérons une statistique Y = f (X), où f : Rn → Rn est une application dérivable.
Notons
y = f (x), i.e. y = (y1 , . . . , yn )T , où y j = f j (x), x ∈ Rn .
Le Jacobien de f est une application

D f : Rn → R1 ,

donnée par la formule : ° °


° ∂ f j (x) °
°
D f (x) = det ° °,
∂xi °
i.e. D f (x) est le déterminant de la matrice Jacobienne.
Si D f (x) 6= 0 au voisinage d’un point x, x ∈ Rn , dans ce cas f −1 (y) existe au voisinage
du point y = f (x) avec
D f −1 ( f (x))D f (x) = 1, (1)
ou
D f −1 (y)D f (x) = 1, y = f (x).
Si f −1 existe, alors d’après une propriété connue en analyse, pour toute fonction integrable
ϕ de Rn on a Z Z
ϕ(y) dy = ϕ( f (x))|D f (x)| dx (2)
A f −1 (A)

59
pour tout A, borelien de Rn . C’est la formule de changement de variables dans une intégrale.

Lemme 1. Soient Y = f (X) et pX (x) la densité de X, X ∈ Rn , où f est telle que f −1 existe.


Dans ce cas la densité pY (y) de la statistique Y est donnée par la formule

pY (y) = pX ( f −1 (y))|D f −1 (y)|. (3)

Démonstration. D’après (2) pour tout B borélien, B ∈ Bn , on a :


Z
P{Y ∈ B} = pY (y) dy = P{X ∈ f −1 (B)} =
B
Z Z
= pX (x) dx = pX ( f −1 (y))|D f −1 (y)| dy,
f −1 (B) B

et donc
pY (y) = pX ( f −1 (y))|D f −1 (y)| (4)
et vice-versa
pX (x) = pY ( f (x))|D f (x)|. (5)
Théorème 1. Soit X = (X1 , ..., Xn )T . Dans ce cas la densité de X1 est
Z
pX1 (x1 ) = pX (x1 , ..., xn )dx2 · · · dxn .
Rn−1

Démonstration. Pour tout A borélien dans R1 , A ∈ B , on a

P{X1 ∈ A} = P{X1 ∈ A, −∞ < X2 < +∞, ..., −∞ < Xn < +∞} =


 
Z Z Z Z 
pX (x)dx1 · · · dxn = pX (x1 , ..., xn )dx2 · · · dxn dx1 ,
 
A Rn−1 A Rn−1
et donc Z
X1 ∼ pX1 (x1 ) = pX (x1 , ..., xn )dx2 · · · dxn .
Rn−1

Exemple 4. Soit X = (X1 , X2 )T , Y1 = X1 + X2 . Trouvons la densité de la statistique Y1 .


Considérons la statistique Y = (Y1 ,Y2 )T = f (X), où

Y1 = X1 + X2 = f1 (X), Y2 = f2 (X) = X2 ,

i.e.
f (x) = (y1 , y2 ) = ( f1 (x), f2 (x))T ,
f1 (x) = x1 + x2 , f2 (x) = x2 .
Dans ce cas
∂ f1 (x) ∂ f1 (x) ∂ f2 (x) ∂ f2 (x)
= 1, = 1, = 0, =1
∂x1 ∂x2 ∂x1 ∂x2

60
et donc ° °
° 1 1 °
D f (x) = det °
° 0 1
° = 1,
° D f −1 (y) = 1,

où x = (x1 , x2 )T = f −1 (y) est donnée par les formules :

x1 = f1−1 (y) = y1 − y2 ,

x2 = f2−1 (y) = y2 ,
et donc
∂ f1−1 (y) ∂ f1−1 (y) ∂ f2−1 (y) ∂ f2−1 (y)
= 1, = −1, = 0, = 1,
∂y1 ∂y2 ∂y1 ∂y2
° −1 °
° ∂ f (y) °
−1 ° j °
D f (y) = det ° ° = 1.
° ∂yi °
D’après (4) on a

pY (y) = pX ( f −1 (y)) | D f −1 (y) |= pX (y1 − y2 , y2 ) (6)

et, par conséquant, on en déduit que (avec l’aide du Théorème 1)


Z∞ Z∞
pY1 (y1 ) = pY (y)dy2 = pX (y1 −2 , y2 )dy2 . (7)
−∞ −∞

Théorème 2. Si la densité pX (x) du vecteur X ∈ Rn est présentée par la formule


n
pX (x) = ∏ pXi (xi ),
i=1

où pXi (xi ) est la densité de Xi , dans ce cas les variables aléatoires X1 , X2 , . . . , Xn sont
indépendantes.
Démonstration. Soient Ai1 , Ai2 , ..., Aik des ensembles boréliens dans R1 . Dans ce cas

P{Xi1 ∈ Ai1 , Xi2 ∈ Ai2 , ... Xik ∈ Aik } = P{Xi j ∈ Ai j , j = 1, ..., k; Xi ∈ R1 , i 6= j} =


Z Z Z Z
··· pXi1 (xi 1 )...pXik (xi k )dxi1 · · · dxik ∏ pXi (xi )dxi =
Ai1 Ai2 Aik Rn−k i6=i j

k Z k
∏ p(xi j ) dxi j = ∏ P{Xi j ∈ Ai j }.
j=1 j=1
Ai j

Remarque 3. Soit X = (X1 , X2 )T un vecteur aléatoire, dont les componentes sont indépen-
dantes. Dans ce cas
pX (x) = pX (x1 , x2 ) = pX1 (x1 )pX2 (x2 ), (8)
et donc la densité de la statistique Y1 = X1 + X2 est donnée par la formule
Z Z
pY1 (y1 ) = pY1 (y1 − y2 )pX2 (y2 )dy2 = pX1 (y2 )pX2 (y1 − y2 )dy2 . (9)

61
En effet, de (7) on trouve que
Z∞ Z∞
pY1 (y1 ) = pX (y1 − y2 , y2 )dy2 = pX1 (y1 − y2 )pX2 (y2 )dy2
−∞ −∞

(on a utilisé l’indépendance de X1 et X2 et (8)).

2.3 Estimateur ponctuel. Consistance. Estimateur inva-


riant

Considérons le modèle paramétrique H0 d’après lequel

X ∼ p(x; θ), x ∈ Rn , θ ∈ Θ ⊂ Rm , 1 ≤ m ≤ n.

Définition 1. Soit T = T(X) une statistique telle que

T : Rn → Θ ⊂ Rm , m ≤ n.
Dans ce cas la statistique T s’appelle un estimateur statistique ponctuel ou, tout simplement,
un estimateur pour θ = (θ1 , . . . , θm )T .
Si la vraie valeur du paramètre θ est inconnue, alors la réalisation

θ∗ = T(x), θ∗ ∈ Θ ⊂ Rn ,

de l’estimateur T(X) est considérée comme une approximation expérimentale pour θ,

θ∼
= θ∗ = T(x).
On dit que c’est l’estimation ponctuelle de θ.
Remarque 1. Parfois, pour souligner qu’on travaille avec un vecteur d’observations X
d’ordre n, on ecrit θ∗n au lieu de θ∗ .
Définition 2. On appelle biais de l’estimateur T = T(X) de θ, θ ∈ Θ ⊂ Rm , la fonction
b : Θ → Rm ,
b(θ) = Eθ (T − θ), θ ∈ Θ.
Si
b(θ) ≡ 0m , θ∈Θ
on dit que l’estimateur T est sans biais.
Remarque 2. Soient θ∗n et θ̄n deux estimateurs scalaires sans biais pour θ ∈ Θ ⊂ R1 :

Eθ θ∗n = Eθ θ̄n , θ ∈ Θ.

Dans ce cas θ̃n = Eθ (θ∗n |θ̄n ) est aussi un estimateur sans bias pour θ :

Eθ θ̃n = Eθ {Eθ (θ∗n |θ̄n )} ≡ θ, θ ∈ Θ.

Supposons Varθ θ̄n et Varθ θ∗n existent. Alors, comme

Varθ θ∗n = Eθ {Varθ (θ∗n |θ̄n )} + Varθ {Eθ (θ∗n |θ̄n )},

62
et
Eθ {Varθ (θ∗n |θ̄n )} ≥ 0,
on en tire que
Varθ θ̃n = Varθ {Eθ (θ∗n |θ̄n )} ≤ Varθ θ∗n .
Il est évident que par symétrie on obtient également que

Varθ θ̃n ≤ Varθ θ̄n .

Définition 3. {Tn } est une suite d’estimateurs asymptotiquement sans biais pour le para-
mètre θ, θ ∈ Θ , si pour tout θ ∈ Θ

bn (θ) = Eθ (Tn − θ) → 0m ,

lorsque n → ∞.
Définition 4. Soit {θ∗n } une suite d’estimateurs ponctuels pour θ, θ∗n = θ∗n (X). On dit que
{θ∗n } est une suite consistante ou cohérante pour θ, si {θ∗n } converge en probabilité vers θ,
i.e. si pour tout ε > 0

Pθ {kθ∗n − θk > ε} → 0, quand n → ∞.


Critère de consistance. Soit Tn une suite d’estimateurs asymptotiquement sans biais pour
P
le paramètre scalaire θ, θ ∈ Θ ⊂ R1 , telle que Varθ Tn → 0, lorsque n → ∞. Alors θ∗n → θ.
En effet, de l’inégalité de Tchebychev, on tire que pour tout ε > 0

Eθ (Tn − θ)2 Varθ Tn b2n (θ)


Pθ {| Tn − θ |> ε} ≤ = + 2 → 0,
ε2 ε2 ε
lorsque n → ∞, puisque bn (θ) = Eθ Tn → 0 quand n → ∞, et donc la suite {Tn } est consis-
tante.
Définition 5. Soit θ∗n = θ∗n (X1 , ..., Xn ) un estimateur de paramètre θ. On dit que θ∗n est inva-
riant par rapport au paramètre de translation C, C ∈ R1 , si

θ∗n (X1 +C, X2 +C, ..., Xn +C) = θ∗n (X1 , ..., Xn ).

Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon, Xi ∼ N(µ, σ2 ). Dans ce cas la statistique


µ∗n (X1 , ..., Xn ) = X̄n n’est pas un estimateur invariant pour µ par rapport au paramètre de
translation C, parce que

µ∗n (X1 +C, ..., Xn +C) = C + X̄n 6= µ∗n (X1 , ..., Xn ).

Par contre la statistique


n
1
s2n = s2n (X1 , ..., Xn ) =
n ∑ (X j − X̄n)2
j=1

est un estimateur invariant pour σ2 par rapport au paramètre de translation C, parce que

s2n (X1 +C, ..., Xn +C) = s2n (X1 , ..., Xn ).

63
2.4 Fonction de perte, fonction de risque.

Définition 1. (Fonction de perte). Soit T = T (X) : Rn → Θ un estimateur ponctuel du


paramètre θ, θ ∈ Θ ⊂ R1 . Toute fonction non négative l(t, θ) : Θ × Θ → R1+ convexe en t
est appelée fonction de perte de l’estimateur T .
Les fonctions de perte servent à mesurer la qualité d’un estimateur ; cela suppose donc
que la valeur observée l(t, θ) de la fonction l(T (X), θ), représente la perte pour chaque θ
qui résulte de l’utilisation de la valeur de T au lieu de θ. Il est naturel de supposer que
l(θ, θ) = 0. On utilise le plus souvent la fonction

l(T (X), θ) = (T (X) − θ)2 , θ ∈ Θ,

comme fonction de perte (fonction de perte quadratique). Mais on peut aussi prendre
µ ¶2
T (X)
l(T (X), θ) =| T (X) − θ |, l(T (X), θ) = 1 −
θ
ou µ ¶
T T
l(T (X), θ) = − ln − 1.
θ θ
Il est intéressant aussi d’utiliser des fonctions convexes et de choisir

l(T (X), θ) = g(T (X) − θ), θ ∈ Θ,

où g est une fonction convexe non négative.


Définition 2. (Fonction de risque). On appelle fonction de risque ou risque de l’estimateur
T par rapport à la fonction de perte l l’espérance mathématique de la fonction de perte

Rl (T, θ) = Eθ {l(T, θ)}, θ ∈ Θ.

Cette fonction représente manifestement la perte moyenne lorsqu’on utilise l’estimateur


T (X) quand la vraie valeur du paramètre est θ.
Par exemple, si ½
1, | T − θ |≥ ε,
l(T, θ) =
0, | T − θ |< ε,
alors la fonction de risque est

Rl (T, θ) = Eθ {l(T, θ)} = Pθ {| T − θ |≥ ε}, θ ∈ Θ.

Cette définition nous permet d’introduire une relation d’ordre partiel sur les estimateurs
de θ. Il est logique d’admettre que l’estimateur T1 est préférable à l’estimateur T2 par rapport
à la fonction de perte l, si
Rl (T1 , θ) ≤ Rl (T2 , θ), θ ∈ Θ.
Remarque 1. Lorsque la fonction de perte choisie est la fonction de perte quadratique,
le risque-associé est appelé risque quadratique. Dans le cas d’un estimateur sans biais, le
risque quadratique correspond à la variance de l’estimateur.
Remarque 2. Dans le cas où le paramètre θ = (θ1 , ..., θm )T est un élément de Θ ⊂ Rm , alors
les produits sont des produits scalaires et les variances sont des matrices de covariance.

64
Plus d’information et des exemples on peut trouver, par exemple, dans Voinov& Nikulin
(1993), (1996).

2.5 Statistiques exhaustives, nécessaires, minimales et com-


plètes.

Considérons le modèle

H0 : X ∼ p(x; θ), θ ∈ Θ ⊂ Rm , x ∈ Rn ,
où la densité du vecteur X = X(ω) de dimension n, X : Ω → Rn , appartient à une famille
des densités

{p(x; θ), θ ∈ Θ }, x = (x1 , x2 , . . . , xn )T ∈ Rn .


Définition 1. Exhaustivité. On dit qu’une statistique

T = T(X), T : Rn → Rk , m ≤ k ≤ n,

est exhaustive pour le paramètre θ ou pour la famille des densités

{p(x; θ), θ ∈ Θ },
si la loi conditionnelle de X, sachant T,

Pθ {X ≤ x | T = t}
ne dépend pas de θ, i.e.

Pθ {X ≤ x | T = t} = P{X ≤ x | T = t}.

Remarque 1. Le fait que la loi conditionnelle de X, sachant T, ne dépende pas de θ signifie


que T contient toute l’information sur le paramètre inconnu θ.
Remarque 2. En pratique, il est très difficile de répondre à la question s’il existe une sta-
tistique exhaustive ou non en utilisant cette definition. Mais, ce qui est plus ennuyeux c’est
que cette definition ne donne aucune méthode pour construire des statistiques exhaustives.
Il est donc très important d’avoir un critère simple qui permettrait de trouver des statistiques
exhaustives.

Théorème. (Critère de factorisation de Neyman-Fisher).


Une statistique T = T(X) est exhaustive pour θ si et seulement si la fonction de vrai-
semblance L(θ) de X peut être factorisée de la façon suivante :

L(θ) = g(T; θ)W (X), (1)

65
où le premier facteur ne dépend que de T et θ, et le second ne dépend que de X.
Démonstration. On va donner la démonstration de ce théorème dans le cas où

i) X = X = (X1 , . . . , Xn )T est un échantillon,


Xi ∼ f (xi ; θ), xi ∈ Xi = X ⊂ Rn , θ ∈ Θ ;
ii) l’espace des réalisations X de Xi est fini ou infini dénombrable,

et donc la distribution de X est discrète dans

X n = X1 × X2 × · · · × Xn = X × X × · · · × X , X n ⊂ Rn ;

i.e.
X ∼ p(x; θ) = Pθ {X = x} > 0, x = (x1 , · · · , xn )T ∈ X n , θ ∈ Θ,

n
p(x; θ) = ∏ f (xi ; θ)
i=1
est la densité de X. On suppose aussi que X ne dépend pas de θ.
Tout d’abord on démontre que si T = T (X) est une statistique qui verifie (1), elle est
exhaustive.
Soit T une statistique T : X n → T telle que (1) ait lieu, où T = {t} ⊂ Rk est l’espace des
réalisations de T , i.e.
Pθ {T = t} > 0, t ∈ T .
Notons
Xt = {x = (x1 , . . . , xn )T : T (x) = t, x ∈ X n ⊂ Rn }
l’orbite, correspondant à la valeur t, t ∈ T , de la statistique T . Il est évident que X n =
S
t∈T Xt .
Comme {T (X) = t} = {X ∈ Xt } on a

P {X = x, T (X) = t}
Pθ {X = x|T (X) = t} = θ =
Pθ {T (X) = t}

 Pθ {X = x}
, si x ∈ Xt ,
= Pθ {T = t}

0, sinon,
car ½
Pθ {X = x}, si T (X) = t,
Pθ {X = x, T (X) = t} =
0, sinon.
On remarque que d’après (1) on a
½
g(t; θ)W (x), x ∈ Xt ,
Pθ {X = x} = p(x; θ) =
0, sinon.

Par ailleurs pour tout t ∈ T on a

Pθ {T (X) = t} = ∑ Pθ {X = x} =
x∈Xt

66
= ∑ g(T (x); θ)W (x) = ∑ g(t; θ)W (x) = g(t; θ) ∑ W (x),
x∈Xt x∈Xt x∈Xt
d’où on tire que
 W (x)

∑ W (x)
, x ∈ Xt ,
Pθ {X = x|T (X) = t} = x∈Xt

0, sinon.
Comme x est arbitraire, x ∈ X n , et Xt ne dépend pas de θ, donc

Pθ {X = x|T (X) = t} = p(x|t)

ne dépend pas de θ, i.e. T est une statistique exhaustive.


Réciproquement, si

Pθ {X = x|T (X) = t} = P{X = x|T (X) = t} = p(x|t)

ne dépend pas de θ, alors d’après le théorème de multiplication des probabilités, on a

p(x; θ) = Pθ {X = x} = Pθ {X = x|T (X) = t}Pθ {T (X) = t} =


[
= p(x|t)g(t; θ) = g(t; θ)W (x), x ∈ Xn = Xt ,
où W (x) = p(x|t) = p(x|T (x)), i.e. on obient (1), et donc le théorème est démontré.
Remarque 3. Il faut noter que, en principe, une statistique exhaustives, comme n’importe
quelle statistique, n’est pas un estimateur du paramètre inconnu. On a vu que la définition de
statistique est plus large que la définition d’estimateur. Evidemment, certaines statistiques
exhaustives peuvent être des estimateurs mais, en général, ce n’est pas le cas. L’idée d’uti-
liser des statistiques exhaustives permet de réduire les données expérimentales sans perdre
l’information. Chercher des estimateurs est l’étape suivante du traitement des observations.
Cela signifie que il est recommandé de chercher les estimateurs statistiques en termes des
statistiques exhaustives, si elles existent.
Définition 2. Soit T une statistique exhaustive. Dans ce cas U = U(T) est appelée une
statistique nécessaire.
Pour que la statistique nécéssaire U = U(T ) soit exhaustive il suffit que U(·) soit inver-
sible.
Définition 3. Soit U l’ensemble de toutes les statistiques exhaustives pour la famille {Pθ , θ ∈
Θ }. Une statistique exhaustive U, U ∈ U , est dite minimale si elle est nécessaire par rap-
port à toute autre statistique exhaustive T, T ∈ U , i.e. pour chaque T ∈ U il existe une
application U : U = U(T).
On dit aussi que U est une réduction de toute statistique exhaustive T (d’où le nom de
minimale). Cela signifie que U est une réduction de T si de l’égalite T (x1 ) = T (x2 ) il suit
l’égalité U(x1 ) = U(x2 ), x1 , x2 ∈ X n .
Donc, une statistique exhaustive minimale U est la statistique exhaustive la plus gros-
sière, et donc elle “réduit” au maximum l’espace des observations sans perdre l’information
sur θ. Soit V = H(U). Si H est inversible, c’est-à-dire H est une application bijective bime-
surable, alors V est elle aussi exhaustive, sinon V n’est plus exhaustive. Si H est inversible,

V ∼ U,

67
et dans ce sens U est unique (classe d’équivalence).
Remarque 4. Soient T = T (X) une statistique exhaustive,

L(X; θ) = g(T ; θ)W(X), T : Xn → T ,

et S = S(X) une autre statistique, telle que

S = S(X) = U(T (X)), S : Xn → J,

où U(·) est une fonction inversible i.e., si U : T → J , alors il existe

R = U −1 : J → T ,

telle que
T (X) = R(S) = R(S(X)).
On peut affirmer que S est elle aussi exhaustive ; en effet

L(X; θ) = g(T ; θ)W(X) = g(R(S(X)); θ)W(X) =

= g∗ (S(X); θ)W(X) = g∗ (S; θ)W(X).


Nous dirons que T et S sont équivalentes, T ∼ S, si elles sont inverses l’une de l’autre. On
dit souvent aussi que W(X) est une statistique auxiliaire ou complémentaire.
Définition 4. On dit que la famille de densités { f (x; θ), θ ∈ Θ ⊂ Rm } est complète si la
seule fonction T , T : R1 → R1 , qui vérifie l’équation intégrale
Z+∞
T (x) f (x; θ)dx = 0 pour tout θ∈Θ
−∞

est telle que T (x) = 0 presque partout.


Remarque 5. Si X ∼ f (x; θ), θ ∈ Θ ⊂ Rm , la complétude de la famille { f (x; θ)} signifie
que le seul estimateur sans biais de 0 est une statistique T (X) qui est nulle presque partout.
Définition 5. Soit T = T(X) une statistique, T : Rn → Rk ,

T ∼ g(t; θ), θ ∈ Θ , t ∈ Rk .

On dit que la statistique T est complète, si la famille {g(t; θ)} est complète.
Remarque 6. Pour mener à bien les estimations et les tests classiques, paramétriques ou
non paramétriques, on transforme les observations brutes en calculant des statistiques bien
choisies qui doivent avoir les propriétés suivantes :
1) Perdre le moins d’information possible, éventuellement pas du tout (et c’est le cas des
statistiques exhaustives) tout en réduisant au minimum le volume initial des observations.
2) Etre calculables ou avoir une bonne approximation. Par exemple, s’il s’agit d’un
estimateur obtenu par maximum de vraisemblance, il se peut que l’on ne puisse en obtenir
aisément qu’une valeur approchée au premier pas à partir d’un estimateur moins bon.
3) Leurs lois doivent être, soit connues explicitement, soit admettre une bonne approxi-
mation. Bonne voulant dire à la fois simple à calculer et ayant une bonne vitesse de conver-
gence vers la vraie valeur. Ce qui suit donne, grâce à des transformations appropriées des
observations, des statistiques qui ont ces propriétés et aussi de bonnes approximations par
des lois usuelles et permet ainsi de n’utiliser essentiellement que deux tables : celle de la loi

68
normale standard et celle des lois gamma (ou chi-deux). Des exemples illustrent l’applica-
tion de ces méthodes qui donnent des approximations meilleures (de vitesse de convergence
plus rapide) que les approximations usuelles.
Ces techniques sont très utiles pour tous les statisticiens qui travaillent sur des pro-
blèmes concrets, en particulier chez les ingénieurs, mais aussi, dans les domaines de la
médecine et de la biologie.
Il y a plusieurs méthodes d’estimation d’un paramètre θ, par exemple :
10 . La méthode des moments ( basée sur la loi empirique) ;
20 . la méthode des moindres carrés (basée sur la méthode de Gauss) ;
30 . La méthode de minimum du chi-deux ;
40 . La méthode du maximum de vraisemblance, etc.
En général, ces méthodes sont différentes et par conséquant les propriétés des
estimateurs obtenus par ces méthodes sont différentes.

2.6 Information de Fisher. Inégalité de Rao-Cramer-Fréchet.


Théorème de Rao-Blackwell-Kolmogorov.

Considérons un modèle paramétrique ; on a vu qu’une statistique exhaustive conserve


toute “ l’information” du modèle.
Pour mesurer l’information contenue dans une statistique, Fisher a défini la quantité
d’information.
Considérons la famille des densités :

{ f (x; θ) : θ ∈ Θ}, x ∈ R1 , Θ ⊂ R1 .

Supposons que cette famille est régulière. C’est-à-dire :



i) il existe ∂θ f (x, θ) pour tout θ ∈ Θ ;
ii) l’ensemble des x pour lesquels f (x, θ) = 0 est indépendant de θ ( le support X de f
ne dépend pas du paramètre θ)
iii) on peut dériver sous l’intégrale par rapport à θ la quantité
Z Z
f (x, θ)dx = f (x, θ)dx = 1. (1)
R1 X

Soit X = (X1 , ..., Xn )T un n-échantillon où

Xi ∼ f (xi ; θ), θ ∈ Θ ⊂ R1 , xi ∈ R1 .

Alors, la quantité
∂ ln f (X j ; θ)
λ(X j ; θ) = (2)
∂θ
est appelé informant de l’observation X j et la quantité suivante

Λ(X, θ) = ln L(θ) (3)
∂θ
est appelé informant de l’échantillon X ; (L(θ) est la fonction de vraisemblance de X).

69
Puisque
n
ln L(θ) = ∑ ln f (X j ; θ)
j=1

on en tire que
n
Λ(X; θ) = ∑ λ(X j ; θ). (4)
j=1

Définition 1. On appelle information de Fisher dans X par rapport à θ la quantité :

In (θ) = Varθ Λ(X, θ), (5)

si elle existe.
Remarque 1. Puisque
Eθ Λ(X; θ) = 0, θ ∈ Θ, (6)
on a
In (θ) = Eθ Λ2 (X, θ). (7)
Remarque 2. Si (1) peut être dérivée deux fois par rapport à θ sous le signe d’intégration,
alors on peut montrer que

In (θ) = −Eθ Λ(X, θ). (8)
∂θ
Remarque 3. Puisque
n
L(θ) = p(X; θ) = ∏ f (Xi , θ),
i=1
on pourra écrire :
In (θ) = ni(θ), (9)

i(θ) = Eθ λ2 (X j ; θ) (10)
représente l’information d’une des composantes, par exemple X j , du vecteur X. Nous en
déduisons que le vecteur X contient n fois plus d’information que chacune de ses compo-
santes. On remarque que si (1) peut être dérivée deux fois par rapport à θ, alors

i(θ) = −Eθ λ(X1 , θ). (11)
∂θ
L’inégalité de Rao-Cramer-Fréchet. Si T = T (X) un estimateur sans biais du paramètre
θ, alors sous les conditions i)-iii)
1
Varθ T ≥ , θ ∈ Θ. (12)
In (θ)
Démonstration. Soit τ la classe de tous les estimateurs T = T (X) sans biais pour le para-
mètre θ :
τ = {T : Eθ T ≡ θ}.
Dans ce cas pour tout T ∈ τ on a
Z
Eθ T = T (x)p(x; θ)dx ≡ θ, θ ∈ Θ,
Xn

70
et donc des conditions i)-iii) on tire que
Z Z
∂ ∂
T (x)p(x; θ)dx = T (x) p(x; θ)dx ≡ 1,
∂θ ∂θ
Xn Xn

i.e. on a Z Z · ¸
∂ ∂
1≡ T (x) p(x; θ)dx = T (x) ln p(x; θ) p(x; θ)dx =
∂θ ∂θ
Xn Xn
Z
T (x)Λ(θ)p(x; θ)dx = Eθ {T (X)Λ(θ)}, θ ∈ Θ,
Xn
où Λ(θ) est l’informant du vecteur d’observation X. Comme

Eθ T ≡ θ et Eθ Λ(θ) ≡ 0

nous pouvons écrire que

Eθ {T (X)Λ(θ)} = Eθ {(T − θ)Λ} = Covθ (T, Λ) ≡ 1, θ ∈ Θ,

et donc de cette identité et de l’inégalité de Cauchy-Schwarz-Bounjakovsky on tire que

1 ≡ Cov2θ (T, Λ) ≤ Varθ T × Varθ Λ = Varθ T In (θ),

d’où on obtient l’inégalité (12), connue sous le nom d’inégalité de Rao-Cramer-Fréchet.


Remarque 4. Si T = T (X) est un estimateur sans biais de la fonction différentiable g(θ), θ ∈
Θ, alors on peut montrer que dans le cas régulier :

[g0 (θ)]2
Varθ T ≥ , θ ∈ Θ. (13)
In (θ)
Par exemple, soit Eθ T = g(θ) = θ + b(θ), i.e. b(θ) est le biais de l’estimateur T . Dans ce
cas de (13) on tire que
[1 + b0 (θ)]2
Varθ T ≥ .
In (θ)
Remarque 5. 1/In (θ) n’est plus la borne inférieure de la variance d’un estimateur avec
biais.
Définition 2. Un estimateur sans biais T = T (X) du paramètre θ sera efficace si
1
Varθ T = . (14)
In (θ)
Un estimateur efficace est donc un estimateur sans biais pour lequel la borne inférieure de
l’inégalité de Rao-Cramer Fréchet est atteinte.
Remarque 6. En reprenant la remarque 4 on dira de la même façon que T est un estimateur
efficace de g(θ) si
[g0 (θ)]2
Varθ T = , θ ∈ Θ. (15)
In (θ)
Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon,

Xi ∼ f (xi ; p) = pxi (1 − p)1−xi , p ∈]0, 1[, xi ∈ X = {0, 1},

71
i.e. Xi suit une loi de Bernoulli de paramètre p. Dans ce cas la fonction de vraisemblance
est n n
n ∑ Xi n− ∑ Xi
L(p) = ∏ f (Xi ; p) = pi=1 (1 − p) i=1 , p ∈]0, 1[
i=1
et donc
n
µn = ∑ Xi
i=1
est une statistique exhaustive pour p. Il est évident que la statistique µn suit la loi binomiale
B(n, p). On sait que :

Eµn = np et Varµn = np(1 − p),


donc la statistique
µn
p̂n = X̄n =
n
est un estimateur sans biais pour p,

p(1 − p)
E p̂n = EX̄n = p et Var p̂n = , p ∈]0, 1[. (16)
n
Pour montrer que p̂n est le meilleur estimateur sans biais pour p, calculons la borne infé-
rieure dans l’inégalité de Rao-Cramer-Fréchet. Comme

ln L(p) = µn ln p + (n − µn ) ln (1 − p),

de (7) et (8) on déduit que

∂ µn n − µn
Λ(p) = ln L(p) = − , (17)
∂p p 1− p
d’où on tire que

∂ n
In (p) = EΛ2 (p) = −E Λ(p) = , p ∈]0, 1[, (18)
∂p p(1 − p)

on voit donc que p̂n est un estimateur efficace, puisque


1
In (p) = . (19)
Var p̂n
On va prouver maintenant qu’il y a un seul estimateur sans biais p̂n pour p, exprimé en
termes de la statistique exhaustive µn , c’est-à-dire qu’on va montrer que µn est une statis-
tique exhaustive complète.
Supposons qu’il existe un autre estimateur p∗n = p∗n (µn ) sans biais pour p,

E p p∗n (µn ) = p.

Dans ce cas δ(µn ) = p̂n − p∗n est un estimateur sans biais pour 0 :

E p δ(µn ) = E p ( p̂n − p∗n ) = 0, p ∈]0, 1[,

72
i.e., µ ¶
n
n
∑ δ(m) m
pm (1 − p)n−m = 0, p ∈]0, 1[,
m=0

d’où on tire que δ(m) ≡ 0, m ∈ {0, 1, ..., n}, puisque le système des fonctions {1,t,t 2 , ...,t n , ...}
forme une base complète. Puisque la statistique µn est complète, on en déduit que p̂n est
unique, que c’est et donc le meilleur estimateur sans biais pour p et qu’il est efficace.
Supposons qu’il nous faille estimer p2 . Comme

Varµn = Eµ2n − (Eµn )2 = np − np2 ,


on trouve que

Eµ2 = np + n2 p2 − np2 ,
et donc

µ2n p
E = + p2 .
n(n − 1) n − 1
Comme Eµn = np, on obtient que la statistique

µn (µn − 1)
(20)
n(n − 1)
est le meilleur estimateur sans biais pour p2 , puisqu’il est exprimé en termes de la statistique
exhaustive complète. De la même façon on peut montrer que
½ ¾
µn (µn − 1) · · · (µn − k + 1)
E = pk
n(n − 1) · · · (n − k + 1)
pour tous les k = 1, 2, ..,n.
Example 2. Soit X = (X1 , . . . , Xn )T un échantillon,
θxi −θ
Xi ∼ f (xi ; θ) = e , xi ∈ X = {0, 1, 2, . . .}, θ > 0,
xi !
i.e. Xi suit une loi de Poisson de paramètre θ.
Comme à !−1
n
n ∑ Xi n
L(θ) = ∏ f (Xi ; θ) = e −nθ i=1
θ ∏ Xi , θ > 0,
i=1 i=1
du critère de factorisation on déduit que la statistique
n
T = ∑ Xi
i=1

est exhaustive pour θ, et comme la famille { f (x; θ)} est complète, on en déduit que T est la
statistique exhaustive minimale.
On remarque que dans ce modèle la statistique
à !−1
n
W (X) = ∏ Xi
i=1

73
est auxiliaire.
Il est facile de démontrer par des calculs directs que
Pθ {X = x|T = t}, x = (x1 , . . . , xn )T ∈ X n ,
ne dépend pas de θ. En effet :
Pθ {X1 = x1 , . . . , Xn = xn , T = t}
Pθ {X = x|T = t} = =
Pθ {T = t}

 Pθ {X = x} , si x ∈ X ,
t
= Pθ {T = t}

0, sinon.
Soit x ∈ Xt = {x : ∑ xi = t}. Dans ce cas pour ∀t ∈ X
θx1 −θ
· · · θxn ! e−θ
xn
Pθ {X = x} x1 ! e
Pθ {X = x|T = t} = = (nθ)t −nθ
=
Pθ {T = t}
t! e
µ ¶t
t! 1
= .
x1 !x2 ! · · · xn ! n
Donc, la loi conditionnelle de X, sachant T = t, est la loi multinomiale uniforme, qui ne
n
dépend pas de θ, quelle que soit la valeur observée t de la statistique exhaustive T = ∑ Xi .
i=1
On considère maintenant le problème de l’estimation du paramètre θ. Pour estimer θ on
appliquera la méthode du maximum de vraisemblance. Pour trouver
θ̂n = argθ max L(θ),
il nous faut résoudre l’équation du maximum de vraisemblance Λ(θ) = 0, puisque

Λ(θ) = ln L(θ).
∂θ
Comme
ln L(θ) = −nθ + T ln θ + lnW (X),
on doit résoudre l’équation
T
Λ(θ) = −n + = 0,
θ
dont la solution θ̂n est
1 1 n
θ̂n = T = ∑ Xi = X̄n .
n n i=1
Comme T suit une loi de Poisson de paramètre nθ, on obtient immédiatement que
θ
Eθ θ̂n = θ et Varθ θ̂n = ,
n
i.e. {θ̂n } est une suite consistante d’estimateurs sans biais du paramètre θ. On va montrer
que θ̂n est un estimateur efficace, c’est-à-dire qu’on a l’égalité :
1
Varθ̂n = .
In (θ)

74
En effet,

In (θ) = −Eθ Λ(θ),
∂θ
et comme
∂ T
Λ(θ) = − 2 ,
∂θ θ
on trouve que l’information de Fisher sur θ dans X est égale à
∂ 1 n
In (θ) = −Eθ Λ(θ) = 2 Eθ T = ,
∂θ θ θ
d’où on tire que
1 θ
Varθ̂n = = ,
In (θ) n
et donc θ̂n est un estimateur efficace pour θ. Comme la famille des densités
½ x ¾
θ −θ
e , θ>0
x!

est complète, on en déduit que θ̂n est un estimateur sans biais unique dans la classe des
estimateurs sans biais, exprimés en termes de la statistique exhaustive T et θ̂n est donc le
meilleur estimateur sans biais pour θ.
Remarque 7. Soit X = (X1 , ..., Xn )T un vecteur aléatoire ayant une distribution discrète dans
Rn . Notons X = {x = (x1 , ..., xn )T } l’espace des réalisations de X dans Rn , c’est-à-dire que ;

P{X = x} = pX (x) = p(x) > 0, ∀x ∈ X ⊂ Rn

et
∑ P{X = x} = P{X ∈ X } = 1,
x∈X
où X est fini ou infini dénombrable, puisque X suit une loi discrète.
Soit T = T(X) une statistique arbitraire, T(x) : X → τ, où τ = {t} est l’espace des
réalisations de T,
P{T = t} > 0 pour ∀t ∈ τ.
Pour toute valeur possible t de la statistique T, t ∈ τ, on détermine son orbite Xt dans X :

Xt = {x : T(x) = t, x ∈ X }.
Il est évident que {Xt } est une partition de X :
[ \
Xt = X et Xt Xt0 6= 0, t, t0 ∈ τ, t 6= t0 . (21)
t∈τ

La loi conditionnelle de X sachant que T = t est l’ensemble des probabilités conditionnelles


{p(x | t)} étant donné t fixé :

p(x | t) = P{X = x | T(X) = t} =



 P{X=x,T(X)=t}
= p(x)
, si x ∈ Xt ,
P{T(X)=t} ∑ p(x)
x∈Xt (22)

0, sinon ,

75
puisque ½
P{X = x} = p(x), si x ∈ Xt ,
P{X = x, T = t} =
0, sinon .
La famille des probabilités (22) est finie ou infinie dénombrable, et on choisit t dans (22)
de façon que P{T = t} > 0, i.e. t ∈ τ.
Soit U = U(X) une autre statistique, U(x) : X → U , telle que EU existe. D’après la
définition :
EU = EU(X) = ∑ U(x)p(x). (23)
x∈X

On détermine l’espérence conditionnelle E{U | T = t} sachant que T = t en termes de la


distribution conditionnelle (22) :

E{U | T = t} = ∑ U(x)p(x | t) =
x∈Xt

∑ U(x)p(x)
x∈Xt
. (24)
∑ p(x)
x∈Xt

Nous pouvons considerer E{U | T = t} comme une réalisation de la variable aléatoire E{U |
T} quand T = t. Il est facile de prouver que

E{E{U | T}} = EU.

De (21) et (24) il suit que

E{E{U | T}} = ∑ E{U | T = t}P{T = t} =


t∈τ

∑ E{U | T = t} ∑ p(x) =
t∈τ x∈Xt

∑ ∑ U(x)p(x) = ∑ U(x)p(x) = EU,


t∈τ x∈Xt x∈X

puisque {Xt } est une partition de X . On a donc montré que

E{E{U | T}} = EU, (25)

et par conséquent pour calculer EU on peut tout d’abord calculer E{U | T = t} puis E{E{U |
T}}.
Soit X un vecteur aléatoire, X ∈ Rn , X ∼ F, F ∈ F , où F = {F} est une famille de
fonctions de répartitions dans Rn . Soient ψ = ψ(X) et ϕ = ϕ(X) deux statistiques, ψ :
Rn → Rk , ϕ : Rn → Rk , telles que

Eψ, Eϕ, EψψT , EϕϕT

existent.
Considérons la statistique

Ψ = Ψ (ϕ) = E{ψ|ϕ}, Ψ ∈ Rk .

76
Il est évident que
Ψ = E{E{ψ|ϕ}} = Eψ,

ce qui signifie que Ψ est un estimateur sans biais de Eψ.

Théorème 1 (Rao-Blackwell-Kolmogorov)
Pour tout z ∈ Rk

Ψ − Eψ)(Ψ
zT E{(Ψ Ψ − Eψ)T }z ≤ zT E{(ψ − Eψ)(ψ − Eψ)T }z. (26)

Démonstration. Notons

Ψ − Eψ)]T z.
∆ = [ψ − Ψ ]T z = [(ψ − Eψ) − (Ψ

Puisque E∆ = 0, nous obtenons

Var ∆ = E∆2 = E∆T ∆ ≥ 0. (27)

Mais
Ψ − Eψ)T −
∆2 = ∆T ∆ = zT {(ψ − Eψ)(ψ − Eψ)T − (ψ − Eψ)(Ψ
Ψ − Eψ)(ψ − Eψ)T + (Ψ
−(Ψ Ψ − Eψ)(Ψ
Ψ − Eψ)T }z,
et par suite de (27), on peut tirer que

0 ≤ E∆2 = zT (Var ψ)z − zT Cov (ψ, Ψ )z−


(28)
Ψ, ψ)z + zT (Var Ψ )z.
−zT Cov (Ψ
Puisque
Ψ − Eψ)T } =
Cov (ψ, Ψ ) = E{(ψ − Eψ)(Ψ
Ψ − Eψ)T |ϕ}} = E{E{(ψ − Eψ)|ϕ}(Ψ
= E{E{(ψ − Eψ)(Ψ Ψ − Eψ)T } =
Ψ − Eψ)(Ψ
= E{(Ψ Ψ − Eψ)T } = Var Ψ , (29)
alors de (27), (28) et (29) on déduit que

0 ≤ E∆2 = zT (Var ψ)z − zT (Var Ψ )z,

ce qu’il nous fallait démontrer.

Remarque 8. Si ψ = ψ(X) est un estimateur sans biais d’une fonctionnelle g(F), F ∈ F ,


alors
Ψ = E{ψ|ϕ}
est aussi un estimateur sans biais pour g(F), dont le risque quadratique n’est pas plus grand
que celui de ψ. Ce théorème est très intéressant lorsque ϕ est une statistique exhaustive.

Exemple 1. Soit X = (X1 , . . . , Xn )T un échantillon,

X ∼ p(x; θ), θ ∈ Θ ⊂ Rm .

Supposons qu’il existe une statistique exhaustive

T = T(X), T : Rn → Rk , m ≤ k ≤ n,

77
dont la densité est g(t; θ), t ∈ Rk . Notons q(x,t; θ) la densité conjointe de X et T, p(x | t)
la densité conditionnelle de X sachant T = t. Dans ce cas pour tout x fixé, x ∈ Rn , p(x|T )
est un estimateur sans biais pour p(x; θ). En effet,
Z Z
Ep(x|T ) = p(x|t)g(t; θ) dt = q(x,t; θ) dt = p(x; θ).
Rk Rk

2.7 Méthode des moments.

La fonction de répartition Fn (x) de la loi empirique associée à un échantillon X =


(X1 , ..., Xn )T est un bon estimateur de la fonction de répartition F(x) :
EFn (x) = F(x) = P{Xi ≤ x}, x ∈ R1 ,
et pour tout ε > 0
P{| Fn (x) − F(x) |> ε} → 0, x ∈ R1
lorsque n → ∞ quel que soit x fixé. En pratique cela signifie que Fn (x) ≈ F(x) pour tout x
fixé, quand n est assez grand.
Il est donc naturel de choisir les moments
Z+∞
1 n
αm = ∑ Xim = xm dFn (x)
n i=1
−∞

de la loi empirique Fn comme estimateurs des moments


Z+∞
m
am = EX = xm dF(x)
−∞

de la loi F, puisque αm ≈ am , si Fn (x) ≈ F(x).


Supposons que la fonction de répartition
F(x; θ) = Pθ {Xi ≤ x}, | x |< ∞
dépende d’un paramètre inconnu
θ = (θ1 , ..., θs )T ∈ Θ ⊂ Rs
et qu’existent les moments
Z+∞
ar (θ) = xr dF(x; θ), r = 1, 2, ..., s.
−∞

On cherche un estimateur du paramètre θ = (θ1 , ..., θs )T en résolvant le système d’équa-


tions :
am (θ) = αm , (m = 1, 2, ..., s) (1)

78
par rapport à θ1 , ..., θs . La solution θ̃n = (θ̃1 , ..., θ̃n )T de cette équation,
θ̃1 = θ̃1 (α1 , ..., αs ),
···
θ̃s = θ̃s (α1 , ..., αs ),
s’appelle l’estimateur par la méthode des moments de θ.
Si les fonctions (1) déterminent une application bijective, leurs dérivées partielles existent
et sont continues et les moments ak (θ) (k = 1, 2, ..., 2s) existent ; donc les estimateurs ob-
tenus par la méthode des moments sont cohérents et de distributions asymptotiquement nor-
males. Des propriétés asymptotiques d’estimateurs, obtenus par la mèthode des moments,
serons considérées dans le chapitre III.
Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon lognormalle LN(µ, σ2 ),
1 − 1 (ln x−µ)2
Xi ∼ p(x; µ, σ2 ) = √ e 2σ2 1]0,∞[ (x), µ ∈ R1 , σ2 > 0.
xσ 2π
Remarqons que ln Xi suit une loi normale N(µ, σ2 ). On peut montrer que
2 /2 2
a1 = EX1 = eµ+σ , a2 = EX12 = e2µ+2σ .
D’après la méthode des moments pour estimer µ et σ2 il faut résoudre le système
( 2
eµ+σ /2 = X̄n = α1 ,
2
e2µ+2σ = n ∑i=1 Xi = α2 ,
1 n 2

ce qui est équivalent à ½


µ + σ2 /2 = ln α1 ,
µ + 2σ2 = ln α2 ,
d’où on trouve les estimateurs σ̃2n et µ̃n :
µ ¶
s2n X̄ 2
σ̃2n = ln α2 − ln α21 = ln +1 , µ̃n = ln p n ,
X̄n2 s2n + X̄n2

1 n
s2n = ∑ (Xi − X̄n)2
n i=1
est la variance de la loi empirique.
Exemple 2. Soit X = (X1 , ..., Xn )T un échantillon,
r
1 2 x2
Xi ∼ p(x; θ) = exp {− 2 }1]0,∞[ (x), x ∈ R1 , θ ∈ Θ =]0, ∞[.
θ π 2θ
On peut montrer que
r
2 π−2
EX1 = θ , EX12 = θ2 , Var X12 = θ2 .
π π
Pour estimer θ par la méthode des moments on considère l’équation
r
2
θ = X̄n ,
π

79
d’où on obtient l’estimateur r
π
θ̃n = X̄n .
2
Il est claire que Eθ̃n = θ, i.e. θ̃n est un estimateur sans biais pour θ, et comme
µ ¶
θ2 2
Var X̄n = 1− ,
n π

on en tire que
π θ2 ³ π ´
Var θ̃n = Var X̄n = −1 =
2 n 2
θ2 π − 2 π − 2 1
= > ,
n 2 In (θ) In (θ)
où µ ¶
2n ∂2 3 2 1 2n
In (θ) = 2 = −nE 2 ln p(X1 ; θ) = nE 4 X1 − 2 = 2
θ ∂θ θ θ θ
est l’information de Fisher sur θ dans X. De la dernière inégalité on voit bien que l’estima-
teur θ̃n n’est pas éfficace.
Remarque 1. Du théorème limite central il suit que la suite des variables aléatoires
√ q
√ n(X̄n − π2 θ)
n(θ̃n − θ)
q = q , n = 1, 2, ...
π−2
θ 2 θ 1 − 2
π

est asymptotiquement normale N(0, 1), quand n → ∞, i.e. pour les grandes valeurs de n
 
 √n(θ̃ − θ) 
P qn ≤ x ≈ Φ(x), x ∈ R1 .
 θ π−2 
π

Du théorème de Slutsky on tire que les variables aléatoires



n(θ̃n − θ)
q
θ̃n π−22

sont asymptotiquement normales N(0, 1) aussi, i.e.


 
 √n(θ̃ − θ) 
P qn ≤ x ≈ Φ(x), x ∈ R1 ,
 θ̃ π−2 
n 2

si les valeurs de n sont assez grandes.


Nous pouvons utiliser ce résultat pour estimer θ par intervalle, puisque
 
 √ 
n(θ̃n − θ)
P −x̄α/2 ≤ q ≤ x̄α/2 ≈ 1 − α,
 θ̃ π−2 
n 2

80
où x̄α/2 est le quantile supérieur de niveau α/2 pour la loi standard normale, 0 < α < 0.5,
d’où on tire que
( r µ ¶ r )
π−2 θ π−2
P −x̄α/2 ≤ 1− ≤ x̄α/2 ≈ 1−α
2n θ̃n 2n

et donc
( Ã r ! Ã r !)
π−2 π−2
P θ̃n 1 − x̄α/2 ≤ θ ≤ θ̃n 1 + x̄α/2 ≈ 1 − α,
2n 2n

si n est assez grand.

2.8 Méthode des moindres carrés. Modèle de Gauss de la


théorie des erreurs.

Supposons qu’on cherche à mesurer une constante µ ; pour cela on fait n mesures di-
rectes x1 , x2 , . . . , xn de µ, indépendantes les unes des autres, de même précision, sans erreur
systématique. De chaque résultat d’expérience on tire que

µ∼
= xi , i = 1, 2, . . . , n. (1)
On obtient un système de n équations, qui sont en général incompatibles si les xi ne sont
pas tous égaux. Pour cette raison il est logique de traiter xi − µ comme une erreur, commise
au cours de la i-ème mesure de µ, et x − µ1n comme le vecteur des erreurs que l’on a fait au
cours des n expériences organisées pour déterminer µ ; donc
n
kx − µ1n k2 = (x − µ1n )T (x − µ1n ) = ∑ (xi − µ)2 (2)
i=1
repésente le carré de la longueur du vecteur des erreurs x − µ1n .
Compte tenu du fait que toutes les mesures sont faites dans les mêmes conditions, et que par
suite les n équations ont toutes la même validité pour l’expérimentateur, Legendre a posé le
problème de la détermination d’une valeur µ∗ , µ∗ ∈ R1 , qui est meilleure que chaque résultat
individuel xi et en même temps est en meilleur accord, dans un certain sens avec tous les xi ,
c’est-à-dire, avec le système d’équations (1) qui représente les résultats d’expériences de
mesures du paramètre µ.
Pour déterminer µ∗ , Legendre a proposé le principe des moindres carrés, d’après lequel
la valeur de µ, la plus en accord avec l’expérience est donnée par la valeur µ∗ , qui minimise
kx − µ1n k2 , le carré de la longueur du vecteur des erreurs (x − µ1n ) , i.e.

(x − µ∗ 1n )T (x − µ∗ 1n ) = min (x − µ1n )T (x − µ1n ). (3)


µ∈R1
Ceci justifie le nom de la méthode, que l’on appelle la méthode des moindres carrés. Par
tradition on dit aussi que µ∗ est un estimateur des moindres carrés pour µ.
Plus tard Gauss a donné une justification logique de la méthode des moindres carrés,
en utilisant un modèle classique d’erreurs de mesures, qui est connu aujourd’hui sous le

81
nom de modèle de Gauss. D’après ce modèle le résultat xi de la i-ème mesure représente la
réalisation de la variable aléatoire

Xi = µ + δi , i = 1, . . . , n, (4)
où δi est l’erreur aléatoire de la i-ème mesure,

δi ∈ N(0, σ2 ), (5)
puisque Eδi = 0 par convention (absence d’erreur systématique) et σ2 = Varδi > 0 est une
constante ne dépendant pas de i, car chaque mesure a été faite avec la même précision.
Gauss a proposé de considérer chaque δi comme une variable aléatoire de loi normale ; en
effet selon la théorie des erreurs, développée par Gauss, toute erreur δi représente la somme
d’un grand nombre de petites erreurs , qu’on peut supposer indépendantes ; par suite, on
peut supposer que leur somme est normale, ce qui peut s’expliquer dans le cadre du théo-
rème limite central. De plus on a l’indépendance des mesures, d’où on déduit que dans
le modèle de Gauss on peut supposer que δ1 , . . . , δn sont des variables aléatoires indépen-
dantes, et donc que X = (X1 , . . . , Xn )T est un échantillon normal ; cela signifie que X1 , . . . , Xn
sont des variables aléatoires indépendantes qui suivent la même loi normale de paramètres
µ et σ2 :

Xi ∈ N(µ, σ2 ), i = 1, . . . , n; (6)
donc dans le cadre de ce modèle le résultat de l’expérience x = (x1 , . . . , xn )T est une réa-
lisation d’un vecteur aléatoire X, de loi normale de dimension n et de paramètres µ1n et
σ2 In , X ∼ Nn (µ1n , σ2 In ),

EX = µ1n et VarX = E(X − µ1n )(X − µ1n )T = σ2 In , (7)


où σ2 est une constante positive, qui exprime la précision des mesures. Nous supposerons
d’abord que σ2 est connu.
Dans le modèle de Gauss le vecteur des observations X peut se représenté comme la
somme

X = µ1n + δ, (8)
d’un terme déterministe, mais inconnu, et d’un terme aléatoire

δ = (δ1 , . . . , δn )T = X − µ1n , (9)


qui suit la loi normale de dimension n et de paramètres

Eδ = 0n = (0, . . . , 0)T et Eδδ T = σ2 In , (10)


et ce vecteur δ est le vecteur des erreurs aléatoires. Le problème principal dans la théo-
rie des erreurs, élaborée par Gauss, est la construction du meilleur (en un sens à préciser)
estimateur de µ en utilisant la réalisation x du vecteur des observations X. Pour trouver ce
meilleur estimateur pour µ, Gauss a proposé d’utiliser la méthode du maximum de vraisem-
blance, d’après laquelle la valeur qui rend maximum la fonction de vraisemblance L(µ),
liée au vecteur des observations X, est l’estimateur du paramètre inconnu µ. D’après le mo-
dèle que l’on a choisi, le vecteur X suit une loi normale de dimension n et de paramètres
(7) ; donc la fonction de vraisemblance L(µ) est donnée par la formule

82
½ ¾
√ −n 1 T
L(µ) = (σ 2π) exp − 2 (X − µ1n ) (X − µ1n ) =

½ ¾ ½ ¾
√ −n 1 T √ −n 1 2
= (σ 2π) exp − 2 δ δ = (σ 2π) exp − χn , µ ∈ R1 , (11)
2σ 2
car

δT δ = σ2 χ2n . (12)
On remarque ici que maximiser la fonction de vraisemblance L(µ), µ ∈ R1 , revient à
minimiser la fonction (X − µ1n )T (X − µ1n ) qui représente la fonction de la formule (2),
mais en d’autres termes, en termes d’observations. C’est-à-dire que dans ce cas la méthode
de Legendre et la méthode de Gauss sont équivalentes. Donc L(µ), µ ∈ R1 , atteint son
maximum, X étant donné, pour le point µ∗ , qui rend minimum la forme quadratique

(X − µ1n )T (X − µ1n ) = δT δ,
i.e. l’estimateur statistique µ∗ est la solution du problème extrêmal :

(X − µ∗ 1n )T (X − µ∗ 1n ) = min (X − µ1n )T (X − µ1n ), (13)


µ∈R1

obtenue pour la valeur µ = µ∗ , qui vérifie l’équation

(1Tn 1n )µ = 1Tn X, (14)


d’où on tire que
1 1
µ∗ = X̄n = (X1 + X2 + . . . + Xn ) = 1Tn X. (15)
n n
L’estimateur statistique µ∗ = X̄n s’appelle l’estimateur des moindres carrés ou estima-
teur de Gauss pour µ. On remarque que
" #
√ −n n 1 n
L(µ) = (σ 2π) exp{− 2 (X̄n − µ)2 + ∑ (Xi − X̄n )2 } =
2σ n i=1

n 2
exp{− (X̄n − µ) }W (X);
σ 2

donc X̄n est une statistique exhaustive pour µ. Comme X̄n ∈ R1 et µ ∈ R1 , la statistique
exhaustive X̄n est minimale. De (6) et (7) il suit que X̄n suit la loi normale N(µ, σ2 /n) de
paramètres
σ2
EX̄n = µ et VarX̄n = E(X̄n − µ)2 = . (16)
n
Puisque la famille des loi normale N(µ, σ2 ) est complète, on en tire que X̄n est une statistique
exhaustive minimale et complète. X̄n est un estimateur efficace pour µ.
Souvent la variance σ2 est elle aussi inconnue ; dans ce cas outre l’estimateur X̄n pour µ
il est très important d’obtenir un estimateur statistique pour σ2 . Notons

θ = (µ, σ2 )T , θ ∈ Θ = {θ :| µ |< ∞, σ2 > 0} ⊂ R2 .

83
Pour estimer θ on considère la statistique

∆ = X − µ∗ 1n = (X − X̄n 1n ) = (X − µ1n ) + (µ − µ∗ )1n = δ + (µ − µ∗ )1n , (17)


qui s’appelle le vecteur des erreurs apparentes. Il est évident que la statistique ∆ suit la loi
normale Nn (0n , σ2 Dn ), qui est dégénérée et où
1
Dn = In − 1n 1Tn , (18)
n
avec In , matrice identité d’ordre n. On remarque que Dn est une matrice idempotente,
puisque
rangDn = n − 1 et DTn Dn = Dn DTn = Dn . (19)
De (9) et (17) on tire l’égalité

δ = (µ∗ − µ)1n + ∆, (20)


que l’on appelle la décomposition orthogonale du vecteur des erreurs aléatoires δ en termes
de µ∗ et ∆. On remarque que

δT δ = ∆T ∆ + (µ∗ − µ)1Tn 1n (µ∗ − µ) = ∆T ∆ + n(X̄n − µ)2 =


n
= ∑ (Xi − X̄n )2 + n(X̄n − µ)2 = n[s2n + (X̄n − µ)2 ], (21)
i=1

où la statistique s2n est déterminée par la formule

1 1 n
s2n = XT Dn X = ∑ (Xi − X̄n )2 . (22)
n n i=1
Comme θ = (µ, σ2 )T , il vaut mieux écrire que la fonction de vraisemblance de X est L(θ) =
L(µ, σ2 ). En utilisant (11),(13), (21) et (22), nous pouvons présenter L(µ, σ2 ) en termes des
statistiques s2n et X̄n par la formule suivante
½ ¾
√ −n 1 T
L(X; µ, σ ) = (σ 2π) exp − 2 δ δ =
2

√ −n n n o
= (σ 2π) exp − 2 [s2n + (X̄n − µ)2 ] , (23)

¡ ¢T
d’où on tire que la statistique T = X̄n , s2n est exhaustive. On peut montrer que T est
minimale et complète.
Pour étudier les propriétés de T on considère, par exemple, la transformation linéaire
Y = CX de Helmert, déterminée par la matrice orthogonale C,

CT C = CCT = In , CT = C−1 ,
° °
° √1 √−1 0 0 ··· 0 0 °
° 1·2 1·2 °
° √1 √1 √−2 ··· °
° 0 0 0 °
° 2·3 2·3 2·3 °
° .. .. .. ... .. .. .. °
C=° . . . . . . °.
° −(n−1) °
° √ 1 √ 1 √ 1 √ 1
··· √ 1 √ °
° (n−1)n (n−1)n (n−1)n (n−1)n (n−1)n (n−1)n °
° °
° √1 √1 √1 √1 ··· √1 √1 °
n n n n n n

84
D’après cette transformation Y = (Y1 , ...,Yn )T , où

Y1 = √1 (X1 − X2 ),
1·2
Y2 = √1 (X1 + X2 − 2X3 ),
2·3
..
.
Yn−1 = √ 1
(X1 + X2 + ... + Xn−1 − (n − 1)Xn ),
(n−1)n

Yn = √1 (X1 + X2 + ... + Xn ) = nX̄n ,
n

et comme C est orthogonale on a


n n
∑ Xi2 = ∑ Yi2; (24)
i=1 i=1

la fonction de vraisemblance de Y est donc donnée par la formule :


" #
³ √ ´−n 1 n−1 √
L(Y; µ, σ2 ) = σ 2π exp{− 2 ∑ Yi2 + (Yn − µ n)2 } =
2σ i=1
µ ¶n−1 n−1
1 1 ¡ √ ¢2 1 1
√ exp{− 2 Yn − µ n }
σ 2π 2σ

σ 2π
∏ exp{− 2 Yi2 },

i=1
puisque
pY (y) = pX (C−1 y)| det C−1 | = pX (C−1 y) =
½ ¾
1 1 T T T
= √ exp − 2 (C y − µ1n ) (C y − µ1n ) =
( 2πσ)n 2σ
½ ¾
1 1 2 √ 2
= √ exp − 2 (kyk − 2µyn n + nµ ) =
( 2πσ)n 2σ
( " #)
1 1 n−1 2 √ 2
= √ exp − 2 ∑ yi + (yn − µ n) ,
( 2πσ)n 2σ i=1
√ √
C1n = (0, ..., 0, n)T et µyT C1n = µyn n,
d’où on tire que Y1 ,Y2 , ...,Yn sont indépendantes et

Yi ∼ N(0, σ2 ), i = 1, ..., n − 1; (25)



Yn ∼ N(µ n, σ2 ). (26)
Notons que de (24) il suit que
n n−1
ns2n = ∑ (Xi − X̄n )2 = ∑ Yi2,
i=1 i=1

donc s2n ne dépend pas de Yn = nX̄n , et par conséquent, s2n et X̄n sont indépendantes. En
plus , de (24), (25) et (26) on tire que

σ2 ns2
X̄n ∼ N(µ, ) et 2n = χ2n−1 , (27)
n σ

85
donc que la statistique s2n est distribuée comme σ2 χ2n−1 /n, où χ2f est une variable aléatoire
qui suit la loi du chi-deux à f dégrés de liberté, f > 0, i.e. pour tout x ≥ 0
Zx
2− f /2 f
P{χ2f ≤ x} = ³ ´ t 2 −1 e−t/2 dt.
Γ 2f 0

Comme
Eχ2f = f et Varχ2f = 2 f , (28)
de (27) et (28) on tire que
µ ¶
1 2σ4 (n − 1)
Es2n =σ 2
1− et Vars2n = . (29)
n n2
On peut vérifier que dans notre problème l’estimateur de maximum de vraisemblance
θ̂n pour θ est
θ̂n = T = (X̄n , s2n )T .
En effet, on a
√ n n n
ln L(X; µ, σ2 ) = −n ln 2π − ln σ2 − 2 s2n − 2 (X̄n − µ)2 ,
2 2σ 2σ
∂ln L n ∂ln L n ns2n n
= 2 (X̄n ) − µ) et = − + + 4 (X̄n − µ)2 ,
∂µ σ ∂σ 2 2σ 2 2σ 4 2σ
donc pour trouver µ̂n et σ̂2n , il faut résoudre le système
(
∂ln L
∂µ = 0,
∂ln L
∂σ2
= 0.
De la première équation du système on tire que
µ̂n = X̄n ,
et de la deuxième on tire que
σ̂2n = s2n ,
d’où on obtient que θ̂n = (X̄n , s2n )T est l’estimateur de maximum de vraisemblance pour
θ = (µ, σ2 )T .
D’un autre côté comme de (29) on tire que

n 2 1 n
Sn2 =
n−1
sn = ∑ (Xi − X̄n)2
n − 1 i=1
(30)

est un estimateur sans biais pour σ2 .


On peut montrer que la statistique θ̃n = (X̄n , Sn2 )T est le meilleur estimateur sans biais
(au sens de minimum de variance) pour θ = (µ, σ2 )T .

2.9 Régions, intervalles, limites de confiance.

Dans ce paragraph nous allons suivre les articles de Bolshev (1965) et de Bagdona-
vičius, Nikoulina & Nikulin (1997).

86
Soit X = (X1 , . . . , Xn )T un échantillon, dont les réalisations x = (x1 , . . . , xn )T appar-
tiennent à X ⊆ Rn , x ∈ X ⊆ Rn ,

H0 : Xi ∼ f (x; θ), θ = (θ1 , . . . , θk )T ∈ Θ ⊆ Rk .

On s’intéresse à un problème d’estimation de la vraie valeur b = b(θ) d’une fonction b(·) :


Θ ⇒ B ⊆ Rm au point θ, θ ∈ Θ . Notons B0 l’intérieur de B.
Définition 1. On appelle région de confiance pour b = b(θ) de coefficient de confiance
γ (0.5 < γ < 1) ou γ-région de confiance tout court, un ensemble aléatoire C(X), C(X) ⊆
B ⊆ Rm , tel que
inf Pθ {C(X) 3 b(θ)} = γ.
θ∈ΘΘ

De cette définition on tire


Pθ {C(X) 3 b(θ)} ≥ γ,
pour tous θ ∈ Θ .
Dans le cas où b(θ) ∈ B ⊆ R1 la région de confiance est souvent un intérvalle dans R1 ,

C(X) =]bi (X), bs (X)[ ⊆ B ⊆ R1 ,

et on parle de l’intervalle de confiance du coefficient de confiance γ pour b, si

inf Pθ {bi (X) < b < bs (X)} = γ.


θ∈Θ
Θ

Il est évident que


Pθ {bi (X) < b < bs (X)} ≥ γ
pour tous θ ∈ Θ . Les statistiques bi (X) et bs (X) sont appelées les limites de l’intervalle de
confiance C(X). On remarque que

Pθ {bi (X) ≤ bs (X)} = 1.


Remarque 1. Supposons qu’on prenne un grand nombre d’échantillons X1 , . . . , XN et que
chaque fois on construise un intervalle de confiance ]bi (Xi ), bs (Xi )[ du coefficient de confiance
γ. Soit ]bi (xi ), bs (xi )[ une réalisation de ]bi (Xi ), bs (Xi )[; i = 1, . . . , N. Dans ce cas la vraie
valeur b sera recouverte par ces intervalles ]bi (xi ), bs (xi )[ au moins dans 100γ% des cas.
Souvent on prend γ ≥ 0.9.
Definition 2. Une statistique bi (X)(bs (X)) est appelée la limite inférieure (supérieure) de
confiance pour b = b(θ) de coefficient de confiance γ1 (γ2 ), si
à !
inf Pθ {bi (X) < b} = γ1 inf Pθ {bs (X) > b} = γ2 , 0.5 < γ j < 1.
θ∈Θ
Θ θ∈Θ
Θ

Les statistiques bi (X) et bs (X) sont appelées aussi γ1 - limite inférieure et γ2 - limite su-
périeure tout court. Si les coefficients de confiance de bi (X) et bs (X) sont égaux à γ1 et
γ2 respectivement, dans ce cas ]bi (X), bs (X)[ est l’intervalle de confiance du coefficient de
confiance
γ = γ1 − (1 − γ2 ) = γ1 + γ2 − 1

87
pour la vraie valeur de b = b(θ).
Définition 3. Les intervalles

]bi (X), +∞[ et ] − ∞, bs (X)[

sont appelés intervalles de confiance supérieur et inférieur pour b. Tous les deux sont des
intervalles unilatéraux.

2.10 Méthode de Bolshev de construction des limites de


confiance.

Lemme (Bolshev (1965)) Soit G(t) la fonction de répartition d’une variable aléatoire T .
Dans ce cas pour tout z ∈ [0, 1]

P{G(T ) ≤ z} ≤ z ≤ P{G(T − 0) < z}. (1)

Si T est continue, alors


P{G(T ) ≤ z} = z, 0 ≤ z ≤ 1.
Démonstration. On va d’abord montrer que

P{G(T ) ≤ z} ≤ z, 0 ≤ z ≤ 1. (2)
Si z = 1, on a P{G(T ) ≤ 1} ≤ 1. Fixons z ∈ [0, 1) et pour cette valeur de z on considère les
situations différentes.
1) Il existe une solution y de l’équation G(y) = z. Notons

y0 = sup{y : G(y) = z}.


On peut avoir :
a)G(y0 ) = z. Dans ce cas on a

P{G(T ) ≤ z} ≤ P{T ≤ y0 } = G(y0 ) = z.

b) G(y0 ) > z. Dans ce cas on a

P{G(T ) ≤ z} ≤ P{T < y0 } = G(y0 − 0) ≤ z.

2) Il n’existe pas de solution pour l’equation G(y) = z. Mais dans ce cas il existe y tel que

G(y) > z et G(y − 0) < z,


d’où on tire que
P{G(T ) ≤ z} ≤ P{T < y} = G(y − 0) < z.
Donc l’inégalité (2) est démontrée.
Démontrons maintenant la seconde inégalité dans (1) :

88
z ≤ P{G(T − 0) < z}, 0 ≤ z ≤ 1. (3)
Considérons la satistique −T . Sa fonction de répartition est

G− (y) = P{ − T ≤ y} = P{T ≥ −y} = 1 − G(−y − 0}.

Appliquons l’inégalité (2) en remplaçant

T, z, G par − T, 1 − z et G−
respectivement :
P{G− (−T ) ≤ 1 − z} ≤ 1 − z, 0 ≤ z ≤ 1,
d’où on obtient que

P{1 − G(T − 0) ≤ 1 − z} ≤ 1 − z,
P{G(T − 0) ≥ z} ≤ 1 − z,
P{G(T − 0) < z} ≥ z, 0 ≤ z ≤ 1.
Si T est continue, dans ce cas G(t − 0) = G(t), et donc (2) et (3) nous donnent P{G(T ) ≤
z} = z pour tout z ∈ [0, 1].
Le Lemme de Bolshev est démontré.
Théoreme. Supposons que l’on ait une variable aléatoire T = T (X, b), b ∈ B, telle que sa
fonction de répartition

G(t, b) = Pθ {T ≤ t}
ne dépende que de b pour tous t ∈ R et que les fonctions

I(b, x) = G(T (x, b) − 0, b) et S(b, x) = G(T (x, b), b)


soient décroissantes et continues par rapport à b pour tout x fixé, x ∈ X . Dans ce cas 1) la
statistique bi (X),

bi = bi (X) = sup{b : I(b, X) ≥ γ, b ∈ B}, si le supremum existe,

sinon
bi = bi (X) = inf B
est la limite inférieure de confiance pour b ∈ B0 du coefficient de confiance supérieur où
égal à γ ;
2) la statistique bs (X) est une limite supérieure de confiance pour b ∈ B0 du coefficient de
confiance supérieur où égale à γ :

bs = bs (X) = inf {b : S(b, X) ≤ 1 − γ, b ∈ B}, si le infimum existe,


sinon

bs = bs (X) = sup B,

89
3) si x, x ∈ X , est telle que les fonctions I(b, x) et S(b, x) sont strictement décroissantes par
rapport à b, alors bi (x) et bs (x) sont les racines des équations

I(bi (x), x) = γ et S(bs (x), x) = 1 − γ.

Démonstration. Notons D = D(X) l’événement suivant

D = {il existe b tel que I(b, X) ≥ γ}.

Alors pour la vrai valeur b ∈ B0 on a


\ \
P{bi < b} = P{(bi < b) D} + P{(bi < b) D̄} =
\ n \ o
P{((sup b∗ : I(b∗ , X) ≥ γ, b∗ ∈ B) < b) D} + P (inf B < b) D̄ =
\ \ \
= P{(I(b, X) < γ) D} + P{D̄} ≥ P{(I(b, X) < γ) D} + P{(I(b, X) < γ) D̄} =
= P{I(b, X) < γ} ≥ γ,
d’après le Lemme de Bolshev. Le théorème est démontré.
Remarque 1. Si θ est unidimensionnel, les variables al’eatoires Xi sont continues et la
fonction F(x; θ) est monotone et continue en θ, on peut prendre
n
T (X; θ) = −2 ∑ ln F(Xi ; θ).
i=1

D’après le lemme de Bolshev F(Xi ; θ) ∼ U (0; 1), donc

−2ln F(Xi ; θ) = χ22 , i = 1, . . . , n,

et comme X1 , . . . , Xn sont indépendantes

T (X; θ) = χ22n .

Notons G2n (x) = P{χ22n ≤ x}. Alors,


à !
n
I(θ; X) = S(θ; X) = G2n (T (X; θ)) = G2n −2 ∑ ln F(Xi ; θ) .
i=1

Si les fonctions I et S sont strictement décroissantes (ou croissantes) en θ, alors d’après


le théorème de Bolshev on a
n
−2 ∑ ln F(Xi ; θ) = χ2γ (2n) (ou χ21−γ (2n)),
i=1

n
−2 ∑ ln F(Xi ; θ) = χ21−γ (2n) (ou χ2γ (2n)).
i=1

Remarque 2. Soit {θn }, n ∈ N∗ , une suite d’estimations, θn∗ : Rn → Θ, du paramètre θ =
(θ1 , . . . , θm )T ∈ Θ ⊂ Rm , telle que
√ L
n(θ∗n − θ) −→ N(0m , Σ ), n → ∞.

90
Soit g une fonction borélienne, g : Rm → R1 , differentiable en θ. Alors

√ L
n[g(θ∗n ) − g(θ)] −→ N(0, gradTθ Σ gradθ g), n → ∞.

En particulier, si m = 1, θ∗n : Rn → Θ ⊂ R1 , et g : R1 → R1 ,

√ L
n[g(θ∗n ) − g(θ)] −→ N(0, σ2 [g0 (θ)]2 ), n → ∞,

alors
√ L
n[g(θ∗n ) − g(θ)] −→ N(0, σ2 [g0 (θ)]2 ), n → ∞.
On emploie très souvent des méthodes asymptotiques pour la construction des inter-
valles de confiance.
Remarque 3. Soit X = (X1 , . . . , Xn )T un échantillon,

F(x; θ) = P{Xi ≤ x}, θ = (θ1 , . . . , θm )T ∈ Θ ⊂ Rm .

Sous des conditions très générales l’estimateur de maximum de vraisemblance θ̂n = (θ̂1 , . . . , θ̂n )
est asymptotiquement efficace et normal avec les parametres θ et I(θ) :

θ̂n ∼ AN(θ, I−1 (θ)),

où I(θ) est la matrice d’information de Fisher de X.


Soit b : Rm → R1 une fonction differentiable, alors b̂n = b(θ̂n ) = b(θ̂1 , . . . , θ̂m ) un esti-
mateur de paramètre b = b(θ1 , . . . , θm ), et b̂n ∼ AN(b, σ2b (θ)), où

σ2b (θ) = [gradθ b(θ)]T I−1 (θ) gradθ b(θ),

i.e.
(b̂n − b)/σ2b (θ̂n ) ∼ AN(0, 1).
Donc on peut prendre
T (b, X) = (b̂n − b)/σ2b (θ̂n ).
Les fonctions
I(b; X) = S(b; X) = Φ((b̂n − b)/σ2b (θ̂n ))
sont décroissantes en b et d’après le théorème de Bolshev les égalités

Φ((b̂n − b)/σ2b (θ̂n )) = γ, Φ((b̂n − b)/σ2b (θ̂n )) = 1 − γ

implique
b = b̂n − zγ σ2b (θ̂n ); b = b̂n + zγ σ2b (θ̂n ),
où zγ est γ-quantile de la loi normale standard. On peut noter que asymptotiquement (b, b)
est le plus court intervalle de confiance de niveau donné.

91
2.11 Théorème de Fisher.

Dans ce paragraph nous alons résumer les propriétés principales des estimateurs X̄n , Sn2
et s2n .
Théorème de Fisher. Soit X = (X1 , ..., Xn )T un échantillon normal de paramètres µ et σ2 :
Xi ∼ N(µ, σ2 ). Dans ce cas la statistique θ̃n = (X̄n , Sn2 )T est exhaustive minimale et complète,
X̄n et Sn2 sont indépendantes,
µ ¶
σ2 (n − 1) 2
X̄n ∼ N µ, , Sn = χ2n−1 ,
n σ2
et la variable aléatoire
√ X̄n − µ
n = tn−1
Sn
suit la loi de Student à n − 1 degré de liberté. L’estimateur θ̃n est le meilleur estimateur
sans biais pour θ = (µ, σ2 )T .

Remarque 1. On note qu’une variable aléatoire t f suit la loi de Student à f degrées de


liberté, f > 0, si pour tout x ∈ R1
³ ´
Γ f +1 Zx µ ¶− f +1 Z t
2 t2 2
S f (x) = P{t f ≤ x} = √ ³ ´ 1+ dt = s f (t)dt.
π f Γ 2f −∞ f −∞

Exemple 1. Etudions ici quelques propriétés de la statistiques θ̃n = (X̄n , Sn2 )T . On sait que
Eθ̃n = θ = (µ, σ2 )T , où X̄n et Sn2 sont les estimateurs sans biais de µ et σ2 respectivement.
Nous savons aussi que
σ2
X̄n ∼ N(µ, ), (1)
n
par suite
σ2
Eθ X̄n = µ, Var θ X̄n = . (2)
n
D’autre part on a
n−1 2
Sn = χ2n−1 , (3)
σ 2

2σ4
Eθ Sn2 = σ2 , Var θ Sn2 = . (4)
n−1
θ̃n est-il un estimateur efficace pour θ = (µ, σ2 )T ?
La fonction de vraisemblance de X j est :
µ ¶ ½ ¾
1 Xj − µ 1 (X j − µ)2
L j (θ) = ϕ =√ exp − (5)
σ σ 2πσ 2σ2

et le vecteur informant λ j (θ) de l’observation X j est :


µ ¶T µ ¶T
∂ln L j (θ) ∂ln L j (θ) X j − µ (X j − µ)2 1
λ j (θ) = , = , − 2 . (6)
∂µ ∂σ2 σ 2 2σ 4 2σ

92
Nous pouvons donc en déduire l’information de Fisher i(θ) sur θ pour une observation X j :

i(θ) = Eλ j (θ)λTj (θ) =


° °
° (X j − µ)2 (X j − µ)3 X j − µ °
° − °
° σ4 2σ6 2σ4 °
= Eθ °
° (X − µ)3 X − µ
°=
°
° j j (X j − µ)4 (X j − µ)2 1 °
° − − + 4 °
2σ 6 2σ4 4σ 8 2σ 6 4σ

° ° ° °
° 1 ° ° 1 °
° 2 0 ° ° 2 0 °
=° σ
° ° ° σ °
°=° °. (7)
° 3 1 1 ° ° 1 °
° 0 4
− 4+ 4 ° ° 0 °
4σ 2σ 4σ 2σ4
L’information de Fisher I n (θ) sur θ dans X est :
° °
° n °
° 2 0 °
I n (θ) = ni(θ) = ° σ
° °
n ° , (8)
° 0 °
° 2σ4 °

par suite ° 2 °
° σ °
° 0 °
° n °
I −1 (θ) = ° °. (9)
n ° 2σ4 °
° °
° 0 °
n
On doit donc avoir (d’après l’inégalité de Rao-Cramer-Frechet) pour tous les estimateurs
sans biais µ∗ et σ∗ 2 de µ et σ2 :

σ2 2σ4
Var θ µ∗ ≥ et Var θ σ∗ 2 ≥ . (10)
n n
On voit que l’estimateur µ̂n = X̄n est efficace pour µ . Par contre :

2σ4 2σ4
Var θ Sn2 = > , (11)
n−1 n
donc σ∗ 2 = Sn2 n’est pas efficace pour σ2 , donc θ̃n = (µ̂n , Sn2 )T n’est pas un estimateur ef-
ficace du paramètre θ = (µ, σ2 )T . Nous allons cependant montrer que θ̃n = (µ̂n , Sn2 )T est le
meilleur estimateur sans biais pour θ, parce que c’est celui de variance minimum parmi tous
les estimateurs sans biais de θ. Pour le montrer il suffit de montrer qu’il n’y a pas d’aure
estimateur sans biais de σ2 meilleur que Sn2 . Supposons qu’on ait σ̃2 = σ̃2 (X) estimateur
sans biais de σ2 , Eθ σ̃2 ≡ σ2 . Soit δ = σ̃2 − Sn2 . Il est clair que

Eθ δ ≡ 0, (12)

δ = δ(X) est un autre estimateur sans biais de 0. Puisque θ̃n est exhaustive, on peut écrire
l’égalité précédente sous la forme :
Z ½ ¾
1 1 £ ¤
√ δ(X)exp − 2 n(X̄n − µ) + (n − 1)Sn dX1 dX2 · · · dXn ≡ 0.
2 2
(13)
( 2πσ)n n 2σ
R

93
En dérivant (13) par rapport à µ, on a
Z ½ ¾
1 1 £ ¤
√ δ(X)exp − 2 n(X̄n − µ) + (n − 1)Sn ×
2 2
( 2πσ)n 2σ
Rn

n
×
(X̄n − µ) dX1 dX2 · · · dXn ≡ 0,
σ2
puis à nouveau en dérivant par rapport à µ, on obtient :
Z ½ ¾
1 1 £ ¤
√ δ(X)exp − 2 n(X̄n − µ) + (n − 1)Sn ×
2 2
( 2πσ)n n 2σ
R
· ¸
n2 2 n
× 4 (X̄n − µ) − 2 dX1 dX2 · · · dXn ≡ 0,
σ σ
i.e.,
Eθ δ(X)(Xn − µ) ≡ 0, (14)
et donc δ(X) et X̄n − µ ne sont pas correlées. De la même façon on peut montrer que
© ª
Eθ δ(X)Sn2 ≡ 0, (15)

i.e., δ(X) et Sn2 ne sont pas correlées non plus. Mais par ailleurs :

σ̃2 = δ + Sn2 , (16)

d’oú
Var θ σ̃2 = Var θ δ + Var θ Sn2 ≥ Var θ Sn2 . (17)
Cela signifie que la variance de Sn2 est minimale dans la classe de tous les estimateurs sans
biais de σ2 , et donc Sn2 est le meilleur estimateur de σ2 dans ce sens.
On peut obtenir le même résultat sur la complétude de θ̃n en utilisant le théorème de
Lehmann-Scheffé.
Example 2. Soit Xn = (X1 , ..., Xn )T un échantilon,

Xi ∼ N(µ, 1), | µ |< ∞,

i.e. Xi suit une loi normale de paramètres

µ = EXi et 1 = Var Xi .

Comme X1 , . . . , Xn sont indépendantes, on peut aussi dire que Xn suit la loi normale de
dimension n :
Xn ∼ Nn (µ1n , I n ),
où 1n = (1, . . . , 1)T ∈ Rn , I n est la matrice identité d’ordre n, et

EXn = µ1n , Var Xn = I n .

La densité de Xn est
½ ¾
1 1 T
pXn (x; µ) = exp − (x − µ1n ) (x − µ1n ) =
(2π)n/2 2

94
( )
1 1 n
= exp − ∑ (xi − µ)2 , x = (x1 , . . . , xn )T ∈ Rn , (18)
(2π)n/2 2 i=1
et donc la fonction de vraisemblance L(µ) de Xn est
( )
1 1 n
L(µ) = exp − ∑ (Xi − µ)2 , µ ∈ R1 .
(2π) n/2 2 i=1

Considérons la statistique
1 n 1
X̄n = ∑
n i=1
Xi = 1Tn Xn .
n
Comme
√ ( )
n n n o 1 1 n
L(µ) = √ exp − (X̄n − µ)2 √ exp − ∑ (Xi − X̄n )2 , (19)
2π 2 n(2π)(n−1)/2 2 i=1

du critère de factorisation de Neyman-Fisher il suit que X̄n est une statistique exhaustive
minimale pour µ. Il est evident que X̄n ∼ N(µ, 1n ). Soit
T
W n = (X1 − X̄n , X2 − X̄n , . . . , Xn − X̄n ) = Xn − X̄n 1n =

1 1
Xn − 1n X̄n = Xn − 1n 1Tn Xn = (In − 1n 1Tn )Xn = Dn Xn , (20)
n n

1
Dn = I n − 1n 1Tn .
n
On note que la matrice Dn est idempotente, c.a.d. :

DTn Dn = Dn DTn = D2n = Dn ,

et que Dn 1n = 0n . La formule (20) montre que la statistique W n est le résultat d’une trans-
formation linéaire de Xn , W n = Dn Xn , et donc on constate que la statistique W n suit une
loi normale dans Rn dont la fonction caractéristique est

1
fW n (t) = exp {− tT Dn t}, t ∈ Rn , (21)
2
puisque µ ¶
1 T
EW n = Dn EXn = I n − 1n 1n µ1n = µ1n − µ1n = 0n
n
et
VarW n = EW nW Tn = E{Dn Xn XTn DTn } = Dn [I n + µ2 1n 1Tn ]DTn =
= Dn I n DTn = Dn DTn = Dn ,
On peut remarquer que la loi de la statistique W n ne dépend pas de paramètre µ. C’est la
raison pour laquelle on dit que W n est une statistique libre, ce qui signifie que W n n’apporte
pas d’information sur µ. Toute information sur µ conserve la statistique exhaustive minimale
X̄n .

95
Nous allons montrer que les statistiques X̄n et W n sont indépendantes. Pour cela il nous
faudra étudier plus attentivement la répartition de W n . Notons
Wi = Xi − X̄n , i = 1, . . . , n.
Il est facile de vérifier que detDn = 0, d’où on déduit que la loi de W n est dégénérée, ce qui
explique la dépendance linéaire entre W1 , ...,Wn :
n
∑ Wi = 0, donc Wn = −(W1 + · · · +Wn−1 ).
i=1

Considérons maintenant la statistique U n−1 = (W1 , ...,Wn−1 )T . On remarque que


EUn−1 = 0n−1 ,
et sa matrice de covariance Bn−1 est la matrice Dn sans la dernière ligne ni la dernière
colonne. Par un calcul direct, on peut montrer que
1
detBn−1 = , i.e. rangBn−1 = rangDn = n − 1,
n
et donc avec une probabilité 1 la répartition de W n est concentrée dans Rn−1 .
On remarque que ° °
° 2 1 1 ... 1 °
° °
° 1 2 1 ... 1 °
° °
° 1 1 2 ... 1 °
B−1
n−1 = ° °
° .. °
° . °
° °
° 1 1 1 ... 2 °
n−1,n−1

et detB−1= n. De ces résultats il suit que la statistique U n−1 = (W1 , . . . ,Wn−1 )T suit une
n−1
loi normale Nn−1 (0n−1 , Bn−1 ), dont la densité
pU n−1 (u), u = (u1 , . . . , un−1 )T ∈ Rn−1 ,
est donnée par la formule
½ ¾
1 1 T −1
pU n−1 (u) = √ exp − u Bn−1 u =
det Bn−1 (2π)(n−1)/2 2
  Ã !2 

√  n−1 n−1 
n 1
=
(2π)(n−1)/2
exp −
 2 i=1 ∑ iu 2
+ ∑ i  , u ∈ Rn−1.
u  (22)
i=1

Maintenant, il est facile de montrer que U n−1 et X̄n sont indépendantes. En effet, considé-
rons la statistique
Y = (Y1 ,Y2 , . . . ,Yn−1 ,Yn )T = CXn ,
où ° °
° 1− 1 − 1n − 1n ··· − 1n − 1n °
° n °
° 1 °
° − 1n 1 − 1n − 1n ··· −n −n °
1
° °
° 1 °
° − 1n − 1n 1 − 1n ··· 1
−n −n °
°
C=° °,
.. °
° . °
° °
° −1 − 1n − 1n ··· 1
1 − n −n °1 °
° n
° °
° 1 1 1
··· 1 1 °
n n n n n

96
et donc
Yn = X̄n , et Y j = W j = X j − X̄n , j = 1, . . . , n − 1, (23)
d’où il suit que
° °
° 1 0 0 ... 0 1 °
° °
° 0 1 0 ... 0 1 °
° °
° .. °
X = C−1Y , −1
où C = ° . °
° °
° 0 0 0 ... 1 1 °
° °
° −1 −1 −1 . . . −1 1 °

et donc
Xi = Yi +Yn , i = 1, . . . , n − 1,
et
n−1 n−1
Xn = nYn − ∑ Xi = Yn − ∑ Yi .
i=1 i=1

Pour trouver la densité pY (y; µ) de la statistique Y on remarque que et


° °
° ∂xi °
J = detC = det °
−1 °
° ∂y j ° = n,

et donc de (18) on obtient que


√ n n o
−1 n
−1 2
pY (y; µ) = pXn (C y; µ)|detC | = √ exp − (yn − µ) ×
2π 2
  Ã !2 
√  n−1 n−1 
n 1
×
(2π)(n−1)/2
exp − ∑ i
 2 i=1
y2
+ ∑ i .
y  (24)
i=1

De (19) et (24) il suit que X̄n et U n−1 = (X1 − X̄n , . . . , Xn−1 − X̄n )T sont indépendantes.
Comme
n
1Tn W n = ∑ (Xi − X̄n ) = 0,
i=1
on tire que
n−1
Xn − X̄n = − ∑ (Xi − X̄n ),
i=1

i.e. Xn − X̄n est une statistique de U n−1 , qui est indépendante de X̄n , et donc X̄n et W n =
(X1 − X̄n , X2 − X̄n , . . . , Xn − X̄n )T sont indépendantes.
On remarque qu’on peut obtenir le même résultat par calcul direct de la fonction carac-
téristique ϕV (t), t ∈ Rn+1 , de la statistique

V = (W n , X̄n ) = (X1 − X̄n , ..., Xn − X̄n , X̄n )T


(" #)
n
ϕV (t) = E exp i ∑ ti(Xi − X̄n) + tn+1X̄n .
i=1

97
Exemple 3. Soit X = (X1 , ..., Xn )T un échantilon,

Xi ∼ N(µ, σ2 ), | µ |< ∞, σ2 > 0.

La fonction de vraisemblance L(µ, σ2 ) de X est

1 1 n
L(µ, σ2 ) = p(X; µ, σ2 ) =
σ (2π)
n n/2
exp{−
2σ2 ∑ (Xi − µ)2 } =
i=1
" #
n n
1 1
σn (2π)n/2
exp{−
2σ2 ∑ Xi2 − 2µ ∑ Xi + nµ2 }. (25)
i=1 i=1

On voit que la statistique


à !T
n n
T = T(X) = ∑ Xi, ∑ Xi2
i=1 i=1

est exhaustive et minimale pour (µ, σ2 )T .


Soit
Xt = {x : T(x) = t = (t1 ,t2 )T , x ∈ Rn }.
Notons ct = ct (µ, σ2 ) la valeur de la densité p(x; µ, σ2 ) sur cet ensemble. Dans ce cas la loi
conditionnelle de X sachant T(X) = t est uniforme sur Xt . En effet, pour tout x ∈ Xt on a

pX (x; µ, σ2 )
pX (x | T(X) = t; µ, σ2 ) = R =
pX (x; µ, σ2 )dx
Xt

ct 1
= = const. (26)
ct mesXt mesXt
Considérons la statistique Zn = (Z1 , ..., Zn )T , où

X j − X̄n
Zj = , j = 1, ..., n, (27)
Sn

1 n 1 1 n
X̄n = ∑ Xi , Sn2 = T
X Dn X = ∑ (Xi − X̄n )2 . (28)
n i=1 n−1 n − 1 i=1
Comme les statistiques T et U = (X̄n , Sn2 )T sont équivalentes, on remarque que de (26) et
(28) il suit que si U est fixée, dans ce cas X suit la loi uniforme sur l’intersection de deux
surfaces données par les équations :

1 n 1 n
∑ (Xi − X̄n)2 = n − 1
Sn2 i=1
et ∑ (Xi − X̄n) = 0,
Sn i=1

√ qui représenten la sphère de dimension n − 1 avec le centre au point X̄n 1n et de rayon


ce
n − 1Sn dans R , et par conséquent on en tire que si U est fixé, la loi de Zn est uniforme
sur l’intersection des deux surfaces données par les équations :
n n
∑ Zi2 = n − 1 et ∑ Zi = 0,
i=1 i=1

98

ce qui représente la sphère de dimension de n − 1 de rayon n − 1 dans Rn dont la surface
ne dépend pas de U et par conséquent, on obtient que la loi conditionnelle de Zn ne dépend
pas de U = (X̄n , Sn2 ), donc les statistiques Zn et (X̄n , Sn2 ) sont indépendantes. Comme X̄n et
Sn2 sont indépendantes il s’ensuit que les trois statistiques Zn , X̄n et Sn2 sont indépendantes.
Exemple 4. Supposons qu’aux moments t = 0, 1, ..., n nous observons un objet A qui se dé-
place uniformément avec une vitesse constante et inconnue µ, µ > 0. Soit s(t) la distance
parcourue par cet objet A aux moments t = 0, 1, ..., n; n ≥ 1. Si toutes les mesures étaient
correctes on aurait
s(k) = µk, pour tout k = 0, 1, 2, ..., n,
(on suppose que s(0) = 0).
Supposons que l’expérience soit organisée de manière qu’il n’y ait pas d’erreurs systéma-
tiques ; il y a cependant des erreurs de mesure qui sont normales et indépendantes et qui
s’accumulent à chaque moment de mesure.
En supposant que toutes les erreurs de mesure ont la même variance σ2 , trouvons les
meilleurs estimateurs sans biais pour µ et σ2 .
Tout d’abord supposons que

s = (s0 , s1 , ..., sn )T , où s0 = s(0), s1 = s(t1 ), ..., sn = s(tn ),

est une réalisation d’un vecteur aléatoire S = (S0 , S1 , ..., Sn )T dont les coordonnées Si selon
le modèle physique sont des variables aléatoires telles que

S0 = δ0 , S1 = µ + δ1 , S2 = 2µ + δ1 + δ2 , ..., Sn = nµ + δ1 + ... + δn ,

où toutes les erreurs de mesures δ0 , δ1 , ..., δn sont indépendantes et suivent la même loi
normale N(0, σ2 ). Dans ce cas la fonction de vraisemblance du vecteur des erreurs δ =
(δ0 , δ1 , ..., δn )T est
( )
n
1
L(δ; µ, σ2 ) = (2π)−(n+1)/2 σ−(n+1) exp − 2 ∑ δ2i .
2σ i=0

Soit
Li−1 = Si − Si−1 (i = 1, 2, ..., n), où S0 = δ0 .
Alors
δi = Li−1 − µ pour i = 1, 2, ..., n,
et la fonction de vraisemblance de la statistique S est
( )
n
1 1
L(S; µ, σ2 ) = (2π)−(n+1)/2 σ−(n+1) exp − 2 δ20 − 2 ∑ (Li−1 − µ)2 =
2σ 2σ i=1
( " #)
n
1
= (2π)−(n+1)/2 σ−(n+1) exp − 2
δ20 + ∑ (Li−1 − L̄n )2 + n(L̄n − µ)2 ,
2σ i=1


1 n
L̄n = ∑ Li−1,
n i=1

99
on en tire donc que
à !T
n
U= L̄n , δ20 + ∑ (Li−1 − L̄n )2
i=1

est une statistique exhaustive pour (µ, σ2 )T . Il est évident, que la statistique
n
Tn = δ20 + ∑ (Li−1 − L̄n )2
i=1

est distribuée comme la variable aléatoire σ2 χ2n , et on en déduit que


½ ¾
Tn
E = σ2 et EL̄n = µ.
n
Comme la famille des distributions normales est complète, la statistique exhaustive U est
donc complète et on en déduit que
1 n 1 n
L̄n = ∑
n i=1
Li−1 = ∑ (Si − Si−1)
n i=1
et " #
Tn 1 2 n
= S + ∑ [(Si − Si−1 ) − L̄n ]2
n n 0 i=1
sont les estimateurs sans biais uniques qui s’expriment en fonction de la statistique exhaus-
tive U et par conséquent ils sont les meilleurs estimateurs sans biais pour µ et σ2 .

2.12 Intervalle de confiance pour la moyenne d’une loi


normale

Soit X = (X1 , ..., Xn )T un échantillon,


Xi ∼ N(µ, σ2 ), |µ| < ∞, σ2 > 0.
Considérons ici le problème d’estimation des paramètres µ et σ2 par intervalles. Nous sa-
vons que la variable aléatoire
√ X̄n − µ √ X̄n − µ
tn−1 = n = n−1
Sn sn
suit la loi de Student à f = n − 1 degrés de liberté
P{t f ≤ t} = S f (t).
On donne ici quelques valeurs de S f (t) :

f 3 4 6 8 16 52
t 2.3534 2.1318 1.9432 1.8595 2.1199 2.0024

S f (t) 0.9500 0.9500 0.9500 0.9500 0.9750 0.9750

100
Nous pouvons trouver pour chaque α, 0 < α < 0.5, les valeurs t n−1 (α) et t n−1 (α) telles
que ½
P{tn−1 ≤ t n−1 (α)} = Sn−1 (t n−1 (α)) = α,
(1)
P{tn−1 ≤ t n−1 (α)} = Sn−1 (t¯n−1 (α)) = 1 − α,
et donc
P{t n−1 (α) ≤ tn−1 ≤ t n−1 (α)} = 1 − 2α. (2)
t n−1 (α) est souvent appelé α−quantile supérieur où (1 − α)−quantile de la loi de Student
avec f = n − 1 degrées de liberté et t n−1 (α) est appelé α−quantile inférieur de la loi de
Student avec f = n − 1 degrées de liberté. De la symétrie par rapport à zéro de la densité
sn−1 (x) nous avons
t n−1 (α) = −t n−1 (α), (3)
et donc (2) peut être présentée

P{−t n−1 (α) ≤ tn−1 ≤ t n−1 (α)} = 1 − 2α. (4)

Les quantiles t f (α) pour différentes valeurs de f et α peuvent être trouvés dans des tables
statistiques.
Maintenent en utilisant (4) et le Theoreme de Fisher nous pouvons construire l’intervalle
de confiance ou l’estimateur par intervalle pour la moyenne µ de la loi normale N(µ, σ2 ).
Nous disons que l’intervalle aléatoire

l(X) ≤ µ ≤ L(X) (5)

est l’intervalle de confiance de niveau (1 − α) ou l’estimateur par intervalle avec le coeffi-


cient de confiance (1 − α) pour la moyenne inconnue µ si

P{l(X) ≤ µ ≤ L(X)} = 1 − α. (6)

Les statistiques l(X) et L(X) s’appellent limites de confiance inférieure et supérieure res-
pectivement pour µ.
Fixons α (0 < α < 0.5) et choisissons les quantiles

t n−1 (α/2) et t n−1 (α/2) = −t n−1 (α/2),

alors du Théorème de Fisher et de (4) on tire que


½ ¾
√ X̄n − µ
P −t n−1 (α/2) ≤ n ≤ t n−1 (α/2) = 1 − α, (7)
Sn

ou, ce qui est équivalent,


½ ¾
Sn Sn
P X̄n − √ t n−1 (α/2) ≤ µ ≤ X̄n + √ t n−1 (α/2) = 1 − α. (8)
n n

Donc l’intervalle aléatoire


µ ¶
Sn Sn
X̄n − √ t n−1 (α/2) ≤ µ ≤ X̄n + √ t n−1 (α/2) (9)
n n

101
est l’intervalle de confiance de niveau (1 − α) pour µ. La limite inférieure de confiance de
cet intervalle est
Sn
l(X) = X̄n − √ t n−1 (α/2),
n
et la limite supérieure de confiance est
Sn
L(X) = X̄n + √ t n−1 (α/2).
n

Exercice 1. La charge d’un électron est e = µ10−10 . Miliken a obtenu expérimentale-


ment 58 mesures de µ. Les résultats de Miliken sont présentés dans le tableau suivant :

4.781 4.764 4.777 4.809 4.761 4.769

4.795 4.776 4.765 4.790 4.792 4.806


4.769 4.771 4.785 4.779 4.758 4.779
4.792 4.789 4.805 4.788 4.764 4.785
4.779 4.772 4.768 4.772 4.810 4.790
4.775 4.789 4.801 4.791 4.799 4.777
4.772 4.764 4.785 4.788 4.799 4.749
4.791 4.774 4.783 4.783 4.797 4.781
4.782 4.778 4.808 4.740 4.790
4.767 4.791 4.771 4.775 4.747
On considère un modèle H0 où ces résultats sont traités comme des réalisations des variables
aléatoires indépendantes X1 , X2 , ..., Xn (n = 58) qui suivent la même loi normale N(µ, σ2 ).
a. Trouver la statistique exhaustive minimale pour θ = (µ, σ2 )T .
b. Trouver l’estimateur de maximum de vraisemblance θ̂n de θ.
c. Montrer que le meilleure (le plus court) intérvalle de confiance de niveau P = 1−α = 0.95
pour µ, sachant que t 0.025 (57) = 2.0025, X̄n = 4.7808 et Sn2 = 23383 · 10−8 , est

4.7768 < µ < 4.7848.

Exercice 2. Soit x une réalisation observée de la somme des carrés des erreurs de mesures
dans une expérience. Nous supposons que le nombre de mesures f est inconnu et que l’ex-
périence est organisée de façon que toutes les mesures puissent être considérées comme des
erreurs normales faites dans les même conditions et indépendamment les unes des autres en
l’absence d’erreur systématique.
a) Trouver le meilleur estimateur sans biais fˆ pour f .
b) Supposons que l’expérience donne x=407.41. En utilisant la distribution asympto-
tique de fˆ et l’approximation normale de Fisher construire ≈ 0.9-limites de confiance pour
f.
Solution. Le nombre x peut-être observé comme la réalisation de la variable aléatoire
f
∑ Xi2 = fˆ,
i=1

102
où X = (X1 , ..., X f )T un échantillon de taille f , Xi ∼ N(0, σ2 ). Ici Xi est une erreur de la
i-ème mesure. Il est clair que fˆ suit la loi de chi-deux à f degrées de liberté, i.e.
f
P{ fˆ ≤ x} = P{ ∑ Xi2 ≤ x} = P{χ2f ≤ x} = Q f (x), x ≥ 0.
i=1

Comme Eχ2f = f , la statistique fˆ est l’estimateur sans biais de f. On sait que la variable
aléatoire q q
p p
ˆ
2 f − 2 f − 1 = 2χ2f − 2 f − 1
est asymptotiquement normale (approximation de Fisher), quand f → ∞, i.e. pour tout z
fixé q p
P{ 2 fˆ − 2 f − 1 ≤ z} ≈ Φ(z),
pour les grandes valeurs de f . De cette égalité on déduit
q p
P{−1.28 ≤ 2 fˆ − 2 f − 1 ≤ 1.28} ≈ 0.8,

puisque Φ−1 (0.9) = x̄0.1 = 1.28, et donc on obtient l’intervalle de confiance pour f
µq ¶2 µq ¶2
1 1 1 1
P{ + 2 fˆ − 1.28 ≤ f ≤ + 2 fˆ + 1.28 } ≈ 0.8.
2 2 2 2
p
Comme fˆ = 407.81, 2 fˆ = 28.54, on en tire que

373 ≤ f ≤ 445.

Il est utile de remarquer que pour avoir l’estimateur par intervalle de confiance (9) avec
le coefficient de confiance 1 − α nous devons choisir les quantiles de niveau α/2. Il faut
remarquer encore que la longueur Ln de cette intervalle est une variable aléatoire
Sn
Ln = 2 √ t n−1 (α/2) (10)
n
et puisque r ¡ ¢
2 Γ n2
ESn = ¡ ¢σ,
n − 1 Γ n−1
2
(voir, par exemple, Voinov & Nikulin (1993) ), on en tire que
s ¡ ¢
2 Γ n2
ELn = 2σt n−1 (α/2) ¡ ¢. (11)
n(n − 1) Γ n−1 2

D’un autre côté nous savons que pour chaque x ∈ R1

S f (x) = P{t f ≤ x} → Φ(x), quand f → ∞,

et en plus (voir, par exemple, Huber et Nikulin (1992)),


p
S f (x) − Φ(x) = O(1/ f )

103
uniformément par rapport à x, x ∈ R1 , et donc de (11) il suit que pour grandes valeurs de n
µ ¶
2σ 1
ELn = √ x(α/2) + O 3/2 (12)
n n
où x(α/2) = xα/2 est le quantile supérieur de niveau α/2 de la loi standard normale. Puisque
Sn2 est un estimateur sans biais de σ2 , ESn2 = σ2 , alors de (10) il suit que

4σ2 2
ELn2 = t (α/2),
n n−1
et donc " ¡ ¢ #
4σ 2 2 Γ 2 n
Var Ln = ELn − (ELn )2 = t 2n−1 (α/2) 1 − 2 ¢
¡ n−1 . (13)
n n−1 Γ 2
2
Puisque ¡ ¢ µ ¶
2 Γ2 n2 1 1
1− ¡ n−1 ¢ = +O 2 , (n → ∞)
n−1 Γ2
2
2n n
de (13) il suit que pour les grandes valeurs de n
µ ¶
2σ2 2 1
Var Ln = 2 x (α/2) + O 3 , (14)
n n
et donc on peut dire que Ln est pratiquement constante, Ln ≈ ELn . En pratique cela signifie
que

Ln = √ x(α/2), (15)
n
quand n est assez grand.
Supposons maintenent que la variance σ2 est connue. Comment cette information change
l’intervalle de confiance pour µ ? Si σ2 est donné, dans ce cas X̄n est une statistique exhaus-
tive pour paramètre µ et, comme il est bien connu, X̄n est le meilleur estimateur sans biais
pour µ et suit la loi normal N(µ, σ2 /n), |µ| < ∞. Donc la variable aléatoire
√ X̄n − µ
Z= n
σ
suit la loi normal standard N(0, 1).
Il s’en suit que lorsqu’on choisit x(α/2), 0 < α < 0.5, comme le quantile supérieur de
niveau α/2 de la loi normale standard, alors on a

P{−x(α/2) ≤ Z ≤ x(α/2)} = 1 − α

ou, ce qui est la même chose,


√ X̄n − µ
P{−x(α/2) ≤ n ≤ x(α/2)} = 1 − α,
σ
d’où on obtient l’intervalle de confiance de longueur minimale avec le coefficient de confiance
(1 − α) pour µ :
σ σ
P{X̄n − √ x(α/2) ≤ µ ≤ X̄n + √ x(α/2)} = 1 − α, (16)
n n

104
Par exemple, si

α = 0.05, alors 1 − α = 0.95, α/2 = 0.025, x(0.025) = 1.96

et donc dans ce cas particulier on obtient


σ σ
P{X̄n − 1.96 √ ≤ µ ≤ X̄n + 1.96 √ } = 0.95, (17)
n n
et on dit que avec la probabilité 0.95 l’intervalle aléatoire
µ ¶
σ σ
X̄n − 1.96 √ ≤ µ ≤ X̄n + 1.96 √
n n
inclu ou couvre la vraie (mais inconnue !) valeur de µ.
La longueur Ln de l’intervalle de confiance (16) est

Ln = √ x(α/2) (18)
n
et comme on le voit de (15) il coincide avec la longueur moyenne de l’intervalle de confiance
pour µ quand σ2 est inconnu et il n’est pas aléatoire !

2.13 Intervalle de confiance pour la variance d’une loi


normale

Nous voulons maintenant construire l’intervalle de confiance de niveau (1 − α) pour la


variance σ2 de la loi normale N(µ, σ2 ). Considérons d’abord le cas où µ est aussi inconnue.
Le Théorème de Fisher nous dit que
n−1 2
S = χ2n−1 , (1)
σ2 n

1 n
Sn2 = ∑ (Xi − X̄n)2
n − 1 i=1
(2)

est un meilleur estimateur sans biais de σ2 . Pour chaque α fixé, 0 < α < 0.5 , on peut trouver
des tables statistiques des quantiles

χ2n−1 (α/2) et χ̄2n−1 (α/2)

tels que
α α
P{χ2n−1 ≤ χ2n−1 (α/2)} = et P{χ2n−1 ≤ χ̄2n−1 (α/2)} = 1 − , (3)
2 2
c’est-à-dire
P{χ2n−1 (α/2) ≤ χ2n−1 ≤ χ̄2n−1 (α/2)} = 1 − α. (4)

105
De (1) et (4) on a
n−1 2
P{χ2n−1 (α/2) ≤ S ≤ χ̄2n−1 (α/2)} = 1 − α
σ2 n
et donc ( )
(n − 1)Sn2 (n − 1)Sn2
P ≤ σ2
≤ = 1 − α. (5)
χ̄2n−1 (α/2) χ2n−1 (α/2)
Voila pourquoi l’intervalle aléatoire

(n − 1)Sn2 (n − 1)Sn2
≤ σ 2
≤ (6)
χ̄2n−1 (α/2) χ2n−1 (α/2)

est appellé l’intervale de confiance de niveau (1 − α) ou l’estimateur par intervalle avec le


coefficient de confiance (1 − α) pour la variance σ2 de la loi normale N(µ, σ2 ) quand µ est
inconnue. La longueur Ln de cet intervalle est égale à
à !
2 1 1
Ln = (n − 1)Sn − .
χ2n−1 (α/2) χ̄2n−1 (α/2)

Il faut remarquer ici qu’à l’aide de (5) on peut construire l’intervalle de confiance de
niveau (1 − α) pour σ.
Ici nous donnons quelques valeurs de la fonction de répartition Q f (x) de χ2f :
Z x
1 f
Q f (x) = P{χ2f ≤ x} = f ³ ´ y 2 −1 e−y/2 dy, x ≥ 0.
2 2 Γ 2f 0

f 1 1 3 4 4 4 57 57
x 3.844 2.706 7.815 9.488 7.779 0.711 79.572 38.027

Q f (x) 0.950 0.900 0.950 0.950 0.900 0.050 0.975 0.025


Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon de taille n = 5, Xi ∼ N(µ, σ2 ), et µ et
σ2 sont inconnus. On va construire le plus court intervalle de confiance de niveau (1 − α)
pour µ, quand α = 0.1 et

X1 = 2.96, X2 = 3.07, X3 = 3.02, X4 = 2.98, X5 = 3.06.

D’après (10.9) l’intervalle le plus court de confiance de niveau (1 − α) pour µ est


³α´ S ³α´ S
X̄n − t¯n−1 √n ≤ µ ≤ X̄n + t¯n−1 √n .
2 n 2 n
Dans notre cas
S52 S
X̄n = X̄5 = 3.018, Sn2 = S52 = 0.00232, = 0.000464, √5 = 0.046,
5 5
³α´
α/2 = 0.05, t¯n−1 = t¯4 (0.05)2.132
2

106
et donc le plus court intervalle pour µ

2.972 ≤ µ ≤ 3.064.

Construisons maintenant l’intervalle de confiance de niveau (1 − α) pour σ2 , si α =


0.01. D’après (11.6) l’intervalle de confiance de niveau 0.90 pour σ2 est

4S52 4S52
≤ σ 2
≤ .
χ̄24 (0.05) χ24 (0.05)

Puisque dans notre cas

S52 = 0.00232, χ̄24 (0.05) = 0.711 and χ24 (0.05) = 9.488

nous obtenons la réalisation de l’intervalle de confiance de niveau 0.9 pour σ2 :

0.00098 ≤ σ2 ≤ 0.0131.

Supposons maintenant que µ est connu et il nous faut estimer σ2 . Il est évident que dans
ce cas la statistique
1 n
s̃n = ∑ (Xi − µ)2
2
(7)
n i=1
est le meilleur estimateur sans biais de σ2 :

Es̃2n = σ2 , (8)

et comme X1 , ..., Xn sont indépendants et (Xi − µ)/σ suit la loi normale standard N(0, 1), on
trouve que
s̃2
n n2 = χ2n . (9)
σ
Pour chaque fixé α, 0 < α < 0.5, on peut trouver des tables statistiques les quantilles

χ2n (α/2) et χ̄2n (α/2)

tels que
α α
P{χ2n ≤ χ2n (α/2)} = et P{χ2n ≤ χ̄2n (α/2)} = 1 − , (10)
2 2
i.e.
P{χ2n (α/2) ≤ χ2n ≤ χ̄2n (α/2)} = 1 − α. (11)
De (9) et (11) nous obtenons

ns̃2n
P{χ2n (α/2) ≤ ≤ χ̄2n (α/2)} = 1 − α. (12)
σ2
et donc ( )
ns̃2n ns̃2n
P ≤ σ2
≤ = 1 − α. (13)
χ̄2n (α/2) χ2n (α/2)

107
C’est pourquoi l’intervalle aléatoire

ns2n ns2n
≤ σ 2
≤ (14)
χ̄2n (α/2) χ2n (α/2)

est appellé l’intervalle de confiance ou l’estimateur par intervalles avec le coefficient de


confiance 1 − α pour la variance σ2 de la loi normale N(µ, σ2 ), quand µ est connu.
En pratique on choisit souvent pour le coefficient de confiance 1 − α = 0.90 ou 0.95, ou
0.99, ce qui correspond à α égale à 0.1, 0.05 ou 0.01 respectivement.
Exemple 2. Soit X = (X1 , ..., Xn )T un échantillon de taille n = 201, Xi ∼ N(µ, σ2 ), et
soit
1 201
2
S201 = ∑
200 i=1
(Xi − X̄n )2

un meilleur estimateur sans biais pour σ2 . Il faut évaluer la probabilité

P{0.8σ2 ≤ S201
2
≤ 1.2σ2 }.

Solution. Comme nous savons


200 2
S = χ2200
σ2 201
et donc
200 2
P{0.8σ2 ≤ S201
2
≤ 1.2σ2 } = P{160 < S < 240} = P{160 < χ2200 < 240}.
σ2 201
Pour calculer cette probabilité on peut utiliser l’approximation normale simple pour la loi
chi-deux, d’après laquelle pour chaque x ∈ R1
( 2 )
χf − f
P √ < x → Φ(x), quand f → ∞,
2f

et donc ½ ¾
40 χ2200 − 200 40
P{160 < χ2200< 240} = P − < < =
20 20 20
½ ¾
χ2200 − 200
P −2 < < 2 ≈ 2Φ(2) − 1 = 2 · 0.9772 − 1 = 0.9544,
20
c’est-à-dire
P{0.8σ2 ≤ S201
2
≤ 1.2σ2 } ≈ 0.9544.
2 ≤ 1.2σ2 } peut être obtenue à partir de l’ap-
Meilleure approximation pour P{0.8σ2 ≤ S201
proximation normale de Fisher, d’après laquelle pour chaque x ∈ R1
q p
P{ 2χ2f − 2 f − 1 < x} → Φ(x), quand f → ∞.

En utilisant cette approximation, nous avons


√ √
P{0.8σ2 ≤ S201
2
≤ 1.2σ2 } = P{4 10 < χ200 < 4 15} =

108
√ q √ √
P{8 5 − 20 < 2χ2200 − 400 < 4 30 − 20}
q √
= P{−2.112 < 2χ2200 − 400 < 1.908}
≈ Φ(1.908) + Φ(−2.112) = 0.9718 + 0.9827 − 1 = 0.9545.
Il faut remarquer ici que la valeur exacte (avec 5 chiffres décimaux) est

P{0.8σ2 ≤ S201
2
≤ 1.2σ2 } = P{160 < χ2200 < 240}

= 0.98292 − 0.02796 = 0.95496 ≈ 0.9550.


Exemple 3. Soit X = (X1 , ..., Xn )T un échantillon de taille n = 16, Xi ∼ N(µ, σ2 ). Calculons
la probabilié
3
P{|X̄n − µ| < √ Sn },
n

1 n 1 n
X̄n = ∑ Xi
n i=1
et Sn2 = ∑ (Xi − X̄n)2
n − 1 i=1
sont les meilleurs estimateurs sans biais pour µ et σ2 .
D’après le Théorème de Fisher la variable aléatoire

√ X̄n − µ
tn−1 = n
Sn
suit la loi de Student avec f = n − 1 = 15 degrées de liberté et donc nous avons
Z 3
3
P{|X̄n − µ| < √ Sn } = P{|t15 | < 3} = s15 (x)dx
n −3
Z 3
=2 s15 (x)dx = 2S15 (3) − 1 = 0.991,
0
où s15 (x) est la densité de la loi de Student à 15 degrée de liberté et S15 (x) sa fonction de
répartition. On peut remarquer que si l’on utilise l’approximation normale pour l’estimation
de la même probabilité, on aura
3
P{|X̄n − µ| < √ Sn } ≈ 0.9973 > 0.991
n

pour chaque n.
Exemple 4. Soit X = (X1 , ..., Xn )T un échantillon, dont Xi ∼ N(µ, σ2 ). On va chercher,
en utilisant l’approximation normale, la plus petite valeur de n = n(ε) pour lequel
½ 2 ¾
|Sn − σ2 |
P < ε ≥ 0.9,
σ2

quand ε = 0.5 et ε = 0.05. Du Théorème de Fisher il suit que


½ 2 ¾ ½ ¾
|Sn − σ2 | Sn2
P < ε = P (n − 1)(1 − ε) < (n − 1) 2 < (n − 1)(1 + ε) =
σ2 σ

109
© ª
P (n − 1)(1 − ε) < χ2n−1 < (n − 1)(1 + ε) .
Du Théorème limite central il suit que χ2f est asymptotiquement normale pour les grandes
valeurs de f et donc en utilisant l’approximation normale on obtient
½ 2 ¾
|Sn − σ2 | © ª
P < ε = P (n − 1)(1 − ε) < χ2
< (n − 1)(1 + ε) =
σ2 n−1

( r r )
n−1 χ2 − (n − 1) n−1
P −ε < n−1
p <ε ≈
2 2(n − 1) 2
à r ! à r ! à r !
n−1 n−1 n−1
Φ ε − Φ −ε = 2Φ ε − 1,
2 2 2
d’où il suit que à r !
n−1
2Φ ε − 1 ≥ 0.9,
2
si à r !
n−1
Φ ε ≥ 0.95,
2
et comme Φ est croissante, la dernière inégalité est équivalante à la suivante :
r
n−1
ε ≥ Φ−1 (0.95) = 1.645,
2
d’où on tire que la plus petite valeur de n = n(ε) vérifie la relation suivante :
r
n−1
ε ≈ 1.6,
2
i.e.
n ≈ 1 + 5.2/ε2 .
Par exemple, si ε = 0.5, alors n ≈ 21, et par calculs directs on obtient que

P{10 < χ220 < 30} = 0.8973 < 0.9,

mais pour n = 22 on a

P{10.5 < χ221 < 31.5} = 0.901 > 0.9,

et donc pour ε = 0.5 la plus petite valeur de n = n(0.5) = 22. Dans le cas ε = 0.05 nous
pouvons résoudre le problème asymptotiquement et nous aurons
2.6 2.6
n ≈ 1+2 = 1+2 = 2080.
ε 2 0.0025
Exemple 5. Soit X = (X1 , ..., Xn )T un échantillon, Xi ∼ N(µ, σ2 ), où µ et σ2 sont incon-
nus. Notre but est de construire un intervalle de prédiction pour une nouvelle observation
Xn+1 , Xn+1 ∼ N(µ, σ2 ), qui est indépendante de X.

110
Comme X est un échantillon normale N(µ, σ2 ), nous pouvons travailler avec la statis-
tique exhaustive minimale
U = (X̄n , Sn2 )T ,

1 n 1 n
X̄n = ∑ Xi et Sn2 = ∑ (Xi − X̄n )2
n i=1 n − 1 i=1

sont les meilleurs estimateurs sans biais pour µ et σ2 ,

σ2 n−1 2
X̄n ∼ N(µ, ), S = χ2n−1 ,
n σ2 n

X̄n et Sn2 sont indépendantes. Puisque Xn+1 et X sont indépendants, alors Xn+1 est indépen-
dante de X̄n et Sn2 , et donc
µ ¶
n+1 2
Xn+1 − X̄n ∼ N 0, σ ,
n

i.e. la variable aléatoire


Xn+1 − X̄n
Z= q
σ 1 + 1n

suit la loi normale standard, Z ∼ N(0, 1). Il est évident que Z est indépendante de Sn2 et donc
la statistique
Z Xn+1 − X̄n
τ= p = q
Sn /σ
2 2
Sn 1 + n1
suit la loi de Student avec n − 1 degrés de liberté. c’est-à-dire

P{τ ≤ t} = Sn−1 (t).

Par conséquent
 
 ³ α ´ X − X̄ ³ α ´
n+1 n
P −t¯n−1 ≤ q ≤ t¯n−1 = 1−α
 2 1
Sn 1 + n 2 

d’où il suit que


( r r )
1 ³α´ 1 ³α´
P X̄n − Sn 1 + t¯n−1 ≤ Xn+1 ≤ X̄n + Sn 1 + t¯n−1 = 1 − α.
n 2 n 2

L’intervalle
r ³α´ r ³α´
1 1
X̄n − Sn 1 + t¯n−1 ≤ Xn+1 ≤ X̄n + Sn 1 + t¯n−1
n 2 n 2
est connu sous le nom du plus court intervalle de prédiction de niveau de confiance 1 − α
pour une seule nouvelle observation Xn+1 , Xn+1 ∼ N(µ, σ2 ).

111
Par exemple, supposons que n = 5, et

X1 = −0.79, X2 = −0.89, X3 = 0.32, X4 = 0.50, X5 = −0.20.

Dans ce cas X̄5 = −0.212, S52 = 0.3960,


r r
1 1 √
Sn 1 + = S5 1+ = 0.47517 = 0.689,
n 5

et puisque t¯4 (0.025) = 2.776, l’intervalle de prédiction pour X6 est

−2.125 ≤ X6 ≤ 1.701.

Exemple 6. Soit X = (X1 , ..., Xn )T un échantillon, Xi ∼ N(µ, 1), où µ est inconnu, et il


nous faut construire l’intervalle de prédiction pour une nouvelle observation Xn+1 , Xn+1 ∼
N(µ, 1), qui est indépendante de X. Il est claire que dans ce cas la variable aléatoire

Xn+1 − X̄n
Z= q
1 + 1n

suir la loi normale standard et donc


¯ ¯ 
¯¯ X − X̄ ¯¯ 
P ¯¯ q
n+1 n¯
¯ < x̄(α/2) = 1 − α,
¯ 1+ 1 ¯ 
n

où x̄(α/2) est α/2−quantille supérieur de la loi normale standard. Par exemple, si α = 0.05,
alors pour les données de l’exemple 4 nous avons

x̄(α/2) = x̄(0.025) = 1.96

et par conséquent l’intervalle de prédiction pour X6 est



|X6 + 0.212| < 1.96 1.2 = 1.96 · 1.095 = 2.15,

ou
−2.36 < X6 < 1.94.

2.14 Intervalle de confiance pour la différence des moyennes


de deux lois normales

Soient X = (X1 , ..., Xm )T et Y = (Y1 , ...,Yn )T deux échantillons,

Xi ∼ N(µX , σ2X ), Y j ∼ N(µY , σY2 ).

112
Supposons que X et Y sont indépendants. Notre but est d’estimer µX − µY . D’abord on
étudie le cas quand σY2 et σ2X sont connues. Dans notre problème la statistique T = (X̄m , Ȳn )T
est exhaustive pour µ = (µX , µY )T , où
1 m 1 n
X̄m = ∑ Xi,
m i=1
Ȳn =
n ∑ Yj (1)
j=1

sont les meilleurs estimateurs sans biais pour µX , et µY , et comme on le sais déjà bien
µ ¶ µ ¶
σ2X σY2
X̄m ∼ N µX , et Ȳn ∼ N µY , . (2)
m m
Par conséqent, la statistique X̄m − Ȳn est le meilleur estimateur sans biais pour µX − µY et
µ ¶
σ2X σY2
X̄m − Ȳn ∼ µX − µY , + . (3)
m m
Il suit de (3) que la variable aléatoire
X̄m − Ȳn − (µX − µY )
Z= q (4)
σ2X σY2
m + n

suit la loi normale standard, Z ∼ N(0, 1), et donc


 
 X̄m − Ȳn − (µX − µY ) 
P −x̄(α/2) ≤ q ≤ x̄(α/2) = 1 − α, (5)
 σ2X σY2 
m + m

ou, ce qui est équivalent,


 s s 
 σX σY
2 2 σX σY 
2 2
P X̄m − Ȳn − x̄(α/2) + ≤ µX − µY ≤ X̄m − Ȳn + x̄(α/2) + = 1 − α.
 m n m n 
(6)
Cette formule donne le plus court intervalle de confiance de niveau (1 − α) pour la diffé-
rence µX − µY quand les variancea σ2X et σY2 sont connues.

§15. Intervalle de confiance pour la différence des moyennes


de deux lois normales quand les variances sont inconnues.

Soient X = (X1 , ..., Xm )T et Y = (Y1 , ...,Yn )T deux échantillons normales indépendants,

Xi ∼ N(µX , σ2X ), Y j ∼ N(µY , σY2 ), (1)

et on s’intéresse à l’estimation de µX − µY , quand µX et µY sont inconnues et

σY2 = σ2X = σ2 ,

où σ2 est aussi inconnue. Il est évident que


¡ ¢T
T = X̄m , Ȳn , SX2 , SY2 (2)

113
est une statistique exhaustive pour θ = (µX , µY , σ2 )T , où

1 m σ2 1 n
σ2
X̄m = ∑ i
m i=1
X ∼ N(µ X ,
m
), Ȳn =
n ∑ Y j ∼ N(µY , n
), (3)
j=1

(m − 1)SX2 (n − 1)SY2
= χ 2
et = χ2n−1 (4)
σ 2 m−1
σ 2

sont des variables aléatoires indépendantes. La statistique T n’est pas une statistique mini-
male exhaustive pour θ = (µX , µY , σ2 )T . Dans ce problème la statistique minimale exhaus-
tive est
U = (X̄m , Ȳn , S2 )T , (5)
où S2 est l’estimateur de σ2 appellé l’estimateur unifié sans biais :
m−1 2 n−1 2
S2 = SX + S . (6)
n+m−2 n+m−2 Y
De (4) et (6) il suit que
n+m−2 2
S = χ2m+n−2 , (7)
σ2

et donc
2σ4
ES2 = σ2 et Var S2 = . (8)
m+n−2
Il est clair que des composantes X̄m , Ȳn , S2 de la statistique minimale exhaustive U sont des
variables aléatoires indépendantes. L’estimateur unifié S2 est une moyenne pondérée de SX2
et SY2 . On peut voir que le poids plus grand sera donné à celui des estimateurs de σ2 qui
correspond au échantillon de taille max (m, n). Si n = m alors S2 est une moyenne ordinaire
de SX2 et SY2 . Il faut remarquer que de (6), (7) et (8) il suit que
(
4 2σ4
2 2σ Var SX2 = m−1 ,
Var S = < 4 (9)
n+m−2 2σ
Var SY2 = n−1 ,

et on voit que l’estimateur unifié S2 est meilleur que SX2 ou SY2 .


Puisque X̄m et Ȳn sont les meilleurs estimateur sans biais pour µX et µY respectivement,
on en déduit immédiatement que X̄m − Ȳn est le meilleur estimateur sans biais pour µX − µY ,
et de (3) il suit que µ ¶
σ2 σ2
X̄m − Ȳn ∼ N µX − µY , + . (10)
m n
Par conséquent, la variable eléatoire

X̄m − Ȳn − (µX − µY )


Z= q (11)
σ m1 + 1n

suit la loi normale standard. Comme la statistique S, donnée par (6) est indépendante de
X̄m − Ȳn , et grace à la relation (7), du Théorème de Fisher il résulte que la variable aléatoire

X̄m − Ȳn − (µX − µY )


q = tn+m−2 (12)
S m1 + 1n

114
suit la loi de Student avec m + n − 2 degrés de liberté, et donc
( )
³α´ r 1 1
P |(µX − µY ) − (X̄m − Ȳn )| ≤ t¯m+n−2 S + = 1 − α, (13)
2 m n

c’est-à-dire
³α´ r 1 1
X̄m − Ȳn − t¯m+n−2 S + ≤ µX − µY ≤
2 m n
³α´ r 1 1
X̄m − Ȳn + t¯m+n−2 S + (14)
2 m n
est le plus court intervalle de confiance de niveau (1 − α) pour la différence µX − µY de deux
moyennes des lois normales possédant la même variance inconnue.
Remarque 1. Supposons que σ2X et σY2 sont inconnues, mais leur quotient σ2X /σY2 est
donné, par exemple,
σ2X /σY2 = k, k > 0, (15)
et il faut construire le plus court intervalle de confiance de niveau 1 − α pour la différence
µX − µY , où µX et µY sont aussi inconnues. Le cas k = 1 vient d’être considéré. So l’on note
σY2 = σ2 , alors σ2X = kσ2 et au lieu de (3) et (4) nous aurons
µ ¶ µ ¶
kσ2 σ2
X̄m ∼ M µX , et Ȳn ∼ N µY , , (16)
m n
(m − 1)SX2 (n − 1)SY2
= χ2m−1 et = χ2n−1 , (17)
kσ2 σ2
et au lieu de (10) on a µ ¶
kσ2 σ2
X̄m − Ȳn ∼ N µX − µY , + , (18)
m n
d’où il vient que la variable aléatoire
X̄m − Ȳn − (µX − µY )
Z= q (19)
σ mk + 1n

suit la loi normale standard. D’autre côté, puisque


(m − 1)SX2 (n − 1)SY2
+ = χ2m−1 + χ2n−1 = χ2m+n−2 , (20)
kσ2 σ2
de (17) il suit que l’estimateur unifié sans biais pour σ2 est
½ ¾
2 1 m−1 2 2
S = SX + (n − 1)SY . (21)
m+n−2 k
Comme
m+n−2 2
S = χ2m+n−2 , (22)
σ2
et S2 est indépendante de Z, donnée par (19), du Théorème de Fisher on déduit que la
variable aléatoire
X̄m − Ȳn − (µX − µY )
q = tm+n−2 (23)
S mk + 1n

115
suit la loi de Student avec m + n − 2 degrés de liberté, et donc
( )
³α´ r k 1
P |(µX − µY ) − (X̄m − Ȳn )| ≤ t¯m+n−2 S + = 1 − α, (24)
2 m n

c’est-à-dire
³α´ r k 1
X̄m − Ȳn − t¯m+n−2 S + ≤ µX − µY ≤
2 m n
³α´ r k 1
X̄m − Ȳn + t¯m+n−2 S + (25)
2 m n
est le plus court intervalle de confiance de niveau (1 − α) pour la différence µX − µY de
deux moyennes des lois normales possédant le qoutient donné k = σ2X /σY2 des variances
inconnues σ2X et σY2 .
Exemple 1. Pour mesurer un angle A il étaient effectuées deux expériments indépen-
dants. Dans le premier étaient reçues deux valeurs

210 .76 et 200 .98, (26)

et dans le second il’en avait 6

210 .64, 210 .54, 220 .32, 200 .56, 210 .43, 210 .07. (27)

Nous supposons que toutes les erreurs de mesures sont des réalisatios des variables aléa-
toires normales indépendantes, et dans le deuxième expériment on utilise un instrument
de mesure dont la précision est 4 fois meilleur que celui du premier expériment. Il faut
construire le plus court intervalle de confiance de niveau (1 − α) pour la différence bX − bY
des erreurs systématiques bX et bY des instruments utilisés dans le premier et second expé-
riments (α = 0.01).
Solution. Suivant la théorie des erreurs de Gauss nous pouvons supposer que les données
(26) représentent la réalisation d’un échantillon normale

X = (X1 , X2 )T , Xi ∼ N(µX , σ2X ), (28)

et les données (27) représentent la réalisation d’un échantillon normale

Y = (Y1 , ...,Y6 )T , Y j ∼ N(µX , σ2 ), (29)

où σ2X = 4σ2 , car k = 4. Dans ce cas la statistique exhaustive est

(X̄m , SX2 , Ȳn , SY2 )T ,

avec
X̄m = X̄2 = 21.37, Ȳn = Ȳ6 = 21.42, SX2 = 0.3042, SY2 = 0.3445. (30)
De (21) il suit que l’estimateur unifié pour σ2 est
½ ¾ ½ ¾
2 1 m−1 2 2 1 1 2 2
S = Sx + (n − 1)SY = S + 5SY . (31)
m+n−2 k 6 4 X
Puisque r r
k 1 13
+ = et t¯6 (0.05) = 1.943, (32)
m n 6

116
et comme
µX − µY = bX − bY ,
de (25) on a
( r )
1 1
P |(bX − bY ) − (X̄m − Ȳn )| ≤ t¯6 (0.05)S + = 1 − α, (33)
m n

et donc de (30)-(32) nous obtenons que la différence systématique bX − bY appartient à


l’intervalle
|(bX − bY ) − (−0.05)| ≤ 1.57,
c’est-à-dire
−10 .62 ≤ bX − bY ≤ 10 .52.

2.15 Intervalle de confiance pour le quotient des variances


de deux lois normales.

Soient X = (X1 , ..., Xm )T et Y = (Y1 , ...,Yn )T deux échantillons indépendantes,

Xi ∼ N(µX , σ2X ) et Y j ∼ N(µY , σY )T .

D’après le théorèm de Fisher nous avons

(m − 1)SX2 (n − 1)SY2
= χ2m−1 et = χ2n−1 (1)
σ2X σY2


1 m 1 n
SX2 = ∑ (Xi − X̄m)2
m − 1 i=1
et SY2 = ∑ (Y j − Ȳn)2
n − 1 i=1
(2)

sont les meilleurs estimateurs sans biais pour σ2X et σY2 , et

1 m 1 n
X̄m = ∑ Xi et Ȳn = ∑ Yi (3)
m i=1 n i=1

sont des meilleurs estimateurs sans biais pour µX et µY . Puisque les échantillons X et Y sont
indépendantes , les statistiques SX2 et SY2 sont indépendantes aussi, et donc nous obtenons
Théorème 1. La variable aléatoire

SX2 /σ2X
F= = Fm−1,n−1 (4)
SY2 /σY2

suit la loi F avec m − 1 et n − 1 degrés de liberté.

117
Nous allons utiliser ce théorème pour construire l’intervalle de confiance pour le quo-
tient σY2 /σ2X . En utilisant (4) et la table de F-répartition on peut trouver deux quantilles
1
F m−1,n−1 (α/2) = et F̄m−1,n−1 (α/2)
F̄n−1,m−1 (α/2)
tels que
P{F m−1,n−1 (α/2) ≤ Fm−1,n−1 ≤ F̄m−1,n−1 (α/2)} = 1 − α. (5)
Dans ce cas de (4)et (5) nous avons
½ ¾
σY2 SX2
P F m−1,n−1 (α/2) ≤ 2 2 ≤ F̄m−1,n−1 (α/2) = 1 − α (6)
σX SY
ou ½ ¾
SY2 σY2 SY2
P F m−1,n−1 (α/2) 2 ≤ 2 ≤ 2 F̄m−1,n−1 (α/2) = 1 − α. (7)
SX σX SX
Puisque
1
F̄m−1,n−1 (α/2) = , (8)
F n−1,m−1 (α/2)
nous obtenons l’intervalle de confiance de niveau (1 − α) pour le quotient σY2 /σ2X :
½ ¾
1 SY2 σY2 SY2
P ≤ 2 ≤ 2 F̄m−1,n−1 (α/2) = 1 − α. (9)
F̄n−1,m−1 (α/2) SX2 σX SX
De (9) il suit immédiatement que l’intervalle de confiance de niveau (1−α) pour le quotient
σ2X /σY2 est
½ ¾
1 SX2 σ2X SX2
P ≤ 2 ≤ 2 F̄n−1,m−1 (α/2) = 1 − α. (10)
F̄m−1,n−1 (α/2) SY2 σY SY
Par conséquent, (9) et (10) nous donnent deux intervalles de confiance de niveau (1 − α)
pour σY2 /σ2X et σ2X /σY2 respectivement.
Exemple 1. Soient X = (X1 , ..., Xm )T et Y = (Y1 , ...,Yn )T deux échantillons indépen-
dantes,
Xi ∼ N(µX , σ2X ) et Y j ∼ N(µY , σY )T .
Nous supposons que un experiment pour m = 25 et n = 14 on a obtenu
SX2 = 74 · 10−6 et SY2 = 20 · 10−6 .
En utilisant (10) nous construisons l’intervallle de confiance de niveau (1 − α) pour le
quotient des variances σ2X /σY2 . Prenons α = 0.1. Puisque SX2 /SY2 = 3.70,
³α´
F̄n−1,m−1 = F̄13,24 (0.05) = 2.13
2
et ³α´ 1
1/F̄m−1,n−1 = ¡ ¢ = 1/2.35 = 0.426,
2 F̄24,13 α2
on a que
σ2
1.58 < X2 < 7.88,
σY
avec le coefficient de confiance 0.9.

118
2.16 La loi de Thompson.

Soit X = (X1 , . . . , Xn )T un échantillon normal, Xi ∼ N(µ, σ2 ). Notons


r
X j − X̄n n
ηj = = Z j , j = 1, 2, . . . , n, (2.1)
sn n−1
où Z j est donné par (8.57),

1 n 1 n
X̄n = ∑ Xi,
n i=1
s2n = ∑ (Xi − X̄n)2.
n i=1

Dans ce cas pour tout j la statistique η j suit la loi de Thompson à n − 2 degrées de liberté,
¡ n−1 ¢ Zx µ ¶ n−4
© ª Γ t2 2
P η j ≤ x = Tn−2 (x) = p 2
¡ n−2 ¢ 1− dt, (2.2)
π(n − 1)Γ 2 √ n−1
− n−1

pour |x| < n − 1.
Soit τm une variable aléatoire qui suit la loi de Thompson à m degrés de liberté,

P{τm ≤ x} = Tm (x).

On sait que la statistique r


m
tm = τm (2.3)
m + 1 − τ2m
suit la distribution de Student à m degrés de liberté,

P{tm ≤ x} = Sm (x).

On voit de (3) que s


m+1
τm = tm (2.4)
m + tm2
et par conséquent il en résulte que les quantiles τ(α, m) de la loi de Thompson à m degrés
de liberté (de niveau α) s’expriment en fonction des quantiles correspondants t(α, m) de la
loi de Student à m degrées de liberté par la formule
s
m+1
τ(α, m) = t(α, m) . (2.5)
m + t 2 (α, m)

On sait que si n → ∞, alors


Sm (x) → Φ(x) (2.6)
et par conséquent de (3) à (5) on déduit une approximation normale pour le loi de Thomp-
son, en utilisant la liaison qui existe entre les variables aléatoires τm et β = β m2 , m2 :

τm + m + 1
β= √ , (2.7)
2 m+1

119
ce qui est équivalent à
½ √ ¾ ³m m´
x+ m+1
P{τm ≤ x} = P β 2 , 2 ≤
m m √ = I x+√ m+1

, , (2.8)
2 m+1 2 m+1 2 2

oùβα,β est une variable aléatoire qui suit la loi béta de paramètres α et β.
Remarque 1. (Coefficient de correlation d’un échantillon normale dans R2 ).
Soit µ ¶ µ ¶ µ ¶
X1 X2 Xn
, ,...,
Y1 Y2 Yn
un échantillon d’une loi normale de dimension 2, i.e. pour tout (x, y) ∈ R2

x−µx y−µy
Zσx Zσy ½ ¾
1 1 2 2
P{Xi ≤ x,Yi ≤ y} = p exp − (u − 2ρuv + v ) du dv,
2π 1 − ρ2 2(1 − ρ2 )
−∞ −∞


µx = EXi , µy = EYi , σ2x = Var Xi , σ2y = VarYi ,
1
ρ= E(Xi − µx )(Yi − µy ).
σx σy
On peut montrer que les statistiques

1 n 1 n 1 n
X̄n = ∑ Xi , Ȳn = ∑ Yi , s2x = ∑ (Xi − X̄n )2 ,
n i=1 n i=1 n i=1

1 n sxy
s2y = ∑ (Yi − Ȳn)2,
n i=1
ρ̂n =
sx sy

sont les estimateurs de maximum de vraisemblance pour les paramètres µx , µy , σ2x , σ2y et ρ
respectivement, où
1 n
sxy = ∑ (Xi − X̄n )(Yi − Ȳn ).
n i=1
On peut montrer sous l’hypothèse H0 : ρ = 0 la densité pn (r), n ≥ 3, de la statistique ρ̂n est
donnée par la formule :
¡ ¢
1 Γ n−1 n−4
pn (r) = √ ¡ n−22 ¢(1
− r2 ) 2 , |r| < 1, (2.9)
πΓ 2

d’où on tire que si l’hypothése H0 est juste , alors


s
n−2
ρ̂2n = β 1 , n−2 et tn−2 = ρ̂n . (2.10)
2 2 1 − ρ̂2n

120
2.17 Méthode du maximum de vraisemblance.

Supposons que’on a un échantillon

X ∼ Pθ , θ = (θ1 , . . . , θm )T ∈ Θ ⊂ Rm

et que Pθ est absolument continue par rapport à une mesure σ-finie µ. Notons par f (x; θ) la
densité de X.
Soit
L(θ) = L(X, θ) = f (X; θ), θ ∈ Θ ⊂ Rm ,
la fonction de vraisemblance de X.
On appelle L(X, θ) ainsi car, sachant une réalisation x du vecteur aléatoire X, la va-
leur L(x, θ) = f (x, θ) de L(X, θ) nous permet de trouver les plus vraisemblables valeurs du
paramètre θ.
En effet, soit V (x) un voisinage infiniment petit de x. Alors

Pθ (X ∈ V (x)) ≈ f (x, θ) µ(V (x)) (1)

(dans le cas discret on a une égalité). Les valeurs de θ plus vraisemblables sont telles qui
maximisent la probabilité que X prend la valeur observée x (ou prend la valeur dans un
infiniment petit voisinage de x, si telles probabilités sont égales à zero), donc d’ après (1)
maximisent la realisation L(x, θ) = f (x, θ) de la fonction de vraisemblance L(X, θ) par
rapport à θ.
Définition 1. Une statistique θ̂n = θ̂n (X) est appellée estimateur de maximum de vrai-
semblance (EMV) du paramètre θ, si µ-p.s.

L(X, θ̂n ) = sup L(X, θ). (2)


θ∈Θ
Θ

Si g : Θ → Rk est une fonction mésurable, k ≤ m, alors ĝn = g(θ̂n ) est appellé estimateur
de maximum de vraisemblance de g = g(θ).
Rémarque 1. Si T = T (X) est une statistique exhaustive, alors le critère de factorisation
L(X, θ) = g(T (X), θ)h(X) implique que l’EMV est une fonction de T .
Générallement on cherche l’EMV en maximisant la fonction ln L(X, θ) par rapport à θ,
car cette fonction atteint le maximum dans le même point que L et dans la plupart des cas
concrets est plus simple.
Si la fonction ln L(X, θ) est dérivable par rapport à θ, alors l’EMV vérifie le système
d’équations de vraisemblance
U(θ) = 0,
où µ ¶T µ ¶T
∂ ln L(X, θ) ∂ ln L(X, θ) ∂ ln L(X, θ)
U(θ) = = ,..., (3)
∂θ ∂θ1 ∂θm
est la fonction score.
La forme de la fonction de vraisemblance dépend de la structure de l’échantillon.

121
Exemple 1. Si X = (X1 , . . . , Xn )T est un échantillon simple, Xi ∼ p(x, θ), θ ∈ Θ ⊂ Rm ,
alors
n n
L(X, θ) = ∏ p(Xi , θ), ln L(X, θ) = ∑ ln p(Xi , θ),
i=1 i=1

and à !T
n
∂ ln p(Xi , θ)
U(θ) = ∑ ∂θ . (4)
i=1

Exemple 2. Censure du premier type. On fixe le temps t de l’expérience et on observe


n sujets. Les durées de vie T1 , . . . , Tn de sujets sont des v.a. i.i.d. de la fonction de répartition
F(t, θ), θ ∈ Θ ⊂ Rm et de la densité p(t, θ) par rapport à la mesure de Lebesque . La valeur
ti de la variable aléatoire Ti n’est pas observée, si ti > t. Les moments t(1) ≤ . . . ≤ t(d(t)) de
d(t) décès, (d(t) ≤ n), sont observés pendant l’expérience, si d(t) > 0. Si d(t) = 0, t(i) ne
sont pas observés. Le vecteur
(t(1) , . . . ,t(d(t)) , d(t))T
est une réalisation d’un vecteur aléatoire

(T(1) , . . . , T(D(t)) , D(t))T .

Cherchons la densité de ce vecteur :

fT(1) ,...,T(D(t)) ,D(t) (t1 , . . . ,td , d)

1
= lim P{t1 < T(1) ≤ t1 + h1 , . . . ,td < T(d) ≤ td + hd , D(t) = d}
h1 ,...,hd ↓0 h1 . . . hd

1
= lim P{D(t1 ) = 0, D(t1 + h1 ) − D(t1 ) = 1, . . . , D(td + hd ) − D(td ) = 1,
h1 ,...,hd ↓0 h1 . . . hd

D(t) − D(td ) = 0, D(∞) − D(t) = n − d} =


n!
[1 − F(t, θ]n−d p(t1 , θ) . . . p(td , θ),
(n − d)!
si t1 < t2 < . . .td , d = 1, 2, . . .).
Donc la fonction de vraisemblance est
n!
L(θ) = [1 − F(t, θ]n−D(t) p(T(1) , θ) . . . p(T(D(t)) , θ), (5)
(n − D(t))!

si D(t) = 1, 2, . . ., et
L(θ) = [1 − F(t, θ]n , (6)
si D(t) = 0.
La même fonction de vraisemblance (avec une constante près) peut être obtenu diffé-
rament. Posons
Xi = min(Ti ,t), δi = 1{Ti ≤t} .
Sachant les paires
(X1 , δ1 ), . . . , (Xn , δn ),

122
on peut trouver T(1) , . . . , T(D(t)) : il faut ordonner les Xi , qui corresponent à δi = 1. Les
vecteurs aléatoirs (Xi , δi ) sont i.i.d., donc cherchons la loi de (X1 , δ1 ). On a

FX1 ,δ1 (x, 1; θ) = Pθ (X1 ≤ x, δ1 = 1) = Pθ (T1 ≤ x, T1 ≤ t) =


Z x
FTi (min(x,t)) = p(u, θ)1{u≤t} du,
0
FX1 ,δ1 (x, 0; θ) = Pθ (X1 ≤ x, δ1 = 0) = Pθ (t ≤ x, T1 > t) =
1{t≤x} (1 − F(t, θ)).
Considérons la mesure µ sur R+ × {0, 1} suivante :
Z x
µ([0, x] × {1}) = 1{u≤t} du, µ([0, x] × {0}) = 1{t≤x} .
0

Alors Z x
FX1 ,δ1 (x, k; θ) = pk (u, θ)[1 − F(t, θ)]1−k µ(du, k),
0
et donc la densité de (Xi , δi ) par rapport à µ est

pXi ,δi (xi , ki ; θ) = pki (xi , θ)[1 − F(t, θ)]1−ki .

Donc la fonction de vraisemblance est


n
L(X1 , δ1 , . . . , Xn , δn ; θ) = ∏ pδi (Xi , θ)[1 − F(Xi , θ)]1−δi . (7)
i=1

Notons que cette fonction est ǵale à la fonction donnèe par (5) et (6) à la constante près :
D(t)
L(X1 , δ1 , . . . , Xn , δn ; θ) = ∏ p(T(i), θ)[1 − F(t, θ)]n−D(t), si D(t) > 0
i=1

ou
L(X1 , δ1 , . . . , Xn , δn ; θ) = [1 − F(t, θ)]n ,
si D(t) = 0.
Des censures de plusieurs types sont considérée dans les chapitres suivants.
Exemple 3. (Données groupés) Soit Z n = (Zn1 , . . . , ZnN ) vecteur aléatoire qui suit la loi
multinomiale MN (n, p(θ)), où p(θ) = (p1 (θ), . . . , pN (θ))T , θ ∈ Θ ⊂ Rm .
Par exemple, si la région X des valeurs des v.a. i.i.d. Xi ∼ F(x, θ), θ ∈ Θ ⊂ Rm (i =
1, . . . , n) est divisé en N intervalles I1 , . . . , IN , alors Zn j peut être interpreté comme le nombre
aléatoire des Xi , qui appartiennent à I j :
n
Zn j = ∑ 1{Xi ∈I j } et pi (θ) = Pθ (Xi ∈ I j ).
i=1

Donc
Pθ (Z n = zn ) = P {Zn1 = k1 , . . . , ZnN = kN } =
n!
pk1 (θ)pk22 (θ) . . . pkNN (θ).
k1 ! . . . kN ! 1

123
Supposons que n’observe que les v.a. Zn j . Alors la fonction de vraisemblance est

n!
L(Z n , θ) = pZ1 n1 (θ)pZ2 n2 (θ) . . . pZNnN (θ).
Zn1 ! . . . ZnN !
19. Propriétés asymptotiques des estimateurs de maximum de vraisemblance
On va démontrer que sous conditions générales des estimateurs de maximum de vrai-
semblance sont consistants et asymptotiquement efficaces.
Soit
X = (X 1 , . . . , X n ),
un échantillon, où X 1 , . . . , X n sont des vecteurs aléatoires indépendants,

X i ∼ pi (xi , θ), θ ∈ Θ ⊂ Rm ,

où pi (xi , θ) est la densité du vecteur ri -dimensionnel X i par rapport à une mesure σ-fini µ.
La fonction de vraisemblance a la forme
n
L(X, θ) = ∏ pi (X i , θ).
i=1

On a vu que sous des conditions générales la matrice d’information de Fisher a la forme

∂2
I n (θ) = Eθ Î n (X, θ), où Î n (X, θ) = − ln L(X, θ).
∂θ2
Si X 1 , . . . , X n sont des vecteurs aléatoires i.i.d. de la même dimension r (en cas r = 1 on a
un échantillon simple), alors pi = p, I n (θ) = nI 1 (θ), où

∂2
I 1 (θ) = Eθ Î 1 (X 1 , θ), Î 1 (X 1 , θ) = p(X 1 , θ).
∂θ2

Théorème. Supposons que les vecteurs aléatoires X 1 , . . . , X n sont i.i.d. et


1) Θ est ouvert ;
2) presque pour tout y ∈ Rr la densité p(y, θ) est deux fois continument dérivable par
rapport à θ dans un voisinage Vρ = {θ :|| θ − θ0 ||≤ ρ} de la vraie valeur θ0 du paramètre
θ;
3) on peut dériver deux fois sous le signe de l’integrale :
Z Z
∂ ∂
p(y, θ)dy = p(y, θ0 )dy = 0,
Rr ∂θ ∂θ Rr
Z Z
∂2 ∂ ∂
p(y, θ 0 )dy = p(y, θ0 )dy = 0;
Rr ∂θ
2 ∂θ Rr ∂θ
4) la matrice d’information de Fisher I 1 (θ0 ) est définie positive ;
5) il existent des fonctions non-negatives h et b, telles que pour presque tous y ∈ Rr et
tous θ ∈ Vρ

|| Î1 (y, θ) − Î1 (y, θ0 ) ||≤ h(y) b(θ), Eθ0 {h(X 1 )} < ∞, b(θ0 ) = 0,

la fonction b est continue au point θ0 .

124
Alors il existe une suite des estimateurs {θ̂n } telle que
P
P(U(X, θ̂n ) = 0) → 1, θ̂n → θ0 , (1)

et √ d
n(θ̂n − θ0 ) → Nm (0, I −1
1 (θ0 )). (2)

Démonstration. Soit c > 0 une constante et


1/2
Bnc = {θ : (θ − θ0 )T I n (θ0 )(θ − θ0 ) ≤ c2 } = {θ : || I n (θ0 )(θ − θ0 ) ||≤ c} (3)

un voisinage de θ0 . Notons par ∂Vρ = {θ :|| θ − θ0 ||= ρ} la frontière de Vρ . La condition


4) implique que
inf (θ − θ0 )T I 1 (θ0 )(θ − θ0 ) > 0,
θ:θ∈∂Vρ
donc il existe N = N(ρ) > 0 tel que Bnc ∩ ∂Vρ = 0, / quand n > N et donc Bnc ⊂ Vρ . Il est
evident aussi que Bnc → θ0 , i.e. supθ∈Bn || θ − θ0 ||→ 0 quand n → ∞.
c
On va montrer que
à !
Pθ0 sup ln L(θ) − ln L(θ0 ) < 0 → 1, quand n → ∞. (4)
θ∈∂Bnc

Pour tout θ ∈ ∂Bcn écrivons la formule de Taylor :

1
ln L(θ) − ln L(θ0 ) = U T (θ0 )(θ − θ0 ) − (θ − θ0 )T Î n (θ∗ )(θ − θ0 ), (5)
2
où θ∗ = θ∗ (X) est un point sur la ligne entre θ et θ0 .
On va montrer d’abord que

1 1
Î n (θ∗ ) = I n (θ0 ) + oP (1). (6)
n n
La condition 5) implique que

1
Eθ0 || (Î n (θ∗ ) − Î n (θ0 )) ||≤ Eθ0 || Î 1 (θ∗ ) − Î 1 (θ0 )) ||≤
n
sup b(θ) Eθ0 h(X 1 ) → 0.
θ∈Bnc
Cette convergence implique que

1 1 L 1 1 P
Î n (θ∗ ) − Î n (θ0 ) →1 0 =⇒ Î n (θ∗ ) − Î n (θ0 ) → 0. (7)
n n n n
La loi de grands nombres implique que

1 1 n ∂2
Î n (θ0 ) = − ∑ 2 ln p(X i , θ0 ) → I 1 (θ0 ),
P
(8)
n n i=1 ∂θ

125
car Î n (θ0 ) est la somme de vecteurs aléatoires i.i.d. de l’espérance 0 et de la variance I 1 (θ0 ).
Donc on a
1 1 1
Î n (θ∗ ) = Î n (θ0 ) + oP (1) = I 1 (θ0 ) + oP (1) = I n (θ0 ) + oP (1). (9)
n n n
Cette égalité, l’égalité (5) et la définition de ∂Bnc (voir (3)) impliquent que uniformément
sur ∂Bnc
1
ln L(θ) − ln L(θ0 ) = U T (θ0 )(θ − θ0 ) − (θ − θ0 )T I n (θ0 )(θ − θ0 ) + oP (1)
2
c2
= U T (θ0 )(θ − θ0 ) − + oP (1). (10)
2
Donc à !
Pθ0 sup ln L(θ) − ln L(θ0 ) < 0 ≥
θ∈∂Bnc
à !
c 2
Pθ0 sup U T (θ0 )(θ − θ0 ) + sup | oP (1) |<
θ∈∂Bnc θ∈∂Bnc 2
à !
c 2 c 2
≥ Pθ0 sup U T (θ0 )(θ − θ0 ) < , | oP (1) |< ≥
θ∈∂Bnc 4 4
à ! µ ¶
c 2 c2
1 − Pθ0 sup U (θ0 )(θ − θ0 ) ≥
T
− Pθ0 | oP (1) |≥ . (11)
θ∈∂Bn 4 4
c

Notons que supµ∈Rm ,||µ||=1 aT µ =|| a || pour tout a ∈ Rm , donc


−1/2 1/2
sup U T (θ0 )(θ − θ0 ) = c sup U T (θ0 )I n (θ0 )I n (θ0 )(θ − θ0 )/c
θ∈∂Bnc θ∈∂Bnc
−1/2 −1/2
≤c sup U T (θ0 ) I n (θ0 )µ = c || U T (θ0 ) In (θ0 ) || . (12)
µ∈Rm ,||µ||=1
L’inégalité de Tchebyshev-Bienaimé implique que
³
−1/2
Pθ0 || U T (θ0 ) I n (θ0 ) ||≥

−1/2
c/4) ≤ (4/c)2 Eθ0 (|| U T (θ0 )I n (θ0 ) ||2 )
= (4/c)2 Eθ0 U(θ0 )I −1 2
n (θ0 )U(θ0 ) = (4/c) m. (13)
Pour tout δ > 0 on peut trouver c > 0 tel que (4/c)2 ≤ δ/2. Fixons un tel c. Alors
à !
c 2
Pθ0 sup U T (θ0 )(θ − θ0 ) ≥ < δ/2. (14)
θ∈∂Bn 4
c

On peut trouver N = N(δ) > 0 tel que pour tous n ≥ N


µ ¶
c2
Pθ0 | oP (1) |≥ < δ/2. (15)
4

126
L’inégalités (11)-(15) impliquent la convergence (4).
La fonction ln L(θ) est continument dérivable sur Vρ ⊃ Bnc , donc cette convergence im-
plique qu’il existe une suite d’estimateurs {θ̂n } telle que
¡ ¢
Pθ0 U(θ̂n ) = 0, (θ̂n − θ0 )T I n (θ0 )(θ̂n − θ0 ) ≤ c2 → 1,

donc pour tout ε > 0 la relation


¡ ¢
Pθ0 U(θ̂n ) = 0, || θ̂n − θ0 ||≤ ε → 1

implique la suivante
¡ ¢ P
Pθ0 U(θ̂n ) = 0 → 1, θ̂n → θ0 .
Démontrons la normalité asymptotique des estimateurs θ̂n . En intégrant la gauche et la
droite de l’égalité

U{θ0 + t(θ̂n − θ0 )} =
∂t

U({θ0 + t(θ̂n − θ0 )}(θ̂n − θ0 ) =
∂θ
−Î n {θ0 + t(θ̂n − θ0 )}(θ̂n − θ0 )
par rapport à t, on obtient
Z 1
−U(θ0 ) = U(θ̂n ) −U(θ0 ) = − Î n (θ0 + t(θ̂n − θ0 ))dt (θ̂n − θ0 ). (15)
0

Montrons que le deuxième integrale est asymptotiquement equivalent à I n (θ0 ). La condition


5) implique
Z 1
1
|| Î n (θ0 + t(θ̂n − θ0 ))dt − Î n (θ0 ) ||
n 0
Z 1
1 n ∂2 ∂2
≤ ∑ || 2 ln p(X i , θ0 + t(θ̂n − θ0 )) − 2 ln p(X i , θ0 ) || dt
n i=1 0 ∂θ ∂θ
Z 1
1 n
≤ ∑ h(X i ) b(θ0 + t(θ̂n − θ0 ))dt. (17)
n i=1 0

Le premier facteur à la droite est la moyenne de v.a. i.i.d. de l’espérance fini, donc la loi de
grands nombres implique que
1 n

P
h(X i ) → Eθ0 h(X 1 ). (18)
n i=1

Montrons que le deuxième facteur tend en probabilité vers 0. La continuité de la fonction


b en θ0 et la condition b(θ0 ) = 0 impliquent que pour tout ε > 0 il existe ∆ = ∆(ε) tel que
b(θ) < ε, si || θ − θ0 ||< ∆. Si || θ̂n − θ0 ||< ∆, alors pour tout t ∈ [0, 1]
Z 1
b(θ0 + t(θ̂n − θ0 )) < ε ⇒ b(θ0 + t(θ̂n − θ0 ))dt < ε.
0

Donc µZ 1

Pθ0 b(θ0 + t(θ̂n − θ0 ))dt ≥ ε ≤ Pθ0 (|| θ̂n − θ0 ||≥ ∆) → 0. (19)
0

127
Les convergences (18) et (19) et l’inégalité (16) impliquent
Z 1
1 1 1
Î n (θ0 + t(θ̂n − θ0 ))dt = Î n (θ0 ) + oP (1) = I n (θ0 ) + oP (1). (20)
n 0 n n
L’égalités (16) et (20) impliquent
µ ¶
1 1 √
√ U(θ0 ) = Î n (θ0 ) + o p (1) n(θ̂n − θ0 ) =
n n

(I 1 (θ0 ) + o p (1)) n(θ̂n − θ0 ) (21)
La v.a. U(θ0 ) est une somme de vecteurs aléatoires i.i.d. de l’espérance 0 et de la matrice
de covariance I 1 (θ0 ). Le théorème limite centrale implique que
1 d
√ U(θ0 ) → Nm (0, I 1 (θ0 )). (22)
n
Cette convergence, l’égalité (21) et le théorème de Slutsky impliquent que
√ d
n(θ̂n − θ0 ) → Nm (0, I −1 −1 −1
1 (θ0 )I 1 (θ0 ))I 1 (θ0 )) = Nm (0, I 1 (θ0 )).

Corollaire. Sous les hypothèses du Théorème


d
(θ̂n − θ0 )T Î n (θ̂n )(θ̂n − θ0 ) → χ2m . (23)

Démonstration. Le résultat du théorème implique que


d
(θ̂n − θ0 )T I 1 (θ0 )(θ̂n − θ0 ) → χ2m . (24)

La condition 5) du Théorème implique


1
Eθ0 || Î n (X, θ̂n ) − Î n (X, θ0 ) ||≤
n
Eθ0 || Î1 (X 1 , θ̂n ) − Î1 (X 1 , θ0 ) ||≤ Eθ0 h(X 1 ) b(θ̂n ) → 0,
donc
1
Î n (θ̂n ) = I 1 (θ0 ) + oP (1). (25)
n
(23) et (24) impliquent (22).
Corollaire. Sous les hypothèses du Théorème
d
U T (θ0 )I −1
n (θ0 )U(θ0 ) → χm
2

et
−1 d
U T (θ0 )Î n (θ̂n )U(θ0 ) → χ2m . (26)

Corollaire. Si la fonction g : Θ → G ⊂ Rk a des dérivés partielles du premier ordre


continues, les hypothèses du Théorème sont vérifiées, ĝn = g(θ) est l’EMV de g = g(θ),
alors √ d
n(ĝn − g0 ) → Nk (0, G(θ0 )I −1 T
1 (θ0 ))G (θ0 ),

128
où g0 est la vraie valeur de g et
· ¸
∂gi (θ0 )
G(θ0 ) = .
∂θ j k×m

Ce résultat est impliqué par la méthode delta.


Corollaire. Sous les hypothèses du Corollaire
n o−1
−1 d
(ĝn − g0 )T G(θ̂n )Î n (θ̂n )GT (θ̂n ) (ĝn − g0 ) → χ2k .

Démonstration. Corollaire implique


√ © ª−1 √ d
n(ĝn − g0 )T G(θ0 )I −1 T
n (θ0 )G (θ0 ) n(ĝn − g0 ) → χ2k . (27)

La fonction G est continue, donc

G(θ̂n ) = G(θ0 ) + oP (1). (28)

ce qui implique le résultat.


Le cas important est g = (θl1 , . . . , θlk ), où 1 ≤ l1 ≤ . . . ≤ lk ≤ m. Dans ce cas gi j (θ) = 1,
si j = li , et gi j (θ) = 0, sinon. Donc
−1
Ai1 ...ik = G(θ̂n )Î n (θ̂n )GT (θ̂n )
−1
est la sous-matrice de Î n (θ̂n ) étante sur intersection de i1 , . . . , ik -èmes lignes et i1 , . . . , ik -
èmes colognes. Donc
d
(θ̂l1 − θ0l1 , . . . , θ̂lk − θ0lk )T A−1
i1 ...ik (θ̂l1 − θ0l1 , . . . , θ̂lk − θ0lk ) → χk .
2
(29)

Généralisons le théorème pour le cas, quand les vecteurs X i ne sont pas nécéssairement
identiquement distribués.
Théorème. Supposons que
1) Θ est ouvert ;
2) presque pour tout xi ∈ Rri (ri ≤ r) la densité pi (xi , θ) est deux fois continument
dérivable par rapport à θ dans un voisinage Vρ = {θ :|| θ − θ0 ||≤ ρ} ;
3) on peut dériver deux fois par rapport à θ sous le signe des intégrales :
Z Z
∂ ∂
p(xi , θ)dxi = p(xi , θ0 )dxi = 0,
Rri ∂θ ∂θ Rri
Z Z
∂2 ∂ ∂
p(x i , θ 0 )dx i = p(xi , θ0 )dxi = 0;
Rri ∂θ2 ∂θ Rri ∂θ
4) la matrice limn→∞ 1n I n (θ0 ) = I n (θ0 ) est définie positive.
5) existent des fonctions non-negatives hi et b, telles que pour presque tous xi ∈ Rri et
tous θ ∈ Vρ
∂2 ∂2
|| 2 ln pi (xi , θ) − 2 ln pi (xi , θ0 ) ||≤ hi (xi ) b(θ),
∂θ ∂θ

129
Eθ0 {sup h(X i )} < ∞, b(θ0 ) = 0,
i
la fonction b est continue en θ0 .
6) il existe un nombre positif δ > 0, tel que

1 n
∂2
lim
n→∞ n1+δ
∑ Eθ0 || ∂θ2 ln pi(X i, θ0) ||1+δ= 0.
i=1

Alors il existe une suite des estimateurs {θ̂n } telle que


P
P(U(X, θ̂n ) = 0) → 1, θ̂n → θ0 . (30)

Supposons, de plus, que

7) Eθ0 sup || f rac∂∂θ ln pi (X i , θ0 ) ||2+δ < ∞.


i

Alors √ d
n(θ̂n − θ0 ) → Nm (0, I −1 (θ0 )). (31)

Démonstration. Soit Bnc un voisinage de θ0 défini par (3). De même que dans le théorème
précedant la condition 4) implique que Bnc → θ0 et que Bnc ⊂ Vρ , si n est grand.
Pour tout θ ∈ ∂Bnc écrivons le development (5). La condition 5) implique

1
Eθ0 || (Î n (θ∗ ) − Î n (θ0 )) ||≤
n
∂2 ∂2
Eθ0 || 2 ln pi (X i , θ∗ ) − 2 ln pi (X i , θ0 ) ||≤
∂θ ∂θ
Eθ0 sup hi (X i ) sup b(θ) → 0,
i θ∈Bnc
donc la convergence (7) a lieu.
La condition 6) et la loi de grands nombres impliquent
1
(Î n (X, θ0 ) − I n (θ0 )) =
n
½ 2 µ 2 ¶¾
1 n ∂ ∂
− ∑
P
ln pi (X i , θ0 ) − Eθ0 ln pi (X i , θ0 ) → 0.
n i=1 ∂θ2 ∂θ 2

Cette convergence et la convergence (7) impliquent


1 1
Î n (θ∗ ) = I n (θ0 ) + oP (1).
n n
Le reste de démonstration de la consistence est le même comme dans Théorème.
Démontrons la normalité asymptotique. On écrit l’égalité (16). La condition 5) implique
que
Z 1
1
|| Î n (θ0 + t(θ̂n − θ0 ))dt − Î n (θ0 ) ||≤
n 0

130
Z 1
P
sup hi (X i ) b(θ0 + t(θ̂n − θ0 ))dt → 0.
i 0
Donc µ ¶
1 1 √
√ U(θ0 ) = I n (θ0 ) + o p (1) n(θ̂n − θ0 ).
n n
Notons

Yi = ln pi (X i , θ0 ).
∂θ
Soit a ∈ Rm \0. Alors
n
aT U(θ0 ) = ∑ aT Y i , E(aT Y i ) = 0,
i=1

Varθ0 (aT U(θ0 )) = aT I n (θ0 )a.


Alors
aT U(θ0 ) d
→ N(0, 1),
aT I n (θ0 )a
si la condition de Liapunov
∑ni=1 E | aT Y i |2+δ
→0
(aT I n (θ0 )a)1+δ/2
est vérifiée. Mais l’inégalité

E | aT Y i |2+δ ≤|| a ||2+δ E sup || Y i ||2+δ


i

implique que
∑ni=1 E | aT Y i |2+δ

(aT I n (θ0 )a)1+δ/2
|| a ||2+δ
n−δ 1
E sup || Y i ||2+δ → 0,
(a n I n (θ0 )a)
T 1+δ/2 i

car l’espérance à la droite est finie d’après la condition 7), la matrice I(θ0 ) est définie
positive et donc
1
aT I n (θ0 )a → aT I(θ0 )a > 0,
n
m
d’où on tire que pour tout a ∈ R \0

1 d
√ aT U(θ0 ) → Nm (0, aT I(θ0 )a)
n

et donc
1 d
√ I −1 (θ0 )U(θ0 ) → N(0, I −1 (θ0 )),
n
µ ¶−1
1 1 d
√ I n (θ0 ) U(θ0 ) → N(0, I −1 (θ0 )),
n n
d’où on tire que √
n(θ̂n − θ0 ) =

131
µ ¶−1
1 1 d
√ I n (θ0 ) + oP (1) U(θ0 ) → Nm (0, I −1 (θ0 )).
n n
2.18 Propriétés asymptotiques du rapport de vraisemblance
Théorème. Sous les conditions du théorème on a
L(X, θ0 ) d 2
−2 ln → χ (m).
L(X, θ̂n )
Démonstration. D’apré la formule de Taylor

ln L(X, θ0 ) − ln L(X, θ̂n ) = U T (X, θ̂n )(θ0 − θ̂n )−


1
(θ̂n − θ0 )T Î n (X, θ∗ (X))(θ̂n − θ0 ) =
2
1√ 1 √
− n(θ̂n − θ0 )T Î n (X, θ∗ (X)) n(θ̂n − θ0 )
2 n
où θ∗ (X) est un point sur la ligne entre θ̂n et θ0 et
P
|| θ∗ (X) − θ0 ||≤|| θ̂n − θ0 ||→ 0,
P
donc θ∗ (X) → θ0 .
Comme dans la démonstration du théorème (voir) , on a
1 1 P
Î n (θ∗ ) − Î n (θ0 ) → 0. (1)
n n
Donc
1 1
Î n (θ∗ ) = Î n (θ0 ) + oP (1) = I 1 (θ0 ) + oP (1).
n n
et
−2(ln L(X, θ0 ) − ln L(X, θ̂n )) =
√ √
n(θ̂n − θ0 )T I 1 (θ0 ) n(θ̂n − θ0 ) + oP (1).
La convergence
√ d
n(θ̂n − θ0 ) → Z =∼ Nm (0, I −1
1 (θ0 ))
implique que
d
−2(ln L(X, θ0 ) − ln L(X, θ̂n )) → Z T I 1 (θ0 )Z ∼ χ2 (m).

Soit
φ = (φ1 , φ2 ) : Θ → G = G1 × G2 ⊂ Rk × Rm−k
une bijection continument dérivable. Notons par ψ : G1 × G2 → Θ la fonction inverse.
Soient g10 un point dans G1 et Θ 0 un sous-ensemble de Θ , défini par

Θ 0 = {θ : φ1 (θ) = g10 } = {θ : θ = ψ(g10 , g2 ), g2 ∈ G2 } ⊂ Θ . (2)

Exemple 1. Soit

φ1 (θ) = θ1 = (θ1 , . . . , θk ), φ2 (θ) = θ2 = (θk+1 . . . , θm )

132
des projection de

θ = (θ1 , . . . , θm ), θ1 ∈ Θ 1 , θ2 ∈ Θ 2 , Θ = Θ1 × Θ2.

Alors φ(θ) = θ, ψ(θ) = θ et

Θ 0 = {θ : θ1 = θ10 } = {θ : θ = (θ10 , θ2 ), θ2 ∈ Θ 2 },

où g10 = θ10 est une valeur de θ1 fixée.


Exemple 2. Soit k = 1,

φ1 (θ) = ln θ1 , φ2 (θ) = θ2 = (θ2 , . . . , θm ).

Alors
φ(θ) = (ln θ1 , θ2 ), ψ(g1 , θ2 ) = (eg1 , θ2 )
et
Θ 0 = {θ : ln θ1 = g10 } = {θ : θ = (eg10 , θ2 ), θ2 ∈ Θ 2 }.
Exemple 3. Soit k = 1,

φ1 (θ) = θ1 − θ2 , φ2 (θ) = θ2 .

Alors
φ(θ) = (θ1 − θ2 , θ2 ), ψ(g1 , θ2 ) = (g1 + θ2 , θ2 )
et
Θ 0 = {θ : θ1 − θ2 = g10 } = {θ : θ = (g10 + θ2 , θ2 ), θ2 ∈ Θ 2 }.
Exemple 4. Soit k = 1,

φ1 (θ) = θ1 /θ2 , φ2 (θ) = θ2 .

Alors
φ(θ) = (θ1 /θ2 , θ2 ), ψ(g1 , θ2 ) = (g1 θ2 , θ2 )
et
Θ0 = {θ : θ1 /θ2 = g10 } = {θ : θ = (g10 θ2 , θ2 ), θ2 ∈ Θ2 }.

Théorème Supposons que les conditions du Théorème précédent sont vérifiés et Θ 0 est
l’ensemble défini par (2). Si θ0 ∈ Θ 0 alors

sup L(X, θ)
θ∈ΘΘ0
R(X, g10 ) = −2 ln
sup L(X, θ)
θ∈ΘΘ

sup L(X, θ)
θ:φ1 (θ)=g10 d
= −2 ln → χ2 (k),
L(X, θ̂n )
i.e. pour tout x ∈ R
Pθ0 (R(X, g10 ) ≤ x) → Fχ2 (x).
k

133
Démonstration. On a

sup L(θ) = sup L(θ)


θ∈ΘΘ0 θ:θ=ψ(g10 ,g2 ),g2 ∈G2

= sup L(ψ(g10 , g2 )) = sup L∗ (g2 ),


g2 :g2 ∈G2 g2 :θ2 ∈G2

où L∗ (g2 ) = L(ψ(g10 , g2 )). La v.a. L∗ (X, g2 ) est la fonction de vraisemblance pour le mo-
dèle statistique
X ∼ f ∗ (x, g2 ), g2 ∈ G2 ,
où f ∗ (x, g2 ) = f (x, ψ(g10 , g2 )).
La consistance de θ̂n implique que
√ 1
I 1 (θ0 ) n(θ̂n − θ0 ) = √ U(θ0 ) + oP (1), (3)
n

donc
√ 1
n(θ̂n − θ0 ) = I −1
1 (θ0 ) √n U(θ0 ) + oP (1). (4)

Ce résultat implique que


√ √
2(ln L(X, θ̂n ) − ln L(X, θ0 )) = n(θ̂n − θ0 )T I 1 (θ0 ) n(θ̂n − θ0 ) + oP (1)

1 1
= √ U T (θ0 )I −1
1 (θ0 )I 1 (θ0 )I −1
1 (θ0 ) √ U(θ0 ) + oP (1)
n n
1 1
= √ U T (θ0 )I −1
1 (θ0 ) √ U(θ0 ) + oP (1). (5)
n n
De même, notant
g˜2 n = g˜2 n (g10 , X)
l’EMV de g2 sous notre modèle, on a

2(ln L∗ (X, g̃2n ) − ln L∗ (X, g20 ))

1 1
= √ (U ∗ )T (g20 )(I ∗1 )−1 (g20 ) √ U ∗ (g20 ) + oP (1). (6)
n n
La fonction score est
∗ ∂ ln L∗ (g2 )
U (g2 ) = =
g2
∂ ln L(ψ(g10 , g2 )) ∂ψ(g10 , g2 )
= U(ψ(g10 , g2 )) =
∂g2 ∂g2
A(g0 )U(ψ(g10 , g2 )), (7)

∂ψ(g10 , g2 )
A(g10 , g2 ) = .
∂g2
En particulier,
U ∗ (g20 ) = A(g0 )U(θ0 ), (8)

134
La matrice d’information de Fisher en g20 est

I ∗1 (g20 ) = Eθ0 U ∗ (g20 )(U ∗ )T (g20 ) =

A(g0 )Eθ0 U(θ0 )U T (θ0 )A(g0 )T = A(g0 )I 1 (θ0 )A(g0 )T . (9)


Les égalités (7) et (9) impliquent

2(ln L(X, θ̂n ) − ln L∗ (X, g̃2n )) =


1 1
√ U T (θ0 ){I −1
1 (θ0 ) − AT (g0 )(I ∗1 )−1 (g20 )A(g0 )} √ U(θ0 ). (10)
n n
La convergence
1 d
√ U(θ0 ) → Z ∼ N(0, I 1 (θ0 ))
n
implique que
d
2(ln L(X, θ̂n ) − ln L∗ (X, g̃2n )) → Z T {I −1 T ∗ −1
1 − A (I 1 ) A}Z. (11)

La v.a. limite est une forme quadratique des v.a. normales. On va utiliser le résultat (voir)
qui dit que si
Y ∼ N(0, Σ)etBΣB = B, tr(BΣ) = k,
alors Y T BY ∼ χ2k . Dans notre cas

(I −1 T ∗ −1 −1 T ∗ −1
1 − A (I 1 ) A)I 1 (I 1 − A (I 1 ) A) =

I −1 T ∗ −1 T ∗ −1
1 − A (I 1 ) A − A (I 1 ) A

+AT (I ∗1 )−1 AI 1 AT (I ∗1 )−1 A = I −1 T ∗ −1


1 − A (I 1 ) A, (12)
car AI 1 AT = I ∗1 . Le rang
tr((I −1 T ∗ −1
1 − A (I 1 ) A)I 1 ) =

tr(Em − AT (I ∗1 )−1 AI 1 ) = m − tr((I ∗1 )−1 AI 1 AT ) = m − tr(Em−k ) = k. (13)


D’où le résultat du théorème.
Corollaire. Sous les hypothèses du théorème
−1 d
U T (ψ(g10 , g̃2n ))Î n (ψ(g10 , g̃2n ))U(ψ(g10 , g̃2n )) → χ2k . (14)

Démonstration. Notons que


1 1
√ U(ψ(g10 , g̃2n )) = √ U(ψ(g10 , g20 )) + oP (1) =
n n
1
√ U(θ0 ) + oP (1), (15)
n
−1
nÎ n (ψ(g10 , g̃2n )) = nI −1
n (ψ(g10 , g̃2n )) + oP (1)
= I −1 −1
1 (ψ(g10 , g̃2n )) + oP (1) = I 1 (θ0 ) + oP (1). (16)

135
L’égalité U ∗ (g̃2n ) = 0, les égalités (15) et (16) impliquent
−1
U T (ψ(g10 , g̃2n ))Î n (ψ(g10 , g̃2n ))U(ψ(g10 , g̃2n ))
1 1
= √ U T (ψ(g10 , g̃2n ))I −1 1 (ψ(g10 , g̃2n )) √ U(ψ(g10 , g̃2n ))−
n n
1 1
√ U ∗ T (g̃2n )(I ∗1 )−1 (g̃2n ) √ U ∗ (g̃2n ) + oP (1) =
n n
1
√ U T (ψ(g10 , g̃2n )){I −1 1 (ψ(g10 , g̃2n ))−
n
1
AT (g̃2n )(I ∗1 )−1 (g̃2n )A(g̃2n )} √ U(ψ(g10 , g̃2n )) + oP (1) =
n
1 1 d
√ U T (θ0 ){I −1
1 (θ0 ) − AT (g0 )(I ∗1 )−1 (g20 )A(g0 )} √ U(θ0 ) + oP (1) → χ2k .
n n
Le cas particulier important est, quand

g1 (θ) = θ(1) = (θl1 , . . . , θlk ) et g2 (θ) = θ(2) = (θs1 , . . . , θsm−k )

où (l1 , . . . lk , s1 , . . . sm−k ) est une permutation de (1, . . . , m),

1 ≤ l1 ≤ . . . ≤ lk ≤ m, 1 ≤ s1 ≤ . . . ≤ sm−k ≤ m.

. Dans ce cas · ¸
∂θ
A= = [ai j ](m−k)×m ,
∂θ(2)
où ½
1, si (i, j) = (l, sl ) (l = 1, . . . , m − k),
ai j =
0, sinon.
(1) (2)
Notons que les s1 , . . . , sm−k composantes de U(θ0 , θ̃n ) sont égales à zero, car
(2) (1) (2) (1) (2) (1) (2)
0 = U ∗ (θ̃n ) = AU(θ0 , θ̃n ) = (Us1 (θ0 , θ̃n ), . . . ,Usm−k (θ0 , θ̃n ))T .

Posons
(1) (2) (1) (2) (1) (2)
U l1 ,...,lk (θ0 , θ̃n ) = (Ul1 (θ0 , θ̃n ), . . . ,Ulk (θ0 , θ̃n ))T
(1) (2)
et Ai1 ...ik (θ0 , θ̃n ) la sous-matrice de
−1 (1) (2)
Î n (θ0 , θ̃n )

étante sur intersection de l1 , . . . , lk -èmes lignes et l1 , . . . , lk -èmes colognes. Donc


(1) (2) (1) (2) (1) (2) d
U Tl1 ,...,lk (θ0 , θ̃n )Ai1 ...ik (θ0 , θ̃n )U Tl1 ,...,lk (θ0 , θ̃n ) → χ2k .

21. Exemples et remarques

Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon lognormalle LN(µ, σ2 ),


1 − 1 (ln x−µ)2
Xi ∼ p(x; µ, σ2 ) = √ e 2σ2 1]0,∞[ (x), µ ∈ R1 , σ2 > 0.
xσ 2π

136
Remarqons que ln Xi suit une loi normale N(µ, σ2 ). On peut montrer que
2 /2 2
a1 = EX1 = eµ+σ , a2 = EX12 = e2µ+2σ .

D’après la méthode des moments pour estimer µ et σ2 il faut résoudre le système


( 2
eµ+σ /2 = X̄n = α1 ,
2
e2µ+2σ = n ∑i=1 Xi2 = α2 ,
1 n

ce qui est équivalent à ½


µ + σ2 /2 = ln α1 ,
µ + 2σ2 = ln α2 ,
d’où on trouve les estimateurs σ̃2n et µ̃n :
µ ¶
s2n X̄ 2
σ̃2n = ln α2 − ln α21 = ln +1 , µ̃n = ln p n ,
X̄n2 s2n + X̄n2

1 n
s2n = ∑ (Xi − X̄n)2
n i=1
est la variance de la loi empirique.
Exemple 2. Soit X = (X1 , ..., Xn )T un échantillon,
r
1 2 x2
Xi ∼ p(x; θ) = exp {− 2 }1]0,∞[ (x), x ∈ R1 , θ ∈ Θ =]0, ∞[.
θ π 2θ
On peut montrer que
r
2 π−2
EX1 = θ , EX12 = θ2 , Var X12 = θ2 .
π π
Pour estimer θ par la méthode des moments on considère l’équation
r
2
θ = X̄n ,
π
d’où on obtient l’estimateur r
π
θ̃n = X̄n .
2
Il est claire que Eθ̃n = θ, i.e. θ̃n est un estimateur sans biais pour θ, et comme
µ ¶
θ2 2
Var X̄n = 1− ,
n π
on en tire que
π θ2 ³ π ´
Var θ̃n = Var X̄n = −1 =
2 n 2
θ2 π − 2 π − 2 1
= > ,
n 2 In (θ) In (θ)

137
où µ ¶
2n ∂2 3 2 1 2n
In (θ) = 2 = −nE 2 ln p(X1 ; θ) = nE 4 X1 − 2 = 2
θ ∂θ θ θ θ
est l’information de Fisher sur θ dans X. De la dernière inégalité on voit bien que l’estima-
teur θ̃n n’est pas éfficace.
Remarque 1. Du théorème limite central il suit que la suite des variables aléatoires
√ q
√ n(X̄n − π2 θ)
n(θ̃n − θ)
q = q , n = 1, 2, ...
π−2
θ 2 θ 1 − 2
π

est asymptotiquement normale N(0, 1), quand n → ∞, i.e. pour les grandes valeurs de n
 
 √n(θ̃ − θ) 
P qn ≤ x ≈ Φ(x), x ∈ R1 .
 θ π−2 
π

Du théorème de Slutsky on tire que les variables aléatoires



n(θ̃n − θ)
q
θ̃n π−22

sont asymptotiquement normales N(0, 1) aussi, i.e.


 
 √n(θ̃ − θ) 
P qn ≤ x ≈ Φ(x), x ∈ R1 ,
 θ̃ π−2 
n 2

si les valeurs de n sont assez grandes.


Nous pouvons utiliser ce résultat pour estimer θ par intervalle, puisque
 
 √ 
n(θ̃n − θ)
P −x̄α/2 ≤ q ≤ x̄α/2 ≈ 1 − α,
 θ̃ π−2 
n 2

où x̄α/2 est le quantile supérieur de niveau α/2 pour la loi standard normale, 0 < α < 0.5,
d’où on tire que
( r µ ¶ r )
π−2 θ π−2
P −x̄α/2 ≤ 1− ≤ x̄α/2 ≈ 1−α
2n θ̃n 2n

et donc
( Ã r ! Ã r !)
π−2 π−2
P θ̃n 1 − x̄α/2 ≤ θ ≤ θ̃n 1 + x̄α/2 ≈ 1 − α,
2n 2n

si n est assez grand.


Exemple 3. Soit X = (X1 , ..., Xn )T un échantillon,
1
Xi ∼ f (x; θ) = 1[0,θ] (x), θ ∈ Θ =]0, ∞[,
θ

138
i.e. Xi suit la loi uniforme sur [0, θ]. Dans ce cas la fonction de vraisemblance est
n
1 1
L(θ) = L(X; θ) = ∏ 1[0,θ] (X j ) = n 1[0,θ] (X(n) ),
j=1 θ θ

puisque P{0 ≤ X(1) ≤ X(n) ≤ θ} = 1, d’où on tire que X(n) est une statistique exhaustive
minimale. Il est évident que θ̂n = X(n) .
Donc, pour estimer θ, nous pouvons utiliser la statistique θ̂n = X(n) comme estimateur
ponctuel.
Par ailleurs, comme EXi = θ/2 on en déduit que la statistique

2 n
θ∗n = 2X̄n = ∑ Xi
n i=1

peut être considérée comme un autre estimateur sans biais de θ, puisque

Eθ θ∗n = θ.

On va comparer les deux estimateurs θ̂n et θ∗n . Comme VarXi = θ2 /12, il s’ensuit que
à ! µ ¶
2 n
4 n θ2 1

Varθn = Var ∑
n i=1
Xi = 2 ∑ VarXi =
n i=1 3n
=O
n
→ 0, (n → ∞),

et donc du critère de consistance on tire que {θ∗n } converge en probabilité vers θ, i.e. {θ∗n }
est une suite consistante d’estimateurs sans biais de θ. De plus d’après le théorème central
limite on obtient que pour tout x ∈ R1
( ) (√ )
θ∗n − Eθ∗n 3n(θ∗n − θ)
Pθ p ≤ x = Pθ ≤ x → Φ(x), n → ∞, (1)
Varθ∗n θ

i.e. {θ∗n } est une suite d’estimateurs asymptotiquement normale de paramètres θ et θ/ 3n.
Étudions maintenant la statistique θ̂n = X(n) , qui est l’estimateur de maximum de vrai-
semblance de θ. Tout d’abord, on remarque que

Pθ {0 ≤ X(n) ≤ θ} = 1, θ > 0.

Pour tout t ∈ [0, θ] on a


³ t ´n
Pθ {X(n) ≤ t} = Pθ {X1 ≤ t, ..., Xn ≤ t} = = G(t; θ), (2)
θ
la densité g(t; θ) = G0 (t, θ) de X(n) est donc donnée par :

n ³ t ´n−1
g(t; θ) = G0 (t; θ) = 1[0,θ] (t),
θ θ
d’où on tire que
Zθ ³ ´n−1
n t n
Eθ X(n) = Eθ θ̂n = t dt = θ,
θ θ n+1
0

139
Zθ ³ t ´n−1
n n 2
2
Eθ X(n) = t2 dt = θ ,
θ θ n+2
0
donc
n 2 n2
Varθ X(n) = θ − θ2 =
n+2 (n + 1)2
µ ¶
n 1
θ = O 2 → 0, n → ∞.
2
(n + 2)(n + 1)2 n
On remarque que {θ̂n } est une suite consistante d’estimateurs asymptotiquement sans biais
du paramètre θ, car pour tout n ∈ N∗ le biais bn (θ) de l’estimateur θ̂n est
n θ
bn (θ) = Eθ (θ̂n − θ) = θ−θ = − →0 (n → ∞).
n+1 n+1
Le risque quadratique R(θ̂n , θ) de θ̂n est égal à

2θ2
R(θ̂n , θ) = Varθ̂n + bn (θ)2 = .
(n + 1)(n + 2)
Soit
n+1
θ∗∗
n = θ̂n , n ∈ N.
n
Comme
µ ¶
(n + 1)2 θ2 1
Eθ θ∗∗
n = θ et Varθ θ∗∗
n = Var θ θ̂n = = O ,
n2 n(n + 2) n2

n } est une suite consistante d’estimateurs sans biais du paramètre θ.


on voit que {θ∗∗
Pour trouver la loi limite de X(n) = θ̂n on remarque que pour les grandes valeurs de n,
θ2
VarX(n) ³ n2
et donc pour tout x > 0
½ ¾ n ³
θ − X(n) x ´o
Pθ 0 ≤ ≤ x = Pθ X(n) ≥ θ 1 − =
θ/n n
n ³ x ´o ³ x ´n
1 − Pθ X(n) ≤ θ 1 − = 1− 1− → 1 − e−x , (n → ∞). (3)
n n
Choisissons un coefficient de confiance P = 1 − α, où 0 < α < 0.5, et donc 0.5 < P < 1,
et, en utilisant (1) et (3), trouvons les deux quantiles x̄ α2 et yα tels que :
½ ¾

x̄ α2 θ
Pθ | θn − θ |≤ √ ≈ 1 − 2Φ(−x̄ α2 ) = P = 1 − α,
3n
( )
θ̂n
Pθ θ̂n ≤ θ ≤ ¡ yα ¢ ≈ 1 − e−yα = P = 1 − α.
1− n
On a donc construit 2 intervalles de confiance de niveaux de confiance ≈ P = 1 − α pour la
valeur inconnue θ, basés sur les estimateurs θ∗n et θ̂n :
µ ¶ µ ¶

x̄ α2 −1 ∗
x̄ α2 −1
θn 1 + √ ≤ θ ≤ θn 1 − √
3n 3n

140
et ³ yα ´−1
θ̂n ≤ θ ≤ θ̂n 1 −
n
de longueurs √
ln∗ = l(θ∗n ) ≈ 2θ∗n x̄ α2 / 3n et lˆn = l(θ̂n ) ≈ θ̂n yα /n
respectivement, d’où on tire que

ln∗ √ 2x̄ α2
≈ n√ (n → ∞),
lˆn 3yα

car θ∗n /θ̂n est très proche de 1 avec une grande probabilité. Par exemple, si α = 0.05, soit
P = 0.95, on a x̄ α2 = 1.96, yα = 2.99 et dans ce cas

ln∗ √
≈ 0.76 n.
lˆn
Remarque 2. On voit que

θ2 2θ2
R(θ∗n , θ) = Varθ∗n = , R(θ̂n , θ) = ,
3n (n + 1)(n + 2)

θ2
R(θ∗∗ ∗∗
n , θ) = Varθn = ,
n(n + 2)
d’où on tire que θ∗n et θ̂n sont des estimateurs inadmissibles pour θ par rapport à la fonction
de perte quadratique, puisque

R(θ∗∗ ∗
n , θ) < R(θn , θ), θ ∈ Θ,

et pour tout n ≥ 2
R(θ∗∗
n , θ) < R(θ̂n , θ), θ ∈ Θ.
Exemple 4. Changeons un peu le problème. Supposons que dans les conditions de l’exemple
1 on ait :
1
f (x; θ) = 1]0,θ[ (x), θ > 0,
θ
i.e. Xi suit la loi uniforme sur ]0, θ[. Alors,
n
1 1
L(θ) = ∏ 1]0,θ[ (X j ) = n 1]0,θ[ (X(n) ), θ ∈ Θ =]0, ∞[.
j=1 θ θ
n

Donc, X(n) est une statistique exhaustive, mais L(θ) n’a pas de maximum et donc, il n’existe
pas de l’estimateur du maximum de vraisemblance pour θ.
On sait d’après la définition d’un estimateur, θ∗n : Rn → Θ, qu’il faut qu’il prenne ces
valeurs dans Θ, mais ici X(n) n’appartient pas à Θ (X(n) est toujour plus petit que θ) ; par
conséquent dans cet exemple l’estimateur de maximum de vraisemblance n’existe pas. On
peut choisir θ très proche de X(n) , mais pas égal à X(n) .
Exemple 5. Donnons maintenant un exemple de non unicité de l’estimateur de maximum
de vraisemblance lié avec une loi uniforme.

141
Soit X = (X1 , ..., Xn )T ,

H0 : Xi ∼ f (x; θ) = 1[θ,θ+1] (x), θ ∈ Θ = R1 .

La fonction de vraisemblance est

L(θ) = 1[θ,θ+1] (X(1) )1[θ,θ+1] (X(n) ) = 1[X(n) −1,X(1) ] , θ ∈ Θ = R1 .

et donc T = (X(1) , X(n) )T est une statistique exhaustive minimale. On remarque que T ∈ R2 ,
tandis que θ ∈ Θ = R1 . N’importe quel θ dans l’intervalle [X(n) − 1, X(1) ] ⊂ Θ peut-être
considéré comme estimateur de maximum de vraisemblance ; en particulier

θ̂1 = X(1) ou θ̂2 = X(n) − 1.

On note que ni θ̂1 ni θ̂2 ne sont des statistiques exhaustives, mais ce sont des statistiques
nécessaires.
On remarque que c’est justement en ces deux points

θ̂1 = X(1) et θ̂2 = X(n) − 1,

que L(θ) a des ruptures (des sauts). Pour construire estimateur sans biais pour θ on peut
prendre, par exemple, la statistique

1 X(1) + X(n) − 1
θ∗n = (θ̂1 + θ̂2 ) = , Eθ∗n = θ. (4)
2 2
On peut montrer que
1
Varθ∗n = .
2(n + 1)(n + 2)
Remarque 3. En présence d’une statistique exhaustive T pour θ l’estimateur de maximum
de vraisemblance θ̂n = θ̂n (T ) est donc une statistique nécessaire.
Remarque 4. Soit X = (X1 , X2 , . . . , Xn )T un échantillon, dont la réalisation observée est
x = (x1 , x2 , . . . , xn )T . Notre problème est de construire une loi empirique, en utilisant le
vecteur des données x et le principe du maximum de vraisemblance. Comme les éléments
Xi de l’échantillon X sont indépendants, on peut écrire que
n
\
{X1 = x1 , X2 = x2 , . . . , Xn = xn } = {Xi = xi },
i=1
donc
" #
n
\ n
P{X1 = x1 , X2 = x2 , . . . , Xn = xn } = P {Xi = xi } = ∏ P{Xi = xi }.
i=1 i=1

Pour construire une loi empirique il faut choisir les probabilités

pi = P{Xi = xi } ≥ 0, i = 1, 2, . . . , n,

telles que
p1 + p2 + . . . + pn = 1, pi ≥ 0.

142
Le principe du maximum de vraisemlance nous dit qu’il faut choisir les pi de façon que le
produit
n
∏ pi
i=1
soit maximal. Comme
à !1/n
n
1 n n
∏ pi ≤ ∑
n i=1
pi et ∑ pi ≤ 1,
i=1 i=1

on en déduit que
à !1/n
n
1
∏ pi ≤ ,
n
i=1

et donc
n µ ¶n
1
∏ pi ≤ n ,
i=1
d’où on trouve que notre solution est

1
p1 = p2 = . . . = pn = ,
n
et c’est donc la loi empirique classique qui donne la meilleure solution au sens du principe
de maximum de vraisemblance.

Remarque 5. (Principe d’invariance de l’estimateur de maximum de vraisemblance).


Soit θ̂n l’estimateur de maximum de vraisemblance de θ, θ ∈ Θ ⊂ Rn . Supposons que
nous voulions estimer la valeur g(θ) d’une application g : Θ → G ⊂ R1 . Dans ce cas

ĝ = g(θ̂n ) (5)

est l’estimateur de maximum de vraisemblance pour g(θ) .


Par exemple, si
1 n
s2n = ∑ (Xi − X̄n )2
n i=1

est l’estimateur du maximum de vraisemblance pour la variance σ2 de la loi normale


N(µ, σ2 ), quand µ et σ2 sont inconnus, alors
s
1 n
sn = ∑ (Xi − X̄n)2
n i=1

est l’estimateur de maximum de vraisemblance pour σ.


Pour démontrer (29), notons

Θ g = {θ : θ ∈ Θ , g(θ) = g}, g ∈ G,

143
i.e. Θ g est l’orbite de l’application g(θ), correspondant à une valeur g de g(θ). Il est évident
que {Θ Θg } est une partition de Θ ,
[
Θg = Θ, /
Θ g0 ∩ Θ g = 0.
g∈G

Soit
Lg = sup L(θ), g ∈ G.
θ∈ΘΘg

Il est évident que


L(θ̂n ) = sup L(θ) = sup sup L(θ) = sup Lg .
θ∈Θ
Θ g∈G θ∈Θ
Θg g∈G

Choisissons
ĝ = g(θ̂n ), ĝ ∈ G,
et considérons l’orbite Θ ĝ , θ̂n ∈ Θ ĝ .
Comme pour tout g ∈ G
sup Lg ≥ Lg
g∈G

et, en particulier,
sup Lg ≥ Lĝ = sup L(θ) = L(θ̂n ),
g∈G θ∈ΘΘĝ

on en tire que L(θ̂n ) = Lĝ , et donc (29) est démontrée.


Exemple 5. Soit X = (X1 , . . . , Xn )T un échantillon

Xi ∼ f (xi ; θ) = θxi (1 − θ)1−xi , xi ∈ X = {0, 1}, 0 < θ < 1.

Supposons que nous voulions estimer g(θ) = 1/θ. Kolmogorov a montré que parmi les
fonctions de θ, seuls les polynômes
m
um (θ) = ∑ ak θk , θ ∈ Θ =]0, 1[, 1 ≤ m ≤ n,
k=1

de degré m ≤ n, sont estimables, c’est-à-dire peuvent être estimés à l’aide d’estimateurs


n
sans biais en termes de la statistique exhaustive µn = ∑ Xi . Comme g(θ) = 1/θ n’est pas
i=1
un polynome, il n’existe pas d’estimateur sans biais pour 1/θ. Mais comme l’estimateur de
maximum de vraisemblance θ̂n = µn /n existe pour θ, du principe du maximum de vraisem-
blance on tire que
n
Tn = g(θ̂n ) =
µn
est l’estimateur de maximum de vraisemblance pour 1/θ. On remarque que Eθ Tn n’existe
pas puisque
Pθ {µn = 0} = (1 − θ)n > 0.
Par ailleurs, comme nous estimons g(θ) = 1/θ, la borne inférieure dans l’inégalité de Rao-
Cramer-Fréchet est égale à

[g0 (θ)] θ(1 − θ) 1 − θ


= = ,
In (θ) θ4 n nθ3

144
et donc µ ¶
1 1−θ
Tn ∼ AN , ,
θ nθ3
i.e. pour tout x ∈ R1 s 
 nθ3 µ n 1 ¶ 
Pθ − ≤ x → Φ(x).
 1 − θ µn θ 

Exemple 6. Soit X = (X1 , ..., Xn )T un échantillon normale,

Xi ∼ N(θ, θ), θ ∈ Θ =]0, ∞[.

Considérons le problème d’estimation du paramètre θ dans ce modèle. On remarque que

θ = EXi = Var Xi .

Dans ce cas la fonction de vraisemblance est


n ½ ¾
1 1
L(θ) = L(X, θ) = ∏ exp − 2θ (Xi − θ) =
(2πθ)n/2 i=1
2

( )
1 1 n 2 n nθ
exp − ∑ Xi + ∑ Xi − =
(2πθ)n/2 2θ i=1 i=1 2
( )
1 1 n 2 nθ n

(2πθ)n/2
exp − ∑ i 2
2θ i=1
X − exp { ∑ Xi},
i=1

d’où on tire que la statistique


n
Tn = ∑ Xi2
i=1
est exhaustive et minimale pour θ. Il est intéressant de noter que la statistique
n
∑ Xi = nX̄n
i=1

n’est pas une statistique exhaustive dans notre problème ! Puisque L(θ) > 0 pour tout θ ∈ Θ
et
lim L(θ) = lim L(θ) = 0,
θ↓0 θ→∞

on en tire que l’estimateur du maximum de vraisemblance θ̂n de θ est la racine positive de


l’équation du maximum de vraisemblance Λ(θ) = 0, où

∂ n Tn n
Λ(θ) = ln L(θ) = − + 2 − .
∂θ 2θ 2θ 2

Donc θ̂n est la racine positive de l’équation

1
θ2 + θ − Tn = 0,
n

145
i.e. r
1 1 1
θ̂n = − + + Tn .
2 4 n
P
Il est facile de vérifier que {θ̂n } → θ. En effet, d’après la loi des grands nombres
1 P
Tn → Eθ X12 = Var θ X1 + (Eθ X1 )2 = θ + θ2 ,
n
d’où, en utilisant le théorème de Slutsky, on tire que
r
P 1 1 1 1
θ̂n → − + + θ + θ2 = − + + θ = θ.
2 4 2 2

Remarque 6. Soit X = (X1 , X2 , . . . , Xn )T un échantillon, Xi suit la loi, dont la densité f (x; θ)


appartient à la famille F = { f (x; θ)}, où
( )
n
f (x; θ) = h(x) exp ∑ θk xk +V (θ) , x ∈ X, (2.7)
k=1

θ = (θ1 , θ2 , . . . , θs )T ∈ Θ ⊂ Rs , X est un ensemble borelien en R1 . La famille (6) est tres


riche. Par exemple, la famille des disributions normales N(µ, σ2 ), θ = (µ, σ2 )T , appartient à
F , la famille des distributions de Poisson appartient à F aussi etc. Comme il est connu la
statistique
à !T
n n n
Un = ∑ Xi, ∑ Xi2 , . . . , ∑ Xis
i=1 i=1 i=1

est exhaustive pour la famille (6).


Supposons que
1) l’ensemble X ne dépend pas de paramètre θ ;
2) la matrice de Hessen ° 2 °
° ∂ °
−°
° ∂θi ∂θ j V (θ)°
°
s×s
de la fonction V (θ) est positivement définie sur Θ ;
3) il existe le moment as = Eθ X1s .
Dans ce cas
−gradV (θ) = a(θ) = (a1 (θ), a2 (θ), . . . , as (θ))T ,
1
et donc la statistique T = U n est le meilleur estimateur sans biais pour a(θ), i.e.
n
Eθ T n = a(θ),

ce qui nous permet d’estimer θ (trouver l’estimateur θ∗n par la méthode des moments de
façon unique de l’équation T n = a(θ) dans les termes de la statistique exhaustive Un ).
De l’autre coté les conditions 1)–3) sont suffisantes (voir, par exemple, Zacks, 1971) pour
l’existence de l’estimateur du maximum de vraisemblance θ̂n :
n
L(θ̂) = sup L(θ), où L(θ) = ∏ f (Xi , θ),
θ∈Θ i=1

146
et pour la famille (6) l’estimateur θ̂n est la racine unique de la même équation T n = a(θ),
et donc de ce fait on tire que pour la famille exponentielle (6) la méthode du maximum
de vraisemblance et la méthode des moments donnent le même estimateur θ∗n = θ̂n pour le
paramètre θ.
Exemple 7. Soit X = (X1 , . . . , Xn )T un échantillon, Xi suit la loi normale N(µ, σ2 ), θ =
(µ, σ2 )T . Dans ce cas la statistique
¡ ¢T
θ̂n = X̄n , s2n

est l’estimateur du maximum de vraisemblance pour θ et elle-même nous donne l’estima-


teur par la méthode des moments.
Exemple 8. Soit X = (X1 , . . . , Xn )T un échantillon, Xi suit la loi de Poisson de paramètre
θ, θ ∈ Θ =] − ∞, +∞[ :

θk −θ
Pθ {Xi = k} = e , k = 0, 1, 2, . . . .
k!
n
Dans ce cas la statistique ∑ Xi est exhaustive pour le paramètre θ et donc la moyenne X̄n
i=1
de la loi empirique est le meilleur estimateur sans biais pour θ et en même temps X̄n est
l’estimateur du maximum de vraisemblance pour θ.
Exemple 9. On a n expériences indépendantes de Bernoulli avec trois états possibles
S S T
E1 , E2 , E3 , E1 E2 E3 = Ω, Ei E j = 0, / dont les probabilités sont

 P(E1 ) = p1 (θ) = θ,
P(E2 ) = p2 (θ) = 2θ,

P(E3 ) = p3 (θ) = 1 − 3θ,

où 0 < θ < 1/3. Trouver l’estimateur du maximum de vraisemblance θ̂n pour θ.


Solution. Soit ν = (ν1 , ν2 , ν3 )T le vecteur des fréquences observées, n = ν1 + ν2 + ν3 - le
nombre des épreuves. Comme la distribution du vecteur ν est trinomiale des paramètres n
et p = (p1 , p2 , p3 )T , pi = pi (θ), la fonction de vraisemblance L(θ) est
n! n!
L(θ) = pν11 pν22 pν33 = θν1 (2θ)ν2 (1 − 3θ)ν3 , (7)
ν1 !ν2 !ν3 ! ν1 !ν2 !ν3 !
et donc
ln L(θ) = const + (ν1 + ν2 ) ln θ + ν3 ln (1 − 3θ).
Par conséquent l’équation de vraisemblance
d ln L(θ)
Λ(θ) = =0 (8)

s’écrit de la façon suivante :
d ln L(θ) ν1 + ν2 3ν3
Λ(θ) = = − = 0,
dθ θ 1 − 3θ
d’où l’on tire l’équation
ν1 + ν2 3ν3
= ,
θ 1 − 3θ

147
dont la racine θ̂n est
ν1 + ν2
θ̂n = .
3n
On a trouvé l’estimateur du maximum de vraisemblance θ̂ et donc

 p̂1 = p1 (θ̂n ) = θ̂n ,
p̂ = p2 (θ̂n ) = 2θ̂n ,
 2
p̂3 = p3 (θ̂n ) = 1 − 3θ̂n ,

sont les estimateurs du maximum de vraisemblance de pi (θ), i = 1, 2, 3.


En général pi = pi (θ) sont des fonctions de θ plus compliqées et dans ce cas l’équation de
vraisemblance (8) n’est pas si facile à résoudre. Par exemple, dans notre cas, que l’on vient
de considérer, on a
d ln L(θ) p0 (θ) p0 (θ) p0 (θ)
Λ(θ) = = ν1 1 + ν2 2 + ν3 3 = 0. (9)
dθ p1 (θ) p2 (θ) p3 (θ)
Comme
p1 (θ) + p2 (θ) + p3 (θ) ≡ 1,
on a
p01 (θ) + p02 (θ) + p03 (θ) ≡ 0 et p001 (θ) + p002 (θ) + p003 (θ) ≡ 0,
et de (1) on tire que
d2
ln L(θ) =
dθ2
" µ 0 ¶ # " µ 0 ¶ # " µ 0 ¶ #
p001 (θ) p1 (θ) 2 p002 (θ) p2 (θ) 2 p003 (θ) p3 (θ) 2
ν1 − + ν2 − + ν3 − .
p1 (θ) p1 (θ) p2 (θ) p2 (θ) p3 (θ) p3 (θ)

Pour trouver une bonne aproximation de la racine θ̂n de l’équation (9), nous pouvons appli-
quer la procédure suivante (the scoring method of Fisher). Soit
νi
p̂i = , i = 1, 2, 3, (10)
n
les estimateurs de maximum de vraisemblance pour des probabilités pi (θ). Parmi ces trois
équations pi (θ) = p̂i (par rapport à θ) on choisit la plus simple d’où l’on tire la solution
θ̂0n , que l’on peut prendre comme approximation initiale pour l’estimateur du maximum de
vraisemblance θ̂n . Comme dans notre cas l’information de Fisher
½ 2 ¾
d
In (θ) = −E ln L(θ)
dθ2
est égale à " ¡ 0 ¢2 #
(p01 (θ))2 (p02 (θ))2 p3 (θ)
In (θ) = n + + ,
p1 (θ) p2 (θ) p3 (θ)

on trouve une nouvelle approximation θ̂1n , qui est donnée par la formule suivante :
¯
1 d ln L(θ) ¯¯
θ̂1n = θ̂0n + . (11)
In (θ̂0n ) dθ ¯θ=θ̂0n

148
On peut montrer que l’estimateur θ̂1n est asymptotiquement équivalent à l’estimateur du
maximum de vraisemblance θ̂n , c’est-à-dire si n → ∞, alors
p ¡ ¢
In (θ) θ̂1n − θ

suit dans la limite la loi normale de paramètre 0 et 1,


np ¡ ¢ o
lim In (θ) θ̂1n − θ < x = Φ(x).
n→∞

Par exemple, soit p = (p1 , p2 , p3 , p4 )T , où




 p1 = p1 (θ) = 2θ,

p2 = p2 (θ) = 0.5 − 4θ,

 p3 = p3 (θ) = 0.5 + θ,

p4 = p4 (θ) = θ.

Il est clair que 0 ≤ θ ≤ 1/8. Comme la fonction de vraisemblance L(θ) est égale à
n!
L(θ) = pν1 pν2 pν3 pν4 =
ν1 !ν2 !ν3 !ν4 ! 1 2 3 4
n!
(2θ)ν1 (0.5 − 4θ)ν2 (0.5 + θ)ν3 θν4 =
ν1 !ν2 !ν3 !ν4 !
n!2ν1
θν1 +ν4 (0.5 − 4θ)ν2 (0.5 + θ)ν3
ν1 !ν2 !ν3 !ν4 !
et donc on trouve que la statistique T = (ν1 + ν4 , ν2 , ν3 )T est exaustive pour le paramètre
θ. Supposons que n = 1000 et que l’on ait observé

ν1 = 195, ν2 = 110, ν3 = 590, ν4 = 105.

Notons

q1 = p1 + p4 , q2 = p2 , q3 = p3 et µ1 = ν1 + ν4 , µ2 = ν2 , µ3 = ν3 .

Avec ces notations la fonction de vraisemblance L(θ) peut s’écrire de la manière suivante :

L(θ) = const(3θ)µ1 (0.5 − 4θ)µ2 (0.5 + θ)µ3 ,

d’où l’on déduit

ln L(θ) = ln (const) + µ1 ln θ + µ2 ln (0.5 − 4θ) + µ3 ln (0.5 + θ),

d ln L(θ) µ1 4µ2 µ3
= − +
dθ θ 0.5 − 4θ 0.5 + θ
et donc on obtient l’équation du maximum de vraisemblance

µ1 (0.5 − 4θ)(0.5 + θ) − 4µ2 θ(0.5 + θ) + µ3 θ(0.5 − 4θ) = 0,

qui est équivalente à la suivante :

160θ2 + 15θ − 3 = 0,

149
dont les solutions θ1 et θ2 sont données par les formules suivantes :
√ √
−15 + 225 + 160 ∗ 12 −15 − 225 + 160 ∗ 12
θ1 = et θ1 = .
320 320
Comme 0 < θ < 1/8, on en déduit que l’estimateur du maximum de vraisemblance θ̂n est
égale à θ1 et donc on obtient que
−15 + 46.31 ∼
θ̂n = θ1 = = 0.0978.
320
Comme
d2 µ1 16µ2 µ3
ln L(θ) = − 2 − − ,
dθ2 θ (0.5 − 4θ)2 (0.5 + θ)2
et Eµi = nqi , on trouve que
½ 2 ¾ · ¸
d 3θ 16 1
In (θ) = −E ln L(θ) = n 2 + + =
dθ2 θ 0.5 − 4θ 0.5 + θ
· ¸
3 32 2
n + + .
θ 1 − 8θ 1 + 2θ
Comme on l’a déjà noté la variable aléatoire

θ̂ − θ p
qn = In (θ)(θ̂n − θ)
1
In (θ)

suit à la limite quand n → ∞ la loi normale N(0, 1). Du théorème de Cramer on déduit que
q
θ̂ − θ
qn = In (θ̂n )(θ̂n − θ)
1
In (θ̂n )

suit aussi à la limite la loi normale N(0, 1).


Nous pouvons aussi utiliser le scoring méthode de Fisher pour trouver un estimateur de
θ. Si on prend θ̂0 ∼
= 0.1 comme approximation initiale, on trouve
1150000
In (θ̂0 ) =
6
et donc en utilisant la formule (35)
¯
1 d ln L(θ) ¯¯
θ̂1n = θ̂0 + ,
In (θ̂0 ) dθ ¯θ=θ̂0

on trouve que
· ¸
6 440 590
θ̂1n = 0.1 + 300 − + = 0.1 − 0.0022 = 0.0978 = θ̂n .
1150000 0.1 0.6

Admettons que quelqu’un suppose θ = 0.11. Avec quelle certitude peut-on affirmer
d’après les données observées que θ = 0.11 ?

150
Comme nous le savons
½q q ¾ · µ q ¶¸
P ∼
In (θ̂n )|θ̂n − θ| > 0.0121 In (θ̂n ) = 2 1 − Φ 0.0121 In (θ̂n ) =

2 [1 − Φ(5.297)] = 5 · 10−7 ,
ce qui nous permet d’affirmer l’invraisemblance que θ = 0.11.

2.19 Decomposition orthogonale de Fisher

Supposons que les résultas d’une expérience soient présentés par la matrice

A = kai j k, i ∈ I = {1, . . . , I}; j ∈ J = {1, . . . , J}.

Les valeurs observées ai j nous pouvons considérer comme les valeurs a(i, j) d’une
fonction a(·, ·), déterminée sur l’ensemble I ? J. On peut poser une question : est ce que
la fonction a(·, ·) est constante,

a(i, j) = ai j = const = a.. , (1)

ou peut-être c’est une fonction d’une variable, par exemple i,et qui prend les valeurs ai. :

a(i, j) = ai. = a.. + αi. , (2)


αi. = ai. − a.. , (3)
ou peut-être c’est une fonction présentée comme la somme de deux fonctions d’une variable
chacune
a(i, j) = ai j = ai. + a. j − a.. = a.. + αi. + α. j ,
avec α. j = (a. j − a.. ), ou peut-être c’est une fonction de deux variables avec une interaction
entre les arguments i et j :

a(i, j) = ai j = a.. + αi. + α. j + αi j , (4)


αi j = ai j − ai. − a. j + a.. . (5)
Toutes ces questions sont importantes si nous voulons construire une approximation pour la
fonction a(·, ·) et suivant l’information que nous avons nous pouvons proposer la meilleur
approximation dans un certain sense.
Nous pouvons toujours compter que nous avons une fonction qui est présentée par la
formule (’) et donc il nous faut faire le meilleur choix des constantes, en utilisant des don-
nées.
Si nous avons la fonction de deux variables, alors il se peut qu’il soit intéressant de
l’approximer par une fonction d’une variable ou par la somme de deux fonctions d’une

151
variable chacune, avec ou sans interactions. On cherchera l’approximation dans le sens de
moindres carrés :
I J
∑ ∑ (ai j − α)2 → min . (6)
i=1 j=1

Le premier à avoir considéré ce problème en statistique est Sir R.Fisher qui a proposé de
choisir les constantes suivantes :
J
1 1 I
ai. =
J ∑ ai j , a. j = ∑ ai j ,
I i=1
(7)
j=1

1 I J 1 J
1 I
a.. = ∑ ∑ ai j = ∑ a. j = I ∑ ai.. (8)
IJ i=1 j=1 J j=1 i=1

Donc dans le cas où nous cherchons la meilleure approximation par la fonction d’une va-
riable, par exemple qui ne dépend que de i, d’après Fisher il faut choisir α = ai. . Si nous
cherchons une approximation par la somme de deux fonction d’une variable chacune sans
leurs interactions, alors il nous faut choisir

α = ai. + a. j − a.. = a.. + (ai. − a.. ) + (a. j − a.. ), (9)

etc. On fait ce problème de la même façon dans le cas continue. Par exemple, on peut
introduire
ZI ZJ ZJ
1 1
a.. = a(i, j)did j, ai. = a(i, j)d j, (10)
IJ I
0 0 0

i ∈ I = [0, I], j ∈ J = [0, J].


On peut généraliser les résultats de Fisher pour le cas de l’espace de plus haute dimen-
sion. Notons
[ai j ] = (a11 , a12 , ..., a1J , a21 , ..., a2J , ..., aI1 , ..., aIJ )T
le vecteur-colonne de dimension IJ, [ai j ] ∈ RIJ , c’est-à-dire tous les éléments de la ma-
trice A sont présentés en forme d’un vecteur de RIJ , et soit [a.. ] le vecteur de même espace
RIJ , dont tous les éléments sont égaux à a.. . Nous pouvons dire que

[a.. ] = a.. 1IJ , où 1IJ = (1, 1, . . . , 1)T ∈ RIJ . (11)

Dans ce cas nous pouvons écrire que

[ai j ] = [a..] + [ai j − a.. ], where [ai j − a.. ] = [ai j ] − [a.. ]. (12)

Soit L1 est le sousespace linéaire engendré par le vecteur [a.. ], L1 ⊂ RIJ . Par les calcules
directes on peut montrer, en utilisant les formules (6) et (7), que les vecteurs [a.. ] et [ai j −a.. ]
sont orthogonaux, c’est-à-dire
[a.. ]T [ai j − a.. ] = 0, (13)
et donc le vecteur [ai j − a.. ] ∈ LIJ−1 et le sousespace
LIJ−1 = RIJ ª L1
est ortogonale à L1 ,
RIJ = L1 ⊕ LIJ−1 , (14)

152
et de cette façon on a montré que la fonction a.. donne la meilleure (dans le sens (6))
approximation de notre fonction a(i, j) par la constante.
Maintenant on considère le second problème : quelle fonction d’une variable, par exemple
i, donne la meilleure approximation pour [ai j − a.. ] ∈ LIJ−1 . On a l’identité

[ai j − a.. ] = [ai. − a.. ] + [ai j − ai. ], (15)

d’où on déduit que si nous voulons construire une approximation qui ne dépend que de j,
par exemple, alors on revient de nouveau au problème précédent, car les vecteurs

[ai. − a.. ] = [ai. ] − [a.. ] et [ai j − ai. ] = [ai j ] − [ai. ] (16)

sont orthogonaux :
[ai. − a.. ]T [ai j − ai. ] = 0. (17)
On note que
[ai. ] = (a1. , ..., a1. , a2. , ..., a2. , ..., aI. , ..., aI. )T ∈ RIJ
and
[a. j ] = (a.1 , ..., a.1 , a.2 , ..., a.2 , ..., a.J , ..., a.J )T ∈ RIJ .
On remarque que
I J
∑ (ai. − a..) = 0, ∑ (a. j − a..) = 0.
i=1 j=1

Puisque pour tout i fixé, i ∈ I,


J
∑ (ai j − ai.) = 0, (18)
j=1


J
1
ai. =
J ∑ ai j ,
j=1

on en déduit que

[ai. − a.. ] ∈ LI−1 et [ai j − ai. ] ∈ LIJ−I = LI(J−1) , (19)

et que les sousespaces LI−1 et LI(J−I) sont orthogonaux :

LI−1 ⊕ LI(J−1) = LIJ−1 , (20)

et que
L1 ⊕ LI−1 ⊕ LI(J−1) = RIJ (21)
Si nous avançons plus loin de la même façon on obtient sur le pas suivant l‘identité

[ai j − ai. ] = [a. j − a.. ] + [ai j − ai. − a. j + a.. ], (22)


[a. j − a.. ] ∈ LJ−1 (23)
et
[a. j − a.. ]T [ai j − ai. − a. j + a.. ] = 0. (24)

153
Mais comme
[ai j − ai. − a. j + a.. ] ∈ LIJ−I−J+1 = L(I−1)(J−1) , (25)
de (6), (9), (14)-(17) et (19) on déduit que

RIJ = L1 ⊕ LI−1 ⊕ LJ−1 ⊕ L(I−1)(J−1) , (26)

c’est-à-dire on a reçu la décomposition de RIJ en somme directe de quatre sousespaces


orthogonaux, et donc la décomposition de Fisher n’est que la projection du vecteur des
données [ai j ] ∈ RIJ sur ces sousespaces. De plus nous pouvons dire que la décomposition
orthogonale de Fisher

[ai j ] = [a.. ] + [ai. − a.. ] + [a. j − a.. ] + [ai j − ai. − a. j + a.. ], (i = 1, . . . , I; j = 1, . . . , J)

ne dépend que de IJ coefficients, et non pas de 1 + I + J + IJ. En plus du Théorème de


Pythagore on obtient l’identité suivante :

k[ai j ]k2 = k[a.. ]k2 + k[ai. − a.. ]k2 + k[a. j − a.. ]k2 + k[ai j − ai. − a. j + a.. ]k2 ,

d’où on tire l’identité de Fisher :


I J I J I J
∑∑ a2i j = IJa2.. + J ∑ (ai. − a..) 2
+ I ∑ (a. j − a.. ) + ∑ 2
∑ (ai j − ai. − a. j + a..)2.
i=1 j=1 i=1 j=1 i=1 j=1

On utilise ce fait pour faire un analyse de variances.

2.20 Modèle d’analyse des variances à 2 facteurs.

Suposons que sous l’hypothèse H0 on a le modèle de régression d’après lequel


on a I × J × K observation sont indépendantes

Yi jk = µ + αi + β j + γi j + δi jk ,

i = 1, 2, ..., I; j = I, 2, ..., J; k = 1, 2, ..., K,


où µ, αi , β j , γi j sont des constantes inconnues, et

δi jk ∼ N(0, σ2 ).

On note Y = (Y111 , ...,YIJK )T le vecteur d’observation, Y ∈ RIJK . On suppose que I ≤ J.


Dans le cadre de ce modèle il faut estimer les paramètres suivants :

µ, α = (α1 , ..., αI )T , β = (β1 , ..., βJ )T , γ = ||γi j ||I×J and σ2 .

On note
1 I 1 J
α. = ∑ αi,
I i=1
β. =
J ∑ β j,
j=1

154
J
1 1 I
γi. =
J ∑ γi j , ( j = 1, 2, ..., J); γ. j = ∑ γi j ,
I i=1
( j = 1, 2, ..., J);
j=1
J I
1
γ.. =
IJ ∑ ∑ γi j .
j=1 i=1
On suppose sans perdre la gènèralitè que

α. = β. = γi. = γ. j = γ.. = 0, (i = 1, 2, ..., I; j = 1, 2, ..., J).

Pour tout i et pour tout j on note

1 K
Xi j = Yi j. = ∑ Yi jk = (1T 1)−1 1T Yi j ,
K k=1


Yi j = (Yi j1 , ...,Yi jK )T , 1 = 1K = (1, 1, ..., 1)T ∈ RK .
Notons
X = (X11 , ..., XIJ )T , X ∈ RIJ ,
où Xi j = Yi j. , (i = 1, 2, ..., I; j = 1, 2, ..., J). Il est claire que sous H0

σ2
Xi j = µ + αi + β j + γi j + δi j. , δi j. ∼ N(0, ),
K
parce que
EYi jk = µ + αi + β j + γi j , k = 1, 2, ..., K,
et donc sous H0 pour tout k fixè la fonction de vraisemblance pk (µ, α, β, γ, σ2 ) du vector
(Y11k , ...,YIJk )T est donnée par la formule suivante :
( )
J I (Y − µ − α − β − γ )2
1
exp − ∑ ∑
i jk i j i j
pk (µ, α, β, γ, σ2 ) = .
(2πσ2 )IJ/2 j=1 i=1 2σ2

Puisque sous H0 les variables δi jk sont indèpendantes et suivent la même loi normale
N(0, σ2 ) on en tire que la fonction de vraisemblance du vector d’observations Y est
( )
J I K (Y − µ − α − β − γ )2
1
exp − ∑ ∑ ∑
i jk i j i j
L(µ, α, β, γ, σ2 ) = =
(2πσ2 )IJK/2 j=1 i=1 k=1 2σ2
½ ¾ ( )
J I
1 −SCint −K
(2πσ )
2 IJK/2
exp
2σ2
exp
2σ2 ∑ ∑ (Xi j − µ − αi − β j − γi j )2 ,
j=1 i=1

J I K J I K
SCint = ∑ ∑ ∑ (Yi jk − Xi j )2 = ∑ ∑ ∑ (Yi jk −Yi j.)2.
j=1 i=1 k=1 j=1 i=1 k=1

On voit que la statistique (SCint , X)T est exhaustive pour (µ, α, β, γ, σ2 )T , et que SCint et
X = (X11 , ..., XIJ )T sont indèpendantes. Il est èvident que sous HO

SCint σ2
= χ2(K−1)IJ et Xi j ∼ N(µ + αi + β j + γi j ; ).
σ 2 K

155
En utilisant la dècomposition orthogonale de Fisher on a

Xi j = X.. + (Xi. − X.. ) + (X. j − X.. ) + (Xi j − Xi. − X. j + X.. )

et

kXk2 = k[Xi j ]k2 = k[X.. ]k2 + k[Xi. − X.. ]k2 + k[X. j − X.. ]k2 + k[Xi j − Xi. − X. j + X.. ]k2 ,

d’où on tire l’identité de Fisher Phytagore :


I J I J I J
∑∑ Xi2j = IJX..2 + J ∑ (Xi. − X..) 2
+ I ∑ (X. j − X.. ) + ∑
2
∑ (Xi j − Xi. − X. j + X..)2.
i=1 j=1 i=1 j=1 i=1 j=1

Maintenant nous pouvons prèsenter L(µ, α, β, γ, σ2 ) par la façon suivante :


½ ¾
1 −SCint
L(µ, α, β, γ, σ ) =
2
exp ×
(2πσ2 )IJK/2 2σ2
( "
I J
−K
exp
2σ2
IJ(X .. − µ)2
+ J ∑ i. .. i
(X − X − α )2
+ I ∑ (X. j − X.. − β j )2+
i=1 j=1
#)
I J
∑ ∑ (Xi j − Xi. − X. j + X.. − γi j )2 ,
i=1 j=1

d’où on obtient les meilleurs estimateurs sans biais (au sens du minimum de risk quadra-
tique) pour µ, αi , β j , γi j :

µ̂ = X.. , α̂i = Xi. − X.. , β̂ j = X. j − X.. , γ̂i j = Xi j − Xi. − X. j + X.. .

Pour estimer σ2 il faut utiliser la relation


SCint
= χ2(K−1)IJ ,
σ2
qui nous donne l’estimateur
J I K
1 1
σ̂2 =
IJ(K − 1)
SCint =
IJ(K − 1) ∑ ∑ ∑ (Yi jk − Xi j )2.
j=1 i=1 k=1

Comme nous avons dit nous avons construit MVUE’s (voir, Voinov and Nikulin (1996))
puisque
Eµ̂ = EX.. = µ, Eα̂i = αi , Eβ̂ j = β j ,
Eγ̂i j = γi j , Eσ̂2 = σ2 .
On considère ici les sommes de carrés suivantes :
I J
SCentα = KJ ∑ (Xi. − X.. )2 , SCentβ = KI ∑ (X. j − X.. )2 ,
i=1 j=1

I J
SCinter = K ∑ ∑ (Xi j − Xi. − X. j + X..)2.
i=1 j=1

156
On note aussi
J I K J I K
SCtot = ∑∑ ∑ (Yi jk −Y...)2 = ∑ ∑ ∑ (Yi jk − X..)2,
j=1 i=1 k=1 j=1 i=1 k=1


J I K
1
Y... = X.. =
IJK ∑ ∑ ∑ Yi jk .
j=1 i=1 k=1

Dans ce cas on a la relation suivante entre ces sommes de carrés :

SCtot = SCint + SCentα + SCentβ + SCinter .

On remarque que les statistiques SCint , SCentα , SCentβ , SCinter sont indépendantes.
On considère les trois hypoths̀es suivantes :

H0α : α1 = α2 = ... = αI = 0,

H0β : β1 = β2 = ... = βJ = 0,
H0γ : γ1 = γ2 = ... = γIJ = 0.
On remarque que

si H0α est vraie, alors


SCentα
= χ2I−1 ,
σ 2

si H0β est vraie, alors


SCentβ
= χ2J−1 ,
σ2
si H0γ est vraie, alors
SCinter
= χ2(I−1)(J−1) .
σ2
Pour tester H0α on calcule la statistique

IJ(K − 1)SCentα
= FI−1,IJ(K−1) .
(I − 1)SCint

Pour tester H0β on calcule la statistique

IJ(K − 1)SCentβ
= FJ−1,IJ(K−1) .
(J − 1)SCint

Pour tester H0γ on calcule la statistique

IJ(K − 1)SCinter
= F(I−1)(J−1),IJ(K−1) .
(I − 1)(J − 1)SCint

Exemple 1. Analyse de variance à un facteur. On suppose que l’on a mesuré les


diamètres de 5 billes. Pour chaque bille on a répété 5 fois les mesures. On considère l’hy-
pothèse H0 selon laquelle

157
1) les 5 valeurs (inconnues) des diamètres de ces 5 billes sont des réalisations de 5
variables aléatoires qui sont indépendantes et suivent la même loi normale N(a, σ2o ).
2) toutes les mesures sont indépendantes, de même précision et sans biais.
3) les erreurs aléatoires de ces mesures suivent la même loi normale N(0, σ2 ), dont la
variance σ2 est inconnue.
La Table nous donne les résultats suivants pour des mesures (en mm). On note xi j la
j-ème mesure de la bille avec le numéro i, et xi. la valeur moyenne des mesures pour ce
sujet.

Numéro SUJETS
des mesures 1 2 3 4 5
1 12.093 11.996 12.017 12.023 11.900
2 12.097 11.995 12.012 12.026 11.893
3 12.096 11.990 12.014 12.028 11.896
4 12.094 11.991 12.017 12.028 11.899
5 12.100 11.998 12.010 12.021 11.898

Table 1

Il nous faut trouver les meilleurs estimateurs sans biais des valeurs inconnues des dia-
mètres des billes, de a, σ2o et σ2 , et aussi des surfaces des sections de ces 5 billes.
Tout d’abord il faut construire la fonction de vraisemblance. Il est clair, que nous pou-
vons considérer le résultat xi j de la j-ème mesure de la bille i comme la réalisation d’une
variable aléatoire Xi j , où
Xi j = a + δi + δi j , i = 1, 2, . . . , I; j = 1, 2, . . . , J. (1)
Les éléments δ1 , δ2 , . . . , δI du vecteur δ = (δ1 , δ2 , . . . , δI )T et δi j de la matrice ∆ = kδi j k
sont indépendants, δi suit la loi normale N(0, σ2o ), δi j suit la loi normale N(0, σ2 ), les
paramètres a, σ2o et σ2 sont inconnus.
Notons
1 J 1 I J 1 I
Xi. = ∑ Xi j , X.. = ∑ ∑ Xi j = ∑ Xi. , (2)
J j=1 IJ i=1 j=1 I i=1
On remarque que dans notre cas
X1. = 12.0960, X2. = 11.9920, X3. = 12.0140,
X4. = 12.0252, X5. = 11.8972, X.. = 12.00488.
De plus notons
J I J I
1 1 1
δi. =
J ∑ δi j , δ.. = IJ ∑ ∑ δi j , δ. = I ∑ δi. (3)
j=1 i=1 j=1 i=1
Dans ce cas, l’observation Xi j peut-être représentée comme
Xi j = X.. + (Xi. − X.. ) + (Xi j − Xi. ) (4)
et nous pouvons remarquer que
Xi. = a + δi + δi. ,
X.. = a + δ. + δ.. ,

158
et que
Xi j − Xi. = δi j − δi. ,
Xi. − X.. = (δi − δ. ) + (δi. + δ.. ), (5)
X.. − a = δ. + δ.. .
Comme toutes les variables δ1 , δ2 , . . . , δI , δ11 , . . . , δIJ sont indépendantes et normales, on a
(δi − δ. ), δ. , δi j sont indépendantes,
(δi − δ. ), δ. , (δi j − δi. ), δi. sont indépendantes, (6)
(δi − δ. ), δ. , (δi j − δi. ), (δi. − δ.. ), δ.. sont indépendantes
et de plus la variable aléatoire
σ2o σ2
δ. + δ.. suit la loi normale N(0, + ). (7)
I IJ
La variable aléatoire
I I
∑ [(δi − δ.) + (δi. − δ..)]2 = ∑ [(δi + δi.) − (δ. + δ..)]2
i=1 i=1

est distribuée comme


1
(σ2o + σ2 )χ2I−1 ,
J
c’est-à-dire que
I
1
∑ [(δi − δ.) + (δi. − δ..)]2 = χ2I−1,
(σ2o + 1J σ2 ) i=1
(8)

et il est évident, que


1
σ2 ∑
(δi j − δi. )2 = χ2I(J−1) . (9)
i, j
Par conséquent, de (6)-(9) on déduit que
I
∑ [(δi − δ.) + (δi. − δ.. )]2
(δ. + δ.. )2 1
σ2 ∑
σ2o
+ i=1 + (δi j − δi. )2 = χ2IJ ,
+ σ2 σ2o + 1J σ2 i, j
I IJ

ce qui est équivalent à


I I J
∑ (Xi. − X.. )2 ∑ ∑ (Xi j − X.. )2
(X.. − a)2 i=1 j=1
+ i=1 + = χ2IJ . (10)
1 2 σ2
σ2o + σJ
2
σ2
I (σo + J )

On trouve maintenant la fonction de vraisemblance L(a, σ2o , σ2 ) de notre échantillon


(X11 , . . . , XIJ )T . L’expression (10) est proportionnelle, à un terme additif près, à ln L(a, σ20 , σ2 ).
Pour le montrer on remarque que
Z∞
( " #)
1 1 1 1 J y 2

σo 2π (2π) σ
J/2 J
exp −
2 σ2 ∑ (xi j − a − yi )2 + i2
σo
dyi =
−∞ i=1

159
Z∞
" (
J J
1 1 1 2yi
σo (2π)(J+1)/2 σJ
exp −
2 σ2 ∑ (xi j − a)2 − σ2 ∑ (xi j − a)+
−∞ j=1 j=1
µ ¶ ¸¾ ) (
J
1 J 1 1
+ y2 dyi = exp − 2 ∑ (xi j − a)2 ×
σ2o σ2 i σo (2π)J/2 σJ ( σ12 + σJ2 )1/2 2σ j=1
o

Z∞
( " # µ ¶ · µ ¶ ¸)
yi J 1 1 J 1/2 1 J
exp 2 ∑ (xi j − a) √ + 2 exp −1/2 + 2 y2i dyi . (11)
σ j=1 2π σ 2
o σ σ 2
o σ
−∞

De l’autre côtè on sait que si une variable aléatoire ζ suit la loi normale N(Eζ, Varζ) de
paramètres Eζ et Varζ, alors

t2
Eeitζ = exp{itEζ − Varζ}. (12)
2
représente la fonction caractéristique de ζ. Dans notre cas

ζ = δ. + δ.. = X.. − a,
J
1 1
Eζ = 0, Varζ = 1 J
+ σ2
, it = 2
σ ∑ (xi j − a)2, (13)
σ2 o
j=1

et par conséquent de (12)-(13) on déduit que l’integrale en (11) est égale à


 " #2 
 1 J 
exp ∑ ij
 2σ4 ( 12 + J2 ) i=1
(x − a)

(14)
σ σ o

et donc
1
L(a, σ2o , σ2 ) = ³ ´I/2 ×
(2π)IJ/2 σIJ σIo 1
σ2o
+ J
σ2
 " #2 
 1 I J 1 I J 
exp − 2 ∑ ∑ (Xi j − a) + σ4
2
∑ ∑ (Xi j − a)  , (15)
 2σ i=1 j=1 2( 2 + Jσ2 ) i=1 j=1 σo
d’où l’on tire que

1 I J
ln L(a, σ2o , σ2 ) = ln(const) − 2 ∑ ∑
2σ i=1 j=1
(Xi j − a)2 +

" #2
I J
1
³ ´∑ ∑ (Xi j − a)2 . (16)
σ4
2 σ2o
+ Jσ2 i=1 j=1

Mais par ailleurs, de (2)-(5) on déduit

Xi j − a = (X.. − a) + (Xi. − X.. ) + (Xi j − Xi. ),


J
∑ (Xi j − a) = J(X.. − a) + J(Xi. − X..),
j=1

160
" #2
I J I
∑ ∑ (Xi j − a) = IJ 2 (X.. − a)2 + J 2 ∑ (Xi. − X.. )2 , (17)
i=1 j=1 i=1

(Xi j − a)2 = (X.. − a)2 + (Xi. − X.. )2 + (Xi j − Xi. )2 +


2[(X.. − a)(Xi. − X.. ) + (X.. − a)(Xi j − Xi. ) + (Xi. − X.. )(Xi j − Xi. )],
I J I I J
∑ ∑ (Xi j − a)2 = IJ(X.. − a)2 + J ∑ (Xi. − X..)2 + ∑ ∑ (Xi j − Xi.)2,
i=1 j=1 i=1 i=1 i=1

et par conséquent de (16) et (17) il résulte que

IJ J I
−2 ln L(a, σ2o , σ2 ) = −2 ln(const) +
σ2
(X.. − a)2
+ ∑ (Xi. − X..)2+
σ2 i=1

1 I J IJ 2 J2 I
∑ ∑
σ i=1 j=1
2
(Xi j − Xi. )2 − σ4
+ σ2 J
(X.. − a)2 − σ4
+ σ2 J
∑ (Xi. − X..)2 =
σ2o σ2o i=1

I I J
∑ (Xi. − X.. )2 ∑ ∑ (Xi j − X.. )2
(X.. − a)2 i=1 i=1 j=1
−2 ln (const) + + + =
1 2 σ2
σ2o + σJ
2
σ2
I (σo + J )

= −2 ln(const) + χ2IJ , (18)


comme on le voit à partir de (11). De (18) on déduit que
à !T
I I J
T= X.. , ∑ (Xi. − X..)2, ∑ ∑ (Xi j − Xi.)2 (19)
i=1 i=1 j=1

est une statistique exhaustive. Il est évident que les meilleurs estimateurs sans biases pour
a, σ2 et σ2o + σ2 /J sont
I J
1
â = X.. , σˆ2 = ∑ ∑
I(J − 1) i=1 j=1
(Xi j − Xi. )2 , (20)

σˆ2 1 I
ˆ
σo +
2
J
= ∑
I − 1 i=1
(Xi. − X.. )2 , (21)

et par conséquent, on trouve


q
â = 12.00488, σˆ2 = 0.00000918, σˆ2 = 0.00303, (22)
q
σˆ2
σˆ2o + = 0.0051400, σˆ2o = 0.0051382, σˆ2o = 0.07168. (23)
J
Comme
(X.. −a)2
σ2o σ2
I + IJ I(X.. − a)2 χ21 2
= = = F1,I−1 = tI−1 ,
I
∑ (Xi. −X.. )2
I χ
1 2
i=1
1
I−1 ∑ (Xi. − X.. )2 I−1 I−1
i=1
(I−1)(σ2o + σJ )
2

161
on a  

 


 

√ q 
|X.. − a|
P Is ≤ F1,I−1 (P) = P, (24)

 I 


 


1
I−1 ∑ (Xi. − X.. )2

i−1

où F1,I−1 (P) est le quantile de niveau P (P > 0.5) de la distribution F à 1 et I − 1 degrés de


liberté, dont on rapelle la définition :
P{F1,I−1 ≤ F1,I−1 (P)} = P. (25)
Par exemple, si P = 0.95, alors F1,4 (0.95) = 7.7086. De (24) et (25) on déduit l’intervalle
de confiance s
1 1 I
|a − X.. | ≤
I
F1,I−1 (P) ∑ (Xi. − X..)2
I − 1 i=1
(26)

de coefficient de confiance P. Par conséquent, on trouve l’intervalle de confiance pour le


paramètre a :
11.9159 < a < 12.0939
En continuant les calculs, liés à la table 1 des données initiales, on obtient la table suivante :

i
J
1
4 ∑ (Xi j − Xi. )2 75 ∗ 10−7 115 ∗ 10−7 95 ∗ 10−7 97 ∗ 10−7 77 ∗ 10−7
i=1

Table 2.

De plus, on a
I
1
∑ (Xi. − X..)2 = 0.020559808, ∑ I(Xi. − X..)2 = 0.005139952,
4 i=2
i=1
s
1 I I J
∑ i. ..
4 i=1
(X − X )2 = 0.071693458557946,
∑ ∑ (Xi j − Xi.)2 = 0.0001836,
i=1 j=1
v
u
1 I J u1 I J
∑ ∑
20 i=1 j=1
(Xi j − Xi. )2 = 0.00000918, t ∑ ∑ (Xi j − Xi. )2 = 0.003029851481508,
20 i=1 j=1

1 I 1 I J

4 i=1
2
(Xi. − X.. ) − ∑ ∑
100 i=1 j=1
(Xi j − Xi. )2 = 0.005138116,
v
u I
u1 I J
t ∑ (Xi. − X.. )2 − 1 ∑ ∑ (Xi j − Xi. )2 = 0.071680652898814,
4 i=1 100 i=1 j=1
I
1
4 ∑ (Xi. − X.. )2
i=1
I J
= 559.9076252723311.
1
20 ∑ ∑ (Xi j − Xi. )2
i=1 j=1

162
La surface de section de la bille de numéro i est égale à
π
(a + δi )2 ,
4
et l’espérance de la section de n’importe quelle bille est égale à
π π π
E(a + δi )2 = (a2 + Eδ2i ) = (a2 + σ2o ),
4 4 4
car Eδi = 0 et Varδi = Eδ2i . Mais comme

σ2o σ2
EX..2 = VarX.. + (EX.. )2 = + + a2 ,
I IJ
on obtient l’estimateur sans biais de π4 (a2 + σ2o ) :
à !
π σˆ2o σˆ2
X.. − − − σˆ2o =
2
4 I IJ

π 0.00514
[(12.00488)2 + 0.00514 − ] = 113.1926.
4 5
Par ailleur, on a
a + δi ∼
= Xi. , E{Xi. |δi } = a + δi
et donc
σ2
Var{Xi. |δi } = , E{Xi.2 |δi } = Var{Xi. |δi } + (a + δi )2 ,
J
et donc l’estimateur sans biais pour la surface de la section de la bille de numéro i est
à !
π σ ˆ2 π¡ 2 ¢
Xi.2 − = Xi. − 0.0000018 .
4 J 4

Les valeurs numériques de ces estimateurs pour les billes de numéros 1,2,3,4,5 sont

114.91413, 112.32974, 113.36138, 113.57284, 111.16790

respectivement (la moyenne arithmétique est égale à 113.06920). Enfin, on remarque que

σ2 < 0.007926σ2o et σ2 > 0.00127

avec le coefficient de confiance P = 0.98.

2.21 Modèle exponentiel. Analyse statistique.

Soit X = (X1 , . . . , Xn )T un échantillon d’une loi exponentielle E (µ, σ), i.e.

Xi ∼ f (x; θ), θ ∈ Θ = {θ = (µ, σ)T : |µ| < ∞, σ > 0},

163
où  µ ¶
 1 exp − x − µ , x ≥ µ,
f (x; θ) = σ σ

0, sinon.
Il est évident que µ ¶
1 x−µ
f (x; θ) = exp − H(x − µ), (2.1)
σ σ
½
1, si x ≥ 0,
H(x) =
0, si x < 0.
On sait que
EXi = µ + σ et Var Xi = σ2 . (2.2)
Notons X (n) = (X(1) , X(2) , . . . , X(n) )T le vecteur des statistiques d’ordre associé au vecteur
de observation X,
P{X(1) < X(2) < · · · < X(n) } = 1. (2.3)
Il est facile de montrer que T = (X(1) , S)T est une statistique exhaustive pour le paramètre
θ, où
n
X(1) = min(X1 , X2 , . . . , Xn ) et S = ∑ (X(i) − X(1) ). (2.4)
i=2
En effet, la fonction de vraisemblance de X est
( )
n
1 1 n
L(X; θ) = ∏ f (Xi ; θ) = n exp − ∑ (Xi − µ) H(X(1) − µ) =
i=1 σ σ i=1
( )
n
1 1
=
σn
exp − ∑ (X(i) − µ) H(X(1) − µ).
σ i=1
(2.5)

Comme
n n n n
∑ Xi = ∑ X(i) = ∑ (X(i) − X(1)) + nX(1) = ∑ (X(i) − X(1)) + nX(1),
i=1 i=1 i=2 i=2

on en tire que la statistique T = (X(1) , S)T est exhaustive minimale pour θ = (µ, σ)T . Il est
connu que X (n) est une statistique exhaustive pour θ, mais X (n) n’est pas intéressante parce
qu’elle a la même dimension n que le vecteur X, c’est-à-dire que X (n) ne réduit pas des
données. Le vecteur
n
U = (X(1) , ∑ X(i) )T
i=2
est aussi une statistique exhaustive minimale pour θ. Il est facile de montrer que la densité
de X(1) est donnée par la formule
n n n o
exp − (x(1) − µ) H(x(1) − µ), (2.6)
σ σ
i.e., X(1) suit une loi exponentielle E (µ, σ/n),

σ σ2
EX(1) = µ + et Var X(1) = . (2.7)
n n2

164
Nous pouvons donc dire que la statistique nX(1) ∼ E (nµ, σ), et de (2) et (7) on obtient que

E{nX(1) } = nµ + σ et Var {nX(1) } = σ2 . (2.8)

Maintenant nous alons montrer que X(1) et S sont indépendantes. Tout d’abord on remarque
que la densité de X(·) est
( )
n n
n! 1
g(x(·) ; θ) = n! ∏ f (x(i) ; θ) = n exp − ∑ (x(i) − µ) H(x(1) − µ) =
i=1 σ σ i=1

n n n o (n − 1)!
= exp − (x(1) − µ) H(x(1) − µ) n−1 ×
σ σ σ
( )
1 n
× exp − ∑ (x(i) − x(1) ) H(x(2) − x(1) ), (2.9)
σ i=2

x(·) = (x(1) , . . . , x(n) )T ∈ Bµ = {x ∈ Rn : µ ≤ x1 ≤ x2 ≤ · · · ≤ xn }, (2.10)
d’où on tire que
( )
(n − 1)! 1 n
exp − ∑ (x(i) − x(1) ) , x(1) ≤ x(2) ≤ · · · ≤ x(n) , (2.11)
σn−1 σ i=2

représente la densité conditionnelle de

(X(2) , X(3) , . . . , X(n) )T sachant que X(1) = x(1) .

On constate que cette loi conditionnelle ne dépend pas de µ. En plus de (4) et (9) on dé-
duit que si la valeur x(1) de la statistique X(1) est fixée, X(1) = x(1) , alors la statistique
(X(2) , X(3) , . . . , X(n) )T représente le vecteur des statistiques d’ordre obtenu à partir d’un
échantillon de dimension n − 1, dont les éléments suivent la loi exponentielle
½ ¾
1 x − x(1)
exp − H(x − x(1) ).
σ σ
Maintenant on va chercher la densité conjointe q(y; θ),

y = (y1 , . . . , yn )T ∈ Bµ = {x ∈ Rn : µ ≤ y1 , 0 ≤ y2 ≤ · · · ≤ yn },

des statistiques
X(1) et (X(2) − X(1) , . . . , X(n) − X(1) )T ,
c’est-à-dire la densité de la statistique

Y = (Y1 ,Y2 , . . . ,Yn )T ,


Y1 = X(1) , Y j = X( j) − X(1) , j = 2, . . . , n. (2.12)
On constate que la statistique Y est le résultat d’une transformation linéaire la statistique
X (n) :
Y = BX (n) ,

165
où ° °
° 1 0 0 ... 0 °
° °
° −1 1 0 ... 0 °
° °
° ... 0 °
B = ° −1 0 1 °,
° .. °
° . °
° °
° −1 0 0 ... 1 °
et donc
X (n) = B−1Y ,
où ° °
° 1 0 0 ... 0 °
° °
° 1 1 0 ... 0 °
° °
° 1 0 1 ... 0 °
B−1 = ° °.
° .. °
° . °
° °
° 1 0 0 ... 1 °
Comme det B = 1, de (9) on tire

q(y; θ) = g(B−1 y; θ)| det B−1 | = g(y1 , y1 + y2 , . . . , y1 + yn ; θ) =


( )
n n n o (n − 1)! 1 n
= exp − (y1 − µ) H(y1 − µ) n−1 − ∑ yi , y ∈ Bµ ⊂ Rn , (2.13)
σ σ σ σ i=2

d’où on tire que la densité conjointe de X(1) et (X(2) − X(1) , . . . , X(n) − X(1) )T est le produit
de deux densités et donc les statistiques X(1) et (X(2) − X(1) , . . . , X(n) − X(1) )T sont indépen-
n
dantes, d’où on tire que X(1) et ∑ (X(i) − X(1) ) sont indépendantes.
i=2
En plus de (13) il suit que
n
∑ (X(i) − X(1))
i=2
suit une loi gamma dont la densité est

1
yn−2 e−y/σ H(y),
σn−1 Γ(n − 1)
parce que
(n − 1)! 1 n
σn−1
exp{− ∑ yi},
σ i=2
0 ≤ y2 ≤ y3 ≤ . . . yn ,

représente la densité conjointe du vecteur des statistiques d’ordre de dimension (n − 1),


associé avec une loi exponentielle
½ ¾
1 1
exp − y H(y),
σ σ

i.e. avec une loi exponentielle E (0, σ), et donc la variable aléatoire

1 n 1 n
∑ i σ ∑ (X(i) − X(1)) = γn−1
σ i=2
Y =
i=2

166
est distribuée comme la somme de (n − 1) variables aléatoires indépendantes, qui forment
un échantillon de volume (n − 1) d’une loi exponentielle E (0, 1), i.e., S suit une loi gamma
avec (n − 1) degrés de liberté et de paramètre d’échelle σ.
n n
S = ∑ Yi = ∑ (X(i) − X(1) ) = σγn−1 , (2.14)
i=2 i=2

et donc
ES = E{σγn−1 } = (n − 1)σ, Var S = Var {σγn−1 } = σ2 (n − 1). (2.15)
Dans ce cas la statistique

1 n n
σ̄n = ∑
n − 1 i=2
(X(i) − X(1) ) =
n−1
(X̄n − X(1) ) (2.16)

est le meilleur estimateur sans biais pour σ. De (15) on tire que

σ2
Var σ̄n = . (2.17)
n−1
Enfin, en utilisant (7) et (16) nous pouvons construire le meilleur estimateur sans biais µ̄n
pour µ :

σ̄n 1 n
1
µ̄n = X(1) −
n
= X(1) − ∑
n(n − 1) i=2
(X(i) − X(1) ) = X(1) −
n−1
(X̄n − X(1) ). (2.18)

Comme les statistique X(1) et S sont indépendantes, les statistiques X(1) et σ̄n sont aussi
indépendantes et par conséquent

1 σ2 σ2 σ2
Var µ̄n = Var X(1) + Var σ̄n = + = . (2.19)
n2 n2 (n − 1)n2 n(n − 1)

Corollaire 1. Comme
n n n
∑ (X(i) − X(1)) = ∑ Yi = ∑ (n − i − 1)[X(i) − X(i−1)], (2.20)
i=2 i=2 i=2

de (9) et (12) il suit que les statistiques

nX(1) , (n − 1)[X(2) − X(1) ], . . . , (n − i − 1)[X(i) − X(i−1) ], . . . , X(n) − X(n−1)

sont indépendantes et

nX(1) ∼ E (nµ, σ), i.e. n(X(1) − µ) ≈ E (0, σ), (2.21)

(n − i − 1)[X(i) − X(i−1) ] ∼ E (0, σ), i = 2, 3, . . . , n. (2.22)


Il est évident que toutes ces propriétés importantes d’un échantillon X d’une loi exponen-
tielle sont dûes à l’indépendance temporelle de la distribution exponentielle (une loi expo-
nentielle est sans mémoire).

167
Remarque 1. (Méthode des moments). Comme

EXi = µ + σ et Var Xi = σ2

pour estimer θ = (µ, σ)T nous pouvons utiliser la méthode des moments. D’après cette
méthode en qualité d’estimateurs µ̃n et σ̃n de µ et σ il faut choisir la solution du système
(
µ + σ = X̄n ,
σ2 = s2n ,

puisque X̄n et s2n sont l’espérance et la variance de le loi empirique correspondant à l’échan-
tillon X = (X1 , . . . , Xn )T , d’où on obtient que

θ̃n = (µ̃n , σ̃n )T ,

où s
1 n
µ̃n = X̄n − sn = X̄n − ∑ (Xi − X̄n)2,
n i=1
s
1 n
σ̃n = sn = ∑ (Xi − X̄n)2.
n i=1
Remarque 2. (Méthode du maximum de vraisemblance). De (5) on a
( )
n
1 1
L(X; θ) = L(X; µ, σ) = n exp − ∑ (Xi − µ) H(X(1) − µ),
σ σ i=1

d’où on tire immédiatement que


µ̂n = X(1) .
Puisque
∂ lnL(X; θ) n 1 n
= − + 2 ∑ (Xi − µ),
∂σ σ σ i=1
on en tire que σ̂n est la solution de l’équation

n 1 n
− + 2 ∑ (Xi − X̄n ) = 0,
σ σ i=1

i.e.,
1 n
σ̂n = ∑ (Xi − X̄n) = X̄n − X(1),
n i=1
et donc
θ̂n = (µ̂n , σ̂n )T .
On remarque que les meilleurs estimateurs sans biais pour µ et σ sont
µ ¶
n 1 n−1
µ̄n = µ̂n − X̄n et σ̄n = σ̂n .
n−1 n n

168
Chapitre 3

ELEMENTS DE LA STATISTIQUE
NON PARAMETRIQUE.

3.1 La loi empirique.

Soit l’hypothèse H0 selon laquelle les éléments X1 , X2 , . . . , Xn de l’échantillon X =


(X1 , X2 , . . . , Xn )T suivent une loi donnée, dont la fonction de répartition est F(x), i.e. pour
tout x ∈ R1

P{Xi ≤ x|H0 } = F(x), i = 1, 2, . . . , n, (3.1)


et X1 , X2 , . . . , Xn sont indépendantes. Supposons en outre que la fonction de répartition
F(x), x ∈ R1 , soit telle que le moment a2k existe,

Z+∞
a2k = EX12k = x2k dF(x). (3.2)
−∞

On sait que dans ce cas tous les moments a j , 1 ≤ j ≤ 2k, existent ainsi que les moments
centraux m j ,

m j = E(X1 − EX1 ) j = E(X1 − a) j , j = 1, 2, .., 2k, (3.3)


où a = a1 = EX1 . Notons aussi

σ2 = Var X1 = m2 = E(X1 − a)2 . (3.4)


Ayant la réalisation x = (x1 , . . . , xn )T de la statistique X = (X1 , X2 , . . . , Xn )T , nous pouvons
construire la fonction

1 n
Fn (x) = Fn (x; x1 , . . . , xn ) = ∑ 1(−∞,x] (xi ), x ∈ R1 , (3.5)
n i=1

dont la valeur Fn (x) en n’importe quel point x, x ∈ R1 , représente la réalisation de la


statistique

169
1 n
Fn (x) = Fn (x; X1 , . . . , Xn ) = ∑ 1(−∞,x] (Xi ), (3.6)
n i=1
calculée au point choisi x.
Par construction, la fonction Fn (x), x ∈ R1 , a toutes les propriétés d’une fonction de
répartition, car elle est croissante de 0 à 1 et continue à droite, et pour cette raison nous
pouvons introduire une vaiable aleatoire, disons X, dont la loi conditionnelle, conditionnée
par X = x, est donnée par la fonction Fn (x), c’est-à-dire

P{X ≤ x|X = x} = P{X ≤ x|X1 = x1 , . . . , Xn = xn } = Fn (x), x ∈ R1 , (3.7)


et par conséquent de (6) et (7) il résulte que

Fn (x) = P{X ≤ x|X}, x ∈ R1 , (3.8)


c’est-à-dire que (8) détermine une fonction de répartition aléatoire, qu’on appelle fonction
de répartition empirique. Par conséquent, la loi conditionelle de la variable aléatoire X,
conditionnée par X, s’appelle la loi empirique. De (5)–(8) il résulte que la loi empirique est
la loi discrète d’après laquelle

1
P{X = Xi |X} = pour tout i = 1, 2, . . . , n, (3.9)
n
c’est-à-dire que la loi empirique affecte le même poids 1/n à chaque élément Xi de l’échan-
tillon X = (X1 , X2 , . . . , Xn )T , et Fn (x) est la fonction de répartition de cette loi. Soit αm le
moment d’ordre m de la loi empirique. Alors de (6), (8) et (9) on déduit

1 n m
αm = E{X m |X} = ∑ Xi ,
n i=1
(3.10)

et, par conséquent, on obtient la moyenne α1 de la loi empirique :

1 n
α1 = E{X|X} = ∑ Xi = X̄n.
n i=1
(3.11)

De même, la variance de la loi empirique s’exprime par la formule

1 n
E{(X − α1 )2 |X} = E{(X − X̄n )2 |X} = α2 − α21 = ∑ (Xi − X̄n)2 = s2n.
n i=1
(3.12)

La loi empirique (9) et sa fonction de répartition Fn (x), x ∈ R1 , jouent un rôle très important
dans la statistique mathématique ; c’est pour cela que nous allons parler un peu plus en détail
de ses propriétés et qualités.
Premièrement, on remarque que pour tout x fixé, x ∈ R1 ,

E1]−∞,x] (Xi ) = P{Xi ≤ x} = F(x), (3.13)


c’est-à-dire que la statistique 1]−∞,x] (Xi ) est un estimateur sans biais de F(x). On remarque
ici que 1]−∞,x] (Xi ) est la fonction de répartition empirique construite avec une seule obser-
vation Xi . Il est facile de vérifier que

170
Var 1]−∞,x] (Xi ) = F(x)[1 − F(x)], (3.14)
car pour tout x fixé la statistique 1]−∞,x] (Xi ) représente la variable aléatoire de Bernoulli de
paramétre p = F(x), puisque
(
P{1]−∞,x] (Xi ) = 1} = P{Xi ≤ x} = F(x) = p,
(3.15)
P{1]−∞,x] (Xi ) = 0} = P{Xi > x} = 1 − F(x) = 1 − p = q.
D’autre part nous avons

1 n 1
Fn (x) = ∑
n i=1
1]−∞,x] (Xi ) = νn (x),
n
(3.16)


n
νn (x) = ∑ 1]−∞,x] (Xi ). (3.17)
i=1
Comme les variables aléatoires X1 , X2 , . . . , Xn sont indépendantes et suivent la même loi
F(x), i.e. P{Xi ≤ x} = F(x), de (13)-(17) il s’ensuit que pour tout x fixé

P{νn (x) = k} = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n, (3.18)


où p = F(x). Comme

Eνn (x) = np = nF(x), Var νn (x) = npq = nF(x)[1 − F(x)], (3.19)


on a
1
EFn (x) = F(x) et Var Fn (x) = F(x)[1 − F(x)]. (3.20)
n
De (20) il déduit que si n → ∞
Var Fn (x) → 0
pour tout x fixé, x ∈ R1 ; par conséquent, de l’inégalité de Tchebyschev, il résulte que pour
tout ε > 0

Var Fn (x) F(x)[1 − F(x)]


P {|Fn (x) − F(x)| ≥ ε} ≤ = → 0, (3.21)
ε2 ε2
quand n → ∞. Ainsi de (20) et (21) résulte le

Théorème 1. Si P{Xi ≤ x} = F(x), alors


(
1) EFn (x) = F(x),
(3.22)
2) P {|Fn (x) − F(x)| > ε} → 0, quand n → ∞,

quel que soit x fixé, x ∈ R1 .

Remarque 1. Le théorème 1 nous dit que {Fn (x)}n∈N est une suite cohérente d’es-
timateurs sans biais de F(x) pour tout x fixé, x ∈ R1 . Cela signifie que si la taille n de

171
l’échantillon X = (X1 , . . . , Xn )T est grande, alors la valeur de la fonction Fn (x) en un point x
la réalisation de la fonction de répartition empirique Fn (x) en ce point, peut-être considérée
comme une bonne approximation de la valeur F(x). Cela veut dire que si F est inconnue,
on pourra supposer que

Fn (x) ∼
= F(x) (3.23)
pour tout x et cette approximation est d’autant meilleure que le nombre n des observations,
c’est-à-dire notre information sur F, est plus grand.

Remarque 2. Du théorème 1 il résulte que

P{X ≤ x} = EP{X ≤ x|X} = EFn (x) = F(x),

c’est-à-dire que la loi déconditionnée de la variable aléatoire X est la même que celle de Xi ,
élément de l’échantillon X,

P{X ≤ x} = P{Xi ≤ x} = F(x).

Le théorème 1 peut-être affiné en considérant la fonction de répartition empirique Fn (x), x ∈


R1 , dans son ensemble et non pas pour chaque x pris séparément. On va s’intéresser au
maximum de l’écart entre Fn (x) et F(x), que l’on notera Dn :

Dn = Dn (X) = sup |Fn (x) − F(x)|. (3.24)


|x|<∞

La statistique Dn s’appelle la statistique de Kolmogorov (1933).

Théorème 2. (Glivenko-Cantelli)
n o
P lim Dn = 0 = 1. (3.25)
n→∞

Le théorème de Glivenko-Cantelli nous dit que la suite {Fn (x)} des fonctions de répar-
tition empiriques converge presque sûrement vers F(x) uniformément par rapport à x quand
n → ∞. La réalisation
Dn = sup |Fn (x) − F(x)|
|x|<∞

de la statistique de Kolmogorov Dn nous donne la déviation maximale observée sur l’axe


réel de la fonction de répartition empirique Fn (x) et de la fonction de répartition F(x) de
la variable aléatoire X1 . Du théorème de Glivenko-Cantelli il résulte que pour tout x, avec
la probabilité 1, cette déviation devient plus petite que tout nombre positif ε arbitrairement
petit, ce qui justifie encore une fois l’approximation (23).

Théorème 3. (Donsker) Si n → ∞, alors


√ L
n(Fn (x) − F(x)) → W (x), x ∈ R1 ,

où W (x) est un processus gaussien, EW (x) ≡ 0, dont la fonction de covariance est

k(x, y) = F(x) ∧ F(y) − F(x)F(y), (x, y) ∈ R1 × R1 .

172
Théorème 4. Si F(x) est continue, alors
Ãr !
2n
P{lim sup sup | Fn (x) − F(x) | = 1} = 1.
n→∞ ln ln n x

Remarque 3. Pour avoir une idée de la conduite de F(x) on construit souvent le graphe
de la fonction Fn (x), réalisation de la fonction de répartition empirique Fn (x). Pour construire
le graphe de Fn (x) on utilise le vecteur

X (·) = (X(1) , . . . , X(n) )T

des statistiques d’ordre, construit à partir de l’échantillon X. Soit x(·) = (x(1) , ..., x(n) )T ,
la réalisation de la statistique X (·) . Comme on le sait le vecteur x(·) s’obtient à partir de
x = (x1 , . . . , xn )T en ordonnant les xi par ordre croissant, c’est-à-dire que l’on a

x(1) ≤ x(2) ≤ . . . ≤ x(n) . (3.26)


De (26) il résulte que les statistiques d’ordre X(1) , X(2) , . . . , X(n) sont liées (avec la probabilité
1) par les inégalités :

X(1) ≤ X(2) ≤ . . . X(n) . (3.27)


Supposons pour l’instant qu’il n’y ait pas d’ex-aequo, ce qui a lieu avec la probabilité 1 si
F n’a pas de saut. En utilisant (26), (27) de (5), (6) et (9) on obtient que

 0 , si x < X(1) ,
i
Fn (x) = , si X(i) ≤ x < X(i+1) , (3.28)
 n
1 , si x ≥ X(n) ,
par conséquent on a

 0, si x < x(1) ,
i
Fn (x) = , si x(i) ≤ x < x(i+1) , (3.29)
 n
1, si x ≥ x(n) .
De (29) on déduit que F(n) (x) a des sauts aux points x(i) . Ces sauts sont égaux à 1/n. Dans
le cas général, F peut avoir des sauts et donc, parmi les x(i) , il peut y avoir des ex-aequo.
Pour construire le graphe de Fn (x), notons


 e1 = x(1) = min{x1 , x2 , . . . , xn },



 e2 = min{x(i) : x(i) > x(1) = e1 },


 ..
.
(3.30)

 e j = min{x(i) : x(i) > e j−1 },

 ..

 .


 e = x = max{x , x , . . . , x }
k (n) 1 2 n

les différentes valeurs prises par les xi . Le nombre k des différentes valeurs

e1 < e2 < . . . < ek , (3.31)

173
prises par x1 , x2 , . . . , xn , peut être strictement inférieur à n s’il y a des ex-aequo. Notons ν j
la fréquence de la valeur e j , j = 1, 2, . . . , k. Il est évident que

ν1 + ν2 + . . . + νk = n.

En utilisant les valeurs observées e1 , e2 , . . . , ek et leurs fréquences ν1 , ν2 , . . . , νk on peut fa-


cilement obtenir une autre représentation de la réalisation Fn (x) de la fonction de répartition
empirique Fn (x) en termes des fréquences ν1 , ν2 , . . . , νk des valeurs e1 , e2 , . . . , ek :


 0, si x < e1 ,
 i
n ∑ ν j , si e j ≤ x < ei+1 ,
1
Fn (x) = (3.32)


 j=1
1, si x ≥ ek .
La fonction Fn (x) est aussi appellé la fonction cumulative, parce que on "accumule" les
fréquences ν1 , ν2 , . . . , νk en partant de la plus petite valeur e1 = x(1) vers la plus grande
ek = x(n) .
On voit que la fonction cumulative Fn (x) est croissante de 0 à 1, qu’elle est continue à
droite et qu’elle a des sauts de hauteurs νi /n en tout point ei , i = 1, 2, . . . , k, tout en restant
constante entre deux valeurs observées ei et ei+1 consécutives.
Remarque 4. (Loi empirique et méthode des moments) Maintenant que nous savons que
la fonction de répartition Fn (x) de la loi empirique est un bon estimateur de la fonction de
répartition F(x) de Xi au sens des théorèmes 1 et 2, il est très naturel de choisir les moments
(10)
1 n
αm = E{X m |X} = ∑ Xim , m = 1, 2, . . . , 2k
n i=1
de la loi empirique (9) comme estimateurs des moments am = EX1m de la loi F. Comme
( )
n
1
Eαm = E {E {X m |X}} = E ∑ Xim = am , m = 1, 2, . . . , 2k, (3.33)
n i=1

on voit que le moment αm de la loi empirique est un estimateur sans biais de am . On re-
marque ici que tous les moments αm , m = 1, 2, . . ., de la loi empirique (9) existent, tandis
que la loi F n’a d’après notre hypothèse (2), que les moments a1 , . . . , a2k . Si nous prenons
m ≤ k, alors nous pouvons calculer la variance de la statistique αm , car
( )
n
1 1
Var αm = Var ∑
n i=1
Xim = Var X1m =
n

1 © 2m ª 1
=EX1 − (EX1m )2 = (a2m − a2m ). (3.34)
n n
De cette formule on déduit que la variance, Var αm , de l’estimateur αm existe si m ≤ k.
De plus on en déduit que Var αm → 0 quand n → ∞, et par conséquent de l’inégalité de
Tchebyschev il résulte que pour tout ε > 0
Var αm a2m − a2m
P {|αm − am | > ε} = P {|αm − Eαm | > ε} ≤ = → 0, (3.35)
ε2 nε2
quand n → ∞. Ainsi de (33) et (35) il résulte que {αm } est une suite consistante (cohérente)
d’estimateurs sans biais de am (m = 1, 2, . . . , k). On peut remarquer que pour estimer la

174
précision de l’estimateur αm du moment am on a eu besoin d’utiliser le moment α2m d’ordre
2m.
Exemple 1. Soient a = EX1 et σ2 = Var X1 et supposons que nous voulions estimer a.
Comme nous l’avons dit, nous pouvons prendre la moyenne
1 n
α1 = ∑ Xi = X̄n
n i=1

de la loi empirique comme estimateur de a = a1 , moyenne de la loi F.


D’après (33) on a
EX̄n = a = EX1
et de (34) on déduit
1 σ2 1
Var X̄n = Var X1 = = (a2 − a2 ),
n n n
et, par conséquent, de (35) on déduit que pour tout ε > 0
σ2
P {|X̄n − a| ≥ ε} ≤ → 0, n → ∞, (3.36)
εn
c’est-à-dire que {X̄n }, n ∈ N, est une suite consistante d’estimateurs sans biais de la moyenne
a de la loi F , si σ2 < ∞.
Remarque 5. (Théorème de Khinchine.) On peut montrer que pour que la suite {X̄n },
n ∈ N, soit cohérente il suffit que EX1 existe.
Example 2. Supposons que nous voulions estimer

σ2 = Var X1 = a2 − a21 = a2 − a2 . (3.37)

Comme nous l’avons dit, nous pouvons prendre la variance


1 n
s2n = ∑ (Xi − X̄n)2 = α2 − α21
n i=1
(3.38)

de la loi empirique comme estimateur de σ2 . De (38) on déduit


£ ¤
Es2n = Eα2 − Eα21 = a2 − Var α1 + a2 =

a2 − a2 σ2 n − 1 2
= a2 − a2 − = σ2 − = σ ,
n n n
i.e. s2n est un estimateur de σ2 qui a un biais bn ,

σ2
bn = E(s2n − σ2 ) = − . (3.39)
n
Si nous prenons la statistique
1 n n 2
Sn2 = ∑
n − 1 i=1
(Xi − X̄n )2 = s
n−1 n
(3.40)

comme estimateur de σ2 , alors on aura un estimateur sans biais de σ2 , car de (40) on déduit :
µ ¶
n 2 n
2
ESn = E sn = Es2 = σ2 . (3.41)
n−1 n−1 n

175
Pour calculer la variance Var s2n de la statistique s2n ,
µ ¶
n − 12 4
Var s2n = E(s2n )2 − (Es2n )2 = E(s2n )2 − σ , (3.42)
n

il nous faut savoir calculer E(s2n )2 . Pour faire cela on remarque que la statistique (Xi − X̄n )2
est invariante par rapport à la moyenne a = EX1 de la loi F. Cela veut dire que si nous
posons Yi = Xi − c (i = 1, 2, . . . , n), où c est un nombre arbitraire et si

1 n
Ȳn = ∑ Yi ,
n i=1

alors on voit que


Yi − Ȳn = Xi − c − (X̄n − c) = Xi − X̄n , (3.43)
donc pour calculer E(s2n )2 nous pouvons admettre que a = EX1 = 0. Dans ce cas m j = a j et
nous pouvons écrire :
à !2
1 n 1 n 1 n
s2n = ∑ (Xi − X̄n )2 = ∑ Xi2 − 2 ∑ Xi =
n i=1 n i=1 n i=1

n−1 n 2 2
= 2 ∑ Xi − ∑ Xi X j , (3.44)
n i=1 n i< j
d’où, comme EX1 = 0 par hypothèse et de l’indépendence de Xi et X j , on déduit
( )
(n − 1)2 4
E(s2n )2 = E
n4 ∑ Xi2 X j2 + 4 ∑ Xi2 X j2 =
n i< j
i< j

(n − 1)2 (n − 1)2 + 2
= m 4 + (n − 1)σ4 . (3.45)
n3 n3
De (42) et (45) il résulte que
µ ¶
(n − 1)2 n−3 4
Var Sn2 = m4 − σ , (3.46)
n3 n−1
et par conséquent, on en déduit que

Var s2n → 0 quand n → ∞.

De (46) il est facile de déduire la variance Var Sn2 de la statistique Sn2 , qui est le meilleur
estimateur sans biais de σ2 (41). On a
µ ¶ µ ¶
n 2 n2 1 n−3 4
2
Var Sn = Var s = 2
Var sn = m4 − σ , (3.47)
n−1 n (n − 1)2 n n−1

et on voit que Var Sn2 tend aussi vers 0 quand n → ∞. Comme pour tout ε > 0

©¯ ¯ ª ©¯ ¯ ª Var Sn2
P ¯Sn2 − σ2 ¯ ≥ ε = P ¯Sn2 − ESn2 ¯ ≥ ε ≤ → 0, (3.48)
ε2

176
quand n → ∞, nous pouvons dire que {Sn2 } est une suite cohérente d’estimateurs sans biais
de la variance σ2 de la loi F(x). On remarque ici, que de (47) on déduit

Var s2n < Var Sn2 ,

i.e. le risque quadratique de s2n est plus petit de celui de Sn2 , mais l’estimateur s2n a le biais
bn = −σ2 /n.
Nous avons montré (35) que le moment

1 n m
αm = ∑ Xi
n i=1

d’ordre m (m = 1, 2, . . . , k) de la loi empirique est un bon estimateur du moment


Z∞
am = EX1m = xm dF(x),
−∞

de la loi F(x) en ce sens que

1
Eαm = am et Var αm = (a2m − a2m ) → 0, quand n → ∞.
n
Que pouvons nous dire de plus ? La statistique

1 n m
αm = ∑ Xi , m = 1, . . . , k,
n i=1

est la somme des variables indépendantes X1m , ..., Xnm , puisque les variables aléatoires X1 , . . . , Xn
sont indépendantes et que de plus elles suivent la même loi. En outre, nous savons que la
variance
Var Xim = a2m − a2m
existe pour tout m = 1, 2, . . . , k. Par conséquent du théorème central limite il résulte que
½ ¾ ( )
αm − am √ αm − am
P √ =P np < x → Φ(x) quand n → ∞, (3.49)
Var αm a2m − a2m

c’est-à-dire que la suite {αm }m∈N∗ est asymptotiquement normalement distribuée de para-
mètres am et (a2m − a2m )/n, ce que nous écrivons de la manière suivante :
µ ¶
a2m − a2m
αm est AN am , , (3.50)
n

ou la suivante :
√ αm − am
np est AN(0, 1). (3.51)
a2m − a2m
D’après (35) nous savons que si n → ∞ alors pour tout ε > 0

P {|αm − am | ≥ ε} → 0. (3.52)

177
En utilisant l’approximation normale (49) nous pouvons estimer la probabilité de l’événe-
ment {|αm − am | ≥ ε}. On a
½ ¾
|αm − am | ε
P {|αm − am | ≥ ε} = P √ ≥√ . (3.53)
Var αm Var αm
Si n est assez grand alors de (49) et (53) il résulte que
( √ )
ε n
P {|αm − am | ≥ ε} ≈ 2Φ − p , (3.54)
a2m − a2m

Zx
1 2 /2
Φ(x) = √ e−y dy

−∞
est la fonction de répartition de la loi normale N(0, 1), qui satisfait l’identité suivante :
Φ(x) + Φ(−x) ≡ 1, |x| < ∞. (3.55)
Notons ici, que si Z est une variable aléatoire qui suit la loi normale N(0, 1),
P{Z ≤ x} = Φ(x), x ∈ R1 ,
alors de (55) il résulte que
P{|Z| ≤ x} = 2Φ(x) − 1, (3.56)
ce qui a déjà été utilisé pour obtenir (54) à partir de (49). Ainsi, de (53)-(56) il résulte que
( √ ) ( √ )
ε n ε n
P {|αm − am | ≤ ε} ≈ 1 − 2Φ − p = 2Φ p − 1, (3.57)
a2m − a2m a2m − a2m
i.e. pour tout ε > 0 on a
( √ )
ε n
P {αm − ε ≤ am ≤ αm + ε} ≈ 2Φ p − 1, (3.58)
a2m − a2m
quand n est assez grand.
Nous devons constater que nous ne pouvons pas utiliser (58) directement pour savoir
avec quelle probabilité l’intervalle
[αm − ε; αm + ε] (3.59)
"couvre" la valeur inconnue de am , ou, comme on dit, avec quelle probabilité am appartient
à l’intervalle [αm − ε; αm + ε], que l’on appelle un intervalle de confiance. Pour avoir la
possibilité d’utiliser (58) pour estimer
P {am ∈ [αm − ε; αm + ε]}
nous devons substituer aux paramètres inconus a2m et a2m dans la partie droite de (58) leurs
estimateurs α2m et α2m et de cette manière nous aurons pour n assez grand la relation sui-
vante : ( √ )
ε n
P {αm − ε ≤ am ≤ αm + ε} ≈ 2Φ p (3.60)
α2m − α2m

178
Maintenant nous allons utiliser l’approximation (60) pour construire l’intervalle de confiance
(59) tel que
P {am ∈ [αm − ε; αm + ε]} ≈ P = 1 − α, (3.61)
où la probabilité P = 1 − α, appelée le coefficient de confiance, est choisie d’avance, 0.5 <
P < 1, 0 < α < 0.5. Ayant choisi un coefficient de confiance P = 1 − α, il nous faut résoudre
l’équation ( )

ε n
2Φ p −1 = P = 1−α (3.62)
α2m − α2m
pour trouver ε qui satisfait à (61).
Soit α une probabilité telle que 0 < α < 0.5. Notons z+ α et zα les quantiles de seuils α

et 1 − α respectivement, c’est-à-dire que z+ −


α et zα satisfont aux relations :

Φ(z−
α ) = α et Φ(z+
α ) = 1 − α, 0 < α < 0.5.

De (55) il résulte que z+ −


α = −zα . En utilisant les notations de (62) on a
( √ )
ε n 1+P α
Φ p = = 1− (3.63)
α2m − α2m 2 2

d’où l’on obtient √ ³


+ ε n α´
=p
xα/2 = Φ−1 1 − (3.64)
α2m − α2m 2
et par conséquent on trouve que
q q
xP 1 +
ε= √ α2m − αm = √ xα/2 α2m − α2m .
2 (3.65)
n n
De (60)–(62) et (65) il résulte que
( r r )
+ α2m − α2m + α2m − α2m
P αm − xα/2 ≤ am ≤ αm + xα/2 ≈ P = 1 − α. (3.66)
n n

Nous voyons qu’en utilisant les moments α2m et αm de la loi empirique, et le fait qu’ils
sont asymptotiquement normalement distribués, nous sommes parvenus à construire pour
le moment am un intervalle de confiance (αm −ε; αm +ε) dont le coefficient de confiance est
approximativement égal à P = 1 − α. Dans la table 1 ci-dessous nous donnons les valeurs
+
de P = 1 − α les plus répandues dans la pratique et les valeurs xα/2 correspondantes, ce qui
permet facilement de calculer ε en utilisant la formule (65).
P = 1−α 0.90 0.95 0.99 0.995
+
xα/2 1.644854 1.959964 2.575829 2.807034 (3.67)

Table 1.
Exemple 3. Soit m = 1, c’est-à-dire que nous estimons la moyenne a = EX1 de la loi F(x).
Nous savons, d’après l’exemple 1, que α1 = X̄n , moyenne de la loi empirique, est un esti-
mateur sans biais de a, en outre, nous savons d’après (36) que
P {|X̄n − a| ≥ ε} → 0. (3.68)

179
Maintenant, en utilisant (57), nous obtenons que
à ! µ √ ¶
ε ε n
P {|X̄n − a| ≤ ε} ≈ 2Φ p − 1 = 2Φ − 1, (3.69)
Var X̄n σ

car
σ2
Var X̄n = , où σ2 = Var X1 = a2 − a21 = a2 − a2 .
n

Dans (69) nous pouvons,p en utilisant l’exemple 2, estimer le paramètre inconnu σ = σ2
par la statistique Sn = Sn2 , sachant que ESn = σ . Dans ce cas, de (69) il résulte que
2 2

µ √ ¶
ε n
P {|X̄n − a| ≤ ε} ≈ 2Φ −1 (3.70)
Sn
et par conséquent on obtient un analogue de (66)
½ ¾
+ Sn + Sn
P X̄n − xα/2 √ ≤ a ≤ X̄n + xα/2 √ ≈ P = 1 − α, (3.71)
n n
+
en choisissant dans (67) le coefficient de confiance P = 1 − α et le quantile xα/2 de la loi
normale N(0, 1). Il est évident que dans (71) on aurait pu utiliser la statistique sn comme
estimateur de σ au lieu de Sn , où s2n est la variance de la loi empirique.

3.2 Médiane de la loi empirique.

1. Soit X = (X1 , . . . , Xn )T un échantillon et Xi suit une loi de fonction de répartition

F(x) = P(Xi < x).

Notons X (·) = (X(1) , . . . , X(n) )T le vecteur des statistiques d’ordre associé au vecteur X. Par
définition, la médiane de la loi empirique est la statistique
½
X¡ , ¢ si n = 2k + 1,
µn = 1 (k+1)
2 X(k) + X(k+1) , si n = 2k.

On sait que si n est impair, n = 2k + 1, alors

P{µ2k+1 < x} = IF(x) (k + 1, k + 1), (3.1)

et on obtient
"µ ¶s #
1 2k + 2
P {µ2k+1 < x} = S2k+2 F(x) − , (3.2)
2 F(x)[1 − F(x)]

où S f (x) est la fonction de la répartittion de la loi de Student à f degrés de liberté. Dans le


cas où n est un nombre pair, n = 2k, la distribution de la statistique µ2k est beaucoup plus

180
compliquée. On remarque que d’habituellement, dans la pratique, lorsque n est assez grand,
on utilise le fait que µ ¶
¡√ ¢ 1
L n(µn − µ) → N 0, 2 , (3.3)
4 f (µ)
ou plus précisément :
µ ¶
© √ ª 1
P 2 n f (µ)(µn − µ) < y = Φ(y) + O √ ,
n
où µ est la médiane de la loi F(x), F(µ) = 0.5, et f (x) est la densité de cette loi, c’est-à-dire
que f (x) = F 0 (x). La précision de cette approximation normale n’est pas très bonne quand
n n’est pas assez grand. Par ailleurs, il est très naturel de s’attendre à ce que la distribution
de la statistique µ2k+1 soit plus proche de la distribution de la statistique µ2k , et justement
Bolshev (1963) a utilisé ce fait pour construire une approximation qui est meilleure que
l’approximation normale (3).
Soit n √ o
Fn (x) = P µn < x 2πt , (3.4)
où t = 1/(8[n/2] + 5). Bolshev (1963) a démontré que

F2k (x) − F2k+1 (x) = −8(π − 2)xϕ(x)t 2 + O(t 3 ), (3.5)

et
3x − (2π − 6)x3
F2k+1 (x) = Φ(x) + ϕ(x) t + O(t 2 ), (3.6)
6
d’où l’on peut déduire que la statistique
" Ã µ ¶2 !#
µn 1 µn
Yn = √ 1+ 3 − (2π − 6) √
2πt σ 2πt

est asymptotiquement normale de paramètres 0 et 1,

P {Yn < y} = Φ(y) + O(t 2 ).

Notons µn (P) le P-quantile (le quantile de niveau P) de la distribution de la statistique µn :

P {µn < µn (P)} = P.

Dans ce cas de (6) on déduit que

µ2k (P) = µ2k+1 (P)[1 + 8(π − 2)t 2 ] + O(t 2 )

donc
µ2k (P) ∼
= µ∗2k (P), (3.7)

µ∗2k (P) = µ2k+1 (P)[1 + 8(π − 2)t 2 ].
La formule (7) donne une bonne approximation, même pour les petites valeurs de n. Par
exemple si k = 1, alors la différence

D = P {µ2 < µ∗2 (P)} − P

181
prend les valeurs suivantes

−0.0001, −0.0002, 0.0000, 0.0004, 0.0012, 0.0011, 0.0000,

correspondant aux valeurs de P

0.0014, 0.0064, 0.0228, 0.0664, 0.1575, 0.3074, 0.5000.

2. Soit X = (X1 , . . . , Xn )T un échantillon, dont la fonction de la répartition F(x) appar-


tient à une famille F = (F) de fonctions de répartition continues. Comme précédemment,
on note f (x) la densité de F(x) :
Zx
F(x) = f (t) dt.
−∞

Dans ce cas, si µ = µ(F) est la médiane de la distribution, dont la fonction de répartition est
F(x), alors
µ(F)
Z
f (x) dx = F(µ(F)) = 0.5,
−∞
i.e.
P {Xi < µ(F)} = P {Xi ≥ µ(F)} = 0.5.
Notre but est de construire un intervalle de confiance pour µ(F).
Soit X (·) = (X(1) , . . . , X(n) )T le vecteur des statistiques d’ordre, construit en utilisant
l’échantillon X. Dans ce cas avec la probabilité 1

X(1) < X(2) < . . . < X(n) .

Comme intervalle de confiance, on peut choisir

(X(i) , X( j) ), i < j.

Il est très naturel de choisir cet intervalle symétrique en posant j = n − i − 1, puisque nous
nous sommes intéressés à l’obtention de conclusions statistiques qui sont indépendantes de
la distribution inconnue F. De la définition des statistiques d’ordre X(1) , ..., X(n) il s’ensuit
que © ª
P X(i) < µ(F) < X( j) |F =
© ª © ª
= 1 − P X(i) ≥ µ(F)|F − P X( j) ≤ µ(F)|F =
© ª © ª
= 1 − P F(X(i) ) ≥ F(µ(F))|F − P F(X( j) ) ≤ F(µ(F))|F =
= 1 − P(U(i) ≥ 0.5) − P(U( j) ≤ 0.5) =
i−1 µ ¶ µ ¶n n µ ¶ µ ¶n
n 1 n 1
= 1− ∑ −∑ ,
m=0
m 2 m= j
m 2
et on voit bien que cette probabilité ne dépend pas de F, c’est-à-dire qu’on a obtenu une
statistique "libre" comme on l’avait voulu. On note ici que comme d’habitude

U (·) = (U(1) , ...,U(n) )T

182
représente le vecteur des statistiques d’ordre associé à l’échantillon U = (U1 , ...,Un )T de la
loi uniforme sur (0,1).
Maintenant, considérons l’intervalle de confiance "symétrique", i.e. j = n − i + 1. Dans
ce cas on a
© ª i−1 µ ¶ µ ¶n
n 1
P X(i) < µ(F) < X(n−i+1) |F = 1 − 2 ∑ ,
m=0
m 2
car µ ¶ µ ¶n µ ¶ µ ¶n i−1 µ ¶ µ ¶n
n n
n 1 n 1 n 1
∑ m 2
= ∑
m 2
= ∑
m 2
.
m= j m=n−i+1 m=0

Donc quand n est grand, du Théorème de de Moivre-Laplace on déduit que


µ ¶
© ª i − 1 − n
+ 0.5
P X(i) < µ(F) < X(n−i+1) |F ∼ = 1 − 2Φ √2
=
0.5 n
µ ¶ µ ¶
2i − n − 1 n + 1 − 2i
= 1 − 2Φ √ = 2Φ √ − 1. (3.8)
n n
Comment trouver le numéro i dans (8) quand le coefficient de confiance P est donné
d’avance ? Pour cela il faut résoudre l’équation
µ ¶
n + 1 − 2i
2Φ √ −1 = P (3.9)
n

par rapport à i (on remarque que 0.5 < P < 1), d’où l’on obtient
µ ¶
n + 1 − 2i 1+P
√ =Ψ ,
n 2

où Ψ(z) = Φ−1 (z), et donc


· ½ µ ¶¾ ¸
√ 1+P
i = 0.5 n + 1 − nΨ +1 ,
2

où [a] dans la dernière formule est la partie entière du nombre a.

3.3 Théorème de Kolmogorov.



A.Kolmogorov (1933) a trouvé la distribution limite (n → ∞) de la statistique nDn
lorsque F(x) est une fonction continue.
Theoreme (de Kolmogorov). Si F(x) est continue, alors pour z > 0

©√ ª +∞

n→∞
lim P nDn ≤ z = K(z) = ∑ (−1) j exp(−2 j2 z2 ). (3.1)
j=−∞

On dit que K(z) est la fonction de répartition de Kolmogorov. Il y a des tables sta-
tistique (voir, par exemple, Smirnov (1939), Birnbaum (1952), Bolshev et Smirnov (1968),
Conover (1980)) des valeurs de la fonction de Kolmogorov K(z), mais en pratique pour

183
faire des calculs approximatifs, quand z > 2.5, on utilise souvent une simple approximation
évidente :
K(z) ∼
2
= 1 − 2e−2z .
Soit P un nombre fixé, 0.5 < P < 1, et soit zP le quantile de niveau P de la fonction de la
répartition de Kolmogorov, c’est-à-dire zP est la racine de l’équation K(z) = P :

K(zP ) = P.

Dans ce cas de (1) on tire que ©√ ª


P nDn ≤ zP =
½ ¾
1 1
= P Fn (x) − √ zP ≤ F(x) ≤ Fn (x) + √ zP → K(zP ) = P, (3.2)
n n
quand n → ∞. C’est-à-dire que si n est grand, alors avec la probabilité ∼
= P les valeurs F(x)
pour tout x satisfont les équations
1 1
Fn (x) − √ zP ≤ F(x) ≤ Fn (x) + √ zP . (3.3)
n n

Comme 0 ≤ F(x) ≤ 1, la dernière relation peut être s’écrire :


µ ¶ µ ¶
1 1
max 0, Fn (x) − √ zP ≤ F(x) ≤ min Fn (x) + √ zP , 1 .
n n

3.3.1 Transformation de Smirnov. Test de type de Kolmogorov-Smirnov


pour des lois discrètes.

Transformation de Smirnov pour une distribution continue. Soit X une variable


aléatoire dont la fonction de répartition F(x) = P{X ≤ x} est continue et croissante. Dans
ce cas, la statistique U = F(X) suit une loi uniforme sur [0, 1]. Pour prouver cette affirmation
on remarque tout d’abord que

P{U ≤ u} = 0 pour tout u≤0

et que
P{U ≤ u} = 1 pour tout u ≥ 1.
Soit u un nombre réel quelconque, 0 < u < 1. Dans ce cas comme F(x) est continue et
croissante on obtient
© ª © ª
P{U ≤ u} = P F −1 (U) ≤ F −1 (u) = P X ≤ F −1 (u) =

= F(F −1 (u)) = u, 0 < u < 1.


Transformation de Smirnov pour une distribution arbitraire. Soit X une variable
aléatoire quelconque et soit

F(x) = P{X ≤ x} et F− (x) = P{X < x}.

184
Il est évident que si X est une variable aléatoire continue

F(x) = F− (x).

Alors on peut démontrer (voir §V.1), que

P{F(X) ≤ z} ≤ z ≤ P{F− (X) < z}

pour tout z ∈ [0, 1].


Colloraire 1. Si la distribution de X est continue, dans ce cas

P{F(X) ≤ z} = P{F(X) < z} = z, z ∈ [0, 1].

Colloraire 2. Soit U une variable aléatoire qui suit la loi uniforme sur [0,1] et qui est
indépendante de X. Dans ce cas la statistique

Z = F− (X) +U [F(X) − F− (X)]

suit la loi uniforme sur [0,1],


P{Z ≤ z} = z
pour tout les z ∈ [0, 1].
Colloraire 3. Soient X1 , X2 , . . . , Xn des variables aléatoires indépendantes dont les fonctions
de répartition sont connues :

Fi (x) = P{Xi ≤ x}, Fi− (x) = P{Xi < x}, i = 1, 2, . . . , n.

De plus, soient U1 ,U2 , . . . ,Un des variables aléatoires indépendantes, qui suivent la même
loi uniforme sur [0,1] et qui sont indépendantes de X1 , X2 , . . . , Xn . Dans ce cas, d’après de
colloraire 2, les statistiques Z1 , Z2 , . . . , Zn , où

Zi = Fi− (Xi ) +Ui [Fi (Xi ) − Fi− (Xi )] ,

sont indépendantes et uniformément distribuées sur [0,1].


Le colloraire 3 nous donne la posibilité de construire les tests non paramétriques de Kol-
mogorov, de Smirnov, d’omega-carré de Von Mises etc., dans les situations où les données
X1 , X2 , . . . , Xn sont indépendantes et suivent des lois continues ou discrètes.

Applications statistiques.
Soient X1 , X2 , . . . , Xm des variables aléatoires indépendantes et nous avons à tester l’hy-
pothèse H0 selon laquelle
ni !
P {Xi = k} = pk (1 − pi )ni −k , i = 1, 2, . . . , m,
(ni − k)!k! i
où tout les pi et n1 , n2 , . . . , nm sont connus, 0 < pi < 1 ; k = 0, 1, . . . , ni . C’est-à-dire que, si
H0 est vrai, alors Xi suit une loi binomiale B(ni , pi ( de paramètres ni et pi , et donc

Fi (x) = P{Xi ≤ x} = I1−pi (ni − x, x + 1), x = 0, 1, . . . , ni ,

et
Fi− (x) = P{Xi < x} = P{Xi ≤ x − 1} = I1−pi (ni − x + 1, x),

185
où Ix (a, b) définie ci-dessous est la fonction béta-incomplète d’Euler, et par conséquent pour
appliquer le test de Kolmogorov, par exemple, pour tester H0 il ne reste qu’à construire
d’après le colloraire 3 les statistiques

Zi = I1−pi (ni − Xi + 1, Xi ) +Ui [I1−pi (ni − Xi , Xi + 1) − I1−pi (ni − Xi + 1, Xi )] ,

i = 1, 2, . . . , m.

Plus de détails on peut trouver dans Nikulin (1992), Huber et Nikulin (1993), Green-
wood et Nikulin (1996).
Récemment M.Hocine a fait les études intéressantes sur le comportement de ce test et
du test de type de omega-carré basées sur cette transformation de Smirnov.

3.4 Tests de Kolmogorov et Smirnov pour un échantillon.

Si la fonction de répartition de X1 est inconnue mais qu’on a fait l’hypothèse H0 , d’après


laquelle
P {X1 ≤ x} = F(x),
où F(x) est une fonction de répartition continue donnée, alors nous pouvons tester H0 , en
utilisant le théorème de Kolmogorov. Symboliquement l’hypothèse H0 peut être présentée
par la façon suivante :
H0 : EFn (x) ≡ F(x).
On détermine la statistique de Kolmogorov

Dn = sup |Fn (x) − F(x)|,


|x|<∞

qui est désignée pour tester H0 contre l’hypothèse bilatérale

H1 : sup |EFn (x) − F(x)| > 0,


|x|<∞

et on considère en outre, les statistiques de Smirnov

D+
n = sup (Fn (x) − F(x)) et Dn− = − inf (Fn (x) − F(x)) ,
|x|<∞ |x|<∞

qui sont utilisées pour tester H0 contre les alternatives unilatérales

H1+ : sup (EFn (x) − F(x))


|x|<∞

et
H1− : − inf (EFn (x) − F(x))
|x|<∞

186
respectivement.
Il est clair que Dn = max(D+ −
n , Dn ). En utilisant la transformation de Smirnov, on peut
montrer que
³m ´ µ ¶
+ − m−1
Dn = max − F(X(m) ) et Dn = max F(X(m) ) − . (3.1)
1≤m≤n n 1≤m≤n n
Il est clair aussi, que si H0 est vraie, alors
© ª © − ª
P D+ n ≤ x|H0 = P Dn ≤ x|H0 , (3.2)

c’est-à-dire que, D+ −
n et Dn suivent la même loi, quand H0 est vraie.
Comme a montré Smirnov (1944), pour tout x ∈ (0, 1)
µ ¶ µ ¶ µ ¶
© + ª [n(1−x)] n k k−1 k n−k
P Dn ≥ x|H0 = ∑ x x+ 1−x− , (3.3)
k=0
k n n

[a] - partie entière de a.


On peut montrer (Kolmogorov (1933), Smirnov (1944), Chernoff and Savage (1958),
Bolshev (1963), Huber, Nikulin (1993)), que si n → ∞ et x appartient au domaine
n o
x : 0 < ε ≤ x = O(n1/3 ) ,

alors
½ ¾ µ ¶
(6nD+n + 1)
2 ¡ −x
¢ 2x2 − 4x − 1 −x 1
P < x|H0 = 1−e + e +O √ , (3.4)
18n 18n n n
et ½ ¾
(6nDn + 1)2
P < x|H0 =
18n
µr ¶ µ ¶
x 1 ∞ £ ¤ 1
=K
2
− ∑ (−1) e
18 k=−∞
k −k2 x 4 2
Pk (x) + 2k x − k + O √ ,
n n
(3.5)

où · ¸
2 1 − (−1)k
Pk (x) = k − (1 − 2k2 x) + 2k2 x(k2 x − 3) =
2
£ ¤ (−1)k − 1
= k2 2k2 x2 − 2x(k2 + 3) + 1 + (1 − 2k2 x).
2
Comme χ22m = 2γm et

P{γ1 ≤ x} = 1 − e−x , pour tout x > 0,

de (4) et de (5) on déduit que pour les grandes valeurs de n la statistique


(6nD+
n + 1)
2

9n
est approximativement distribuée comme χ22 et que
½ ¾ µr ¶
(6nDn + 1)2 x
P <x ≈K .
18n 2

187
Ces deux approximations sont déja bonnes pour n ≥ 20, les erreurs de ces approximations
diminuent comme n1 .
Soit α le niveau du test de Kolmogorov (0 < α < 0.5), basé sur la statistique Dn , et
soient xα+ et xα , les valeurs critiques des tests basés sur D+
n et Dn , i.e.
© + ª
P Dn ≥ xα+ = α et P {Dn ≥ xα } = α.

D’après le test de Kolmogorov


on rejette H0 en faveur de l’hypothèse H1 si Dn ≥ xα .
De la même façon, d’après le test de Smirnov
on rejette H1 en faveur de l’hypothèse H1+ si D+n ≥ xα .
On remarque que pour les petites valeurs de α (0 < α ≤ 0.2) il y a une liaison entre les
+
valeurs critiques xα et xα/2 :
xα ∼ +
= xα/2 ,
et l’erreur dans cette égalité est inférieure à 0.0005 :
+
|xα − xα/2 | ≤ 0.0005.

On peut montrer que cette erreur diminue très vite quand α diminue. Par exemple, si α ≤ 0.1
, alors
+
|xα − xα/2 | ≤ 0.00005.
+
Si n ≥ 10 et 0.01 ≤ α ≤ 0.2, pour calculer xα et xα/2 il est recommandé d’utiliser les
approximations de Bolshev (1963) :
s µ ¶
1 2y 2 − 4y − 1 α
xα ∼
= y− , y = − ln
2n 18n 2
s µ ¶
+∼ 1 2y2 − 4y − 1
xα = y− , y = − ln α.
2n 18n
On peut remarquer que si n est assez grand, alors
s µ ¶ r
1 2y2 − 4y − 1 ∼ y
y− = .
2n 18n 2n

Dans la pratique ces formules donnent déjà de bons résultats dans le cas α > 0.001 pour
n ≥ 20.
Enfin, si
0.2 ≤ α ≤ 0.3 et 10 ≤ n ≤ 50,
alors en prenant pour y la racine de l’équation
µr ¶
y
K = 1 − α,
2
on obtient encore une approximation de Bolshev (1963)
s ½ ¾
1 1 1
xα ∼
= y− [(2y2 − 4y − 1) − α3 (3y2 − y + 0.5)] − .
2n 18n 6n

188
Dans le cas n ≥ 100 toutes ces approximations sont très bonnes pour calculer xα et xα+ pour
tout α tel que 0.0001 ≤ α ≤ 0.5.

3.5 Test de Kolmogorov-Smirnov pour deux échantillons.

Soient X = (X1 , . . . , Xn )T et Y = (Y1 , . . . ,Ym )T deux échantillons indépendants, et soit

F(x) = P{Xi < x} et G = P{Y j < y}

les fonctions de répartition continues de Xi et Y j respectivement. Nous pouvons construire


deux lois empiriques, qui correspondent aux deux échantillons donnés X et Y. Notons Fn (x)
et Gm (x) les fonctions de répartition de ces lois empiriques.
On utilise le test de Kolmogorov-Smirnov pour tester l’hypothèse

H0 : F(x) ≡ G(x), x ∈ R1 ,

qui peut s’écrire en fonction de Fn et Gm de la façon suivante :

H0 : EFn (x) ≡ EGm (x),

contre l’hypothèse bilatérale

H1 : sup |EGm (x) − EFn (x)| > 0,


|x|<∞

ou contre l’une de deux hypothèses unilatérales :

H1+ : sup (EGm (x) − EFn (x)) > 0


|x|<∞

ou
H1− : − inf (EGm (x) − EFn (x)) > 0
|x|<∞

respectivement. Pour tester H0 contre H1 on peut utiliser la statistique

Dm,n = sup |Gm (x) − Fn (x)|, (3.1)


|x|<∞

où Gm (x) et Fn (x) sont les fonctions empiriques, associées à Y et X.


Si on teste H0 contre H1+ où H1− , on utilise les statistiques

D+
m,n = sup (Gm (x) − Fn (x)) et D−
m,n = − inf (Gm (x) − Fn (x)) . (3.2)
|x|<∞ |x|<∞

Smirnov a montré (1939) que si l’hypothèse H0 est vraie, alors les statistiques D+ +
m,n , Dn,m ,
− −
Dm,n , Dn,m suivent la même loi. En pratique les valeurs des statistiques (1) et (2) sont cal-
culées d’après les formules suivantes :
³r ´ µ ¶
+ s−1
Dm,n = max − Fn (Y(r) ) = max Gm (X(s) ) − ,
1≤r≤m m 1≤s≤n n

189
µ ¶ ³s ´
r−1
D−
m,n = max Fn (Y(r) ) − = max − Gm (X(s) ) ,
1≤r≤m m 1≤s≤n n
Dm,n = max(D+ −
m,n , Dm,n ),

où X(i) et Y( j) sont les statistiques d’ordre, correspondant aux échantillons. On peut obtenir
ces formules en utilisant la transformation de Smirnov et les propriétés des statistiques
d’ordre de la loi uniforme sur [0, 1]. Smirnov (1939) a montré, que si min(m, n) → ∞, alors
pour tout y positif ½r ¾
mn + 2
lim P Dm,n < y|H0 = 1 − e−2y ,
m+n
½r ¾
mn
lim P Dm,n < y|H0 = K(y),
m+n
où K(z) est la fonction de Kolmogorov.

3.6 Test ω2 de Cramer-von Mises et statistiques associées


de Lehmann, Gini, Downton, Moran-Greenwood et Sher-
man.

Souvent pour tester l’hypothèse simple

H0 : EFn (x) ≡ F(x), |x| < ∞,

contre l’alternative
H1 : sup |EFn (x) − F(x)| > 0,
|x|<∞

au lieu d’utiliser le test de Kolmogorov, on construit le test ω2 de Cramer et Von Mises,


fondé sur la statistique
Z∞
ω2
= ω2n =n [Fn (x) − F(x)]2 dF(x).
−∞

La statistique ω2 est aussi très intéressante à cause de ses liaisons avec d’autres statistiques,
bien connues en statistique, par exemple, avec la statistique Ln de Lehmann, la statistique
G de Gini, la statistique "σ" de Downton, la statistique Mn de Moran et Greenwood (pour
plus de détails voir, par exemple, Kendall et Stewart, Cramer, Mises). Pour démontrer ces
propriétés de la statistique ω2 , on peut l’écrire sous une autre forme, beaucoup plus pratique
dans les applications :
n · ¸
2i − 1 2 1
ω = ∑ F(X(i) ) −
2
+ ,
i=1 2n 12n

où X(·) = (X(1) , X(2) , . . . , X(n) )T est le vecteur des statistiques d’ordre, associé à l’échantillon
X.

190
En fait, on a
X(i+1)· ¸2
Z∞ n Z
i
ω2n =n [Fn (x) − F(x)] dF(x) = n ∑
2
− F(x) dF(x) =
i=0 X n
−∞ (i)

X(i+1)
Z · ¸ · ¸ · ¸
n n i 3 n n i 3 i 3
= ∑ d F(x) − = ∑ F(X(i+1) ) − − F(X(i) ) − .
3 i=0 n 3 i=0 n n
X(i)

On suppose que :
© ª © ª
P F(X(n+1) ) = 1 = 1 et P F(X(0) ) = 0 = 0.

Comme
i i+1 1
F(x) − = F(x) − +
n n n
alors · ¸ · ¸ · ¸
i 3 i+1 3 3 i+1 2
F(X(i+1) ) − = F(X(i+1) ) − + F(X(i+1) ) − +
n n n n
· ¸
3 i+1 1
+ 2 F(X(i+1) ) − + 3,
n n n
on en déduit que
(
n+1 · ¸3 · ¸
n i 3 n+1 i 2
ω2n =
3 ∑ F(X(i) ) −
n
+ ∑ F(X(i) ) −
n i=1 n
+
i=1

· ¸ · ¸ )
3 n+1 i n+1 n i 3
+ 2 ∑ F(X(i) ) − + 3 ∑ F(X(i) ) − =
n i=1 n n i=1 n
(µ ¶ · ¸ µ ¶
n n+1 3 3 n i 2 3 n+1 2
= 1− + ∑ F(X(i) ) − + 1− +
3 n n i=1 n n n
· ¸ µ ¶ )
3 n i 2 3 n+1 n+1
+ ∑ F(X(i) ) − + 2 1− + 3 =
n i=1 n n n n
( (· ¸ · ¸ ) )
n 1 3 n i 2 1 i 1 1
= + ∑ F(X(i) ) − + F(X(i) ) − + 2 − 2 =
3 n2 n i=1 n n n 4n 4n
( · ¸ )
n 3 n 2i − 1 2 1
=
3 n i=1∑ F(X(i) ) −
2n
+ 2 =
4n
n · ¸
2i − 1 2 1
= ∑ F(X(i) ) − + .
i=1 2n 12n
Donc si les éléments Xi de l’échantillon X sont des variables continues, des propriétés de la
transformation de Smirnov il suit que la statistique U = (U1 , . . . ,Un )T , Ui = F(Xi ), repré-
sente un échantillon, où Ui suit la loi uniforme sur [0, 1]. Si nous notons U(·) = (U(1) ,U(2) , . . . ,U(n) )T

191
le vecteur des statistiques d’ordre, associé à la statistique U, alors en fonction de U(·) la sta-
tistique ω2 peut être présentée de façon suivante :
n · ¸
2i − 1 2 1
ω = ∑ U(i) −
2
+ .
i=1 2n 12n

Cette présentation de la statistique ω2 montre bien que sa distribution ne dépend pas de


F(x) si H0 est vraie. Il y a des tables statistiques de la loi limite (n → ∞) de la statistique
ω2 , qui a été étudiée par Smirnov (1944) et T.W.Anderson et D.A.Darling (1952).
Nous allons considérer maintenant une modification Ω2n de la statistique ω2n , qui d’un
côté est très liée avec les statistiques Ln de Lehmann, G de Gini, "σ" de Downton et Mn de
Moran et Greenwood, et d’un autre côté a une distribution asymptotique très simple sous
l’hypothèse H0 , quand n → ∞, voir, par exemple, Greenwood & Nikulin (1996).
Soit Σ −1 la matrice inverse de la matrice de covariance Σ du vecteur U(·) . On peut
facilement vérifier que
Σ−1 = kσi j k,
où 
 2(n + 1)(n + 2), si i = j,
σi j = −(n + 1)(n + 2), si |i − j| = 1,

0, si |i − j| ≥ 2.
Notons Ω2n la statistique
h iT h i
Ω2n = U(·) − EU(·) Σ−1 U(·) − EU(·) ,

que l’on peut écrire :


" #
n n−1
n
Ω2n = 2(n + 1)(n + 2) ∑ U(i)
2
− ∑ U(i)U(i+1) −U(n) + .
i=1 i=1 2(n + 1)

Nous savons que


· ¸T
(·) 1 2 n
EU = , ,...,
n+1 n+1 n+1
et que la matrice de covariance de U(·) est
³ ´³ ´T
E U(·) − EU(·) U(·) − EU(·) = Σ = kσi j k,



 i(n − j − 1)
µ ¶µ ¶  (n + 1)2 (n + 2) , si i ≤ j,

i j
σi j = σ ji = E U(i) − U( j) − =
n+1 n+1 
 j(n − i + 1)

 , si i ≥ j,
(n + 1)2 (n + 2)

En utilisant ces propriétés de la statistique U(·) , on peut montrer que


1 4n − 3
Eω2 = et Varω2 = ,
6 180

192
et qu’on a la représentation suivante pour la statistique ω2 :
1
ω2 = Ln + Ψn + ,
6(n + 1)
où µ ¶2
n
i ³ ´T ³ ´
Ln = ∑ U(i) − = U − EU(·) (·)
U − EU (·)
(·)
i=1 n+1
est la statistique de Lehmann (1973), Ψn étant une combinaison linéaire des statistiques
d’ordre : µ ¶
n
n − 2i + 1 i
Ψn = ∑ U(i) − .
i=1 n(n + 1) n+1
Par des calculs directs, on peut montrer (voir, par exemple, Nikulin et Osidze (1985)), que

n n2
ELn = , VarLn = ,
6(n + 1) 45(n + 1)2

(n − 1)(n + 3)
EΨn = 0, VarΨn = ,
180n(n + 1)3
s
n−1 n−1
Cov(Ln , Ψn ) = , Corr(Ln , Ψn ) = .
90(n + 1)2 n(n + 3)
De plus on peut facilement vérifier que Ψn est liée par la relation suivante
n−1 n−1
Ψn = G+
2(n + 1) 6(n + 1)
à la statistique G de Gini :
1 ¯ ¯
G= ∑
n(n − 1) i, j
¯U(i) −U( j) ¯ ,

qui à son tour est liée à la statistique "σ" de Downton :


π
”σ” = G,
2
et par conséquent on trouve que
n−1 n √ n−1 n
ω2 = L n + G+ = Ln + π ”σ” + .
2(n + 1) 6(n + 1) n+1 6(n + 1)

Nous allons considérer maintenant une modification Ω2n de la statistique ω2 . Soit Σ −1 la


matrice inverse de la matrice de covariance Σ du vecteur U(·) . On peut facilement vérifier
que
Σ−1 = kσi j k,
où 
 2(n + 1)(n + 2), si i = j,
σi j = −(n + 1)(n + 2), si |i − j| = 1,

0, si |i − j| ≥ 2.

193
Notons Ω2n la statistique omega-deux généralisée
h iT h i
Ω2n = U(·) − EU(·) Σ −1 U(·) − EU(·) ,

que l’on peut écrire de la manière suivante :


" #
n n−1
n
Ω2n = 2(n + 1)(n + 2) ∑ U(i)
2
− ∑ U(i)U(i+1) −U(n) + .
i=1 i=1 2(n + 1)

En utilisant cette représentation de la statistique Ω2n , on peut montrer que

4n(n + 1)2 £ ¤3 16n(n + 1)2 (5n − 2)


EΩ2n = n, VarΩ2n = , E Ω2n − n = .
(n + 3)(n + 4) (n + 3)(n + 4)(n + 5)(n + 6)

De plus de cette dernière présentation de la statistique Ω2n il suit que

Ω2n = (n + 1)(n + 2)Mn − (n + 2),


n £ ¤2
Mn = ∑ U(i+1) −U(i)
i=1
est la statistique de Moran-Greenwood (voir, par exemple, Moran (1947)). La liaison di-
recte entre les statistique Mn et Ω2n et leurs propriétés nous permet d’affirmer que
(sµ ¶µ ¶ 2 )
3 3 Ωn − n
lim P 1+ 1+ √ < x|H0 = Φ(x), x ∈ R1 .
n→∞ n n+1 2 n+1

Donc pour tester H0 on peut utiliser la normalité asymptotique de la statistique Ω2n .


Parlons maintenant de la statistique de Sherman (1950), qui est liée avec les statistiques
considérées dans ce paragraphe.
Soit U = (U1 , . . . ,Un )T un échantillon, où Ui suit la loi uniforme sur [0, 1]. Comme
précédemment, notons
U(·) = (U(1) , . . . ,U(n) )T (3.1)
le vecteur des statistiques d’ordre, associé à la statistique U.
Notons
U(0) ≡ 0 et U(n+1) ≡ 1. (3.2)
Nous déterminons la statistique de Sherman sn par la formule
¯ ¯
1 n+1 ¯¯ 1 ¯¯
sn = ∑ ¯Di − , (3.3)
2 i=1 n + 1¯


Di = U(i) −U(i−1) . (3.4)
On sait que
· ¸n+1
1
Esn = 1 − (3.5)
n+1

194
et · ¸
2nn+2 + n(n − 1)n+2 1 2(n+1)
Varsn = − 1− . (3.6)
(n + 2)(n + 1)n+2 n+1
En utilisant ces propriétés de la statistique sn , on déduit que
1 e−1
Esn → et Varsn → , n → ∞.
e e2
D’apres le théorème limite centrale, si n est assez grand,
½ ¾ µ ¶
esn − 1 1
P √ ≤ x = Φ(x) + O √ ,
e−1 n
ce qui signifie que la statistique de Sherman est asymptotiquement normale N(0, 1), et donc
la statistique
(esn − 1)2
X2 =
e−1
suit à la limite (n → ∞) la loi du chi-deux à un degré de liberté, et on peut utiliser ce résultat
pour tester l’hypothèse H0 selon laquelle Ui suit une loi uniforme sur [0, 1].

3.7 Les statistiques de Kolmogorov et Gihman.

Soit U = (U1 ,U2 , . . . ,Un )T un échantillon, Ui suit une loi uniforme sur [0, 1],

P{Ui ≤ x} = x, x ∈ [0, 1]. (3.1)

Notons U(·) = (U(1) , ...,U(n) )T le vecteur des statistiques d’ordre, associé à la statistique U :

0 ≡ U(0) ≤ U(1) ≤ · · · ≤ U(n−1) ≤ U(n) ≡ 1. (3.2)

Soit Fn (x) la fonction de répartition de la loi empirique associée à U :

1 n
Fn (x) = ∑ 1[Ui≤x],
n i=1
x ∈ [0, 1]. (3.3)

Il est facile de montrer (voir, par exemple §10) que pour tout x donné, x ∈ [0, 1], la statistique
nFn (x) suit la loi binomiale B(n, x) de paramètres n et x et par conséquent on a :

EFn (x) = x et nCov(Fn (x), Fn (y)) = x ∧ y − xy, 0 ≤ x, y ≤ 1;


(3.4)
Fn (x) → x avec la probabilité 1 pour tout x quand n → ∞.
Dans la pratique il faut avoir beaucoup d’observations pour utiliser la fonction empirique
Fn (x). Pour cette raison on peut raisonablement considerer la situation avec des données
groupées. Il est intéressant étudier la conduite de la fonction de répartition de la loi empi-
rique Gn (x), correspondant aux données groupées.
Soit p = (p1 , p2 , . . . , pr , pr+1 )T un vecteur de probabilités positives,

pi > 0, p1 + p2 + . . . + pr + pr+1 = 1, (3.5)

195
où r(n) ≥ 1. Posons x0 = 0, xr+1 = 1,

x j = p1 + p2 + . . . + p j , j = 1, . . . , r.

On obtient ainsi une partition de [0,1] en r + 1 intervalles

[0, x1 ], (x1 , x2 ], . . . , (xr−1 , xr ], (xr , xr+1 ]. (3.6)

Soit ν = (ν1 , ..., νr , νr+1 )T le vecteur des fréquences obtenues en regroupant U1 , ...,Un dans
les classes (6). Nous déterminons la fonction de répartition empirique Gn (x) associée au
vecteur ν par la formule :
½
0, x = x0 = 0,
Gn (x) = ν1 +ν2 +...+νi (3.7)
n , xi−1 < x ≤ xi , i = 1, 2, 3, . . . , r + 1.
Nous pouvons maintenant construire la statistique de Gihman

Zn = (Zn1 , . . . , Znr )T ,

où · ¸
√ √ ν1 + . . . + νi
Zni = n [Gn (xi ) − xi ] = n − (p1 + . . . + pi ) . (3.8)
n
Il est clair que
EZn = (0, . . . , 0)T = 0r et EZn ZTn = Σ , (3.9)
où ° ° ° °
° x1 x1 x1 · · · x1 ° ° x1 °
° ° ° °
° x1 x2 x2 · · · x2 ° ° °
° ° ° x2 °
° ° °
x3 · · · x3 ° − ° x3 °
Σ=° x1 x2 ° kx1 , x2 , . . . , xr k. (3.10)
° .. .. .. .. ° ° .. °
° . . . . ° ° °
° ° ° . °
° x1 x2 x3 · · · xr ° ° xr °
Nous allons étudier les propriétés asymptotiques de la statistique Zn quand n → ∞.
a) Supposons tout d’abord que

r = r(n) → ∞ quand n→∞ (3.11)

de façon que la longueur maximale des intervalles (6) de groupement des données aille vers
zéro assez vite, i.e., que
max npi → 0 si n → ∞. (3.12)
1≤i≤r+1
Notons √
D∗n = max |Zn,i | et Dn = sup n|Fn (x) − x|.
1≤i≤r 0≤x≤1
Théorème (Gihman, 1961). Si r → ∞ et que (12) est vérifiée quand n → ∞, alors les
statistiques Dn et D∗n sont asymptotiquement equivalentes :

lim P{D∗n ≤ z} = lim P{Dn ≤ z} = K(z), (3.13)


n→∞ n→∞

où K(z) est la fonction de répartition de Kolmogorov,


+∞

2 z2
K(z) = (−1) j e−2 j , 0 < z < ∞.
j=−∞

196
De ce théorème il suit que sous la condition (12) nous pouvons utiliser la statistique Zn
quand n est assez grand pour construire des tests bien connus comme ω2 de Smirnov, Wn2
de Anderson et Darling (1952) ou de Sherman (1950) etc.
b) Maintenant nous supposons que les intervalles (6) sont fixés, r + 1 ≥ 2. Dans ce cas de
(3), (4), (8) et du théorème limite central multidimensionnel on déduit que la loi limite de
{Zn } quand n → ∞ est la loi normale N(0r , Σ ) de paramètres donnés par (9). Comme le
rang de la matrice de covariance Σ est égale à r, on en déduit qu’il existe une matrice
Σ−1 = kσi j k
dont les éléments σi j sont donnés par la formule suivante :
 ij
 σ = 0, |i − j| ≥ 2,






 σ
 i,i+1 = − 1 1
xi+1 −xi = − pi+1 , i = 1, . . . , r − 1,
(3.14)

 σi,i−1 = − xi −x1 i−1 = − p1i , i = 1, . . . , r,






 ii
σ = −(σi,i−1 + σi,i+1 ) = 1
xi+1 −xi + xi −x1 i−1 , i = j.

Nous pouvons maintenant construire la statistique Yn2 en posant


Yn2 = ZTn Σ −1 Zn .
Grâce à la normalité asymptotique de la statistique Zn on obtient que
lim P{Yn2 ≤ x} = P{χ2r ≤ x}.
n→∞

Il est facile de vérifier que Yn2 est la statistique classique de Pearson :


r+1
(νi − npi )2
Yn2 = ∑ npi . (3.15)
i=1
c) Enfin nous considérons le cas
r = r(n) → −∞ quand n → −∞, (3.16)
de façon que
max pi → 0 et min npi → ∞. (3.17)
1≤i≤r+1 1≤i≤r+1
Théorème (Tumanian, 1956). Si r → ∞ et si les conditions (7) ont lieu quand n → ∞,
alors ¯ µ ¶¯
¯ x − r ¯
sup ¯¯P{Yn ≥ x} − 1 + Φ √
2 ¯ → 0, n → ∞. (3.18)
|x|<∞ 2r ¯

3.8 Test des signes.

Soit X = (X1 , X2 , . . . , Xn )T un échantillon. On suppose que la fonction de répartition


F(x) = P {Xi ≤ x} de Xi est continue, mais inconnue.
Soit µ la médiane inconnue, elle aussi de la loi F(x), c’est-à-dire que
F(µ) = 0.5,

197
et supposons que nous voulions tester l’hypothèse H0 : µ = µ0 , où µ0 est un nombre donné,
contre l’une des trois hypothèses suivantes :

H1+ : F(µ0 ) > 0.5, ce qui signifie que µ0 > µ;

H1− : F(µ0 ) < 0.5, ce qui signifie que µ0 < µ;


H1 : F(µ0 ) 6= 0.5, ce qui signifie que µ0 6= µ.
Le test des signes est fondé sur la statistique

νn = Y1 +Y2 + . . . +Yn ,

où ½
1, si Xi > µ0 ,
Yi =
0, si Xi ≤ µ0 .
Il est évident que
P {Yi = 1|H0 } = F(µ0 ) = 1 − F(µ0 ) = 0.5,
i.e. sous l’hypothèse H0 la statistique Yi suit une loi de Bernoulli de paramètre de succès
p = 0.5, et par conséquent la statistique νn sous l’hypothèse H0 suit une loi binomiale de
paramètres n et p = 0.5 :
m µ ¶
n
P{νn ≤ m|H0 } = W (m, n) = ∑ (0.5)n =
i=0
i

= I0.5 (n − m, m + 1) = 1 − I0.5 (m + 1, n − m). (3.1)


Donc pour avoir le test, il faut trouver des nombres entiers k et K tels que
½ ½
W (k, n) ≤ α, W (K − 1, n) ≥ 1 − α,
et (3.2)
W (k + 1, n) > α, W (K − 2, n) < 1 − α,

où α est une probabilité inférieure à 0.5, 0 < α < 0.5.


Il est évident que les valeurs critiques k = k(α, n) et K = K(α, n) sont des fonctions non
décroissantes de n, et que, si la fonction F(x) est continue, alors k + K = n. Si on teste H0
contre H1+ , alors on est obligé de rejeter H0 en faveur de H1+ , si

νn ≤ k(α, n), (3.3)

et dans ce cas on a le test des signes de niveau ≤ α. On procède de même si on teste H0


contre H1− , en rejetant H0 en faveur de H1− si

νn ≥ K(α, n) (3.4)

et le niveau de ce test est ≤ α. Dans le cas où on teste H0 contre l’alternative H1 , on est


obligé de rejeter H0 en faveur de H1 , si

min(νn , n − νn ) ≤ k(α, n), (3.5)

et le niveau de ce test est ≤ 2α.


Exemple 1. Pendant le premier jour, un compteur a enregistré 20021 impulsions, tandis
que le jour suivant il y en a eu seulement 19580. Peut-on dire que le second jour on a observé

198
une diminution de l’intensité d’arrivée des impulsions ? Pour répondre à cette question on
choisit le modèle statistique d’après lequel les nombres d’impulsions observées sont des
réalisations de deux variables indépendantes X et Y où X suit la loi de Poisson de paramètre
λ (λ > 0) et Y suit la loi de Poisson de paramètre µ (µ > 0). Dans ce modèle il est bien
naturel de considérer comme hypothèse H0 : λ = µ, et comme alternative H1 : λ > µ. Pour
tester H0 contre H1 on peut utiliser le test des signes.
Si notre modèle est bon, alors pour tout x, y ∈ {0, 1, 2, . . . ...}

λx −λ µy −y
P {X = x,Y = y} = e e =
x! y!
µ ¶x µ ¶y
(λ + µ)x+y −(λ+µ) (x + y)! λ λ
= e 1− ,
(x + y)! x!y! λ+µ λ+µ
et donc la loi conditionnelle de X, conditionnée par la somme X +Y = n, est binomiale de
paramètres n et p = λ/(λ + µ), et par conséquent on en tire que l’hypothèse H0 : λ = µ est
vraie si et seulement si la loi conditionnelle de X est binomiale de paramètres n et p = 0.5 :
µ ¶
n
P {X = x|X +Y = n, H0 } = (0.5)n ,
x

et il nous faut tester l’hypothèse H0 : p = 0.5 contre une alternative H1 : p > 0.5. On peut
montrer que c’est le test des signes qui est le plus puissant dans ce problème. D’après ce test
on doit rejeter H0 , si X ≥ K = K(α, n), où n = 20021 + 19580 = 39601. La valeur critique
K est déterminée comme étant la solution du système
½
P {X ≥ K|X +Y = 39601, p = 0.5} ≤ α,
P {X ≥ K − 1|X +Y = 39601, p = 0.5} > α.

Mais d’après le théorème de de Moivre-Laplace


µ ¶
K − 0.5n − 0.5
P {X ≥ K|X +Y = n, p = 0.5} ∼
=Φ √ ,
0.25n
donc ½
K ∗, si K ∗ est entier,
K=
[K + 1], si K ∗
∗ est nonentier,
où √
∗ n+1 n
K = + Ψ(1 − α) .
2 2
Dans notre cas, α = 0.05 et

∗ 39602 39601
K = + 1.645 = 19964.7,
2 2
par conséquent K = 19965. Comme

X = 20021 > 19965,

on prend l’hypothèse H1 , d’apres laquelle on observe diminution d’intensité.

199
Exemple 2. Soit Z = (Z1 , . . . , Zn )T un échantillon, Zi = (Xi ,Yi )T est un vecteur aléatoire
à deux dimensions dont la densité p(x, y) est inconnue. Supposons que pour tout i, Xi et Yi
soient indépendantes et qu’il faille tester l’hypothèse

H0 : p(x, y) = p(y, x). (3.6)

Comme les Xi sont indépendantes de Yi , la condition (6) signifie que Xi et Yi sont distribuées
d’après la même loi (inconnue), et par conséquent pour tester H0 on peut construire le test
des signes. En fait, soit

 1, si Xi −Yi > 0,
Vi = i = 1, 2, . . . , n. (3.7)

0, si Xi −Yi < 0,

Sous l’hypothèse H0 la distribution de Vi est symétrique par rapport à 0, et donc si nous


posons
νn = V1 +V2 + . . . +Vn ,
de (6) et (7) il s’ensuit que sous l’hypothèse H0 la statistique νn est distribuée selon la loi (1)
donc en utilisant (2)–(5) nous pouvons utiliser le test des signes pour tester cette hypothèse.

3.9 Test de Wilcoxon.

Soient X = (X1 , . . . , Xn )T et Y = (Y1 , . . . ,Ym )T deux échantillons indépendants, et soit


© ª
F(x) = P {Xi ≤ x} et G = P Y j ≤ y

les fonctions de répartition de Xi et Y j respectivement. Le test de Wilcoxon est utilisé pour


tester l’hypothèse
H0 : F(x) ≡ G(x), x ∈ R1 ,
contre l’hypothèse
H− : F(x) < G(x), x ∈ R1 ,
ou contre l’hypothèse
H+ : F(x) > G(x), x ∈ R1 ,
ou contre H− et H+ ensemble.
Ce test est fondé sur la statistique linéaire des rangs
m
W = Wn,m = ∑ Ri ,
i=1


R1 < R2 < R3 < · · · < Rm
sont les rangs des observations Y1 , . . . ,Ym dans l’échantillon unifié

Z = (X1 , . . . , Xn ,Y1 , . . . ,Ym )T

200
de taille n + m. Pour construire le vecteur RY = (R1 , R2 , . . . , Rm )T des rangs des observa-
tions Y j , il faut construire le vecteur Z(·) des statistiques d’ordre, associé à l’échantillon Z,
et déterminer les numéros des positions des variables aléatoires Y j . Si, par exemple, l’hypo-
thèse H− est vraie, on dit que les variables aléatoires Y j sont stochastiquement plus grandes
que les variables aléatoires Xi , ce qui signifie en pratique que les variables aléatoires Y j
ont tendance (sous l’hypothèse H− ) à prendre des positions à l’extrémité droite du vecteur
des statistiques d’ordre Z et par conséquent leurs rangs Ri ont tendance à avoir de grandes
valeurs, et par suite la statistique de Wilcoxon a tendance à prendre de grandes valeurs, ce
que l’on utilise pour tester H0 contre H− , en rejetant H0 en faveur de H− quand W > cα , où
cα est la valeur critique du test de Wilcoxon. On peut montrer que

n(n + 1)
W =U + ,
2

n m
U = Um,n = ∑ ∑ Vi j , (3.1)
i=1 j=1

est la statistique de Mann-Whitney,


½
1, si Y j > Xi ,
Vi j = (3.2)
0, si Y j < Xi .

Par des calcul directs (mais pas simples !) on peut montrer que

m(N + 1) mn(N + 1)
E {W |H0 } = et Var {W |H0 } = ,
2 12
où N = n + m. Les valeurs critiques cα de niveau α (0 < α < 0.5) de la statistique W sont
des nombres entiers, qui satisfont aux inégalités

P {W ≤ cα |H0 } ≤ α et P {W ≤ cα + 1|H0 } > α.

Pour les calculer on utilise, par exemple, les tables statistiques de Verdooren (1963) pour

m = 1(1)25, n = m(1)25 et α = 0.001, 0.005, 0.010, 0.025, 0.05, 0.1.

Comme la distribution de la statisique W est symétrique par rapport à son espérance ma-
thématique EW , pour calculer une valeur critique c1−α , 0 < α < 0.5, on utilise la relation
suivante :
c1−α = EW − cα .
Il est évident que le couple (cα , c1−α ) nous donne les valeurs critiques du test bilatéral de
Wilcoxon de niveau 2α, que l’on utilise pour tester H0 contre H+ et H− à la fois.
Si l’un des deux nombres n ou m est supérieur à 25, pour calculer les valeurs critiques du
test de Wilcoxon, on utilise l’approximation normale de Mann et Whitney (1947), d’après
laquelle ½ ¾
W − EW
P √ < w|H0 → Φ(w),
VarW
quand min(m, n) → ∞, |w| < ∞.

201
Fix et Hodges (1955) ont donné une autre approximation, qui donne déjà de bons résul-
tats quand min(m, n) ≥ 5. D’après cette approximation

N + N − mn 2
P {W ≤ w|H0 } ∼
= Φ(x) + ϕ(x)(x3 − 3x) ,
20mn(N + 1)

w − EW + 0.5
N = m+n et√ x= .
VarW
Ce résultat permet d’obtenir assez facilement des approximations normales pour des valeurs
critiques cα : Ã r !
m(N + 1) − 1 mn(N + 1)
cα ∼
= − Ψ(1 − α) ,
2 12
où [x] dénote la partie entière du nombre x. On remarque ici que tous ces résultats, liés
avec des approximations, sont valables si parmi les Xi et Y j il n’y a pas d’ex aequo. En
principe, on ne devrait
© pas enªavoir, puisque Xi et Y j sont des variables aléatoires continues
et par conséquent P Xi = Y j = 0. Mais à cause des erreurs d’arrondis, on obtient souvent
des observations égales. Dans ce cas on attribue aux observations qui sont des ex aequo,
un rang égal à la moyenne arithmétique des rangs que ces observations auraient eu avant
la procédure d’arrondissement. Notons W ∗ = Wn,m ∗ la statistique de Wilcoxon dans ce cas.

L’opération d’arrondissement ne change pas EW , EW = EW ∗ , mais elle change la variance.


Par des calculs directs, on peut montrer qu’alors :
 M

 ∑ ti (ti − 1 
2
∗ nm  i=1 ,
VarWn,m = (N + 1) 1 −
12 N(N 2 − 1) 

où ti est le nombre d’ex aequo dans le groupe numéro i et M est le nombre des groupes d’ex
aequo.
Demonstration.
Soient X1 , X2 , . . . , Xn ,Y1 ,Y2 , . . . ,Ym des variables aléatoires continues, Xi suit une loi dont
la fonction de répartition est F(x) et Y j suit une loi dont la fonction de répartition est G(x)
avec, par exemple, G(x) = F(x − θ). Supposons que l’on teste l’hypothèse H0 , contre l’hy-
pothèse H− . Donc si H0 est vraie, alors les variables aléatoires

X1 , X2 , . . . , Xn ,Y1 ,Y2 , . . . ,Ym

forment un échantillon
Z = (X1 , X2 , . . . , Xn ,Y1 ,Y2 , . . . ,Ym )T
de taille N = n + m. On remarque que
© ª
P Xi = Y j = 0,

car Xi et Y j sont continues, mais à cause des erreurs d’arrondi on a des ex aequo.
Tout d’abord, on remarque que comme
n(n + 1)
W = Wn,m = Un,m + ,
2

202
alors VarW = VarUn,m .
Supposons que le vecteur Z(·) des statistiques d’ordre ait au moins un groupe de statistiques
d’ordre qui soient égales et que les rangs de ces ex aequo dans ce groupe soient

k + 1, k + 2, . . . , k + t.

Soit µ le nombre des Xi de ce groupe, alors t − µ est le nombre des Y j parmi ces t ex-aequo.
Il est clair que µ suit la loi hypergéométrique :
µ ¶µ ¶
n m
x t −x
P {µ = x} = µ ¶ .
N
t

Pour k et t fixés posons


n m
U ∗ = Un,m

(µ) = ∑ ∑ Vi∗j , (3.3)
i=1 j=1

où 
 1, si Xi > Y j ,
Vi∗j = 0.5, si Xi = Y j , (3.4)

0, si Xi < Y j .
De (1) – (4) il résulte qu’en cas de présence d’un seul groupe d’ex aequo, on a l’identité par
rapport à µ :
∗ µ(t − µ)
Un,m (µ) +Uµ,t−µ − ≡ Wn,m . (3.5)
2
En cas de présence de M groupes d’ex aequo, la dernière identité peut être généralisée de
la façon suivante :
M µ ¶
µi (ti − µi )
Un,m (µ1 , µ2 , . . . , µM ) + ∑ Uµi ,ti −µi −

≡ Un,m , (3.6)
i=1 2

où ti est le nombre d’ex aequo dans le groupe de numéro i, µi le nombre des Xi dans ce
groupe. De (5) il suit que
© ∗ ª nm
E Un,m (µ1 , µ2 , . . . , µM )|µ1 , µ2 , . . . , µM = . (3.7)
2
Comme la partie droite de (7) ne dépend pas de µi , on en tire que
∗ nm
EUn,m = .
2
De la même façon, comme
nm nm(N + 1)
VarUn,m = (n + m + 1) = ,
2 2
on obtient que

© ∗ ª M 1
Var Un,m (µ1 , µ2 , . . . , µM )|µ1 , µ2 , . . . , µM + ∑ µi (ti − µi )(ti + 1) =
i=1 12

203
nm
= (n + m + 1).
12
Comme © © ∗ ªª nm
Var E Un,m (µ1 , µ2 , . . . , µM )|µ1 , µ2 , . . . , µM = Var = 0,
12
on en tire que © © ∗ ªª

VarUn,m = E Var Un,m |µ1 , µ2 , . . . , µM ,
donc on en déduit que

© ∗ ª M ti + 1 nm
Var Un,m (µ1 , µ2 , . . . , µM ) + ∑ E {µi (ti − µi )} = (n + m + 1).
i=1 12 12

Mais µ ¶µ ¶
n m
j ti − j ti (ti − 1)nm
E {µi (ti − µi )} = ∑ µ ¶ j(ti − j) = ,
j N N(N − 1)
tj
donc  
M
 ∑ ti (ti2 − 1) 
nm
∗  i=1  = VarW ∗ ,
VarU = (N + 1) 1 −
12 N(N 2 − 1) 

où N = n + m.

3.10 Estimation non paramétrique de la densité. Histo-


gramme. Estimateur de Rosenblatt. Le noyau de Par-
zen.

Le problème, que l’on désigne souvent par estimation non paramétrique de la densité,
est le suivant :
étant donné un échantillon X = (X1 , ..., Xn )T , issu d’une distribution continue et dont la
densité f est inconnue, construire un bon estimateur de f .
Soit {hn } une suite de nombres positives (tailles de fenêtre ) telle que hn > 0, hn ↓ 0,
nhn → 0, quand n → ∞. Pour tout n fixé nous pouvons construire une partition de R1
[
R1 = ]khn , (k + 1)hn ],
k∈Z

1
h i hn correspondante. Pour tout x ∈ R il existe un intervalle
en utilisant la taille de fenêtre
]khn , (k + 1)hn ], avec k = hxn , tel que x ∈]khn , (k + 1)hn ] et donc nous pouvons déterminer
une application aléatoire fn : R1 → R1+ par la formule :
n
1
fn (x) =
nhn ∑ 1]khn,(k+1)hn](X j ), x ∈ R1 . (3.1)
j=1

204
Définition 1. Nous disons que fn (x), x ∈ R1 , est la densité empirique, basée sur l’échan-
tillon X = (X1 , ..., Xn )T . Le graphe de fn (x) s’appelle histogramme.
De (1) il suit que pour tout x ∈]khn , (k + 1)hn ], k ∈ Z, on a
1 νk
fn (x) = [Fn ((k + 1)hn ) − Fn (khn )] = , (3.2)
nhn nhn

où Fn (x) est la fonction empirique, basée sur X = (X1 , ..., Xn )T , νk est le nombre de X j dans
l’intervalle ]khn , (k + 1)hn ]. Souvent on dit que fn (x) est un estimateur non paramétrique
classique de la densité f (x).
En 1956 M. Rosenblatt a proposé un estimateur de type noyau
µ ¶
1 n x − Xj
fn (x) = ∑ K hn ,
nhn j=1
(3.3)

où K(·), un noyau, est une fonction telle que


Z ∞ Z ∞
K(x)dx = 1 et k= K 2 (x)dx < ∞.
−∞ −∞

Le choix du noyau K dépend en général des propriétés de la densité f que l’on désire avoir.
Par exemple, Parzen (1962) a proposé de choisir le noyau
1
K(x) = 0.51[−1,1] (x), avec k= . (3.4)
2
Il est clair que si on choisit le noyau de Parzen, alors de (1), (2) et (4) on obtient l’estimateur
fn (x), appelé l’estimateur naïf de f(x) :
νk
fn (x) = ,
2nhn
où νk est le nombre de X j dans l’intervalle ]x − hn , x + hn ].
Souvent on utilise le noyau de Epanechnikov (1969)
2
K(x) = 0.72(1 − x2 )1[−1,1] (x), avec k = ,
3
voir aussi Bartlett (1963).
On donne ici encore quelques d’autres exemples :
le noyau de Gauss :
1 2 1
K(x) = √ e−x , avec k = √ ,
2π 2π
le noyau de Laplace :
1 1
K(x) = e−|x| , avec k = ,
2 2
le noyau de Cauchy :
1 1
K(x) = , avec k = ,
π(1 + x2 ) π

205
le noyau de Fejer :
µ ¶
1 sin 2x 1
K(x) = x , avec k= ,
2π 2 3π

le noyau de Tukey
15
K(x) = (1 − x2 )2 1[−1,1] (x).
16
Dans certains cas l’expression de K peut être plus compliquée. Les propriétées asympto-
tiques de fn ont été bien étudiées, voir par exemple, Deheuvels (1973, 1974), Devroye et
Györfi (1985), Watson et Leadbether (1963), Silverman (1986), Nikulin & Solev (2002),
etc.
Il est facile de montrer que pour l’estimateur classique (1) on a

|E fn (x) − f (x)| ≤ ω f (hn ),


ω f (h) = sup | f (x) − f (y)|,
|x−y|≤h

est le module de continuité de f , d’où on tire que si x est un point de continuité de f , alors

E fn (x) = f (x) + o(hn ), n→∞

et donc de la loi de grands nombres il suit que


P
fn (x) → f (x),

i.e. { fn (x)} est une suite consistante d’estimateurs fn (x) de f (x).


De la même façon comme pour l’estimateur non paramétrique classique on peut dé-
montrer, sous quelques conditions de régularité sur f et K, que pour l’estimateur de type
noyau on a :
Z µ ¶
1 ∞ x−y
E fn (x) = K f (y)dy → f (x), quand n → ∞,
hn −∞ hn

lim nhn Var fn (x) = k f (x), n → ∞,


P
i.e. fn (x) est un estimateur asymptotiquement sans biais pour f (x), et on en tire que fn (x) →
f (x), i.e. { fn (x)} est une suite consistante d’estimateurs fn (x) de f (x).
Enfin on remarque que à propos du choix de la taille de la fenêtre hn nous recomman-
dons regarder Devroue et Györfi (1985), Bretagnolle et Huber (1979), Freedman et Diaconis
(1981). Souvent pour choisir hn on pose
1 k
hn = R∞ [ R∞ ]2/5 .
[n −∞ ([ f (2) (x)]2 dx]1/5 −∞ x K 2 (x)dx
2

206
Chapitre 4

TESTS STATISTIQUES.

4.1 Principe des tests.

Soit X = (X1 , ..., Xn )T un vecteur aléatoire , X ∈ Rn . Faisons l’hypothèse H sur la distri-


bution de X dans Rn selon laquelle cette distribution appartient à une famille P = {Pθ , θ ∈
Θ} dans Rn , paramétrée par θ. On note H : θ ∈ Θ et l’ensemble Θ est appelé espace des
paramètres.
Définition 1. Soit Θ0 ⊂ Θ. Nous appelons H0 : θ ∈ Θ0 l’hypothèse nulle selon laquelle la
distribution de X appartient à la famille

P0 = {Pθ , θ ∈ Θ0 } ⊂ P = {Pθ , θ ∈ Θ}.


Définition 2. Si Θ = {θ} n’a qu’un seul élément θ, i.e. la distribution de X est Pθ , alors, on
dit que l’hypothèse H est simple, sinon H est composée (ou multiple).
T
Soient Θ0 ⊂ Θ et Θ1 ⊂ Θ telles que Θ0 Θ1 = 0. /
Définition 3. L’hypothèse H1 : θ ∈ Θ1 est appelée l’alternative de H0 .
Exemple 1. Soit

Θ = [θ0 , ∞[⊂ R1 , Θ0 = {θ0 }, Θ1 = {θ > θ0 }.

Dans ce cas l’hypothèse H0 : θ = θ0 , i.e. H0 : θ ∈ Θ0 , est simple, et l’alternative H1 : θ > θ0 ,


i.e. H1 : θ ∈]θ0 , ∞[, est composée. De même, si

Θ =] − ∞, θ0 ], Θ0 = {θ0 }, et Θ1 =] − ∞, θ0 [,

l’alternative H1 : θ < θ0 est composée. Dans ces deux cas les alternatives H1 : θ > θ0 ou
H1 : θ < θ0 sont unilatérales.
Exemple 2. Soit Θ =]θ1 , θ2 [⊂ R1 , Θ0 = {θ0 }, θ1 < θ0 < θ2 et
[
Θ1 = Θ \ Θ0 =]θ1 , θ0 [ ]θ0 , θ2 [.

Ici l’alternative H1 : θ 6= θ0 , i.e. H1 : θ ∈ Θ1 = Θ \ {θ0 }, est bilatérale (et composée).


Définition 4. On appelle modèle statistique paramétrique un modèle (Rn , Bn , P ) tel qu’il
existe k ∈ N :
P = {Pθ , θ ∈ Θ ⊂ Rk },

207
sinon on dit que le modèle (Rn , Bn , P ) est non paramétrique.
Exemple 3. Soit X un vecteur aléatoire et soit H0 l’hypothèse selon laquelle la fonction de
répartition de X est continue. Dans ce cas le modèle est non paramétrique.
Exemple 4. Soit X = (X1 , ..., Xn )T un échantillon, Xi suit une loi normale N(µ, σ2 ), i.e.
θ = (µ, σ2 )T ∈ Θ, Θ = {θ :| µ |< ∞, σ2 > 0}. Comme Θ ⊂ R2 , on a l’exemple d’un modèle
paramétrique.

Soient X = X = (X1 , ..., Xn )T un échantillon et x = (x1 , ..., xn )T ∈ Rn une réalisation de


X, reçue dans l’expérience.
Soit ϕ : Rn → [0, 1] une application borélienne qu’on appellera fonction critique.
Définition 5. On dit qu’une fonction critique ϕ détermine le test statistique pour tester
H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 si l’on rejette H0 avec la probabilité ϕ(x) et on rejette H1
avec la probabilité 1 − ϕ(x).
Définition 6. La fonction
[
βϕ (θ) = Eθ ϕ(X), θ ∈ Θ0 Θ1 , (1)

est appellée la fonction de puissance du test, basé sur la fonction critique ϕ.


Définition 7. La fonction
βϕ (θ), θ ∈ Θ0
est appellée le risque de première espèce. C’est le risque de rejeter H0 à tort ; on constate
que le risque de première espèce est la restriction de la fonction de puissance à Θ0 .
Définition 8. La fonction
βϕ (θ), θ ∈ Θ1
est appellée la puissance du test, basé sur la fonction critique ϕ ; on costate que la puissance
est la restriction de la fonction de puissance βϕ (θ) à Θ1 .
Définition 9. La fonction
Z
1 − βϕ (θ) = E1 (1 − ϕ(X)) = 1 − ϕ(x)p1 (x)µ(dx), θ ∈ Θ1
X
est appellé le risque de deuxième espèce. C’est le risque d’accepter H0 à tort.
Si ϕ est de la forme ½
1, x ∈ K ⊂ Rn ,
ϕ(x) = (2)
0, x ∈ Rn \ K,
alors le test statistique, basé sur cette fonction critique, est appelé pur ou non randomisé,
sinon le test est randomisé.
L’ensemble K est appellé la région critique ou la zone de rejet de ce test : on y rejette
H0 (et on y accepte l’alternative H1 ) .
L’ensemble K̄ = Rn \ K est appelé la zone d’acceptation (de non rejet ) de H0 .
Soit ϕ : Rn → [0, 1] une fonction critique.
Il est évident qu’en cas de test non randomisé :
[
βϕ (θ) = Pθ (X ∈ K), θ ∈ Θ0 Θ1 , (3)

et donc βϕ (θ) nous donne la probabilité avec laquelle X tombe dans la région critique K si
la vraie valeur de paramètre est θ.
Donc dans le cas d’un test pur le risque de première espèce est la probabilité de rejeter à
tort l’hypothèse H0 quand θ ∈ Θ0 , lorsque l’hypothèse H0 est vraie. Le risque de deuxième

208
espèce est la probabilité d’accepter l’hypothèse H0 quand θ ∈ Θ1 , lorsque l’hypothèse H0
est fausse.
Le test ϕ est bon, si les erreurs sont petites. On ne peut pas les rendre simultanément
aussi petites que l’on veut, parce que, en augmentant K, l’erreur de 2-ème espèce diminue
mais l’erreur de 1-ère espèce augmente et vice versa, en diminuant K l’erreur de 1-ère
espèce diminue mais celle de 2-ème espèce augmente.
Soit H0 : θ ∈ Θ0 .
Le nombre
α = sup βϕ (θ), 0 < α < 1,
θ∈Θ0
est appelé le niveau ou le seuil de signification du test ϕ, ce qui signifie que la probabilité
de rejeter H0 à tort ne devra pas dépasser α.
Le test ϕ de niveau α est sans biais, si sa puissance est supérieure ou égale à α, i.e. si
βϕ (θ) ≥ α pour ∀θ ∈ Θ1 .
Le test ϕ est uniformément le plus puissant (UPP) de seuil α, si pour tout autre test ψ
on a
βϕ (θ) ≤ βψ (θ) ≤ α ∀θ ∈ Θ0 ,
βϕ (θ) ≥ βψ (θ) ∀θ ∈ Θ1 .
Considérons le cas de l’hypothèse H0 et de l’alternative H1 simples :
H0 : θ = θ0 , H1 : θ = θ1 .
Dans ce cas la puissance d’un test statistique non randomisé, destiné à tester H0 contre H1 ,
est la probabilité de rejeter H0 quand l’alternative H1 est vraie :
π = Pθ1 {X ∈ K} = βϕ (θ1 ),
et le niveau de signification est la probabilité de rejeter H0 à tort :
α = Pθ0 {X ∈ K} = βϕ (θ0 ).
C’est la probabilité d’erreur de première espèce. La probabilité β = 1 − π s’appelle la pro-
babilité d’erreur de deuxième espèce.

4.2 Test de Neyman-Pearson.

Supposons que P = {Pθ0 , Pθ1 } est dominée par une mesure σ-finie µ et notons f0 et f1
les densités de Pθ0 et Pθ1 par rapport à µ.
Lemme de Neyman-Pearson. Pour tout α ∈]0, 1[ il existe des constantes cα > 0 et γα ∈
[0, 1] telles, que le test, basé sur la fonction critique

 1, si p1 (x) > cα p0 (x),
ϕ(x) = γα , si p1 (x) = cα p0 (x),

0, sinon ,

209
a le niveau α et est le plus puissant parmi tous les tests ψ tels que Eθ0 ψ(X) ≤ α.
Démonstration.
1) On cherche des constantes cα et γα telles que Eθ0 ϕ(X) = α :

Eθ0 ϕ(X) = Pθ0 {p1 (X) > cα p0 (X)} + γα Pθ0 {p1 (X) = cα p0 (X)} = α. (1)

Posons ½ ¾
p1 (X)
F(c) = Pθ0 ≤c , c ≥ 0.
p0 (X)
F a un sens, puisque p0 (X) > 0 p.s., si X ∼ p0 (x).
Avec cette notation l’égalité (1) peut être écrite sous la forme

Eθ0 ϕ(X) = 1 − F(cα ) + γα [F(cα ) − F(cα − 0)] = α, (2)

puisque la fonction F est continue à droite.


a) S’il existe c : F(c) = 1 − α, on peut prendre cα = c, γα = 0 pour lesquelles on a l’égalité
qu’il nous faut :
Eθ0 ϕ(X) = α.
b) Sinon il existe c :
F(c − 0) ≤ 1 − α < F(c). (3)
On peut prendre cα = c et définir γ en résolvant l’équation

α = 1 − F(c) + γ[F(c) − F(c − 0)].

On obtient

F(c) − (1 − α)
γ = [α − 1 + F(c)]/[F(c) − F(c − 0)] = .
F(c) − F(c − 0)
Des inégalités (3) on tire

α − 1 + F(c) ≤ F(c) − F(c − 0) et F(c) + α − 1 = F(c) − (1 − α) > 0,

c’est pourquoi 0 < γ ≤ 1.


2) On montre que le test ϕ est le plus puissant. Supposons que ψ est un autre test, tel que
Eθ0 ψ(X) ≤ α. Alors
Eθ0 (ϕ(X) − ψ(X)) ≥ 0.
De la définition de ϕ on tire :
si p1 (x) − cα p0 (x) > 0, alors ϕ(x) = 1 ≥ ψ(x) et donc ϕ(x) − ψ(x) ≥ 0 ;
si p1 (x) − cα p0 (x) < 0, alors ϕ(x) = 0 ≤ ψ(x) et donc ϕ(x) − ψ(x) ≤ 0 ;
c’est pourquoi
(ϕ(x) − ψ(x))(p1 (x) − cα p0 (x)) ≥ 0 ∀x,
Z
(ϕ(x) − ψ(x))(p1 (x) − cα p0 (x))µ(dx) ≥ 0
X
et Z Z
(ϕ(x) − ψ(x))p1 (x)µ(dx) ≥ cα (ϕ(x) − ψ(x))p0 (x)µ(dx).
X X

210
La dernière inégalité peut s’écrire :

Eθ1 ϕ(X) − Eθ1 ψ(X) ≥ cα (Eθ0 ϕ(X) − Eθ0 ψ(X)) ≥ 0.

C’est pourquoi Eθ1 ϕ(X) ≥ Eθ1 ψ(X), et le test ϕ est plus puissant que ψ.

Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon,

H : Xi ∼ f (x; θ) = θx (1 − θ)x , x ∈ X, θ ∈ Θ =]0, 1[,

i.e. on a le modèle statistique selon lequel Xi suit la loi de Bernoulli de paramètre θ, θ ∈ Θ.


Notre problème consiste à tester au niveau α = 0.05 l’hypothèse nulle H0 : θ = θ0 contre
l’alternative H1 : θ = θ1 > θ0 . On remarque que dans notre modèle H il existe une statistique
exhaustive minimale unidimensionnelle (scalaire)

µn = X1 + ... + Xn .

Si l’hypothèse H0 : θ = θ0 est vraie, alors :


µ ¶
n
Pθ0 {µn = x} = θx0 (1 − θ0 )n−x , x ∈ X0n = {0, 1, ..., n}. (1)
x

Si l’alternative H1 est vraie, alors :


µ ¶
n
Pθ1 {µn = x} = θx1 (1 − θ1 )n−x , x ∈ X0n = {0, 1, ..., n}. (2)
x

Donc le problème de tester H0 : θ = θ0 contre H1 : θ = θ1 revient au problème de tester l’hy-


pothèse que µn suit la loi Binomiale B(n, θ0 ) contre l’alternative que µn suit la loi binomiale
B(n, θ1 ), θ1 > θ0 .
En fonction de la statistique µn le rapport de vraisemblance est
µ ¶
n µ
θ1n (1 − θ1 )n−µn µ ¶µn µ ¶
µn θ1 1 − θ1 n−µn
L(µn ) = µ ¶ = .
n µn θ0 1 − θ0
θ0 (1 − θ0 ) n−µn
µn

On peut remarquer que


θ1 1 − θ1
>1 et < 1,
θ0 1 − θ0
et donc L(µn ) est monotone en µn , d’où on tire que le meilleur test (le test de Neyman-
Pearson) de niveau α pour H0 contre H1 est basé sur la statistique

 1, si µn > cα ,
ϕ(µn ) = γ, si µn = cα ,

0, sinon,

où les constantes cα ( la valeur critique) et γ = γ0.05 sont telles que

Eθ0 ϕ(µn ) = Pθ0 {µn > cα } + γ( 0.05)Pθ0 {µn = cα } = α = 0.05. (3)

211
Supposons que n = 10, θ0 = 0.25 = 1/4. Si l’on choisit K = K5 = {5, 6, 7, 8, 9, 10}, dans ce
cas on a
10 µ ¶
10
Pθ0 {µn ∈ K5 } = ∑ θx0 (1 − θ0 )10−x =
x=5
x
10 µ ¶ µ ¶x µ ¶10−x
10 1 3
∑ x 4 4
= 0.0781 > α = 0.05.
x=5

Si l’on choisit K = K6 = {6, 7, 8, 9, 10} , dans ce cas on a


10 µ ¶ µ ¶x µ ¶10−x
10 1 3
Pθ0 {µn ∈ K6 } = ∑ x 4 4
= 0.0197 < α = 0.05.
x=6

Donc on voit que

Pθ0 {µn ∈ K5 } = Pθ0 {µn ≥ 5} = 0.0781 et Pθ0 {µn ∈ K6 } = Pθ0 {µn ≥ 6} = 0.0197,

d’où on tire que

Pθ0 {µn = 5} = Pθ0 {µn ≥ 5} − Pθ0 {µn ≥ 6} = 0.0781 − 0.0197 = 0.0584.

On détermine à l’aide de (3) la probabilité γ :

α − 0.0197 0.05 − 0.0197


γ( 0.05) = = = 0.519,
0.0781 − 0.0197 0.0781 − 0.0197
et on obtient la fonction critique du meilleur test de Neyman-Pearson de niveau α :

 1, si µn ∈ K6 ,
ϕ(µn ) = 0.519, si µn = 5,

0, sinon .

On voit que
Eθ0 ϕ(µn ) = 1 · Pθ0 {µn ∈ K6 } + γ( 0.05)Pθ0 {µn = 5} =
= 0.0197 + 0.519 · 0.0584 = 0.050 = α.
La puissance de ce test randomisé quand θ = θ1 = 1
2 est égale à

π = Eθ1 {ϕ(µn )} = Pθ1 {µn ∈ K6 } + γ( 0.05)Pθ1 {µn = 5} =

10 µ ¶ µ ¶x µ ¶10−x µ ¶ µ ¶5 µ ¶5
10 1 1 10 1 1
∑ x 2 2
+ 0.519
5 2 2
=
x=6
= 0.3770 + 0.519 · 0.2461 = 0.5047.
Enfin on remarque que le risque de deuxième espèce β = 0.4953.
Exemple 2. Soit X = (X1 , . . . , X5 )T un échantillon. Trouver le plus puissant test de ni-
veau α = 0.1 vérifiant l’hypothèse H0 : U(−0.5; 0.5) contre l’alternative H1 : N(0; 0.009).
Vérifier l’hypothèse H0 si des réalisations de X sont

−0.114; −0.325; 0.196; −0.174; −0.460.

212
Solution. On cherche le test de Neyman-Pearson pur :
½
1, si L1 (X) > cL0 (X) ;
ϕ(X) =
0, sinon,


L0 (X) = 1{−0.5 ≤ X(1) ≤ X(5) ≤ 0.5},
½ ¾
1 1 5 2
L1 (X) = 5 exp − 2 ∑ Xi , σ2 = 0.009.
σ (2π)5/2 2σ i=1
L’inégalité L1 (X) > cL0 (X) est vraie si et seulement si
½ 5 ¾ ½ ¾ ½ ¾
∑ Xi2 < k ∪ X(1) < −0.5 ∪ X(5) < 0.5 .
i=1

On cherche k de condition
(½ ¾ ½ ¾ ½ ¾) ½5 ¾
5
P0 ∑ Xi < k ∪ X(1) < −0.5 ∪ X(5) < 0.5 = P0 ∑ Xi < k = α,
2 2
i=1 i=1

où Z Z
... dx1 · · · dx5 = 0.1, (4.1)
5
∑ Xi2 <R2
i=1
−0.5<Xi <0.5

où k = R2 .
Si R ≤ 0.5, cette intégrale est égale à l’intégrale
Z Z
I= ... dx1 · · · dx5 . (4.2)
5
∑ Xi2 <R2
i=1

Dans l’intégrale (1) on fait le changément de variables

x1 = r cos ϕ1
x2 = r sin ϕ1 cos ϕ2
x3 = r sin ϕ1 sin ϕ2 cos ϕ3
x4 = r sin ϕ1 sin ϕ2 sin ϕ3 cos ϕ4
x5 = r sin ϕ1 sin ϕ2 sin ϕ3 sin ϕ4 .

Le Jacobien
J = r4 sin3 ϕ1 sin2 ϕ2 sin ϕ3 .
ZR Zπ Zπ Zπ Z2π
8π2 R5
I= r4 dr sin3 ϕ1 dϕ1 sin2 ϕ2 dϕ2 sin ϕ3 dϕ3 dϕ4 = .
15
0 0 0 0 0
Si R = 0.5,
π2 9 3
I= > = > 0.1,
60 60 20

213
donc (1) peut être vraie, si R < 0.5.
R satisfait l’équation
8π2 R5
= 0.1,
15
donc
3
R5 = .
16π2
On rejette l’hypothèse H0 si
5 µ ¶5/2
3
∑ Xi2 <
16π2
où X(1) < −0.5 ou X(5) > 0.5.
i=1

5
Dans notre cas ∑ Xi2 = 0.399, X(1) = −0.325, X(5) = 0.196. On a
i=1

µ ¶5/2
3
0.399 >
16π2

l’hypothèse est accepté.

4.3 Loi multinomiale et test du chi-deux de Pearson.

Loi multinomiale.
Considérons une suite de n épreuves indépendantes et supposons que dans chaque
épreuve il ne puisse se passer qu’un seul événement parmi k possibles E1 , E2 , . . . , Ek , dont
les probabilités,

p1 = P(E1 ), p2 = P(E2 ), ..., pk = P(Ek ),


sont positives et p1 + . . . + pk = 1.
Notons p = (p1 , . . . , pk )T et ν = (ν1 , . . . , νk )T , ou νi est la fréquence de Ei dans la suite
d’épreuves (i = 1, . . . , k). Il est évident que les valeurs prises par les νi sont des valeurs
entières ni , 0 ≤ ni ≤ n,

n1 + n2 + . . . + nk = n. (1)
Le vecteur ν suit la loi multinomiale de paramètres n et p :
n!
P {ν1 = n1 , . . . , νk = nk } = pn1 pn2 . . . pnk k , (2)
n1 ! . . . nk ! 1 2
pour tout n1 , . . . , nk entiers, satisfaisant aux conditions (1).
Par des calculs directs, on peut établir que le vecteur des espérances, Eν, et la matrice
de covariance,

Σ = Varν = E(ν − Eν)(ν − Eν)T ,

214
du vecteur ν sont égaux à

Eν = np, Σ = E(ν − np)(ν − np)T = n(P − ppT ), (3)


ou P est la matrice diagonale dont les éléments sur la diagonale principale sont p1 , . . . , pk .
Il est facile de vérifier que rang(Σ) = k − 1, à cause de la condition (1).
Test du chi-deux de Pearson.
Soit 1 = 1k = (1, . . . , 1)T ∈ Rk . Nous pouvons écrire que

pT 1k = 1, νT 1k = k.
Notons
p̃ = (p1 , . . . , pk−1 )T , ν̃ = (ν1 , . . . , νk−1 )T , 1̃ = 1k−1 ,
P̃ est la matrice que l’on obtient à partir de la matrice P, en enlevant la dernière ligne
et la dernière colonne, c’est-à-dire que P̃ est la matrice diagonale dont les éléments de la
diagonale principale sont p1 , .., pk−1 . De la même façon on obtient la matrice
¡ ¢T
Σ̃ = n P̃ − p̃p̃ .

Il est facile de vérifier que p̃T 1̃ = 1 − pk , rang(Σ̃) = k − 1 et que la matrice inverse Σ̃−1 de
Σ̃ est
µ ¶
−1 1 −1 1 T
Σ̃ = P̃ + 1̃1̃ , (4)
n pk
où P̃−1 est la matrice inverse de P̃.
Soit p0 = (p01 , p02 , . . . , p0k )T un vecteur arbitraire qui satisfait la condition

pT0 1 = 1,

tel que tous les p0i sont positifs, et supposons que le vecteur ν suive la loi multinomiale
(2) de paramètres n et p. Dans ce cas si n → ∞, alors d’après le théorème limite central
à plusieurs dimensions le vecteur √1n (ν̃ − p̃0 ) est asymptotiquement distribué selon la loi
normale à (k − 1) dimensions de paramètres

1
(p̃ − p̃0 ) et P̃ − p̃p̃T = Σ̃.
n
Par conséquent la forme quadratique de Pearson
µ ¶
1 −1 1 T
Xn = (ν̃ − np̃0 ) P̃ + 1̃1̃ (ν̃ − np̃0 )
2 T
(5)
n pk

est distribuée approximativement (quand n tend vers l’infini) comme la variable aléatoire
χ2k−1 (λn ), où
µ ¶
−1 1 T
λn = n (p̃ − p̃0 ) P̃ + 1̃1̃ (p̃ − p̃0 ) .
T
(6)
pk
Comme
k
(νi − np0i )2
(ν̃ − np̃0 )T P̃−1 (ν̃ − np̃0 ) = ∑ (7)
i=1 npi

215
et
1̃T (ν̃ − np̃0 ) = −(νk − np0k ), (8)
la statistique de Pearson Xn2 peut s’écrire :
k
(νi − np0i )2
Xn2 = ∑ . (9)
i=1 npi

Théorème 1. Soit {pn } une suite de vecteurs pn = (pn1 , pn2 , . . . , pnk )T tels que pTn 1 = 1 et
tous les pni soient positifs. Supposons que
k
(pni − p0i )2
λ̂n = n ∑ → λ, (λ > 0) (10)
i=1 p0i

quand n → ∞ . Dans ce cas la statistique de Pearson


k
(νi − npni )2
Xn2 =∑ (11)
i=1 npni

suit à la limite, quand n → ∞, la même loi que la variable aléatoire χ2k−1 (λ).
Supposons que nous ayons à tester l’hypothèse H0 : p = p0 . Soit x(α, k − 1), le quantile
supérieur de niveau α de la distribution du chi-deux à (k − 1) degrés de liberté , c’est-à-dire
que © ª
P χ2k−1 ≥ x(α, k − 1) = α. (12)
D’après le test du chi-deux de Pearson, fondé sur la statistique de Pearson Xn2 , on rejette
l’hypothèse H0 si

Xn2 ≥ cα = x(α, k − 1). (13)


Le nombre cα s’appelle la valeur critique du test. De (12),(13),(6) et (9) on déduit que
© ª
P Xn2 ≥ x(α, k − 1) | H0 → α, quand n → ∞. (14)

Par ailleurs si l’hypothèse H1n : p = pn est vraie, alors du Théorème 1 il résulte que
© ª © ª
P Xn2 ≥ x(α, k − 1) | H1n = P χ2k−1 (λ) ≥ x(α, k − 1) + o(1), (15)

si
k
(pni − p0i )2
n∑ → λ, quand n → ∞. (16)
i=1 p0i
Par exemple, si
δi
pni = p0i + √ , (17)
n

δ1 + δ2 + . . . + δk = 0,
δ2i
k
λn = λ = ∑ . (18)
i=1 p 0i

216
La probabilité
© ª © ª
βn = P Xn2 ≥ x(α, k − 1) | H1n ∼= P χ2k−1 (λn ) ≥ x(α, k − 1) (19)

s’appelle la puissance du test du chi-deux de Pearson .


Par ailleurs, la relation
© ª
P Xn2 ≤ x(α, k − 1) | H1n = 1 − βn (20)

nous donne la probabilité d’erreur de seconde espèce que l’on commet en prenant H0 à tort
parce que l’on a observé l’événement {Xn2 ≤ x(α, k − 1)}, tandis qu’en fait c’est l’hypothèse
H1n qui est vraie. On remarque ici que plus la puissance βn est grande, plus petite est la
probabilité de commettre l’erreur de prendre H0 à tort. Enfin, on note que pour calculer
1 − βn on peut utiliser l’approximation normale de la loi du chi-deux non centrale, d’après
laquelle
( )
© 2 ª x(α, k − 1) − (k − 1 + λn )
1 − βn = P Xn ≤ x(α, k − 1) | H1n ∼ =Φ p , (21)
2(k − 1 + 2λn )

et par conséquent on obtient


( )
k − 1 + λn − x(α, k − 1)
βn ∼
=Φ p , (22)
2(k − 1 + 2λn )

pourvu que k + λn soit assez grand, c’est-à-dire, en pratique, supérieur où égal à 30.
Supposons maintenant, que H1n soit telle que pn 6≡ p0 et
k
(pni − p0i )2
λn = n ∑ → ∞, (23)
i=1 p0i

quand n → ∞. Dans ce cas, de (20) il résulte que (1 − βn ) → 0 et donc βn → 1, quand n → ∞


, et on dit que le test est consistant.
Remarque sur la correction de continuité.
Si k = 2, alors

(ν1 − np01 )2 (ν2 − np02 )2 (ν1 − np01 )2


Xn2 = + = , (24)
np01 np02 np01 (1 − p01 )
car ν1 + ν2 = n. Supposons que l’hypothèse H0 soit vraie. Dans ce cas la fréquence ν1 suit
la loi binomiale de paramètres n et p01 et par conséquent du thèoreme de de Moivre-Laplace
il résulte que si n → ∞, alors pour tout m (1 ≤ m ≤ n)
( )
m + 0.5 − np01 1
P {ν1 ≤ m | H0 } = Φ p + O( √ ), (25)
np01 (1 − p01 ) n
d’où on tire
P {ν1 ≥ m | H0 } = 1 − P {ν1 ≤ m − 1 | H0 } =
( )
m − 0.5 − np01 1
=Φ p + O( √ ). (26)
np01 (1 − p01 ) n

217
De (25) et (26) il résulte que si nous voulons utiliser le test du chi-deux de Pearson, fondé
sur la statistique Xn2 du niveau de signification ∼
= α, nous devons rejeter H0 quand
( ) ( )
ν1 + 0.5 − np01 α ν1 − 0.5 − np01 α
Φ p ≤ où Φ − p ≤ . (27)
np01 (1 − p01 ) 2 np01 (1 − p01 ) 2

De (27) on déduit que l’on doit rejeter H0 si l’un des événements


ν − np01 α 1
p 1 ≤ Ψ( ) − p (28)
np01 (1 − p01 ) 2 np01 (1 − p01 )
ou
ν1 − np01 α 1
p ≥ −Ψ( ) + p (29)
np01 (1 − p01 ) 2 np01 (1 − p01 )
est apparu, où Ψ(y) est la fonction inverse de Φ(x). Donc on a montré que le test du chi-
deux de Pearson à 1 degré de liberté rejette H0 si
" #2
α 1
Xn2 ≥ Ψ(1 − ) + p (30)
2 2 np01 (1 − p01 )

(ici nous avons utilisé l’identité : Ψ(y) + Ψ(1 − y) ≡ 0, y ∈ [0, 1].)


De la formule (30) il résulte que si k = 2, alors la valeur critique cα du test du chi-deux doit
être égale à
" #2
α 1
cα = Ψ(1 − ) + p (31)
2 np01 (1 − p01 )
pour avoir le niveau du test ∼ =α.
Test du chi-deux pour des données de Mendel.
Dans ses expériences Mendel a observé 315 pois ronds et jaunes, 108 pois ronds et
verts, 101 pois ridés et jaunes, 32 pois ridés et verts. Au total Mendel a observé 556 pois.
D’après l’hypothèse H0 de Mendel les probabilités p1 , p2 , p3 , p4 d’observer un pois Rond et
Jaune, un pois Rond et vert, un pois ridé et Jaune, un pois ridé et vert sont proportionnelles
à 9,3,3 et 1 respectivement (voir Remarque 1). Peut-on dire que les données de Mendel sont
en accord avec son hypothèse H0 ?
Notons n le nombre total des pois (dans l’expérience de Mendel n = 556), et soit ν =
(ν1 , ν2 , ν3 , ν4 )T est le vecteur des fréquences des événements que Mendel a observés :

ν1 = 315, ν2 = 108, ν3 = 101, ν4 = 31.


Dans notre modèle le vecteur ν suit la loi multinomiale de paramètres n et p = (p1 , p2 , p3 , p4 )T ,

p1 + p2 + p3 + p4 = 1, pi > 0.
Si l’hypothèse de Mendel est vraie, alors
9 3 3 1
p1 = , p2 = , p3 = , p4 = .
16 16 16 16
Pour tester l’hypothèse de Mendel on peut utiliser le test du chi-deux de Pearson, fondé sur
la statistique de Pearson

218
4
(νi − npi )2
Xn2 = ∑ ,
i=1 npi
dont la distribution (sous l’hypothèse H0 ) est proche de la distribution du chi-deux à f =
4 − 1 = 3 degrés de liberté. Choisissons α = 0.05. Dans ce cas la valeur critique cα =
χ23 (α) = 7.81. Comme pour les données de Mendel

Xn2 = 0.470 < χ23 (0.05) = 7.81,


nous ne rejetons pas l’hypothèse H0 , considérant que les données de Mendel sont en bon
accord avec son hypothèse.
Remarque 1. On croise différentes variétés de petits pois. A la première génération, on
obtient les différentes catégories suivantes : Ronds et Jaunes, Ronds et verts, ridés et Jaunes,
ridés et verts, sachant que :
dans les caractères de formes
le dominant est rond (R), le récessif est ridé (r) ;
dans les caractères de couleurs
le dominant est jaune (J), le récessif est vert (v).
On obtient pour la deuxième génération le tableau suivant :

Parents RJ Rv rJ rv
RJ RJ RJ RJ RJ
Rv RJ Rv RJ Rv
rJ RJ RJ rJ rJ
rv RJ Rv rJ rv

Soit RJ, Rv, rJ et rv dans les proportions 9,3,3,1.


On vient de considérer le test de Pearson pour le cas où les probabilités pi sont connues,
ou, comme on dit, pour des hypothèses simples. La situation devient un peu plus compli-
quée, quand les pi sont inconnues ou dépendent d’un paramètre θ inconnu, pi = pi (θ). Il
y a des possibilités différentes pour tester H0 , dont on dit qu’elle est composée. Dans le
paragraphe suivant nous allons parler d’une solution de Fisher et Cramer.

219
4.4 Théorème de Fisher.

Conditions de Cramer et methode du minimum de chi-deux.


Soit X = (X1 , X2 , . . . , Xn )T un échantillon ; supposons que nous voulions tester l’hypo-
thèse H0 , selon laquelle les variables aléatoires indépendantes X1 , ..., Xn suivent la même
loi

P{Xi ≤ x} = F(x, θ), θ = (θ1 , . . . , θs )T ∈ Θ ⊂ Rs ,


où la fonction de la répartition F est donnée, mais le paramètre θ est inconnu. En posant
x0 = −∞ et xk = ∞, notons ν = (ν1 , . . . , νk )T le vecteur des fréquences que nous obtenons
comme résultat du groupement des variables aléatoires sur les k intervalles (k ≥ s + 2)

(x0 , x1 ], (x1 , x2 ], . . . , (xk−1 , xk ),


qui sont choisis d’avance. Il est évident que νT 1k = n, et si l’hypothèse H0 est vraie, alors
le vecteur ν suit la loi multinomiale de paramètres n et p, où

p = p(θ) = (p1 (θ), p2 (θ), . . . , pk (θ))T

et
Zxi Zxi
pi (θ) = P{X1 ∈ (xi−1 , xi ] | H0 } = dF(x, θ) = f (x, θ)dx,
xi−1 xi−1

où f (x, θ) est la densité de F(x, θ), si elle existe. Supposons que les conditions suivantes de
Cramer soient satisfaites :
1) il existe un nombre positif c (c > 0) tel que pour tout i = 1, . . . , k

pi (θ) > c, θ ∈ Θ;
∂2 pi (θ)
2) les fonctions ∂θ2j
sont continues sur Θ ;
3) le rang de la matrice d’information de Fisher J(θ) = B(θ)T B(θ),
° °
° 1 ∂pi (θ) °
B=° °
° √ pi ∂θ j ° ,
est égal à s.
Comme le paramètre θ est inconnu, Fisher a proposé de choisir pour estimateur de θ le θ̃n
qui rend minimum la variable aléatoire
k
[νi − npi (θ)]2
X (θ) = ∑
2
i=1 npi (θ)
i.e.

X 2 (θ̃n ) = min X 2 (θ).


θ∈Θ
On dit que θ̃n est l’estimateur du minimum de chi-deux. Comme Fisher l’a prouvé (1928),
si l’hypothèse H0 est vraie, alors pour tout x fixé

220
© ª
lim P X 2 (θ̃n ) ≤ x = P{χ2k−s−1 ≤ x}.
n→∞

Cramer a démontré plus tard (1946) que le résultat de Fisher reste valable si au lieu de
θ̃n on choisit l’estimateur de maximum de vraisemblance θ∗n = θ∗n (ν1 , ν2 , . . . , νk ), qui rend
maximum la fonction de vraisemblance :

l(θ∗n ) = sup l(θ),


θ∈Θ

n!
l(θ) = (p1 (θ))ν1 (p2 (θ))ν2 . . . (pk (θ))νk .
ν1 !ν2 !...νk !
On voit bien que l’estimateur θ∗n est obtenu à partir des données groupées, et, si la distri-
bution F(x, θ) est continue, alors la statistique ν = (ν1 , . . . , νk )T n’est pas exhaustive et par
conséquent l’estimateur θ∗n n’est pas le meilleur, mais comme on l’a déjà dit
© ª
lim X 2 (θ∗n ) ≤ x | H0 = P{χ2k−s−1 ≤ x}.
n→∞

Exemple 1. Il a été établi qu’au cours d’une épidémie de grippe, parmi les 2000 individus
contrôlés, 181 personnes sont tombées malades une seule fois et seulement 9 personnes
ont eu cette maladie deux fois. L’hypothèse H0 selon laquelle le nombre de fois où une
personne tombe malade est une variable aléatoire qui suit une loi binomiale de paramètres
p et n = 2 (0 < p < 1) est-t-elle vraisemlable ?
Soit X une variable aléatoire de loi binomiale B(2, p), c’est-à-dire que
µ ¶
2
P{X = i} = pi (1 − p)2−i , i = 0, 1, 2, 0 < p < 1.
i
Et soit ν = (ν0 , ν1 , ν2 )T le vecteur des fréquences observées, où νi est le nombre des indi-
vidus qui sont tombés malades i fois,

ν0 + ν1 + ν2 = n = 2000, ν0 = 1810, ν1 = 181, ν2 = 9.


Notons p la probabilité de tomber malade (0 < p < 1) et soit l(p) la fonction de vraisem-
blance :

n! n!2ν1
l(p) = [ (1 − p)2 ]ν0 [ 2p(1 − p) ]ν1 ( p2 )ν2 = (1 − p)2ν0 +ν1 p2ν2 +ν1 .
ν0 !ν1 !ν2 ! ν0 !ν1 !ν2 !

Il est facile de voir que les meilleurs estimateurs sans biais pour les probabilités

p0 = p2 , p1 = p(1 − p) et p2 = (1 − p)2

sont
(ν1 + 2ν2 )(ν1 + 2ν2 − 1) (ν1 + 2ν2 )(ν1 + 2ν0 )
p̃0 = , p̃1 = ,
2n(2n − 1) 2n(2n − 1)
(ν1 + 2ν0 )(ν1 + 2ν0 − 1)
p̃2 =
2n(2n − 1)

221
respectivement, dont les réalisations observées sont
199 · 198 4.9 199 · 3801 94.6
p̃0 = = , p̃1 = = ,
4000 · 3999 2000 4000 · 3999 200
3801 · 3800 1805.9
p̃2 = = ,
4000 · 3999 2000
d’où l’on tire que

n p̃0 = 4.9; 2n p̃1 = 189.2; n p̃3 = 1805.9.


Pour tester H0 on va utiliser le test du chi-deux, fondé sur la statistique de Pearson X 2 qui
dans notre cas est distribuée approximativement (si l’hypothèse H0 est vraie) comme la
variable aléatoire χ2f avec f = 3 − 1 − 1 = 1 degrés de liberté. On a

2
(νi − n p̃i )2
X2 = ∑ =
i=0 n p̃ i

(1810 − 1805.9)2 (181 − 189.2)2


= + + (9 − 4.9)2 4.9 =
1805.9 189.2
(4.1)2 (8.2)2 (4.1)2 ∼
= + + = 3.795 < χ21 (0.05) = 3.841,
1805.9 189.2 4.9
où χ21 (0.05) = 3.841 est le quantile du niveau 0.05 de la distribution du chi-deux à 1 degré
de liberté :

P{χ21 > χ21 (0.05)} = 0.05.


Comme X 2 est inférieur à la valeur critique 3.841, on ne rejette pas l’hypothèse H0 .
Exemple 2. Parmi 2020 familles ayant deux enfants on a enregistré 530 familles où les
deux enfants sont des garçons et 473 familles où les deux enfants sont des filles, et dans les
1017 familles restantes les enfants sont de sexe différent. Peut-on dire, avec le niveau de
signification α = 0.1, que le nombre des garçons dans une famille de deux enfants est une
variable aléatoire qui suit une loi binomiale ? Les probabilités de naissance d’un garçon et
d’une fille sont-elles égales ?
Soit X une variable aléatoire qui suit la loi binomiale B(2, p), c’est-à-dire que
µ ¶
2
P{X = i} = pi (1 − p)2−i , i = 0, 1, 2, 0 < p < 1.
i

De plus soit ν = (ν0 , ν1 , ν2 )T le vecteur des fréquences observées, où νi est le nombre de


familles où il y a i garçons, i = 0, 1, 2. Dans notre cas

ν0 + ν1 + ν2 = n = 2020, ν1 = 1017, ν0 = 473, ν2 = 530,


et donc si l’hypothèse de la binomialité est vraie, alors la fonction de la vraisemblance l(p)
peut s’écrire :
n! £ ¤ν ¡ ¢ν
l(p) = (1 − p)2 0 [2p(1 − p)]ν1 p2 2 ,
ν0 !ν1 !ν2 !
où p est la probabilité de naissance d’un garçon.

222
Comme on le sait, les meilleurs estimateurs sans biais pour les probabilités
p0 = p2 , p1 = p(1 − p) et p2 = (1 − p)2
sont
(ν1 + 2ν2 )(ν1 + 2ν2 − 1) (ν1 + 2ν2 )(ν1 + 2ν0 )
p̃0 = , p̃1 = ,
2n(2n − 1) 2n(2n − 1)
(ν1 + 2ν0 )(ν1 + 2ν0 − 1)
p̃2 =
2n(2n − 1)
respectivement, dont les réalisations observées sont
2077 · 2076 2077 · 1963 1963 · 1962
p̃0 = , p̃1 = , p̃2 =
4040 · 4039 4040 · 4039 4040 · 4039
d’où l’on tire que

n p̃0 ∼
= 533.8; 2n p̃1 = 1009.4; n p̃3 = 476.8.
Pour tester H0 on va utiliser le test du chi-deux, fondé sur la statistique de Pearson X 2 qui
dans notre cas est distribuée approximativement (sous l’hypothèse H0 ) comme une variable
aléatoire χ2f à f = 3 − 1 − 1 = 1 degrés de liberté. On a
2
(νi − n p̃i )2
X2 = ∑ =
i=0 n p̃i

(473 − 476.8)2 1017 − 1009.4)2 (530 − 533.8)2


= + + =
476.8 1009.4 533.8
(3.8)2 (7.6)2 (3.8)2
= + + < 1 < χ21 (0.1) = 2.706,
476.8 1009.4 533.8
où χ21 (0.1) = 2.706 est le quantile du niveau 0.1 de la distribution de chi-deux à 1 degré de
liberté :
P{χ21 > χ21 (0.1)} = 0.10.
Comme X 2 est inférieur à la valeur critique 2.706, on constate que les données ne sont
pas en contradiction avec l’hypothèse H0 , d’après laquelle le nombre des garçons dans une
famille est une réalisation d’une variable aléatoire X, qui suit la loi binomiale B(2, p).
Si les probabilités de naissance d’un garçon et d’une fille sont égales, la probabilité p
est égale à 0.5 (l’hypothèse H1 ). Dans ce cas, d’après le théorème de de Moivre-Laplace,
on obtient
( )
4040
2077 − 0.5 −
P{ν1 + ν2 ≥ 2077 | p = 0.5} ∼ = 1−Φ √ 2
=
4040 ∗ 0.5 ∗ 0.5
n o ½ ¾
√ 113
= 1 − Φ 1132 1010 = 1 − Φ = 1 − Φ(1.778) = 1 − 0.9623 = 0.0377.
63.56
Pour tous les niveaux α ≥ 0.04 on est obligé de rejeter l’hypothèse H1 : p = 0.5 en faveur
de l’hypothèse H2 : p > 0.5. Comme nos calculs le montrent, le meilleur estimateur sans
biais de p est
2077
p̃ = = 0.514.
4040

223
4.5 Théorème de Chernoff-Lehmann.

Soit X = (X1 , X2 , . . . , Xn )T un échantillon ; supposons que nous voulions tester l’hypo-


thèse H0 , selon laquelle les variables aléatoires indépendantes X1 , ..., Xn suivent la même
loi
P{Xi ≤ x} = F(x, θ), θ = (θ1 , . . . , θs )T ∈ Θ ⊂ Rs ,
où la fonction de la répartition F est donnée, mais le paramètre θ est inconnu. En posant
x0 = −∞ et xk = ∞, notons ν = (ν1 , . . . , νk )T le vecteur des fréquences que nous obtenons
comme résultat du groupement des variables aléatoires sur les k intervalles (k > 2)

(x0 , x1 ], (x1 , x2 ], . . . , (xk−1 , xk ),

qui sont choisis d’avance. Si l’hypothèse H0 est vraie, alors le vecteur ν suit la loi multino-
miale de paramètres n et p, où

p = p(θ) = (p1 (θ), p2 (θ), . . . , pk (θ))T ,


Zxi Zxi
pi (θ) = P{X1 ∈ (xi−1 , xi ] | H0 } = dF(x, θ) = f (x, θ)dµ(x),
xi−1 xi−1

où f (x, θ) est la densité de F(x, θ) par rapport à une mesure dominante µ.


Supposons que la matrice d’information de Fisher existe :

I(θ) = EΛi (θ)ΛTi (θ)

pour l’observation Xi , où
µ ¶T
∂ ln (Xi , θ) ∂ ln (Xi , θ) ∂ ln (Xi , θ)
Λi (θ) = , ,..., ,
∂θ1 ∂θ2 ∂θs
et que les conditions de Cramer 1)-3) du paragraphe précédent sont satisfaites. Dans ce
cas, il existe un estimateur θ̂n de maximum de vraisemblance basé sur les données initiales,
θ̂n =θ̂n (X1 , . . . , Xn ), qui maximise la fonction de vrasemblance

L(θ) = f (X1 , θ) f (X2 , θ) · · · f (Xn , θ) : L(θ̂n ) = sup L(θ).


θ∈Θ
Sous des conditions supposées de régularité sur la famille {F(x, θ)} on connait le compor-
tement asymptotique de la suite {θ̂n }, quand n → ∞ (voir, par exemple, Barra (1971), Rao
(1973)) :

√ 1 n
n(θ̂n − θ) = √ ∑ I−1 (θ)Λi (θ) + op (1s ),
n i=1

d’où on obtient immédiatement que le vecteur n(θ̂n − θ) a une distribution asymptotique-
ment normale N(0s , I−1 (θ)), quand n → ∞.
Théorème de Lehmann et Chernoff.
En utilisant ces propriétés de l’estimateur de maximum de vraisemblance θ̂n , Lehmann
et Chernoff ont montré (1954), que sous l’hypothèse H0

224
© ª © ª
lim P X 2 (θ) ≤ x = P χ2k−s−1 + λ1 (θ)ξ21 + . . . + λs (θ)ξ2s ≤ x ,
n→∞

où ξ1 , ξ2 , . . . , ξs , χ2k−s−1 sont des variables aléatoires indépendantes, ξi suit la loi normale


standard N(0, 1), et 0 < λi (θ) < 1.
Statistique Yn2 .
D’après ce résultat on constate qu’en général il est impossible d’utiliser la statistique
standard de Pearson X 2 (θ̂n ) pour tester des hypothèses composées, lorsqu’on utilise des
estimateurs de maximum de vraisemblaces θ̂n ou leurs équivalents. On peut tout de même
construire un test du chi-deux pour tester des hypothèses ¢ Notons Σ(θ) la matrice
¡ composées.
de covariance de la distribution limite du vecteur √n ν − np(θ̂n ) . On peut montrer (voir,
1

par exemple, Nikulin (1973), Nikulin et Greenwood (1990), Huber (1991)), que rangΣ =
k − 1. Notons Σ− (θ) la matrice inverse généralisée de Σ(θ) et soit

1¡ ¢T ¡ ¢
Yn2 = ν − np(θ̂n ) Σ− (θ̂n ) ν − np(θ̂n ) .
n
Par des calculs directs on peut vérifier que la statistique Yn2 est indépendante du choix de la
matrice Σ− . On peut utiliser la statistique Yn2 pour tester la validité de l’hypothèse H0 selon
laquelle la distribution des éléments Xi de l’échantillon X suit la loi F(x, θ). On a en effet
(voir, par exemple, Nikulin (1973), Greenwood et Nikulin (1996)) :
© ª © ª
lim P Yn2 ≤ x | H0 = P χ2k−1 ≤ x .
n→∞

Pour plus de détails sur la construction des tests du chi-deux, fondés sur la statistique Yn2 , on
se reportera aux articles de Nikulin (1973), (1979), (1990), (1991), Dzhaparidze et Nikulin
(1974), Nikulin et Voinov (1989), Greenwood et Nikulin (1996), Nikulin et Seddik-Ameur
(1991). On remarque enfin, que dans les cas de l’ existence de statistiques exhausives, on
peut utiliser aussi les meilleurs estimateurs sans biais pour construire un test du chi-deux
fondé sur la statistique Yn2 et en utilisant la technique exposée dans les articles que l’on vient
de mentionner.

4.6 Test du chi-deux pour une loi logistique.

La loi "logistique", qui a reçu son nom de Berkson et Reed (1929) est souvent utilisée.
(Entre autres, par Pearl et Reed (1920) pour le développement des levures, par Oliver (1964)
comme modèle de données agricoles et Grizzle (1961) dans le domaine de la santé Publique,
etc.)
Cette loi a une fonction de répartition dépendant de deux paramètres µ et σ > 0 :

1
F(x) = G ( x−µ
σ )= ¡ ¢ , x ∈ R. (1)
1 + exp{− √π3 x−µ
σ }

Un livre vient d’être publié par Balakrishnan (1992) sur la théorie, méthodologie et appli-
cations de cette loi. Ici nous allons suivre l’article de Aguirre et Nikulin (1994).

225
Soit X = (X1 , X2 , . . . , Xn )T - un échantillon et supposons que nous voulions tester l’hy-
pothèse H0 selon laquelle

P{Xi < x} = G ( x−µ


σ ). (2)
Dans cette situation nous nous proposons d’utiliser les résultats précédants pour construire
un test du chi-deux.
1. Notations.
0
Soit g(x) = G (x), et donc σ1 g ( x−µ
σ ) est la densité de Xi sous H0 ,

1 x−µ π exp{− π(x−µ)


√ }
σ 3
g( σ ) = √ h i2 . (3)
σ
σ 3 1 + exp{− π(x−µ)
√ }
σ 3

g est paire (g(−x) = g(x)).


2. Estimation de µ et σ.
Pour estimer θ =√(µ, σ)T on utilise l’estimateur θ̂n = (µ̂, σ̂2 )T du maximum de vraisem-
blance. On sait que n(θ̂n − θ) est asymptotiquement normal N(0, I−1 ), où

Z+∞h i2
1 g0 (x) π2
I = 2 kIi j ki, j=1,2 , I11 = g(x)dx =
σ g(x) 9
−∞

Z+∞ h i2
g0 (x)
I12 = I21 = x g(x)
g(x)dx = 0,
−∞

Z+∞ h i2
2 g0 (x) π2 + 3
I22 = x g(x)
g(x)dx − 1 = .
9
−∞
I12 = 0 car g est symétrique, et une integration par parties permet d’obtenir I11 et I22 .
3. Choix des intervalles sur lesquels on va comparer les fréquences observées et les
fréquences théoriques :
Supposons que l’on ait choisi un vecteur p = (p1 , p2 , . . . , pk )T de probabilités positives,
par exemple :


1 −1 i 3 k
p1 = . . . = pk = , yi = G ( )=− ln( − 1), i = 1, . . . , k − 1,
k k π i
et notons ν = (ν1 , . . . , νk )T le vecteur des effectifs que nous obtenons en regroupant les
variables aléatoires X1 , . . . , Xn sur les intervalles

(−∞, z1 ], (z1 , z2 ], . . . ., (zk−1 , +∞), où zi = µ̂ + σ̂yi .


4. Test de χ2 . Posons
1
a = (a1 , . . . , ak )T , b = (b1 , . . . , bk )T , w=− k a, b k, où
σ
π
ai = g(yi ) − g(yi−1 ) = √ (k − 2i + 1),
k2 3

226
· ¸
1 k−i+1 k−i
bi = yi g(yi ) − yi−1 g(yi−1 ) = 2 (i − 1)(k − i + 1) ln − i(k − i) ln ,
k i−1 i
" #
k
π k
α(ν) = k ∑ ai νi = √ (k + 1)n − 2 ∑ iνi ,
i=1 3k i=1

k
1 k−1 k−i
β(ν) = k ∑ bi νi = ∑ (νi+1 − νi )i(k − i) ln ,
i=1 k i=1 i
k
π2 k
λ1 = I11 − k ∑ a2i = 2, λ2 = I22 − k ∑ b2i .
i=1 9k i=1
Comme g est symétrique on remarque que
k k
∑ ai = ∑ bi = 0.
i=1 i=1

Notons B = D − pT p − WT I−1 W, où D est la matrice diagonale avec les éléments 1/k sur
la diagonale principale ( rangB = k − 1). Notons ˜ les matrices précédentes dans lesquelles
on supprime la dernière ligne pour W, p et ν et les dernières ligne et colonne de D et B.

Théorème 1. Sous l’hypothèse H0 , quand n → ∞ , le vecteur ν̃ est asymptotiquement


normalement distribué avec les paramètres

Eν̃ = np̃ + O(1) et E(ν̃ − np̃)T (ν̃ − np̃) = nB̃ + O(1).

Théorème 2. Sous l’hypothèse H0 la statistique

1 λ1 β2 (ν) + λ2 α2 (ν )
Yn2 = (ν̃ − np̃)T B̃−1 (ν̃ − np̃) = X 2 + ,
n nλ1 λ2

converge en loi quand n → ∞ vers une distribution de χ2k−1 .


Remarque. Considérons l’hypothèse Hη selon laquelle Xi suit la loi G( x−µ σ , η), où
G(x, η) est continue, | x |< ∞, η ∈ H et G(x, 0) = G(x), η = 0 est un point limite de H.
De plus, supposons qu’il existe

∂ ∂
G(x, y) = g(x, y) et g(x, η) |η=0 = Ψ(x),
∂x ∂η
∂2 g(x,η)
où g(x, 0) = g(x) = G0 (x). Dans ce cas si ∂η2
existe et est continue pour tout x au
voisinage de η = 0, alors

P{yi−1 < Xi ≤ yi | Hη } = pi + ηci + o(η),

Zyi
où ci = Ψ(x)dx, i = 1, ..., k,
yi−1

227
et donc
lim P{Y 2 ≥ x | Hη } = P{χ2k−1 (λ) ≥ x},
n→∞
k
c2i λ2 α2 (c) + λ1 β2 (c)
λ= ∑ + , c = (c1 , c2 , ..., ck )T .
i=1 p i λ 1 λ2

Plus de détails on peut trouver dans Aquirre (1993), Aquirre et Nikulin (1994).

4.7 Test du chi-deux dans un problème d’homogénéité.

On a k groupes de souris soumises à des traitements par différents médicaments . Les


souris d’un groupe, nommé "groupe de contrôle", ont reçu un médicament, dont les effets
ont déjà été étudiés. Pour savoir si d’autres médicaments sont meilleurs ou moins bons, on
compare les effets produit par ces médicaments à ceux du "groupe de contrôle". On vérifie
l’hypothèse d’homogénéité : cette hypothèse est vraie s’il n’y a pas de changement d’effet.
Autrement, l’hypothèse doit être rejetée. Dans ce cas, se pose le problème suivant : trouver
les groupes pour lesquels on a des effets différents de ceux du "groupe de contrôle".
Soient µ1 , .., µk des variables aléatoires indépendantes qui suivent la distribution binomiale
de paramètres (n1 , p1 ), . . . , (nk , pk ) respectivement :
ni −m
P {µi = m} = Cnmi pm
i (1 − pi ) , m ∈ {0, 1, . . . , ni }, i = 1, 2, . . . , k,
où les probabilités p1 , . . . , pk sont inconnues (0 < pi < 1; i = 1, . . . , k). Supposons que la
variable aléatoire µk soit donnée pour "le contrôle" ; notre but est alors de tester l’hypothèse
que toutes les probabilités p1 , .., pk−1 ou quelques-unes d’entre elles sont égales à pk . Ce
problème peut être résolu si l’on suppose que min (n1 , . . . , nk ) → ∞.
Soit ξi = µnii , i = 1, . . . , k. Alors du théorème de de Moivre-Laplace on peut tirer que
k· r ¸
ni
P {ξ1 ≤ x1 , ξ2 ≤ x2 , . . . , ξk ≤ xk } ∼ ∏ Φ (xi − pi ) ,
i=1 pi qi
si µ r ¶
ni
(xi − pi ) = O(1),
pi qi
où Φ(·) est la fonction de répartition de la loi normalle N(0, 1) et qi = 1 − pi , i = 1, . . . , k.
Soit ηi = ξi − ξk , et soit
pi qi
∆i = Eηi = pi − pk et σ2i = , i = 1, .., k.
ni
Il est clair que le vecteur aléatoire η = (η1 , . . . , ηk−1 )T a une distribution asymptotique
normale de paramètres

Eη = ∆ = (∆1 , . . . , ∆k−1 )T et E(η − ∆)(η − ∆)T = Σ,



Σ = diag(σ21 , σ22 , . . . , σ2k−1 )T + σ2k E,

228
diag(x1 , . . . , xn ) est la matrice diagonale ayant les éléments x1 , . . . , xn sur la diagonale prin-
cipale et E est la matrice d’ordre (k − 1) × (k − 1), dont tous les éléments sont égaux à 1.
Nous remarquons que la matrice Σ est non singulière et
à !−1
k
Σ−1 = diag(σ−2 −2 −2
1 , σ2 , . . . , σk−1 ) − ∑ σ−2
i kbi j k,
i=1

1
bi j = ; i, j = 1, . . . , k − 1.
σ2i σ2j
Du fait que le vecteur η a une distribution asymptotique normale, il s’ensuit que la forme
quadratique

Y2 = (η − ∆)T Σ−1 (η − ∆)
a à la limite, lorsque min(n1 , . . . , nk ) → ∞, une distribution du chi-deux à k − 1 degrés de
liberté.
Cette même forme quadratique peut être représentée sous une forme plus explicite :
à !−1 " #2
k−1 µ ¶2
ηi − ∆i 1 k k−1
ηi − ∆i
Y2 = ∑ σi
− ∑ 2 ∑ σi . (1)
i=1 i=1 σi i=1
D’après la théorie générale des tests du chi-deux (voir,par exemple, Greenwood et Nikulin
(1996), Nikulin (1991)) , la distribution limite de la forme quadratique Y2 sera la même si
tous les paramètres inconnus σ2i sont remplacés par leurs meilleurs estimateurs sans biais

(1 − ξi )
σ̂2i = ξi , i = 1, . . . , k.
(ni − 1)
Soit P un coefficient de confiance donné , 0.5 < P < 1, et soit x p le quantile de niveau© 2 P de ª
la distribution du chi-deux à k − 1 degrés de liberté. Dans ce cas, la probabilité P Y ≤ x p
est approximativement égale à P et toutes les valeurs du vecteur (∆1 , . . . , ∆k−1 )T , satisfaisant
l’inégalité Y 2 ≤ x p , donnent un intervalle de confiance dont le coefficient de confiance est
proche de P. Ceci peut être utilisé dans la solution du problème proposé.
Inférences statistiques.
On considère un ensemble d’hypothèses

Hr = Hr (i1 , .., ir ) : ∆i1 = ∆i2 = . . . = ∆ir = 0,


r = 1, 2, . . . , k − 1; 1 ≤ i1 < i2 < . . . < ir ≤ k − 1.
Nous dirons que l’hypothèse Hr (i1 , . . . , ir ) n’est pas contradictoire avec les données de l’ex-
périence s’il existe ∆∗i (i 6= i1 , . . . , ir ), pour lequel la valeur de la statistique Y 2 est infé-
rieure à x p . Autrement dit, l’hypothèse Hr (i1 , . . . , ir ) doit être acceptée si , dans l’espace
(∆1 , . . . , ∆k−1 ) de dimension k − 1, l’hyperplan défini par les équations

∆i1 = ∆i2 = . . . = ∆ir = 0

a une intersection non vide avec l’intérieur de l’ellipsoïde défini par l’inégalité Y 2 ≤ x p .
Le but final est de choisir un sous-ensemble d’hypothèses qui ne sont pas contradictoires
avec les données de l’expérience ; puisque certaines hypothèses sont des conséquences des

229
autres nous ne nous intéresserons dans ce sous-ensemble qu’aux éléments dont l’indice r
est maximal.
Considérons l’hypothèse Hr (1 ≤ r ≤ k − 1), et, sans restriction de généralité, supposons
que i1 = k − r, i2 = k − r + 1, . . . , ir = k − 1. Alors la statistique Y 2 aura la forme

" #
k−r−1 µ ¶2 µ ¶2
ηi − ∆i k−1
ηi k−r−1 k−1
Y2 = ∑ σi
+ ∑ σi
− ∑ c j (η j − ∆ j ) + ∑ c jη j , (2)
i=1 i=k−r j=1 j=k−r

où Ã !−1/2
k
c j = σ−2
j ∑ σ−2
i , j = 1, . . . , k − 1.
i=1

Il est facile de voir que la plus petite valeur de la statistique Y 2 est obtenue au point
à !−1
k−r−1 k−1
∆i = ∆∗i = ηi − ci σ̂2i 1− ∑ c2j σ2j ∑ c j η j , i = 1, . . . , k − 1,
j=1 j=k−r
et sa valeur minimale est
µ ¶2
k−1
µ ¶2 ∑ ci ηi
k−1
ηi

i=k−r
Y∗2 = − µ ¶ (3)
σ̂i k−r−1
i=k−r 1 + ∑ ci σ̂i
2 2
i=1
(si r = k − 1, alors le dénominateur de la fraction sera supposé à 1). Il est clair que l’hypo-
thèse Hr (i1 , . . . , ir ) doit être rejetée si Y 2 ≥ x p .
Exemple. Soit
k = 4 et n1 = n2 = n3 = n3 = 100, où µ1 = 20, µ2 = 50, µ3 = 60 et µ4 = 40.
Alors
ξ1 = 0.2, ξ2 = 0.5, ξ3 = 0.6, ξ4 = 0.4, η1 = −0.2, η2 = 0.1, η3 = 0.2.
Si on utilise le meilleur estimateur sans biais σ̂2i = ξi (1 − ξi )/ni pour estimer le paramètre
inconnu σ2i , i = 1, . . . , 4, on obtient

σ̂21 = 0.0016, σ̂22 = 0.0025, σ̂23 = 0.0024 et σ̂24 = 0.0024;


d’où
22.300
σ̂−2 −2 −2 −2
1 + σ̂2 + σ̂3 + σ̂4 = ,
12
et
r r r
3 3 250 3
c1 = 125 , c2 = 80 , c3 = .
223 223 3 223
Puisque la statistique Y 2 a ici approximativement une distribution du chi-deux à trois degrés
de liberté, pour P = 0.95 la valeur critique correspondante x p est x0.95 = 7.815. Nous allons
tester l’hypothèse Hr .

230
A. Test de l’hypothèse H3 (1, 2, 3). En utilisant (3), nous avons
0.04 0.01 0.04
Y∗2 = + + −
0.0016 0.0025 0.0024
à r r r !2
3 3 250 3
− −125 × 0.2 + 80 × 0.1 + × 0.2 = 45.665,
223 223 3 223
© ¢
et comme P χ23 > 45.665 < 10−7 , l’hypothèse H3 (1, 2, 3) doit être rejetée par tous les
tests du chi-deux dont le niveau de signification n’est pas inférieur à 10−7 .
B1 .Test de l’hypothèse H2 (2, 3).Dans ce cas
0.01 0.04
Y∗2 = + −
0.0025 0.0024
à r r !2 µ ¶
3 250 3 125 × 125 × 3 16 −1
− 80 × 0.1 + × 0.2 1+ × =
223 3 223 223 10.00
= 14.541.
© 2 ª
Comme P χ3 > 14.541 = 0.00225, l’hypothèse H2 (2, 3) doit être rejetée par tous les tests
du chi-deux dont le niveau de signification n’est pas inférieur à 0.00225.
B2 .Test de l’hypothèse H2 (1, 3). Comme
0.04 0.04
Y∗2 = + −
0.0016 0.0024
à r r !2 µ ¶−1
3 250 3 80 × 80 × 3 25
− −125 × 0.2 + × 0.2 1+ × =
223 3 223 223 10.000
= 40.898,
l’hypothèse H2 (1, 3) doit être rejetée
© par tousª les tests du chi-deux dont le niveau de signi-
fication n’est pas inférieur à P χ23 > 40.898 < 10−7 .
B3 . Test de l’hypothèse H2 (1, 2). Dans ce cas
0.04 0.01
Y∗2 = + −
0.0016 0.0025
à r r !2 µ ¶−1
3 3 250 × 250 × 3 24
− −125 × 0.2 + 80 × 0.1 1+ × =
223 223 3 × 3 × 223 10.000
= 25.824.
Puisque la valeur minimale Y∗2 de la statistique Y 2 dépasse la valeur critique x0.95 = 7.815,
l’hypothèse H2 (1, 2) doit ausi être rejetée.
C1 . Test de l’hypothèse H1 (1). Comme

à r !2 µ ¶
2 0.04 3 48 50 −1
Y∗ = − −125 × 0.2 1+ + == 19.159 > 7.815,
0.0016 223 223 223

cette hypothèse doit être rejetée aussi.

231
C2 . Test de l’hypothése H1 (2). Ici la plus petite valeur de la statistique Y 2 est égale à
à r !2 µ ¶−1
0.01 3 75 50
Y∗2 = − 80 × 0.1 1+ + = 3.448,
0.0025 223 223 223
ce qui est sensiblement plus petit que la valeurs critique choisie x0.95 , c’est pourquoi l’hy-
pothèse H1 (2) n’est pas rejetée ; nous obtenons les estimateurs nouveaux

r r µ ¶
3 3 75 50 −1
∆∗1 = −0.2 − 80 × 0.1 × 125 × 0.0016 1 − − =
223 223 223 223

= −0.249,
et

r r µ ¶
3 250 3 75 50 −1
∆∗3 = −0.2 − 80 × 0.1 × × 0.0024 1 − − =
223 3 223 223 223

= 0.151.
C3 . Test de l’hypothése H1 (3). Puisque
à r !2 µ ¶−1
0.04 250 3 75 48
Y∗2 = − × 0.2 1+ + = 14.258,
0.0024 3 223 223 223
alors la plus petite valeur dépasse la valeur critique et l’hypothése H1 (3) est rejetée.
Conclusion : seule l’hypothèse H1 (2) peut-être acceptée d’après les résultats de l’expé-
rience, d’où il s’ensuit que ∆2 = p2 − p4 = 0, i.e. p2 = p4 . Si cette hypothèse est vraie , il est
raisonnable de prendre comme estimateur de p4 la valeur de la statistique (µ2 + µ4 )/(n2 +
n4 ) ; dans l’exemple présent cette quantité est égale à (ξ2 + ξ4 )/2 = 0.45. Puisque

p1 − p4 ≈ ∆∗1 = −0.249 et p3 − p4 ≈ ∆∗3 = 0.151,

nous avons p1 ≈ 0.201 et p3 ≈ 0.601.


Remarque. Pour utiliser cette approche, dans le cas général on doit tester
k−1
∑ Ck−1
r
= 2k−1 − 1
r=1

hypothèses. Dans la pratique pourtant il suffit de tester k − 1 hypothèses. Pour cela, il est
nécessaire de calculer les relations

η21 η2k−1
, . . . ,
σ̂21 σ̂2k−1

et de les ranger en une suite non décroissante


µ ¶2 µ ¶2 µ ¶2
η1 η2 ηk−1
≥ ≥ ... ≥
σ̂1 σ̂2 σ̂k−1

232
(les numéros peuvent être donnés après le rangement). Alors on teste successivement les
hypothèses Hr = Hr (k − r, k − r + 1, . . . , k − 1) avec r = k − 1, k − 2, . . . . Si, en agissant de
cette façon, on trouve que
µ ¶2 µ ¶ µ ¶ µ ¶
ηm ηm+1 2 ηm+t 2 ηm+t+1 2
> = ... = >
σm σm+1 σm+t σm+t+1
et qui l’hypothèse Hk−m est rejetée, alors il faut tester ensuite l’hypothèse Hk−m−t et non
Hk−m−1 .
On remarque enfin que Bolshev et Nikulin (1975) ont considéré la solution d’un pro-
blème de homogénéité plus général pour des distributions dépendant de paramètres de trans-
lation et d’échelle.

4.8 Test du χ2 d’homogénéité pour des lois multinomiales.

Observons I vecteurs aléatoires indépendents

µ1 = (µ11 , . . . , µ1r )T , µ2 = (µ21 , . . . , µ2r )T , . . . , µI = (µI1 , . . . , µIr )T ,


avec l’hypothèse H :

µi ∼ Mr (ni , pi ), (1)
où n1 , n2 , . . . , nI sont des entiers positifs, pi = (pi1 , . . . , pir )T ∈ Rr ,
pi1 + pi2 + . . . + pir = 1, i = 1, 2, . . . , I. (2)
Puisque les vecteurs µ1 , . . . , µI sont indépendants, alors, sous l’hypothèse H, la fonction de
vraisemblance L(p1 , . . . , pI ) est

n1 !n2 ! · · · nI ! µ µ µ µ µ µ
L(p1 , . . . , pI ) = p1111 · · · p1r1r p2121 · · · p2r2r · · · pI1I1 · · · pIrIr . (3)
µ11 ! · · · µ1r !µ21 ! · · · µIr !
Si nous supposons que toutes les probabilités pi j sont connues, alors, d’après le théorème
de Pearson, la statistique
2
(µi j − ni pi j )
I r
X =∑∑
2
(4)
i=1 j=1 ni pi j

a pour distribution limite lorsque n → ∞ la distribution du χ2 avec f = I(r − 1) degrés de


liberté :
lim P{X 2 ≤ x | H} = P{χ2I(r−1) ≤ x}.
n→∞
Supposons maintenant que tous les vecteurs pi sont inconnus. Dans ce cas, nous devons
estimer I(r − 1) paramètres pi j . Sous l’hypothèse H, les estimateurs de vraisemblance des
pi j sont
µi j
p̂i j = , j = 1, 2, . . . , r; i = 1, 2, . . . , I, (4)
N

233
où N = n1 + n2 + . . . + nI . Supposons qu’on fasse l’hypothèse H0 :

p1 = p2 = . . . = pI = p, (5)

cela signifie que, sous cette hypothèse H0 toutes les distributions multinomiales (2) des
vecteurs aléatoires µi ont le même vecteur de probabilités p = (p1 , . . . , pr )T qu’on a besoin
d’estimer, si nous voulons faire de l’inférence statistique . Il est évident que sous l’hypo-
thèse H0 , on a seulement besoin d’estimer r − 1 paramètres p1 , p2 , . . . , pr−1 , puisque

p1 + p2 + . . . + pr = 1.

Pour tester H0 on peut construire le test d’homogeneité du χ2 bien connu, basé sur la
variable aléatoire de Pearson (le paramète p est inconnu !), qui sous H0 peut s’écrire :
I r
(µi j − ni p j )2
X2 = ∑ ∑ ni p j . (6)
i=1 j=1

Tout d’abord reécrivons la fonction de vraissemblance L(p) de nos données sous H0 . En


utilisant (3) et en posant

ν = (ν1 , . . . , νr )T = µ1 + . . . + µI , (7)

I
ν j = ∑ µi j , j = 1, 2, . . . , r and ν1 + ν2 + . . . + νr = N, (8)
i=1
on obtient d’après (3), (5) et (8) que

N!
L(p) = pν1 pν2 · · · pνr r . (9)
ν1 !ν2 ! . . . νr ! 1 2
Pour trouver l’estimateur de maximum de vraissemblance p̂ de p sous H0 , on considère :
r
ln L(p) = ln (const) + ∑ νi ln pi , (10)
i=1

d’où nous obtenons le système

∂ ν j νr
L(p) = − = 0, j = 1, 2, . . . , r − 1, (11)
∂p j p j pr
pour lequel la solution est p̂ = ( p̂1 , p̂2 , . . . , p̂r )T , p̂r = 1 − p̂1 − p̂2 − . . . − p̂r−1 , où
νj
p̂ j = , j = 1, 2, . . . , r. (12)
N
Par suite, de (12) on obtient :

pr ν j = νr p j , j = 1, 2, . . . , r, (13)
ce qui implique

234
r r
pr ∑ ν j = νr ∑ p j , (14)
j=1 j=1

d’où
νr
p̂r = . (15)
N
En substituant (15) dans (13) on obtient (12).
Nous pouvons maintenant, pour tester H0 , utiliser la statistique de Pearson :
à !
I r (µ − n p̂ )2 I r µ2
X 2 (p̂) = ∑ ∑ =N ∑ ∑
ij i j ij
−1 . (16)
i=1 j=1 n i p̂ j i=1 j=1 n i ν j

D’après le théorème de Cramer,

lim P{X 2 (p̂) ≤ x | H0 } = P{χ2(I−1)(r−1) ≤ x}, (17)


n→∞
puisque le nombre de paramètres estimés est r − 1, d’où

f = I(r − 1) − (r − 1) = (I − 1)(r − 1), (18)


et f est le nombre de degrés de liberté de la distribution limite du χ2 .
Exemple 1. Supposons que deux groupes de 300 étudiants chacun passent le même examen.
Dans le 1er groupe 144 étudiants obtiennent une très bonne note, 80 une bonne note, 43
une note passable, et 33 une mauvause note. Pour le second groupe, la distribution est
la suivante : 154 trés bonnes notes, 72 bonnes, 35 moyennes et 39 mauvaises. Pouvons
nous dire que les 2 groupes sont homogènes, ce qui signifie que nous avons observé les
réalisations de 2 vecteurs aléatoires ayant la même distribution discrète ?
On peut présenter les données à l’aide du tableau suivant :

i µi1 µi2 µi3 µi4


1 144 80 43 33 (19)
2 154 72 35 39
Soient µi = (µi1 , µi2 , µi3 , µi4 )T (i = 1, 2) les 2 vecteurs aléatoires dont les réalisations sont
présentées dans le tableau et soit H0 l’hypothèse nulle selon laquelle µ1 and µ2 ont la
même distribution multinomiale M4 (300, p), où p est un vecteur inconnu de probabilités
p = (p1 , p2 , p3 , p4 )T , avec p1 + p2 + p3 + p4 = 1. Sous l’hypothèse H0 , l’estimateur de
maximum de vraissemblance de p est p̂ = ( p̂1 , p̂2 , p̂3 , p̂4 )T , où

298 152 78 72
p̂1 = , p̂2 = , p̂3 = , p̂4 = , (20)
600 600 600 600
puisque dans l’exemple :

N = n1 + n2 = 300 + 300 = 600,


ν1 = µ11 + µ21 = 298, ν2 = µ12 + µ22 = 152,
ν3 = µ13 + µ23 = 78, ν4 = µ14 + µ24 = 72,

235
et p̂i = νi /N. Pour tester H0 on peut construire un test du χ2 , basé sur la statistique (16).
D’après nos données nous avons :

(¡ ¢2 ¡ ¢ ¡ ¢2 ¡ ¢ )
72 78 2 298 2
33 − 300 600 43 − 300 600 80 − 300 152 144 − 300
X 2 (p̂) = 2 + + 600
+ 600
=
36 39 76 149

µ ¶ µ ¶
9 16 16 25 1 1 1 1
=2 + + + <2 + + + = 2.4 < χ23 (0.05) = 7.815.
36 39 76 149 4 2 4 5
Puisque

X 2 (p̂) < χ23 (0.05) = 7.815, (21)

on peut accepter H0 , si on prend α = 0.05.

4.9 Test du χ2 pour l’indépendance dans une table de


contingence.

Supposons que les données sont telles que chacune des n observations peut être clas-
sée dans une des K = I · J, (nombre fini) de catégories possibles suivant deux attributs
Ai , B j (i = 1, 2, . . . , I; j = 1, 2, . . . , J). Dans ce cas les données peuvent être présentées dans
un tableau de contingence à I lignes et J colonnes. On notera pi j la probabilité pour une
observation d’être classée à la i-ème ligne et j-ème colonne du tableau, ce qui signifie que
cette observation possède les attributs Ai et B j . Notons νi j le nombre des observations pla-
cées à la i-ème ligne et j-ème colonne. On a alors

I J I J
∑ ∑ νi j = n and ∑ ∑ pi j = 1. (1)
i=1 j=1 i=1 j=1

Soit pi· la probabilité marginale que l’observation soit à la i-ème ligne et soit p· j la proba-
bilité marginale que l’observation soit à la j-ème colonne du tableau. Il est clair que

J I
pi· = ∑ pi j and p· j = ∑ pi j . (2)
j=1 i=1

Nous avons bien sûr :

I J
∑ pi· = ∑ p· j = 1. (3)
i=1 j=1

236
On peut présenter le modèle avec les deux tableaux :

B1 ··· Bj ··· BJ
A1 p11 ··· p1 j ··· p1J p1·
Ai pi1 ··· pi j ··· piJ pi·
AI pI1 ··· pI j ··· pIJ pI·
p·1 ··· p· j ··· p·J 1

Tab. 1

B1 ··· Bj ··· BJ
A1 ν11 ··· ν1 j ··· ν1J ν1·
Ai νi1 ··· νi j ··· νiJ νi·
AI νI1 ··· νI j ··· νIJ νI·
ν·1 ··· ν· j ··· ν·J n
Tab. 2
Si on connait les véritables probabilités pi j , alors la statistique
2
(νi j − ni pi j )
I J
X =∑∑
2
(4)
i=1 j=1 ni pi j

a pour distribution limite lorsque min ni → ∞ une distribution du χ2 avec f degrés de liberté,

f = K − 1 = I · J − 1, (5)

lim P{X 2 ≤ x | H0 } = P{χIJ−1 ≤ x}. (6)


n→∞
Si les pi j sont inconnus, nous devons les estimer. Supposons que nous nous intéressons à
l’hypothèse H0 d’après laquelle les classements dans les lignes et les colonnes sont indé-
pendants, i.e.,

P{Ai B j } = pi j = P{Ai }P{B j } = pi· p· j . (7)


Dans notre modèle, la fonction de vraissemblance est :
I J
n! n! ν
L(p) =
ν11 ! · · · νIJ !
pν1111 · · · pνi jIJ = ∏ ∏
ν11 ! · · · νIJ ! i=1 j=1
pi ji j . (8)

Sous l’hypothèse H0 nous avons


I J
n! ν
L(p) = ∏ ∏
ν11 ! · · · νIJ ! i=1 j=1
pi ji j

à !à !
I J I J
n! ν ν
=
ν11 ! · · · νIJ ! ∏∏ pi·i j ∏∏ p· ji j
i=1 j=1 i=1 j=1

237
à !à !
I J
n! ν
=
ν11 ! · · · νIJ ! ∏ pνi·i· ∏ p· j· j , (9)
i=1 j=1


J I
νi· = ∑ νi j and ν· j = ∑ νi j , (10)
j=1 i=1

et en prenant les logarithmes, on obtient


I J
ln L(p) = const + ∑ νi· ln pi· + ∑ ν· j ln p· j .
i=1 j=1

Pour trouver le vecteur informant Λ(p) nous dérivons ln L(p) par rapport à pi· et p· j :
µ ¶T
∂ ∂ ln L(p) ∂ ln L(p) ∂ ln L(p) ∂ ln L(p)
Λ(p) = ln L(p) = ,..., , ,..., , (12)
∂p ∂p1· ∂pI· p·1 ∂p·J

∂ ln L(p) νi· νI·


= − , i = 1, 2, . . . , I − 1; (12)
∂pi· pi· pI·
et
∂ ln L(p) ν· j ν·J
= − , j = 1, 2, . . . , J − 1. (13)
∂p· j p· j p·J
En utilisant
I−1 J−1
pI· = 1 − ∑ pi· and p·J = 1 − ∑ p· j , (14)
i=1 j=1

de (12)-(13) on tire les estimateurs de maximum de vraisemblance de pi· and p· j :


νi· ν· j
p̂i· =
and p̂· j = , (15)
n n
d’où les estimateurs de maximum de vraissemblance des probabilités pi j sont
νi· ν· j
p̂i j = p̂i· · p̂· j = . (16)
n n
Dans ce cas, d’après le théorème de Fisher, sous l’hypothèse H0 la statistique de Pearson
à !
I J (ν − n p̂ p̂ )2 I J ν 2
X2 = ∑ ∑ =n ∑ ∑
ij i· · j ij
−1 (17)
i=1 j=1 n p̂ i· p̂· j i=1 j=1 ν i· ν · j

a pour distribution limite lorsque n → ∞, la distribution du χ2 à f degrés de liberté,

f = IJ − (I − 1) − (J − 1) − 1 = (I − 1)(J − 1)
et donc

lim P{X 2 ≤ x | H0 } = P{χ2(I−1)(J−1) ≤ x}. (18)


n→∞

238
On peut utiliser ce résultat pour construire un test du χ2 pour l’hypothèse H0 au seuil de
signification α. D’après ce test on doit rejeter H0 si

X 2 > χ2f (α),

où χ2f (α) est le α-quantile supérieur (0 < α < 0.5) de la distribution du χ2 à f = (I −


1)(J − 1) degrés de liberté.
Considérons le cas I = J = 2. Alors au lieu du tableau 2 nous avons le tableau connu
comme le tableau 2 × 2.

ν11 ν12 ν1·


ν21 ν22 ν2·
ν·1 ν·2 n
Tab. 3

De façon evidente, sous l’hypothèse H0 , au lieu du tableau 1, nous aurons le tableau 4,

B1 B2
A1 pP qP P
A2 pQ qQ Q
p q

Tab. 4

P = P(A1 ), Q = P(A2 ) = 1 − P, p = P(B1 ), q = P(B2 ) = 1 − p.


On peut vérifer qu’après quelques manipulations, la statistique de Pearson (17) peut s’écrire

n(ν11 ν22 − ν21 ν12 )2


X2 = , (19)
ν1· ν2· ν·1 ν·2
et d’après (18) il s’ensuit

lim P{X 2 ≤ x | H0 } = P{χ21 ≤ x}. (20)


n→∞

Exemple 1. Considérons un groupe de 300 étudiants qui ont passé un examen partiel en
mathématiques. Parmi eux, 97 ont obtenu une très bonne note : A et les 203 autres une note
inférieure : B. A la fin de l’année, ces étudiants passent l’examen final de mathématiques
et cette fois-ci 48 d’entre eux obtiennent une très bonne note A et parmi eux 18 seulement
ont obtenu une très bonne note au partiel. Cela signifie que 18 étudiants ont obtenu une très
bonne note à la fois à l’examen partiel et à l’examen terminal.
En utilisant ces données nous pouvons construire un test du χ2 au niveau de signification
α = 0.1, pour tester l’hypothesis H0 de l’indépendance d’obtention d’une très bonne note à
chacun des 2 examens.
Tout d’abord, présentons les données dans le tableau 2 × 2 suivant :

239
exam partiel Total
A B
exam A 18 30 48
f inal B 79 173 252

Total 97 203 300

Tab. 5

exam partiel Total


A B
exam A pP qP P
f inal B pQ qQ Q

Total p q 1

Tab. 6

Les estimateurs de maximum de vraisemblance de p et P sont

ν·1 97 ν1. 48
p̂ = = et P̂ = = .
n 300 n 300

La valeur de la statistique de Pearson X 2 donnée par (17), peut être évaluée en utilisant la
formule (19) selon laquelle

¡ ¢2 ¡ ¢2 ¡ ¢2 ¡ ¢2
2 18 − 48·97
300 30 − 48·203
300 79 − 252·97
300 173 − 252·203
300
X = 48·97
+ 48·203
+ 252·97
+ 252·203
=
300 300 300 300

300(18 · 173 − 30 · 79)2 100(248)2


= =
97 · 203 · 48 · 252 97 · 203 · 64 · 7

200 93 31
= · · < 1.
203 97 42

Sous l’hypothèse H0 la statistique X 2 de Pearson est distribuée approximativement comme


χ21 , et donc on accepte H0 , puisque la valeur observée de X 2 est inférieure à χ21 (0.1) = 2.706.

240
4.10 Test du Chauvenet pour la détection des observa-
tions aberrantes.

Le test de Chauvenet est une règle ancienne destinée à détecter au moins une valeur
aberrante dans une série de mesures et à l’éliminer. Cette règle est basée sur unr propriété
simple de l’espérance mathématique. Ici nous allons suivre l’idée de L.Bolshev (1961) sur
la présentation du test de Chauvenet (voir aussi Voinov et Nikulin (1996)).
Considérons n variables aléatoires indépendantes Y1 , ...,Yn , n ≥ 3, de même loi et soit y
un nombre réel donné.
Soit
n
N= ∑ 1[y,+∞[(Y j )
j=1

La statistique N suit une loi binomiale de moyenne :

E(N) = nP(Y1 ≥ y) = np,

où p = P{Y1 ≥ y}. Pour avoir l’égalité E(N) = α, α > 0, il faut choisir y = y(α) comme la
solution de l’équation
α
P {Y1 > y} = . (1)
n
Dans ce cas il est facile de vérifier que
½ ¾
β = P max Yi > y(α) = 1 − {1 − P{Y1 ≥ y(α)}}n =
1≤i≤n
³ α ´n
1− 1− = 1 − e−α + o(1) (n → ∞),
n
et donc si α est suffisamment petit,
½ ¾
P max Yi > y(α) ' α.
1≤i≤n

Notons que Chauvenet lui-même a suggéré de choisir α = 1/2n. Considérons l’hypothèse


H0 selon laquelle
P{Yi ≤ y} = F(y), ∀i ∈ [1, n],
où F est une fonction de repartition donnée, et H1 est alternative d’après laquelle
1
P{Yi ≤ y} = (1 − ε)F(y) + εG(y), i = 1, ..., n, (0 < ε < ),
2
où G est une fonction de répartition telle que G(y) < F(y) pour tout y.
Dans ce cas la région critique déterminée pour la règle de Chauvenet est :
½ ¾
{N ≥ 1} ⇔ max Yi > y(α).
1≤i≤n

Le niveau de signification du test (pour n grand et α petit) est approximativement α. On


peut même, en utilisant l’inégalité de Bonferroni, estimer l’erreur relative entre le seuil du
test et α, et ce pour tout α et pour tout n.

241
242
Chapitre 5

REGRESSION

5.1 Régression linéaire

5.1.1 Modèle de la régression linéaire


On considère le problème de la prédiction d’une ou plusieurs caractéristiques d’une
variable aléatoire Y à l’aide de variables explicatives (covariables) x1 , ..., xm . Par exemple,
on considère la prédiction de l’espérance du prix Y d’une voiture d’une certaine marque
lorsqu’on connaît l’âge x1 , la puissance x2 et le kilométrage x3 de cette voiture.
Même si les valeurs de x1 , ..., xm sont fixées, la variable aléatoire Y peut prendre des
valeurs différentes, parce qu’il y a souvent d’autres facteurs qui interviennent. Par exemple,
les prix de voitures qui ont le même âge, la même puissance et le même kilométrage ne sont
pas forcément les mêmes, à cause de facteurs tels que le nombre des pannes, la présence ou
l’absence de garage spécifique, le régime de travail, les conditions climatiques, le lieu de
vente, etc.

Notons
x = (x0 , x1 , ..., xm )T , x0 = 1, M(x) = E(Y |x).
La fonction M(x) est appelée la fonction de régression. On suppose que M(x) est une com-
binaison linéaire des covariables xi :

M(x) = β0 + β1 x1 + ... + βm xm = βT x, (1)

où β = (β0 , ..., βm )T est un paramètre inconnu.


Pour faire l’estimation on effectue n expériences. La i-ème expérience a lieu sous la
covariable x(i) = (xi0 , ..., xim ), xi0 = 1.

On observe des valeurs de la variable dépendante ( ou expliquée) Yi . Donc on a un


échantillon
(x(1) ,Y1 ), ..., (x(n) ,Yn ).

Le modèle de la régression linéaire

243
Yi = β0 + β1 xi1 + ... + βm xim + ei ,
où e1 , ..., en sont des variables aléatoires i.i.d.,

E(ei ) = 0, Var (ei ) = σ2 , i = 1, ..., n.

Donc on a
Yi = M(x(i) ) + ei , i = 1, ..., n,
où M(x) est donné par la formule (1). Si m = 1, on a le modèle de régression linéaire simple,
et si m > 1, on a le modèle de régression linéaire multiple.
Notons
 
1 x11 · · · x1m
X =  ··· ··· ··· ···  , e = (e1 , ..., en )T , Y = (Y1 , ...,Yn )T .
1 xn1 · · · xnm n×(m+1)

Alors le modèle peut être écrit

Y = Xβ + e, où E(e) = 0n , Var (e) = σ2 In . (2)

Dans ce modèle le vecteur e est interprèté comme le vecteur des erreurs.

5.1.2 Codage des covariables


Si la j-ème variable explicative x j dans (1) est dicrète et mesurée sur une échelle nomi-
nale, par exemple la couleur, la race, etc., et prend k j valeurs différentes, on peut utiliser ,
au lieu de x j , le vecteur z j = (z j,1 , ..., z j,k j −1 ) des codes, qui prend k j valeurs différentes :
(0) (1) (2) (k j −1)
z j = (0, ..., 0), z j = (1, 0, ..., 0), z j = (0, 1, 0, ..., 0), ...., z j = (0, ...., 0, 1)

et le modèle (1) est modifié :


k j −1
M(x) = β0 + β1 x1 + ... + ∑ β jiz ji + ... + βmxm. (3)
i=1

On note que
k j −1
∑ β jiz ji = βTj z j
i=1

où βTj = (β j1 , ..., β j,k j −1 ). Si, par exemple, x j est la couleur qui prend 3 valeurs (noir, bleu,
blanc), on considère le vecteur z j = (z j1 , z j2 ) qui prend les valeurs
(0) (1) (2)
z j = (0, 0) - (noir), z j = (1, 0) - (bleu), z j = (0, 1) - (blanc).

Si x j est le sexe (masculin, féminin), on considère la variable z j qui prend les valeurs
(0) (1)
z j = 0 (masculin) et z j = 1 (féminin).

Parfois le codage est différent : (-1,...,-1), (1,0,...,0),...,(0,0,...,1), etc.

244
5.1.3 Interprétation des coefficients β.
(1) (2)
Notons que lorsqu’on prend deux valeurs x j et x j de x j dans (1), alors

(2) (1) (2) (1)


β j (x j − x j ) = M(x1 , ..., x j , ..., xm ) − M(x1 , ..., x j , ..., xm ).

Donc
(2) (1)
β j (x j − x j )
(2) (1)
(soit β j , si x j − x j = 1) représente le changement de la valeur moyenne de la variable
(1) (2)
expliquée Y quand x j passe de x j à x j tandis que toutes les autres covariables restent les
mêmes.

Il faut souligner que dans le modèle (1) le changement de la moyenne de Y est le même
pour n’importe quelles valeurs fixées des autres covariables xl (l 6= j), c’est à dire qu’ il n’y
a pas d’interaction entre les covariables.
Si x j est discrète et mesurée sur une échelle nominale, alors
(i) (0)
β ji = M(x1 , ..., z j , ..., xm ) − M(x1 , ..., z j , ..., xm ).

Donc β ji représente le changement de la moyenne de la variable dépendante Y quand z j


(0) (i)
passe de z j à z j tandis que toutes les autres covariables gardent les mêmes valeurs. Par
exemple, si x j est la couleur (noire, blanche ou bleue), β j2 représente le changement de
(0)
la moyenne de Y qui correspond au changement de x j de la couleur noire (z j = z j ) à la
(2)
couleur blanche (z j = z j ).

5.1.4 Modèle avec interactions


Si l’effet du changement de la valeur de la covariable x j est différent pour des valeurs
différentes des autres covariables, c’est qu’on a une interaction entre x j et ces covariables.
Alors le modèle (1) peut être modifié pour mettre en lumière l’effet de cette interaction. Par
exemple, dans le cas de deux covariables, on a le modèle

M(x) = β0 + β1 x1 + β2 x2 + β3 x1 x2 , (4)

et dans le cas de trois covariables :

M(x) = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x1 x2 + β5 x1 x3 + β6 x2 x3 + β7 x1 x2 x3 . (5)

S’il y a une interaction dans le cas m = 2 par exemple, alors


(2) (1) (2) (1)
M(x1 , x2 ) − M(x1 , x2 ) = (β1 + β3 x2 )(x1 − x1 ),
(2) (1)
donc la moyenne de Y dépend non seulement de la différence x1 − x1 mais aussi de la
valeur de la deuxième covariable x2 .

245
Si, par exemple, Y est le prix (en Frs.), x1 est l’âge (en années), x2 est la puissance (
en cm3 ), d’une voiture d’une certaine marque et s’il y a une interaction entre l’âge et la
puissance, il est évident que la valeur de la voiture diminue annuellement mais cette baisse
du prix est différente pour des voitures de différentes puissances. Pour la voiture ayant la
puissance x2 cm3 la baisse du prix annuelle est de β1 + β3 x2 (Euros.). Voir aussi la section
Décomposition orthogonale de Fisher.

5.1.5 Estimateurs des moindres carrés


On cherche l’estimateur β̂ qui minimise la somme des carrés
n
SS = ∑ (Yi − β0 − β1 xi1 − ... − βm xim )2 = (Y − Xβ)T (Y − Xβ).
i=1

En dérivant SS par rapport à β j on a


∂SS n
= −2 ∑ xi j (Yi − β0 − ... − βm xim ), ( j = 0, ..., m),
∂β j i=1

d’où on obtient le système de (m + 1) équations linéaires (j=0,...,m) :


n n n n
β0 ∑ xi j xi0 + β1 ∑ xi j xi1 + ... + βm ∑ xi j xim = ∑ αi jYi , (6)
i=1 i=1 i=1 i=1
ou
X T Xβ = X T Y .
Si la matrice A(m+1)×(m+1) = X T X n’est pas dégénérée, alors on a

L’estimateur des moindres carrés de β :

β̂ = (X T X)−1 X T Y . (7)
Si x = (1, x1 , ..., xm )T est un vecteur de covariables donné,
M(x) = E(Y |x) = βT x,
alors on obtient
L’estimateur de l’espérance M(x) = E(Y |x) est :
T
M̂(x) = β̂ x = β̂0 + β̂1 x1 + ... + β̂m xm .
Notons
1 n
∑ Yi.
T
Ŷi = M̂(x(i) ) = β̂ x(i) , Ŷ = (Ŷ1 , ..., Ŷn )T , ê = (ê1 , ..., ên )T , Ȳ =
n i=1

Les variables aléatoires Ŷi et Yi sont appelées respectivement les valeurs prédites et
observées des Yi ,et les êi = Yi − Ŷi sont les résidus estimés @ù des erreurs apparentes . On
a
Ŷ = X β̂, ê = Y − Ŷ = Y − X β̂ = e + X(β − β̂). (8)

246
5.1.6 Propriétés des estimateurs
.
Notons

B = B(m+1)×n = (X T X)−1 X T , H = H n×n = In − X(X T X)−1 X T .

Alors
β̂ = BY , ê = HY . (9)
Il faut remarquer que

HH = H, H T = H, BBT = B, BH = 0(m+1)×n . (10)

Lemme 1. Si det(X T X) 6= 0, alors

T
a) X T H = 0m×n , X T e = 0m+1 , Ŷ e = 0, (11)

T
b) Y T Y = Ŷ Ŷ + êT ê, ⇔ kY k2 = kŶ k2 + kêk2 , (12)

c) ∑nj=1 (Y j − Ȳ )2 = ∑nj=1 (Ŷ j − Ȳ )2 + ∑nj=1 (Y j − Ŷ j )2 , (13)

d) ∑ni=1 Yi = ∑ni=1 Ŷi , (14)

e) eT e = êT ê + (Ŷ − Xβ)T (Ŷ − Xβ). (15)

Démonstration.
a) On a
X T H = X T − X T X(X T X)−1 X T = 0n×n ,
donc
T T
X T ê = X T HY = 0m+1 , Ŷ ê = β̂ X T ê = 0.
b) D’après (11)
T T T
Y T Y = (Ŷ + ê)T (Ŷ + ê) = Ŷ Ŷ + Ŷ ê + êT Y + êT ê = Ŷ Ŷ + êT ê.

c) L’égalité (12) peut être écrite sous la forme

∑ Y j2 = ∑ Ŷ j2 + ∑(Y j − Ŷ j )2.
Alors
n n n
∑ Y j2 − nȲ 2 = ∑ Ŷ j2 − nȲ 2 + ∑ (Y j − Ȳ j )2
j=1 j=1 j=1

247
et donc
n n n
∑ (Y j − Ȳ ) 2
= ∑ (Ŷ j − Ȳ ) 2
+ ∑ (Y j − Ŷ j )2 .
j=1 j=1 j=1

d) La première ligne de X T est 1n = (1, ..., 1)T , donc l’égalité X T ê = 0m+1 , démontrée dans
a), implique
n n n
1Tn ê = ∑ êi = 0 et donc ∑ Yi = ∑ Ŷi.
i=1 i=1 i=1
e) D’après (2) et (11) on a

eT e = (Y − Xβ)T (Y − Xβ) =

(Y − Ŷ + Ŷ − Xβ)T (Y − Ŷ + Ŷ − Xβ) =
(ê + Ŷ − Xβ)T (ê + Ŷ − Xβ) =
êT ê + 2êT (Ŷ − Xβ) + (Ŷ − Xβ)T (Ŷ − Xβ) =
êT ê + (Ŷ − Xβ)T (Ŷ − Xβ).
Le lemme est démontré.

Théorème 1. Gauss-Markov. Si det (X T X) 6= 0, alors

a). E(β̂) = β, Var (β̂) = σ2 (X T X)−1 ,

b). E(ê) = 0, Var (ê) = σ2 H,


c). Cov (β̂, ê) = 0,
d). E(êT ê) = (n − m − 1)σ2 .
Démonstration.
a) On a
E(β̂) = (X T X)−1 X T E(Y ) = (X T X)−1 X T Xβ = β,
Var (β̂) = (X T X)−1 X T σ2 In X(X T X)−1 = σ2 (X T X)−1 .
b)
E(ê) = E(Y − X β̂) = Xβ − Xβ = 0n .
Var (ê) = Var (HY ) = Hσ2 In H = σ2 H.
c)
Cov (β̂, ê) = Cov (BY , HY ) = Bσ2 In H = σ2 BH = 0(m+1)×n .
d) Notons
A = X T X = (ai j ), A−1 = (ai j ), (i, j = 0, ..., m).
Alors
E((Ŷ − Xβ)T (Ŷ − Xβ)) = E((β̂ − β)T A(β̂ − β)) =
m m m m
∑ ∑ ai j E((β̂i − βi)(β̂ j − β j )) = σ2 ∑ ∑ ai j ai j =
i=0 j=0 i=0 j=0

σ2 Tr(AA−1 ) = σ2 Tr(Im+1 ) = σ2 (m + 1).

248
On a
n n
E(e e) = ∑
T
Ee2i = ∑ Var ei = nσ2 .
i=1 i=1
L’égalité (15) implique que
E(êT ê) = (n − m − 1)σ2 .
Le théorème 1 est démontré.

Corollaire.
SSR
β̂ et σ̂2 =
n−m−1
des estimateurs sans biais de β et de σ2 respectivement, et

Cov (β̂, σ̂2 ) = 0;

On a déjà vu que les paramètres qu’il est le plus important d’estimer et qui sont en
même temps ceux dont l’interprétation est la plus évidente sont :
a) la moyenne M(x) de la variable expliquée Y sous n’importe quelle valeur de la cova-
riable x ;
b) chacun des paramètres β j , qui caractérise le changement de la moyenne de Y corres-
pondant au changement de la covariable x j (modèle sans interaction) ;
c) les combinaisons linéaires des paramètres β j , qui caractérisent le changement de la
moyenne de Y correspondant au changement d’une covariable sous des valeurs spécifiées
des autres covariables (le modèle avec interactions). Par exemple, dans le modèle (4 ) la
combinaison linéaire β1 + β3 x2 caractérise le changement de la moyenne de Y correspon-
dant au changement de la covariable x1 sous des valeurs spécifiées de x2 .
Donc dans tous les cas l’estimation des combinaisons linéaires du type lT β, où l =
(l0 , ..., lm )T , est importante.

Un estimateur de lT β est appelé linéaire, s’il a la forme

cT Y , c = (c1 , ..., cn )T .

L’estimateur cT Y de lT β est appelé sans biais si

E(cT Y ) = lT β pour tout β ∈ Rm+1 ,

i.e. pour le modèle de type (2) avec n’importe quel β ∈ Rm+1 , l’espérance de cT Y est égale
à la vraie valeur de lT β.
Notons Gl la classe des estimateurs linéaires sans biais de lT β.

Théorème 2. (Gauss-Markov). Si det (X T X) 6= 0, alors lT β̂ est l’unique estimateur de


variance minimale dans la classe Gl .

Démonstration. Si cT Y ∈ Gl , alors

lT β = E(cT Y ) = E(cT Y − lT β̂ + lT β̂) = (cT X − lT )β + lT β,

249
donc
(cT X − lT )β = 0 pour tout β ∈ Rm+1
et
cT X − lT = 0Tm+1 . (16).
On a
Var (cT Y ) = Var (cT Y − lT β̂ + lT β̂) =
Var (cT Y − lT β̂) + Var (lT β̂) + 2Cov (cT Y − lT β̂, lT β̂).
L’égalité (16) et le Lemme 1 impliquent que

Cov (cT Y − lT β̂, lT β̂) = Cov ((cT − lT B)Y , lT BY )) =

(cT − lT B)σ2 In BT l =
σ2 (cT X(X T X)−1 − lT (X T X)−1 X T X(X T X)−1 )l =
σ2 (cT X − lT )(X T X)−1 l = 0,
donc
Var (cT Y ) = Var (lT β̂) + Var (cT − lT B)Y =
Var (lT β̂) + σ2 (cT − lT B)(cT − lT B)T .
On a Var (cT Y ) ≥ Var (lT β̂) et l’égalité est vérifiée si et seulement si cT = lT B.

Le théorème est démontré.


T
Corollaire. Les estimateurs M̂(x) = β̂ x et β̂ j de la moyenne M(x) et du paramètre β j ,
respectivement, sont les estimateurs de variance minimale dans la classe des estimateurs
linéaires sans biais de M(x) et β j .

Il s’ensuit par exemple que l’estimateur β̂1 + β̂3 x2 de β1 +β3 x2 est le meilleur estimateur
dans la classe des estimateurs linéaires sans biais de β1 + β3 x2 (modèle (4)).

5.1.7 Décomposition des sommes de carrés


.

Le lemme 1 implique l’égalité

∑(Yi − Ȳ )2 = ∑(Ŷi − Ȳ )2 + ∑(Yi − Ŷi)2.


La somme
n
SSR = ∑ (Yi − Ŷi )2
i=1
caractérise la différence entre les valeurs prédites et observées et est appelée la somme des
carrés résiduelle. La somme
n
SSE = ∑ (Ŷi − Ȳ )2
i=1

250
est appelée la somme des carrés expliquée par régression. La somme
n
SST = ∑ (Yi − Ȳ )2
i=1

est appelée la somme des carrés totale. D’après le lemme 1

SST = SSR + SSE .

La somme SST mesure la variabilié des valeurs de Y , la somme SSE mesure la partie de
cette variabilité expliquée par la régression. Si le modèle de régression linéaire donne une
bonne prédiction, c’est à dire si les Ŷi sont proches des Yi , la somme SSE est proche de
SST . Donc SSE explique une grande part de la variabilité des valeurs Yi autour de Ȳ . Si la
prédiction est mauvaise, la somme SSE est petite par rapport à SST et SSE n’explique pas
beaucoup la variabilité des valeurs de Yi autour de Ȳ . La somme des carrés résiduelle SSR
est ce qui reste de la variabilité totale après la soustraction de SSE . D’où le nom de SSR .

Lemme 2.
1 n n T ( j)
E(SST ) = (n − 1)σ2 + ∑ ∑ [β (x − x(i))]2.
n2 i=1
(17)
j=1

Démonstration. Notons M j = E(Y j ) = βT x( j) . Alors


n n
E(SST ) = E ∑ (Yi − Ȳ ) = E( ∑ (Yi − Mi + Mi − Ȳ )2 ) =
2
i=1 i=1

n n n
E( ∑ (Yi − Mi ) ) − 2E( ∑ (Yi − Mi )(Ȳ − Mi )) + E( ∑ (Ȳ − Mi )2 ) =
2
i=1 i=1 i=1
n n n n
2 1
nσ2 − E( ∑ ∑ (Yi − Mi )(Y j − Mi )) + 2 ∑ E( ∑ (Y j − Mi ))2 =
n i=1 j=1 n i=1 j=1

1 n n
(n − 2)σ2 + ∑ ∑ E(Y j − Mi)2 =
n2 i=1 j=1

1 n n £ ¤2
(n − 2)σ2 + ∑ ∑
n2 i=1 j=1
E (Y j − M j + M j − Mi ) =

1 n n £ 2 ¤
(n − 2)σ + 2 ∑ ∑ E σ + (M j − Mi )2 =
2
n i=1 j=1

1 n n
(n − 2)σ + σ + 2 ∑ ∑ (M j − Mi )2 =
2 2
n i=1 j=1

1 n n h T ( j) i2
(n − 1)σ + 2 ∑ ∑ β (x − x ) .
2 (i)
n i=1 j=1
Le lemme 2 est démontré.
D’après le théorème 1 et le lemme 2 on a

E(SSR ) = (n − m − 1)σ2 ,

251
1 n n h T ( j) i2
E(SST ) = (n − 1)σ2 + ∑∑
n2 i=1
β (x − x (i)
) , (18)
j=1
E(SSE ) = E(SST ) − E(SSR ).
Corollaire.
E(SSR ) = E(SST ) et E(SSE ) = 0,
si l’hypothèse H0 : β1 = ... = βm = 0 est vérifiée, c’est-à-dire sous le modèle sans régression
Yi = β0 + ei , i = 1, ..., n.
E(SSE ) = E(SST ) et E(SSR ) = 0,
si σ2 = 0, c’est-à-dire le modèle de régression linéaire prédit sans erreur les valeurs de Y .

5.1.8 Le coefficient de détermination.

La variable aléatoire
SSR SSE
R2 = 1 − = (19)
SST SST
est appelée le coefficient de détermination.
R2 prend ses valeurs dans le segment [0, 1]. Il représente la proportion de la variabilité
des Yi expliquée par la régression.
Si la prédiction est idéale, i.e. Ŷi = Yi , alors SSR = 0 et R2 = 1. S’il n’y a pas de régres-
sion, i.e. pour tous les x(i) la prédiction de la moyenne M(x(i) ) est la même : Ŷi = Ȳ , alors
SSR = SST et R2 = 0. Donc R2 caractérise la qualité de la prédiction.
La variable aléatoire √
RY (12...m) = R2
est appelée le coefficient de corrélation empirique multiple.

Proposition. Le coefficient de corrélation empirique multiple est égal au coefficient de


corrélation empirique simple entre les valeurs observées Yi et les valeurs prédites Ŷi :
∑ni=1 (Ŷi − Ŷ¯ )(Yi − Ȳ )
RY (12...m) = rY Ŷ = q ,
¯
∑i=1 (Ŷi − Ŷ ) ∑i=1 (Yi − Ȳ )
n 2 n 2

où Ŷ¯ = 1n ∑ni=1 Ŷi .

Démonstration. D’après le lemme 1 on a : Ŷ e = 0, Ŷ¯ = Ȳ donc


T

n n
∑ (Ŷi − Ŷ¯ )ei = ∑ Ŷiei = Ŷ
T
e = 0,
i=1 i=1
n n n
¯ )(Y − Ȳ ) = (Y − Ȳ¯ˆ )(e + Ŷ − Ŷ¯ ) = (Ŷ − Ŷ¯ )2
∑ i
(Ŷ − Ŷ i ∑ i i i ∑ i
i=1 i=1 i=1
et s s
∑ni=1 (Ŷi − Ŷ¯ )2 ∑ni=1 (Ŷi − Ȳ )2
rY Ŷ = = = RY (12...m) .
∑ni=1 (Yi − Ȳ )2 ∑ni=1 (Yi − Ȳ )2
La proposition est démontrée.

252
5.1.9 Régression linéaire simple

Dans le cas d’une seule variable explicative (m = 1) , on a le modèle de régression


linéaire simple :
Yi = β0 + β1 xi + ei , (20)
où e1 , ..., en sont les variables aléatoires i.i.d., E(ei ) = 0, Var (ei ) = σ2 .
On a un échantillon
(x1 ,Y1 ) · · · (xn ,Yn ). (21)
La réalisation de l’échantillon consiste en n paires de nombres réels qui peuvent être re-
présentés dans le plan comme “un nuage”de points. Ces points sont dispersés autour de la
droite de régression
y = β0 + β1 x (22)
puisque E(Yi ) = β0 + β1 x. Si la variance σ2 est petite, la plupart des points (xi ,Yi ) sont
proches de cette droite. La droite (22) est inconnue parce que les paramètres β0 et β1 sont
inconnus. La droite
y = β̂0 + β̂1 x (23)
est la droite de régression estimée. Si on dispose de la réalisation de l’échantillon (21), la
droite (23) peut être dessinée. Les points (xi ,Yi ) sont dispersés autour de cette droite.
Dans le cas de la régression linéaire simple, le système d’équations (6) devient
n n
β0 n + β1 ∑ xi = ∑ Yi ,
i=1 i=1

n n
β0 ∑ xi + β1 ∑ xi2 = ∑ xiYi ,
i=1 i=1
donc
∑ni=1 (xi − x̄)(Yi − Ȳ )
β̂1 = , β̂0 = Ȳ − β̂1 x̄.
∑ni=1 (xi − x̄)2
Si on note
∑n (xi − x̄)(Yi − Ȳ )
rxY = p n i=1
∑i=1 (xi − x̄)2 ∑ni=1 (Yi − Ȳ )2
le coefficient empirique de corrélation de x et Y et

1 n 1 n
s2x = ∑ (xi − x̄)2,
n i=1
sY2 = ∑ (Yi − Ȳ )2
n i=1

les variances empiriques de x et Y , alors


sY
β̂1 = rxY , β̂0 = Ȳ − β̂1 x̄.
sx
Les matrices X T et X T X sont
µ ¶ µ ¶
T 1 ··· 1 T n ∑ni=1 xi
X = , X X= .
x1 · · · xn ∑ni=1 xi ∑ni=1 xi2
D’après le théorème 1 ,

253
E(β̂) = β,
µ ¶
Var (β̂0 ) Cov (β̂0 , β̂1 )
Var (β̂) = =
Cov (β̂0 , β̂1 ) Var (β̂1 )
µ n 2 ¶
−1 σ2 ∑i=1 xi − ∑ni=1 xi
σ (X X) =
2 T
,
n ∑ni=1 (xi − x̄)2 − ∑ni=1 xi n
l’estimateur sans biais de σ2 est
SSR ∑n (Yi − Ŷi )2
σ̂2 = = i=1
n−2 n−2
et
Cov (β̂, σ̂2 ) = 0.
D’après le théorème de Gauss-Markov les estimateurs

M̂(x) = β̂0 + β̂1 x, β̂0 et β̂1

sont de variance minimale dans la classes des estimateurs linéaires sans biais de M(x) =
E(Y |x), β0 et β1 respectivement,

E(M̂(x)) = M(x), Var (M̂(x)) = Var (β̂0 ) + 2xCov (β̂0 , β̂1 ) + x2 Var (β̂1 ).

Si x passe de x(1) à x(2) , alors le changement de la moyenne de Y est estimé par β̂1 (x(2) −
x(1) ).
Notons que dans le cas de la régression linéaire simple

Ŷi = β̂0 + β̂1 xi , Ŷ¯ = Ȳ = β̂0 + β̂1 x̄

et donc
[∑ni=1 (Ŷi − Ŷ¯ )(Yi − Ȳ )]2
R2 = =
∑n (Ŷ − Ŷ¯ )2 ∑n (Y − Ȳ )2
i=1 i i=1 i

[∑ni=1 (xi − x̄)(Yi − Ȳ )]2 2


= rxY .
∑ni=1 (xi − x̄)2 ∑ni=1 (Yi − Ȳ )2
Le coefficient de détermination est égal au carré du coefficient de corrélation empirique
des xi et des Yi : R2 = rxY
2 . Le coefficient de corrélation empirique multiple est égal à la

valeur absolue du coefficient de corrélation empirique simple : RY (1) = |rxY |.

5.1.10 Régression normale

On a jusqu’à présent supposé seulement l’existence des deux premiers moments de Yi


dans le modèle (2). Si l’on veut obtenir des intervalles de confiance pour l’espérance m(x),
pour les paramètres βi , pour des combinaisons linéaires lT β,ou si l’on veut vérifier des
hypothèses sur les valeurs des paramètres inconnus, ou construire des tests d’ajustement,
on doit faire des hypothèses supplémentaire, par exemple supposer que la répartition des Yi
appartient à une certaine classe de répartitions, la plus usuelle étant celle des lois normales.

254
On suppose par la suite dans ce chapitre que la loi des Yi est normale, donc

Y = Xβ + e, e ∼ N(0, σ2 In ). (24)

Certains cas où la loi de Y est différente de la loi normale sont considérés dans le chapitre
sur la “régression log-linéaire”.

5.1.11 Estimateurs du maximum de vraisemblance


La fonction de vraisemblance sous le modèle (24) a la forme

1 1 n
L(β, σ2 ) =
(2πσ2 )n/2
exp{− ∑ (Yi − βT X (i))2}.
2σ2 i=1

Pour n’importe quel σ2 > 0 la maximisation de L est équivalente à la minimization de


n
SS = ∑ (Yi − βT x(i) )2 .
i=1

Donc les estimateurs du maximum de vraisemblance de β coincident avec l’estimateur des


moindres carrés β̂. Notons que
SSR n
ln L(β̂, σ2 ) = − 2
− (ln (2π) + ln (σ2 )),
2σ 2
∂ SSR n
ln L(β̂, σ2 ) = 4 − 2
∂(σ )
2 2σ 2σ
et donc l’estimateur du maximum de vraisemblance pour σ2 est :
1
σ̃2 = SSR .
n
Cet estimateur est biaisé :
n−m−1 2
E(σ̃2 ) = σ
n
est asymptotiquement (n → ∞) équivalent à l’estimateur

σ̂2 = SSR /(n − m − 1),

considéré dans le corollaire du théorème 1.

5.1.12 Lois des estimateurs β̂ et σ̂2 .

Considérons le théorème essentiel de la régression normale.

Théorème 2. Si det(X T X) 6= 0, alors


1. Les variables aléatoires β̂ et SSR sont indépendantes ;

255
2. Les variables aléatoires SSR et SS − SSR sont indépendantes ;
3. β̂ ∼ N(β, σ2 (X T X)−1 ), SSR
σ2
∼ χ2n−m−1 , SS−SSR
σ2
∼ χ2m .

Démonstration. D’après (11) on a X T H = 0 et

SSR = êT ê = Y T H T HY = Y T HY = (Y T − βT X T )HY =

(Y T − βT X T )H(Y − Xβ) = eT He.

On a Y = Xβ + e, donc

β̂ − β = (X T X)−1 XY − β = β + (X T X)−1 Xe − β =

(X T X)−1 Xe = Be,

SSR /σ2 = ẽT H ẽ, (β̂ − β)/σ = Bẽ,

où ẽ = e/σ ∼ N(0, In ). D’après (10) BH = 0. Donc le lemme 1 (annexe) implique que les
variables aléatoires SSR et β̂ − β sont indépendantes. D’après l’égalité (15) la différence

SS − SSR = eT e − êT ê = (Ŷ − Xβ)T (Ŷ − Xβ) = (β̂ − β)T X T X(β̂ − β)

est une fonction de β̂. Donc les variables aléatoires SSR et SS − SSR sont aussi indépen-
dantes.
Le vecteur β̂ est une fonction linéaire du vecteur normal Y . Donc

β̂ ∼ N(β, σ2 (X T X)−1 ).

Le vecteur (β̂ − β)/σ ∼ N(0, (X T X)−1 ). De plus, rang(X T X) = m donc d’après le théo-
rème 1 (annexe)
SS − SSR 1
= 2 (β̂ − β)T X T X(β̂ − β)
σ 2 σ
suit la loi χ2m .
On a obtenu
SSR = ẽT H ẽ, ẽ ∼ N(0, In ).

La matrice H est idempotente et

Tr(H) = TrIn − Tr(X T (X T X)−1 X)

= n − Tr(XX T (X T X)−1 ) = n − TrIm+1 = n − m − 1.

D’après le lemme 2 (annexe), SSR ∼ χ2n−m−1 . Le théorème est démontré.

256
5.1.13 Test de l’hypothèse H0 : βk+1 = ... = βm = 0

Supposons qu’on ait le modèle de régression multiple

Yi = β0 + β1 x1i + ... + βm x1m + ei (i = 1, ..., n),

ou
Y = Xβ + e, (25)
où  
1 x11 · · · x1m
X =  ··· ··· ··· ··· , β = (β1 , ..., βm )T , e = (e1 , ..., en )T .
1 xn1 · · · xnm
Considérons le problème de la vérification de l’hypothèse

Hk : βk+1 = ... = βm = 0,

où k est un nombre fixé, k = 0, ..., m − 1. Sous Hk les covariables xk+1 , ..., xm n’améliorent
pas la prédiction de la variable expliquée. Donc si Hk est vérifiée, on peut exclure ces
covariables du modèle. Dans le cas k = 0 on a l’hypothèse

H0 : β1 = ... = βm = 0.

On n’a pas de régression. La connaissance des valeurs des covariables ne dit rien sur les
valeurs de Y .
Considérons le modèle réduit

Yi = β0 + β1 xi1 + ... + βk x1k + ei (i = 1, ..., n)

ou
Y = X (k) β(k) + e, (26)
où  
1 x11 · · · x1k
X (k) =  · · · · · · · · · · · ·  , β(k) = (β1 , ..., βk )T .
1 xn1 · · · xnk
Notons
(k) (k) (k)
SSR = ê(k)T ê(k) = (Y − X (k) β̂ )T (Y − X (k) β̂ ),
(n)
SSR = êT ê = (Y − X β̂)T (Y − X β̂)
les sommes résiduelles des carrés pour le modèle (25) et (26).

Théorème 1. Si l’hypothèse Hk est vérifiée, det (X T X) 6= 0, m + 2 ≤ n, alors


(m) (k) (m)
1. SSR et SSR − SSR sont indépendantes.
(m) (k) (m)
2. SSR ∼ σ2 χ2 (n − m − 1), SSR − SSR ∼ σ2 χ2 (m − k).

257
Démonstration. Notons que
(m) (k)
SSR = eT He, SSR = eT H (1) e,


H = In − X(X T X)−1 X T , H (1) = In − X (1) (X (1)T X (1) )−1 X (1)T .
Notons X 0 , ..., X m les colonnes de la matrice X. Considérons la suite des vecteurs orthonor-
maux d’ordre n
V 0 = Xl0 , ...,V m = Xlm
qui sont des combinaisons linéaires des X 0 , ..., X m et sont obtenus par la méthode d’ortho-
gonalisation de Gram-Schmidt ; ici

l0 = (l00 , 0, ..., 0)T , l1 = (l10 , l11 , 0, ..., 0)T , ..., lk = (lk0 , ..., lkk , 0, ..., 0)T ,

lm = (lm0 , ..., lmm )T , li j ∈ R.


On a
V Ti V i = 1, V Ti V j = 0 (i 6= j).
Notons V m+1 , ...,V n−1 les vecteurs orthonormaux d’ordre n qui sont orthogonaux à
V 0 , ...,V m .
Chaque vecteur V i (i = 0, ..., m) est un vecteur propre de la matrice H correspondant à
la valeur propre 0 : pour i = 0, ..., m on a

HV i = V i − X(X T X)−1 X T V i =

V i − X(X T X)−1 X T Xli = V i − Xli = 0.


Le vecteur V i (i = m + 1, ..., n − 1) est un vecteur propre de H correspondant à la valeur
propre 1 : pour i = m + 1, ..., n − 1 le vecteur V i est orthogonal aux colonnes de la matrice
X, donc X T V i = 0 et
HV i = V i − X(X T X)−1 X T V i = V i .
La décomposition spectrale de H est
n−1
H= ∑ V iV Ti ,
i=m+1

donc
n−1 n−1
∑ ∑
(m)
SSR = eT He = eT V iV Ti e = z2i ,
i=m+1 i=m+1

où zi = V Ti e. Il faut remarquer que

Ezi = 0, Var zi = σ2V Ti V i = σ2 ,

Cov (zi , z j ) = EeT V Ti V j e = 0 (i 6= j).


Les variables aléatoires zm+1 , ..., zn−1 sont indépendantes et zi ∼ N(0, σ2 ), (i = m+1, ..., n−
(m)
1). Donc SSR /σ2 ∼ χ2 (n − m + 1).

258
Notons que pour i = 0, ..., k on a V i = Xli = X (k) l∗i , où l∗i = (li0 , ..., lii , 0, ..., 0) est le
vecteur d’ordre k + 1, et donc
H (k)V i = H (k) Xli = H (k) X (k) l∗i = 0.
Pour i = k + 1, ..., n − 1 on a X (k)T V i = 0, donc
H (k)V i = V i − X (k) (X (k)T X (k) )−1 X (k)T V i = V i .
Par conséquent, V 0 , ...,V k ,V k+1 , ...,V n−1 sont des vecteurs propres de H (k) de valeurs propres
respectives 0, ..., 0, 1, ..., 1 .
La décomposition spectrale de H (k) est
n−1
H (k)
= ∑ V iV Ti ,
i=k+1

donc
n−1

(k)
SSR = eT V iV Ti ei ∼ σ2 χ2 (n − k − 1),
i=k+1
m

(k)
SSR − SSR = eT V iV Ti ei ∼ σ2 χ2 (m − k)
i=k+1
(k)
et les vecteurs SSR et SSR − SSR sont indépendants.

Corollaire. Sous les hypothèses du théorème, la variable aléatoire


(k) (m)
(SSR − SSR )/(m − k)
F= (m)
SSR /(n − m − 1)
suit la loi de Fisher à m − k et n − k − 1 degrés de liberté.
(m) (k)
Les sommes SSR et SSR caractérisent les différences entre les valeurs observées et les
valeurs prédites. Sous l’hypothèse H k la différence
(k) (m)
SSR − SSR
ne doit pas être grande. Si H k n’est pas vérifiée, alors les covariables xk+1 , ..., xm améliorent
(k) (m)
la prédiction et la différence SSR − SSR doit être plus grande. Donc on rejette H si
F > F1−α (m − k, n − k − 1),
où F1−α est le (1 − α) quantile de la loi de Fisher.
L’hypothèse la plus intéressante de point de vue pratique est
Hm−1 : βm = 0.
Elle signifie que le modèle avec m − 1 covariantes x1 , ..., xm−1 donne la même prédiction
que le modèle avec m covariates x1 , ..., xm , i.e. la covariante xm peut être exclue du modèle.
La statistique de test pour cette hypothèse est
(m−1) (m)
SSR − SSR
F= (m)
.
SSR /(n − m − 1)

259
L’hypothèse est rejettée avec le niveau de signification α, si

F > F1−α (1, n − m).

Notons que dans le cas de l’hypothèse H0 on a


n
SSR = ∑ (Yi − Ȳ )2 = SST ,
(0) (0) (m) (m)
SSR − SSR = SSE ,
i=1

(m)
où SST et SSE sont la somme des carrés totalle et la somme des carrés expliquée par la
régression , respectivement, dans le modèle (25). La statistique de test pour H0 est
SSE /m
F= ∼ Fm,n−m−1 .
SSR /(n − m − 1)
Donc l’hypothèse H0 sur l’absence de la régression est rejettée avec le niveau de significa-
tion α, si
F > F1−α (m, n − m − 1).
Dans le cas du modèle linéaire simple cette hypothèse est équivalente à l’hypothèse

H0 : β1 = 0

et la statistique de test
SSE
F= ∼ F1,n−2 .
SSR /(n − 2)
L’hypothèse est rejettée avec le niveau de signification α, si

F > F1−α (1, n − 2).

En utilisant la relation entre la loi de Fisher de 1 et (n − 2) degrés de liberté et la loi de


Student de (n − 2) degrés de liberté, la région critique peut être écrite en forme équivalente :

t > t1−α (n − 2),



où t = F et t1−α (n − 2) est la (1 − α) quantile de la loi de Student de (n − 2) degrés de
liberté.

5.1.14 Les coefficients empiriques de la correlation partielles

Considérons la statistique
(k) (m) (m) (k)
SSR − SSR SSE − SSE
RY2 (Xk+1 ...Xm )(1...k) = (k)
= (k)
.
SSR SST − SSE
(m) (k)
La somme des carrés SSE et SSE mesurent les parties de variabilité des valeurs Yi expli-
quées par la régression dans les modèles (25) et (26), respectivement, donc la statistique
(m) (k)
SSE − SSE

260
mesure la partie de variabilité des valeurs de Yi , expliqué par l’inclusion des covariables
xk+1 , ..., xm complémentaires à x1 , ..., xk .
La statistique
(k) (k)
SSR = SST − SSE
mesure la variabilité résiduelle des Yi , i.e. la variabilité qui n’est pas expliquée par le modèle
(26). Donc R2 est la proportion de la variabilité résiduelle du modèle (26) expliquée par
introduction des nouvelles covariables xk+1 , ..., xm .
Notons que
(m) (k)
SSR = SST (1 − RY2 (1...m) ), SSR = SST (1 − RY2 (1...k) ),
donc
RY2 (1...m) − RY2 (1...k)
RY2 (Xk+1 ...Xm )(1...k) = .
1 − RY2 (1...k)
La statistique q
RY (Xk+1 ...Xm )(1...k) = RY2 (X
k+1 ...Xm )(1...k)

est appelée le coefficient empirique de correlation partiel de Y et Xk+1 , ..., Xm . Il mesure la


correlation entre Y et (Xk+1 ...Xm ) après l’élimination de leur dépendance de X1 ...Xk .
RY2 Xm (1...k) est la proportion de la variabilité résiduelle du modèle avec (m − 1) cova-
riables x1 , ..., xm−1 expliquée par introduction de la m-ème covariable xm . On a
RY2 (1...m) − RY2 (1...m−1)
RY2 Xm (1...m−1) = . (27)
1 − RY2 (1...m−1)

La statistique q
RY Xm (1...m−1) = RY2 Xm (1...m−1)
est appelée le coefficient empirique de correlation partielle de Y et Xm . Il mesure la cor-
relation entre Y et Xm après l’élimination de leur dépendance de X1 ...Xm−1 . L’égalité (27)
implique ³ ´³ ´
1 − RY2 (1...m) = 1 − RY2 Xm (1...m−1) 1 − RY2 (1...m−1) .

5.1.15 Intervalles de confiance pour les coefficients β et leur combi-


naisons linéaires

Considérons le modèle de régression multiple (25). Le théorème 1 implique que dans le


cas normale
β̂ ∼ Nm+1 (β, σ2 (X T X)−1 ), SSR /σ2 ∼ χ2 (n − m − 1)
et les variables aléatoires β̂ et SSR sont indépendantes. Notons sii les éléments diagonaux
de la matrice (X T X)−1 = (si j ). Alors

β̂i − βi SSR
∼ N(0, 1), ∼ χ2 (n − m − 1)
σsii σ2

261
et donc
β̂i − βi
t=q ∼ St(n − m − 1),
Var (β̂i )
ˆ


ˆ (β̂i ) = sii σ̂2 = sii MSR .
Var
Le γ = 1 − α intervalle de confiance pour βi est
p
β̂i ± sii MSRt1−α/2 (n − m − 1),

où t1−α/2 (n − m − 1) est le (1 − α/2) quantile de la loi de Student de n − m − 1 degrés de


liberté.
Si on considère le modèle avec interactions, alors certaines combinaisons linéaires des
paramètres β0 , ..., βm ont le sens pratique. Le paramètre
m
c = ∑ li βi = lT β
i=0

est estimé par la statistique ĉ = eT β̂, donc

Var (ĉ) = lT Var (β̂)l = σ2 lT (X T X)−1 l

et
ĉ − c
t=p ∼ St(n − m − 1).
lT (X T X)−1 lMSR
Le (1 − α) intervalle de confiance pour c est
q
ĉ ± lT (X T X)−1 lMSRt1−α/2 (n − m − 1).(28)

5.1.16 Intervalles de confiance pour les valeurs de la fonction de ré-


gression m(x)

Fixons la valeur x0 du vecteur des covariables. Considérons la valeur

m(x0 ) = E(Y | x0 ) = β0 + β1 x01 + ... + βm xm = xT0 β̂

de la fonction de régression.
La formule (28) implique que (1 − α) intervalle de confiance pour m(x0 ) est
q
x0 β̂ ± xT0 (X T X)−1 x0 MSRt1−α/2 (n − m − 1).
T

262
5.1.17 Prédiction de la nouvelle observation

Supposons que x0 = (1, x01 , ..., x0m )T est un vecteur des covariables fixé et Yn+1 (x0 ) est
la (n + 1) observation de la variable dépendante.
Intervalle aléatoire (U1 ,U2 ) tel que

P{U1 < Yn+1 (x0 ) < U2 } = 1 − α

est appelé la (1 − α) intervalle de prédiction pour Yn+1 (x0 ).


Les variables aléatoires Yn+1 (x0 ) et xT0 β̂ sont indépendantes et

Yn+1 (x0 ) ∼ N(xT0 β, σ2 ), xT0 β̂ ∼ N(xT0 β, σ2 xT0 (X T X)−1 x0 ),

donc
Yn+1 (x0 ) − xT0 β̂ ∼ N(0, σ2 (1 + xT0 (X T X)−1 xT0 ).
La statistique
Yn+1 (x0 ) − xT0 β̂
t=q ∼ St(n − m − 1),
MSR (1 + xT0 (X T X)−1 x0 )
donc le (1 − α) intervalle de prédiction pour Yn+1 (x0 ) est
q
x0 β̂ ± MSR (1 + xT0 (X T X)−1 x0 )F1−α/2 (n − m − 1).
T

Il est plus large que l’intervalle de confiance pour la moyenne m(x0 ) = xT0 β.
Prédiction de la nouvelle observation Yn+1 (x0 ) est plus incertaine que la prédiction de
la moyenne de Y (x0 ).
Le chapitre n’est pas achevé. Les problèmes de diagnostique, step by step régression,
liaison avec ANOVA, etc, sont à ajouter.

5.1.18 Analyse des résidus

Avant de faire inférences il est necessaire de vérifier si le modèle est bien ajusté aux
données réeles. Les suppositions principales du modèle de régression linéaire sont :
a). l’égalité des variances des variables aléatoires ei = Yi − βT x ;
b). l’indépendance des ei ;
c). la linéarité de la fonction de régression M(x) = E(Y (x)) ;
d). la normalité des variables aléatoires ei (si l’on construit les intervalles de confiance
ou vérifie des hypothèses).
Considérons des méthodes non formels de vérification des suppositions du modèle.
Dans le cas du modèle de régression linéaire simple des nuages des points (xi ,Yi )
peuvent être considérés. Si ces points sont dispersés autour d’une certaine courbe, qui n’est
pas une droite, on peut supposer que le modèle n’est pas bien choisi.
Dans le cas m > 1 des résidus êi peuvent être considérés. Notons que

ê = HY , E(ê) = 0, Var (ê) = σ2 H,

263

H = I n − X(X T X)−1 X T = (hi j ),
et donc µ ¶

Var √i = 1.
σ hii
La variance est estimée par

∑ni=1 (Yi − Ŷi )2


σ̂2 = MSR = .
(n − m + 1)
Notons
êi
ẽi = √ .
MSR hii
On a E(ẽi ) ≈ 0, Var (ẽi ) ≈ 1. Les variables aléatoires ẽi sont appelées les résidus stan-
dardisés.
Si on considère le plan avec l’axe des abscisses Y et l’axe des ordonnées e, les points
(Ŷi , êi ), (i = 1, ..., n), sont dispersés autour de la droite horizontale avec l’axe de symmetrie
e = 0. Si les variances des ei ne sont pas égales, on dit qu’on a heterodescasité. Si le modèle
pour M(x) est bien choisi mais il y a heterodescasité, alors les points (Ŷi , êi ), sont dispersés
aussi autour de la droite e = 0, mais la largeur de la bande n’est pas constante. Par exemple,
si la variance augmente avec augmentation de Ŷi , alors la bande s’élargisse.
Si les points (Ŷi , êi ) sont dispersés autour d’une autre courbe différente de e = 0, le
modèle pour M(x) n’est pas bien choisi.
Au lieu des points (Ŷi , êi ) on peut considérer les points (xi j , êi ), (i = 1, ..., n) pour j fixé.
Si le modèle est bien choisi, ces points doivent être dans la bande horizontale avec l’axe
de symmetrie e = 0. Sinon on peut supposer que la j-ème covariable n’influence pas M(x)
linéairement ou il faut inclure plus de covariables dans le modèle.
Par exemple, si le vrai modèle est

Yi = β0 + β1 xi + β2 xi2 + ei

mais on a choisi le modèle


Yi0 = β00 + β01 xi + e0i ,
alors
êi = Yi − Ŷi0 = β0 − β̂00 + (β1 − β̂01 )xi + β2 xi2 + ei
et donc les points (xi , êi ) seront dispersés autour d’une parabole.
Si le vrai modèle est
Yi = β0 + β1 xi1 + β2 xi2 + ei
mais on a choisi
Yi0 = β00 + β01 xi1 + e0i ,
alors
êi = β0 − β̂00 + (β1 − β̂01 )xi1 + β2 xi2 + ei
et les points (xi1 , êi ), (i = 1, ..., n) (ainsi que les points (xi2 , êi ), (i = 1, ..., n) ) ne seront pas
dispersés autour de la ligne horizontale e = 0.
Si les plots des résidus indiquent que le modèle est mal choisi, il suffit souvent de faire
des transformations simples des xi et Yi pour obtenir le bon modèle.

264
Par exemple, si Yi ∼ LN(β0 +β1 ln xi , σ2 ), alors lnYi = β0 +β1 ln xi +ei , où ei ∼ N(0, σ2 ).
Si on fait des transformations Yi0 = lnYi , xi0 = ln xi , alors on a le modèle linéaire simple
Yi0 = β0 + β1 xi0 + ei . Notons que dans ce cas les variances

Var (Yi ) = xi 1 eσ (eσ − 1)


2β 2 +2β 2
0

ne sont pas constants, mais les variances Var (lnYi ) = σ2 sont constantes.
Considérons plusieurs exemples des transformations pour les modèles de régression à
une covariable. Notons y = M(x). On a
1. si y = αxβ , alors y0 = ln y, x0 = ln x et y0 = ln α + βx0 ;
2. si y = αeβx , alors y0 = ln y et y0 = ln α + βx ;
3. si y = x
αx−β , alors y0 = 1/y, x0 = 1/x et y0 = α − βx0 ;
4. si y = α + β ln x, alors x0 = ln x et y = α + βx0 ;
5. si y = eα+βx /(1 + eα+βx ), alors y0 = ln 1−y
y
et y0 = α + βx.

Si Y compte le nombre de certains événements, la transformation Y 0 = Y stabilise
souvent la variance.
Considérons les méthodes non formels de vérification de la normalité des résidus. Si
ei ∼ N(0, σ2 ), alors ê = HY ∼ N(0, σ2 H) et ẽi ∼ N(0, 1). Souvent les correlations entre ẽi
sont petites et on considère ẽ1 , ..., ẽn comme i.i.d. N(0, 1).
Pour tester la normalité grossièrement on peut faire l’hystogramme des ẽi . On peut aussi
faire des plots suivants :
soient ẽ(1) ≤ ... ≤ ẽ(n) les statistiques d’ordre de ẽ1 , ..., ẽn . Si Z( j) est la j-ème statistique
d’ordre de la loi N(0, 1), ( j = 1, ..., n), alors notons m( j) = E(Z(i j) ). Les espérances m( j)
ne dépendent pas des paramètres inconnus. Si ẽ(i) sont des statistiques d’ordre de la loi
N(0, 1), alors les points (ẽ(i) , m(i) ) doivent être dispersés autour de la droite e = m dans le
plan (0em).
On peut utiliser une autre méthode : mettre sur le plan (0eq) les points (ẽ(i) , q(i) ), où
³ ´ ³ ´
q(i) = Φ −1 i−1/2
n sont des i−1/2
n -quantiles de la loi N(0, 1). Alors ces points doivent
être dispersés autour de la droite e = q.
Indépendance des variables aléatoires ei peut être vérifiée en utilisant le test de Durbin-
Watson.
Considérons la statistique

∑ni=2 (êi−1 − ê)(


¯ êi − ê)
¯ ∑ni=2 êi−1 êi
r1 = = ,
∑ni=1 (êi − ê)
¯ 2 ∑ni=1 ê2i

appelée la première autocorrelation des (ê1 , ê2 ), (ê2 , ê3 ), ... , (ên−1 , ên ) ; ici ê¯ = ∑ni=1 êi . Elle
est très proche au coefficient de correlation empirique linéaire de ces pairs. Alors la statis-
tique
∑ni=2 (êi − êi−1 )2
d= ≈ 2(1 − r1 )
∑ni=1 ê2i
est appelée la statistique de Durbin-Watson. r1 est proche à zéro, si les variables aléatoires
êi sont indépendantes. Alors la statistique d est proche à 2 dans ce cas. La loi de d ne dépend
pas des paramètres inconnus et les valeurs critiques di et ds de d sont tabulées. On rejette
l’hypothèse d’indépendance, si d < di ou d > ds .

265
Même si le modèle est bien choisi, l’estimation peut être mauvaise, si parmi les points
(xi ,Yi ) il y a des valeurs aberrantes, i.e. les points avec grands résidus êi = Yi − Ŷi . La va-
leur aberrante est influente si son retrait change beaucoup la valeur de l’estimateur de β.
L’influence de (xi ,Yi ) peut être mesurée à l’aide de la distance de Cook. Pour calculer cette
distance, on calcule la valeur prédite ajustée Ŷia qui est déterminée comme Ŷi , utilisant
seulement les points

(x1 ,Y1 ), ..., (xi−1 ,Yi−1 ), (xi+1 ,Yi+1 ), ..., (xn ,Yn ).

La distance de Cook est déteminée par la formule suivante :

∑ni=1 (Ŷia − Ŷi )2


Ci2 = .
(m + 1)MSR

La règle pratique : si Ci2 > 1, le point est influent.

5.2 Annexe

Soit X = (X1 , ..., Xn ) un échantillon, Xi ∼ N(0, 1). On considère la forme linéaire bT X,


b = (b1 , ..., bn )T et les formes quadratiques X T AX, X T BX, où A et B sont des matrices sy-
métriques.

Lemme .
a) Si bT A = 0, alors X T AX et bT X sont indépendantes ;
b) Si AB = 0, alors les formes quadratiques X T AX et X T BX sont indépendantes.

Démonstration. a). On suppose que rang(A) = r. Comme A est une matrice symétrique,
on peut écrire sa décomposition spectrale :
r
A = ∑ λi hi hTi , (28)
i=1

où λi , ..., λr et h1 , ..., hr sont les valeurs propres positives et les vecteurs propres, respecti-
vement, de la matrice A, hTi h j = 0 (i 6= j), hTi hi = 1. On a
r p p p p
X T AX = ∑ λi (hTi X)2 = ( λ1 hT1 X, ..., λr hTr X)( λ1 hT1 X, ..., λr hTr X)T .
i=1

L’égalité bT X = 0 implique

Cov (bT X, hTi X) = bT Var (X)hi = bT hi = λ−1 T


i b Ahi = 0,

bT X et hTi X sont des variables aléatoires normales et non-corrélées, donc indépendantes. Il


s’ensuit que les variables aléatoires X T AX et bT X sont indépendantes.

266
b) On écrit la décomposition spectrale des matrices A et B :
r p
A= ∑ λi hi hTi , B= ∑ µ j l j lTj .
i=1 j=1

On a
r p
X AX = ∑
T
λi (hTi X)2 , T
X BX = ∑ µ j (b2j X)2, Cov (hTi X, lTj X) = hTi l j = 0,
i=1 j=1

donc hTi X et lTj X et par conséquent X T AX et X T BX sont indépendantes. Le lemme est dé-
montré.

Lemme . Soit A une matrice idempotente, i.e. A2 = A, telle que rang(A) = r ≤ n. Alors
r = TrA et X T AX ∼ χ2 (r).

Démonstration. On écrit la décomposition spectrale (28). A est idempotente, donc λ1 =


... = λr = 1 et
r
X T AX = ∑(hTi X)2 . (29)
1
Les vecteurs propres hi et h j sont orthogonaux,

Cov (hTi X, hTj X) = hTi h j = 0

et donc les variables aléatoires hi X et h j X sont indépendantes. On a

E(hTi X) = hTi E(X) = 0, Var (hTi X) = hTi hi = 1,

donc hTi X ∼ N(0, 1) et d’après le lemme X T AX ∼ χ2r . Le lemme est démontré.

Σ) 6= 0, alors
Théorème. Si X ∼ N(µ, Σ ), det (Σ

(X − µ)T Σ −1 (X − µ) ∼ χ2 (n).

Démonstration. La matrice Σ est symétrique, det (Σ Σ) 6= 0. Donc il existe une matrice


orthogonale H telle que H T Σ H = D soit diagonale. De plus, les éléments de cette diagonals
λ1 , ..., λn sont positifs. Considérons le vecteur

Y = D−1/2 H T (X − µ).

On a
Var (Y ) = D−1/2 H T Σ HD−1/2 = In ,
donc
(X − µ)T Σ −1 (X − µ) = Y T D1/2 H T Σ −1 HD1/2Y = Y T Y ∼ χ2n .
Le théorème est démontré.

Théorème. Soit X = (X1 , ..., Xn ) un échantillon, Xi ∼ N(µ, σ2 ). Alors les moments em-
piriques
1 n 1 n
X̄ = ∑ Xi et SX2 = ∑ (Xi − X̄)2
n i=1 n i=1

267
sont indépendants et

n(X̄ − µ)/σ ∼ N(0, 1), nSX2 /σ2 ∼ χ2 (n − 1).

Démonstration. Notons Yi = (Xi − µ)/σ ∼ N(0, 1), Y = (Y1 , ...,Yn )T , Ȳ = (X̄ − µ)/σ,
SY2 = SX2 /σ2 .
Il suffit de démontrer que les variables aléatoires Ȳ et SY2 sont indépendantes.
Considérons le vecteur b = (1/n, ..., 1/n)T et la matriceB = (1/n)n×n . On a

Ȳ = bT Y , nSY2 = (Y − BY )T (Y − BY ) = Y T (In − B)2Y .

La matrice In − B est idempotente :

(In − B)2 = In − 2B + B2 = In − B

et
bT (In − B) = bT − bT B = bT − bT = 0.
D’après le lemme, les variables aléatoires Ȳ et SY2 sont indépendantes. On a

Tr(In − B) = TrIn − TrB = n − 1.

D’après le lemme nSY2 ∼ χ2 (n − 1). Le théorème est démontré.

Exemple 1. Soient X = (X1 , . . . , Xn1 )T et Y = (Y1 , . . . ,Yn2 )T deux échantillons indépen-


dents, Xi ∼ N(µ1 , σ21 ), Yi ∼ N(µ2 , σ22 ). Construire le test de rapport de vraisemblance pour
tester l’hypothèse H0 : σ21 = σ22 = σ2 .

Solution. Notons que (µ1 , µ2 , σ21 , σ22 ) ∈ Θ = R × R × R+ × R+ et (µ1 , µ2 , σ2 ) ∈ Θ0 =


R × R × R+ ⊂ Θ.
La fonction de vraisemblance pour (µ1 , µ2 , σ21 , σ22 ) est
( )
n1 n2
1 1 1 1
L(µ1 , µ2 , σ21 , σ22 ) = 2 /2 2 /2
exp − 2 ∑ (Xi − µ1 )2 − 2 ∑ (Yi − µ2 )2 .
(2πσ1 )n1 (2πσ2 )n 2 2σ1 i=1 2σ2 i=1

Le logarithm de la fonction de vraisemblance est


n1 n2
ln L(µ1 , µ2 , σ21 , σ22 ) = − (ln(2π) + ln σ21 ) − (ln(2π) + ln σ22 )
2 2
1 n1 1 n2
− 2 ∑ (Xi − µ1 ) − 2 ∑ (Yi − µ2 )2 .
2
σ1 i=1 σ2 i=1
Les estimateurs de maximum de vraisemblance vérifient le système des équations

∂L 1 n1
= 2 ∑ (Xi − µ1 ) = 0,
∂µ1 σ1 i=1

∂L 1 n2
= 2 ∑ (Yi − µ2 ) = 0,
∂µ2 σ2 i=1

268
∂L n1 1 n1
∂σ1
2
= − 2
+ 4 ∑
2σ1 2σ1 i=1
(Xi − µ1 )2 = 0,

∂L n2 1 n2
∂σ2
2
= − 2
+ 4 ∑
2σ2 2σ2 i=1
(Yi − µ2 )2 = 0.

n1 n2 n1 n2
Donc µ̂1 = X̄ = n11 ∑ Xi , µ̂2 = Ȳ = n12 ∑ Yi , σ̂21 = s21 = n11 ∑ (Xi − X̄)2 , σ̂22 = s22 = n12 ∑ (Yi −
i=1 i=1 i=1 i=1
Ȳ )2 .
Notons n = n1 + n2 . Sous H0 la fonction de vraisemblance pour (µ1 , µ2 , σ2 ) est
( " #)
n1 n2
1 1
L1 (µ1 , µ2 , σ2 ) = exp − 2 ∑ (Xi − µ1 )2 + ∑ (Yi − µ2 )2 .
(2πσ )
2 n/2 2σ i=1 i=1

Le logarithm de la fonction de vraisemblance est


( )
n1 n2
n 1
ln L1 (µ1 , µ2 , σ2 ) = − (ln(2π) + ln σ2 ) − 2
2 σ ∑ (Xi − µ1)2 + ∑ (Yi − µ2)2 .
i=1 i=1

Les estimateurs de maximum de vraisemblance vérifient le système des équations

∂L1 1 n1
= 2 ∑ (Xi − µ1 ) = 0,
∂µ1 σ i=1

∂L1 1 n2
= ∑ (Yi − µ2) = 0,
∂µ2 σ2 i=1
( )
∂L n 1 n1 n2
= − 2 + 4 ∑ (Xi − µ1 )2 + ∑ (Yi − µ2 )2 = 0.
∂σ2 2σ 2σ i=1 i=1

Donc µ̂1 = X̄, µ̂2 = Ȳ , σ̂2 = 1n (n1 s21 + n2 s22 ). Les maximums des fonctions L et L1 sont

1
L̂ = L(µ̂1 , µ̂2 , σ̂21 , σ̂22 ) = e−n/2
(2π)n/2 sn11 sn22
et
1 −n/2
L̂1 = L1 (µ̂1 , µ̂2 , σ̂2 ) = n1 2 n2 2 n/2 e .
(2π) ( n s1 + n s2 )
n/2

La région critique pour H0 est défini par l’inégalité


µ ¶
L̂1
−2 ln > C.

On a
n /2 n /2
L̂1 s1 s2
= n1 21 n22 2 n/2
L̂ ( n s1 + n s2 )
µ ¶−n1 /2 µ ¶−n2 /2
n1 n2 s22 n1 s21 n2
= + + .
n n s21 n s22 n

269
Donc la région critique est défini par l’inégalité
µ ¶ µ ¶
n1 n2 s22 n1 s21 n2
n1 ln + + n2 ln + > C.
n n s21 n s22 n

Posons x = s22 /s21 et étudions la fonction


³n n2 ´ ³n n2 ´
1 1
g(x) = n1 ln + x − n2 ln + .
n n nx n
Sa dérivée est
n2 x2 + (n1 − n2 )x − n1
g0 (x) = n1 n2 .
(n1 + n2 x)(n1 x + n2 x2 )
Les racines de l’équation quadratique

n2 x2 + (n1 − n2 )x − n1 = 0

sont x1 = 1 et x2 = − nn12 . Donc g0 (x) < 0 si x ∈]0, 1[, g0 (x) > 0 si x ∈]1, +∞[. La fonction g
est décroissante sur l’intervalle ]0, 1[, croissante sur ]1, +∞[ et le minimum est atteint dans
le point 1. L’inégalité g(x) > C est vérifiée si et seulement si x < c1 ou x > c2 . Donc la
région critique pour H0 est déterminée par les égalités

s22 s22
< c1 ou > c2 .
s21 s21

Fixons le niveau de signification α. Les constantes c1 et c2 sont trouvées de l’égalités

s22 s22
P{ < c1 | H0 } = α/2, P{ > c2 | H0 } = α/2.
s21 s21

Donc c1 = fα/2 (n2 − 1, n1 − 1) et c2 = f1−α/2 (n2 − 1, n1 − 1) sont des quantiles de la répar-


tition de Fisher de n2 − 1 et n1 − 1 dégrés de liberté.

Exemple 2. Soit Z = (Z1 , . . . , Zn )T un échantillon de la loi normale bivarié, i.e.

Zi = (Xi ,Yi )T ∼ fXi ,Yi (x, y),

où la densité
fXi ,Yi (x, y) =
½ · ¸¾
1 1 (x − a1 )2 2ρ(x − a1 )(y − a2 ) (y − a2 )2
p exp − − +
2πσ1 σ2 1 − ρ2 2(1 − ρ2 ) σ21 σ1 σ2 σ22
pour tout (x, y) ∈ R2 .
Construire le test de rapport de vraisemblance pour tester l’hypothèse H0 : ρ = 0 qui est
equivalente à l’hypothèse que les variables aléatoires xI et Yi sont indépendantes.
Notons que (µ1 , µ2 , σ21 , σ22 , ρ) ∈ Θ = R × R × R+ × R+ × [−1, 1] et

(µ1 , µ2 , σ2 ) ∈ Θ0 = R × R × R+ ⊂ Θ

270
La fonction de vraisemblance pour (µ1 , µ2 , σ21 , σ22 , ρ) est

L(µ1 , µ2 , σ21 , σ22 , ρ)


à !n ( ¸)
n ·
1 1 (Xi − a1 )2 2ρ(Xi − a1 )(Yi − a2 ) (Yi − a2 )2
p
2πσ1 σ2 1 − ρ2
exp − ∑
2(1 − ρ2 ) i=1 σ21

σ1 σ2
+
σ22
,

n n n
ln L = −n ln(2π) − ln σ21 − ln σ22 − ln(1 − ρ2 )
2 2 2
n · ¸
1 (Xi − a1 )2 2ρ(Xi − a1 )(Yi − a2 ) (Yi − a2 )2
− ∑
2(1 − ρ2 ) i=1 σ21

σ1 σ2
+
σ22
,

donc
n · ¸
∂L 1 2(Xi − a1 ) 2ρ(Yi − a2 )
∂a1
=− ∑ − σ2 + σ1σ2 = 0,
2(1 − ρ2 ) i=1 1
n · ¸
∂L 1 2(Yi − a2 ) 2ρ(Xi − a1 )
∂a2
=− ∑ − σ2 + σ1σ2
2(1 − ρ2 ) i=1
= 0.
2
Ces équations impliquent
n n
σ2
∑ (Yi − a2) = ∑ (Xi − a1) σ1 ρ
,
i=1 i=1

n n
ρσ2
∑ (Yi − a2) = ∑ (Xi − a1) σ1
,
i=1 i=1
donc µ ¶
n
σ2 ρσ2
∑ (Xi − a1) σ1ρ − σ1 = 0,
i=1

qui implique â1 = X̄, â2 = Ȳ .


En dérivant par rapport à σ2i , on a
n · ¸
∂L n 1 (Xi − a1 )2 ρ(Xi − a1 )(Yi − a2 )
∂σ21
=− 2+ ∑
2σ1 2(1 − ρ2 ) i=1 σ41

σ2 σ31
= 0,

n · ¸
∂L n 1 (Yi − a2 )2 ρ(Xi − a1 )(Yi − a2 )
∂σ22
=− 2+ ∑
2σ2 2(1 − ρ2 ) i=1 σ42

σ1 σ32
= 0.

Notons
n
∑ (Xi − X̄)(Yi − Ȳ )
i=1
r=
s1 s2
le coefficient empirique de correlation. Alors les dernières equations on s‘écrivent (on rem-
place ai par âi ) :
s2 s1 s2
(1 − ρ2 ) − 12 + ρr = 0,
σ1 σ1 σ2
s22 s1 s2
(1 − ρ2 ) − + ρr = 0,
σ22 σ1 σ2

271
qui impliquent s1 /σ1 = s2 /σ2 = (1 − ρ2 )/(1 − ρr). La dernière dérivé est
n · ¸
∂L nρ ρ (Xi − a1 )2 2ρ(Xi − a1 )(Yi − a2 ) (Yi − a2 )2
= −
∂ρ 1 − ρ2 (1 − ρ2 )2 i=1 ∑ σ21

σ1 σ2
+
σ22
n
1 (Xi − a1 )(Yi − a2 )
+ ∑
1 − ρ i=1
2 σ1 σ2
= 0,

donc µ ¶
ρ s21 s1 s2 s22 s1 s2
ρ− − 2ρr + +r = 0.
1 − ρ2 σ21 σ1 σ2 σ22 σ1 σ2
Remplaçant s2i /σ2i par (1−ρ2 )/(1−ρr) dans la dernière équation, on a ρ̂ = r. Donc s2i /σ̂2i =
1, qui donne σ̂2i = s2i .
Nous avons obtenu les estimateurs â1 = X̄, â2 = Ȳ , σ̂2i = s2i , ρ̂ = r.
Sous H0 les estimateurs sont obtenus dans le problème 1.
Les maximums des fonctions L et L1 sont
1
L̂ = L(â1 , â2 , σ̂21 , σ̂22 , ρ̂) = e−n ,
(2π)n sn1 sn2 (1 − r2 )n/2
1
L̂1 = L1 (â1 , â2 , σ̂21 , σ̂22 ) = n n e−n
(2π) s1 s2
n

La région critique est L1 /L < c, qui est equivalent à r2 > C.


On peut rémarquer, que dans la régression logistique simple : Yi = β0 + β1 Xi les estima-
teurs de coefficients sont
s2
β̂1 = r , β̂0 = Ȳ − β̂1 X̄.
s1
Sous l’hypothèse H : β1 = 0 la v.a.
SSE
F=
SSR /(n − 2)
suit la loi de Fisher de 1 et ne2 degrés de liberté. Notons que
n
SSE = ∑ (Ŷi − Ȳ )2 ,
i=1

où Ŷi = β̂0 + β̂1 Xi = Ȳ + r ss21 (Xi − X̄), donc


n
SSE = nr2 s22 , SSR = SST − SSE = ∑ (Yi − Ȳ )2 − nr2 s22 = ns22 (1 − r2 ),
i=1

et
r2 (n − 2)
F= .
1 − r2
On a r2 > C si et seulement si F > C1 . On rejette H0 si F > F1−α (1, n − 2). Le niveau de
signification est α.
Exercice 1. Il est donné que entre x et y(x), deux variables en étude, il y a une dépen-
dance polynomiale
y(x) = a0 + a1 x + ...am xm . (30)

272
On suppose que les ai et m sont inconnus et que pour tout xi la quantité yi = y(xi ) est
mesurée avec une erreur ei . On observe donc

Yi = yi + ei , i = 1, ..., n. (31)

On suppose aussi que le nombre de mesures n > m, e = (e1 , ..., en )T est un échantillon
normale, c’est-à-dire ei ∼ N1 (0, σ2 ) et donc e ∼ Nn (0, σ2 In ).
Dans l’expériance on a recu pour

xi = h(i − 1), i = 1, ..., 30, i.e. xi − xi−1 = xi+1 − xi = h = 0.1.

les 30 observations suivantes :


Y1 = 1.911 Y11 = 1.001 Y21 = −1.756
Y2 = 1.970 Y12 = 0.7129 Y22 = −1.926
Y3 = 2.022 Y13 = 0.4502 Y23 = −2.001
Y4 = 1.990 Y14 = 0.1543 Y24 = −1.974
Y5 = 1.952 Y15 = −0.1462 Y25 = −1.875
Y6 = 1.881 Y16 = −0.4793 Y26 = −1.620
Y7 = 1.765 Y17 = −0.7702 Y27 = −1.256
Y8 = 1.636 Y18 = −1.080 Y28 = −0.7477
Y9 = 1.448 Y19 = −1.342 Y29 = −0.0425
Y10 = 1.227 Y20 = −1.578 Y30 = 0.852

On suppose qu’il y a seulement 0 ou 1 observation abberante et que m ≤ 6.


1. Eliminer l’observation abberante si elle existe parmi les Y j .
2. Estimer la degré du polynôme dans le modèle et construire les estimateurs pour a j et
σ2 par la méthode des moindres carrées.
3. Construire la zone de confiance pour y(x).
Exercice 2. Soit A = kai j kn×n = An , det A 6= 0. Notons x = (x1 , ..., xn )T un vecteur
arbitraire de Rn . Montrer que pour tout k ∈ R1

det (A + kxxT )
= 1 + kxT A−1 x.
det A
Exercice 3. Soit A une matrice nondégénérée, A = kai j kn×n , X = kxi j kn×p , k ∈ R1 ,
telles que
I p + kXT A−1 X
est nondégénérée. Montrer que

(A + kXXT )−1 = A−1 − kA−1 X(I p + kXT A−1 X)−1 XT A−1 .

Exercice 4. Montrer que

Tr(An + Bn ) = Tr(An ) + Tr(Bn ) et Tr(An · Bn ) = Tr(Bn · An ),

où Bn = kbi j kn×n et Tr(An ) = ∑ni=1 aii .


Exercice 5. Montrer que

det (An Bn ) = det An · det Bn .

273
Exercice 6. Soit A une matrice symmétrique, λ1 ≥ λ2 ≥ ... ≥ λn - les valeurs propres
de An .
Montrer que
n n
TrAn = ∑ λi , det An = ∏ λi .
i=1 i=1

5.3 Régression logistique

On suppose que l’on observe un événement A et que la probabilité de cet événement


dépend de la valeur d’un vecteur de variables explicatives (covariables) x1 , ..., xm . Notons
x = (x0 , x1 , ..., xm )T , x0 = 1,
π(x) = P{A|x}
et considérons la variable aléatoire Y qui prend deux valeurs : 0 et 1 et telle que

P{Y = 1|x} = π(x).

On effectue n expériences indépendantes. La i-ème expérience est observée sous la cova-


riable x(i) = (xi0 , ..., xim )T , xi0 = 1. On fixe les valeurs des variables aléatoires Yi : Yi = 1,
si un événement A se produit pendant la i-ème expérience et Yi = 0 sinon. Donc on a un
échantillon
(Y1 , x(1) ), ..., (Yn , x(n) ).
Les variables aléatoires Yi suivent la loi de Bernoulli : Yi |x(i) ∼ Bi(1, π(x(i) )).
Le but est d’estimer la probabilité π(x) pour tous les x ∈ E , où E est un ensemble de
covariables. Si x 6= x(i) et la forme de π(x) est complètement inconnue, l’estimation de π(x)
sera impossible.
On peut considérer le modèle linéaire

π(x) = β0 + β1 x1 + ... + βm xm , (1)

mais après estimation des paramètres β = (β0 , ..., βm ) on peut obtenir un estimateur de
π(x) qui n’appartienne pas à l’intervalle [0, 1]. En règle générale la loi des estimateurs de
maximum de vraisemblance des paramètres inconnus approche la loi normale quand n est
grand, mais la vitesse de convergence vers la loi normale est plus grande quand la région
des valeurs du paramètre est R. C’est le deuxième argument défavorable à l’utilisation du
modèle (1). Toutes ces restrictions peuvent être éliminées en considérant le modèle

π(x)
g(x) = ln = β0 + β1 x1 + ... + βm xm = βT x. (2)
1 − π(x)

Alors
eβ x
T
eβ0 +β1 x1 +...+βm xm
π(x) = = T .
1 + eβ0 +β1 x1 +...+βm xm β
1+e x

274
Le domaine de variation de la fonction-logit g(x) est R et pour n’importe quelle valeur de
β la fonction π(x) prend ses valeurs dans ]0, 1[. Donc on a
Le modèle de régression logistique :
π(x)
Yi ∼ B(1, π(x(i) )), où ln = β0 + β1 x1 + ... + βm xm
1 − π(x)
et Y1 , ...,Yn sont des variables aléatoires indépendantes.
Si la j-ème variable explicative x j est dicrète avec une échelle nominale, par exemple,
la couleur, l’ethnie, etc., et prend k j valeurs différentes, on peut utiliser au lieu de x j le
vecteur (z j,1 , ..., z j,k j −1 ) des codes qui prend k j valeurs différentes : (0, ..., 0), (1, 0, ..., 0),
(0, 1, 0, ..., 0),....,(0, ...., 0, 1) et le modèle (2) est modifié :
k j −1
g(x) = β0 + β1 x1 + ... + ∑ β jiz ji + ... + βmxm. (3)
i=1

Si, par exemple, x j est la couleur qui prend 3 valeurs (noir, bleu, blanc), alors on considère
le vecteur (z j1 , z j2 ) qui prend les valeurs (0,0)- (noir), (1,0)- (bleu), (0,1)- (blanc). Si x j est
le sexe (masculin, féminin), alors on considère la variable codée z j1 qui prend les valeurs 0
(masculin) et 1 (féminin). Parfois le codage est différent : (-1,...,-1), (1,0,...,0),...,(0,0,...,1),
etc.
(1) (2)
Notons que si on prend deux valeurs x j et x j de x j dans (2), alors
(2) (1) (2) (1)
g(x1 , ..., x j , ..., xm ) − g(x1 , ..., x j , ..., xm ) = β j (x j − x j )
et donc
(2) (2) (2) (2)
π j /(1 − π j ) π(x1 , ..., x j , ..., xm )/(1 − π(x1 , ..., x j , ..., xm ) (2) (1)

(1) (1)
= (1) (1)
= eβ j (x j −x j )
. (4)
π j /(1 − π j ) π(x1 , ..., x j , ..., xm )/(1 − π(x1 , ..., x j , ..., xm ))
(2) (1)
Le rapport des cotes est donc égal à eβ j (x j −x j ) et si x j − x j = 1, alors il vaut eβ j . La
(2) (1)

cote est le rapport des probabilités de succès et d’échec pour l’évènement A. Le rapport des
(1) (2)
cotes montre comment varie la cote quand x j passe de x j à x j , toutes les autres cova-
(i)
riables restant les mêmes. Si les probabilités π j sont petites, alors le rapport des cotes est
(2) (1)
proche à π j /π j , i.e. au risque relatif. Dans ce cas eβ j (x j
(2) (1) −x j )
montre comment change
(1) (2)
la probabilité de succès quand x j change sa valeur de à xj
et toutes les autres cova-xj
riables ne changent pas. Il faut souligner que dans le modèle (2) le rapport des cotes est le
même pour n’importe quelles valeurs fixées des autres covariables xl (l 6= j), i.e. il n’y a
pas d’interactions.
(i) (i)
Si x j est discrète avec une échelle nominale et (z j1 , ..., z j,k j −1 ) = (0, ..., 1, ..., 0), où 1
(0) (0)
est dans la i-ème place, (z j1 , ..., z j,k j −1 ) = (0, ..., 0), alors
(i) (i) (0) (0)
g(x1 , ..., z j1 , ..., z j,k j −1 , ..., xm ) − g(x1 , ..., z j1 , ..., z j,k j −1 , ..., xm ) = β ji

et alors
(i) (i)
π j /(1 − π j )
(0) (0)
= eβ ji , (5)
π j /(1 − π j )

275
(l) (l) (l)
où π j = π(x1 , ..., z j1 , ..., z j,k j −1 , ..., xm ) (l = 0, i).
eβ ji est le rapport des cotes qui correspond au changement de valeur de la variable x j de
la première à la (i + 1)-ème quand toutes les autres variables restent fixes . Par exemple, si
x j est la couleur (noire, blanche, bleue), eβ j2 exprime le rapport des cotes qui correspond au
changement de x j de la couleur noire à la couleur blanche (i = 1).
Si l’effet de changement de la valeur de la covariable x j est différent pour des valeurs
différentes des autres covariables, on a une interaction entre x j et ces covariables. Alors le
modèle (2) peut être modifié pour tenir compte de l’effet d’interaction. Par exemple, dans
le cas de deux covariables on a le modèle

g(x) = β0 + β1 x1 + β2 x2 + β3 x1 x2 ,

dans le cas de trois covariables

g(x) = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x1 x2 + β5 x1 x3 + β6 x2 x3 + β7 x1 x2 x3 . (6)

S’il y a interaction, alors, par exemple (m = 2),


(2) (1) (2) (1)
g(x1 , x2 ) − g(x1 , x2 ) = (β1 + β3 x2 )(x1 − x1 )

et
(2) (2)
(2)
(β1 +β3 x2 )(x1 −x1 )
(1) π(x1 , x2 )/(1 − π(x1 , x2 ))
e = (1) (1)
, (7)
π(x1 , x2 )/(1 − π(x1 , x2 ))
(2) (1)
donc le rapport des cotes dépend non seulement de la différence x1 − x1 mais aussi de la
valeur de la deuxième covariable x2 .

5.3.1 Estimation

On a un échantillon (Y1 , x(1) ), ..., (Yn , x(n) ), où x(i) = (xi0 , ..., xim )T , xi0 = 1. La variable
aléatoire Yi suit la loi de Bernoulli :

Yi |x(i) ∼ B(1, π(x(i) )).

La fonction de vraisemblance
n
L(β) = ∏[π(x(i) )]Yi [1 − π(x(i) )]1−Yi
i=1

et
n
ln L(β) = ∑ Yi ln π(x(i) ) + (1 −Yi ) ln (1 − π(x(i) )) =
i=1
n
π(x(i) )
∑ Yi ln 1 − π(x(i)) + ln (1 − π(x(i))) =
i=1
n
∑ Yi(β0 + β1xi1 + ... + βmxim) − ln (1 + eβ0+β1xi1+...+βmxim ).
i=1

276
Les fonctions score

∂ ln L(β) n
Ul (β) = = ∑ xil [Yi − π(x(i) )] (l = 0, ..., m).
∂βl i=1

Notons β̂ l’estimateur du maximum de vraisemblance. Il vérifie le système d’équations


Ul (β) = 0 (l = 0, ..., m). Alors la probabilité de l’événement A sous la covariable x =
(1, x1 , ..., xm )T est estimée par
T
eβ̂ x
π̂(x) = T .
1 + eβ̂ x
Quelles sont les notions analogues aux notions de coefficient de détermination R2 , de
sommes des carrés : totale SST , de régression SSR , d’erreur SSE , considérées dans le chapitre
“régression linéaire” ?
Notons
eβ̂x
(i)
(i)
Ŷi = π̂(x ) = T
1 + eβ̂ x
(i)

T
les valeurs prédites des π(x(i) ). Dans le cas de la régression linéaire Ŷi = β̂ x(i) . La prédic-
tion est bonne si les valeurs observées Yi et les valeurs prédites Ŷi sont proches. Dans le cas
de la régression linéaire la différence entre Yi et Ŷi était déterminé par SSR = ∑(Yi − Ŷi )2 .
Dans le cas normal SSR /σ2 suit la loi du chi-deux à n − m − 1 degrés de liberté..
Si la fonction π(x) est complètement inconnue et si

P{Yi = 1|x(i) } = π(x(i) ) = pi ,

on estime n paramètres inconnus p1 , ..., pn . On a le modèle saturé, parce que le nombre des
paramètres à estimer est le même que la taille de l’échantillon.
La fonction de vraisemblance
n
L0 (p) = L0 (p1 , ..., pn ) = ∏ pYi i (1 − pi )1−Yi
i=1

est maximisée au point p̂ = ( p̂1 , ..., p̂n ), où p̂i = Yi , donc


n
L0 ( p̂) = ∏ YiYi (1 −Yi )1−Yi = 1.
i=1

On suppose 00 = 1. Si on considère le modèle (2) avec m + 1 < n, on a (m + 1) paramètres


inconnus β0 , ..., βm . Le maximum de la fonction de vraisemblance
n
L(β) = ∏ π(x(i) )Yi (1 − π(x(i) ))1−Yi
i=1

est
n
L(β̂) = ∏ ŶiYi (1 − Ŷi )1−Yi ≤ L0 ( p̂).
i=1

277
Si Ŷi et Yi sont proches, i.e. la prédiction est bonne, alors L0 ( p̂) et L(β̂) sont proches,
donc le rapport des vraisemblances L(β̂)/L0 ( p̂) est proche de 1 et

L(β̂)
DR = −2 ln = −2 ln L(β̂)
L0 ( p̂)
est proche de zero. Si n est grand et le modèle de régression logistique est vérifié, la loi de
DR est approchée par la loi du chi-deux à n − m − 1 degrés de liberté. Donc un équivalent
de la somme des carrés de régression SSR dans la régression logistique est DR .
Le nombre minimal de paramètres à estimer est égal à 1. On est dans ce cas, si

(i) e β0
β1 = ... = βm = 0 et π(x ) = = π = const.
1 + e β0
Alors la fonction de vraisemblance
n
L1 (π) = ∏ πYi (1 − π)1−Yi
i=1

est maximisée au point π̂ = Ŷ = 1n ∑ Yi et


n
L1 (π̂) = ∏ Ȳ Yi (1 − Ȳ )1−Yi ≤ L(β̂) ≤ L0 ( p̂).
i=1

La loi de la variable aléatoire


L1 (π̂)
DT = −2 ln = −2 ln L1 (π̂)
L0 ( p̂)
est proche de la loi du chi-deux à n − 1 degrés de liberté. Donc un équivalent de la somme
totale des carrés SST dans la régression logistique est DT .
La loi de la variable aléatoire
L1 (π̂)
DE = −2 ln =
L(β̂)
n n n n
2[ ∑ Yi ln Ŷi + ∑ (1 −Yi ) ln (1 − Ŷi ) − ∑ Yi ln Ȳ − (n − ∑ Yi ) ln (1 − Ȳ )]
i=1 i=1 i=1 i=1
est proche de la loi du chi-deux à m degrés de liberté si β1 = ... = βm = 0 et n est grand. La
variable aléatoire DE est un équivalent de la somme des carrés d’erreur SSE . On a

DT = DE + DR .

L’équivalent du coefficient de détermination dans le cas de la régression logistique


DR DE
R2 = 1 − = .
DT DT

Si Ŷi = Yi , alors R2 = 1. Si Ȳ 6= 0 et Ȳ 6= 1, Ŷi = Ȳ , alors R2 = 0.


Considérons l’hypothèse
H0 : β1 = ... = βm = 0.

278
Cette hypothèse signifie qu’il n’y a pas de régression et la connaissance de la valeur de x
n’améliore pas la prédiction de π(x). L’hypothèse H0 peut être écrite comme H0 : π(x) =
π = const. Sous l’hypothèse H0 la loi de DE est approchée par la loi du chi-deux à m degrés
de liberté. L’hypothèse H0 est rejetée avec le niveau de signification α, si DE > χ21−α (m).
Considérons l’hypothèse

H0 : β j1 = ... = β jl = 0, (1 ≤ j1 < ... < jl ≤ m, l < m).


(m) (m−l)
Notons DE et DE la statistique DE pour le modèle (2) avec tous β0 , ..., βm et sans
(m) (m−k)
β j1 , ..., β jl , respectivement. Sous l’hypothèse H0 la loi de la variable aléatoire DE −DE
peut être approchée par la loi du chi-deux à k = m − (m − k) degrés de liberté.
On rejette l’hypothèse H0 avec le niveau de signification α, si
(m) (m−k)
DE − DE > χ21−α (k).

En particulier ce test peut être appliqué pour tester l’hypothèse d’absence d’interactions
entre des covariables. Par exemple, dans le modèle (6) cette hypothèse est équivalente à
l’hypothèse
H0 : β4 = β5 = β6 = β7 = 0.
(7) (3)
La statistique de test DE − DE suit la loi de chi-deux de k = 4 degrés de liberté.
L’hypothèse
H0 : β j = 0 ( j = 1, ..., m)
peut aussi être testée en utilisant la matrice d’information de Fisher estimée.
On cherche la matrice d’information de Fisher I(β) = (Ils (β)). On a

∂2 ln L(β) n
Ils (β) = −E = ∑ xil xis π(x(i) )(1 − π(x(i) )) (l, s = 0, ..., m).
∂βl ∂βs i=1

Donc I(β̂) = X T VX, où


   
x10 ... x1m π̂(x(1) )(1 − π̂(x(1) )) ... 0
X =  ... ... ...  , V =  0 ... 0 .
xn0 ... xnm 0 ... π̂(x(m) )(1 − π̂(x(m) ))

Si n est grand, la matrice de covariance de β̂ est approchée par I−1 (β) ou I−1 (β̂) = (σ̂ls ). Si
x = (x0 , ..., xm ), alors la variance de π̂(x) est approchée par
µ ¶T µ ¶T
∂π̂(x) −1 ∂π̂(x)
σ̂ (π̂(x)) =
2
I (β̂) =
∂βs 1×(m+1) ∂βs (m+1)×1

m m
π̂2 (x)(1 − π̂(x))2 ∑ ∑ xl xsσ̂ls. (8)
l=0 s=0
Notons
σ̂ll = σ̂2 (β̂l ), σ̂ls = Cov
ˆ (β̂l , β̂s ).

Si n est grand alors la loi de β̂ est approchée par la loi normale N(β, I−1 (β)) et I−1 (β) est
estimée par I−1 (β̂).

279
La loi de la statistique
β̂ j
Wj =
σ̂(β̂ j )
est approchée par la loi N(0, 1), quand n est grand. On rejette l’hypothèse H0 : β j = 0 avec
le niveau de signification α, si |W j | > w1−α/2 .
La loi de (π̂(x) − π(x))/σ̂(π̂(x)) est approchée par la loi normale standard, donc l’inter-
valle de confiance de niveau de confiance γ = 1 − α pour la probabilité π(x) est approché
par
π̂(x) ± z1−α/2 σ̂(π̂(x)),
où σ̂(π̂(x)) est donnée par la formule (8).
La relation entre les coefficients β j et les rapports des cotes donne la possibilité de
construire des intervalles de confiance pour les rapports de cotes.
L’intervalle de confiance de niveau de confiance γ = 1 − α pour le coefficient β j est
donné par la formule β̂ j ± z1−α/2 σ̂(β̂ j ) parce que la loi de (β̂ j − β j )/σ̂(β̂ j ) est approchée
par la loi normale standard réduite. Donc les intervalles de confiance pour les rapports des
cotes (4), (5) et (7) sont
(2) (1)
exp{(x j − x j )(β̂ j ± z1−α/2 σ̂(β̂ j ))},

exp{β̂ ji ± z1−α/2 σ̂(β̂ ji )}


et
(2) (1)
exp{(x1 − x1 )(β̂1 + β̂3 x2 ±
q
z1−α/2 ˆ (β̂1 , β̂3 ) + x2 σ̂2 (β̂3 )},
σ̂2 (β̂1 ) + 2x2 Cov 2
respectivement.

280
Chapitre 6

ELEMENTS D’ANALYSE DES


DONNEES CENSUREES ET
TRONQUEES.

6.1 Distribution de survie.

Dans ce chapitre nous allons étudier les notions principales et les modèles de base de
l’analyse de survie et de la fiabilité et seulement quelques nouveaux modèles proposés
et étudiés par Bagdonaviçius et Nikulin en 1994-2000. Les modèles plus générals et plus
récents et leurs analyses statistiques on peut trouver, par exemple, dans Bagdonaviçius &
Nikulin (1994, 1995, 1996, 1997,1998,1999, 2000), Droesbeke & Fichet et Tassi (1989),
Bagdonaviçius, Gerville-Réache, Nikoulina & Nikulin (2000), Charlambidis, Koutras and
Balakrishnan (2000), Meeker and Escobar (1998), Limnios and Nikulin (2000), Ionescu
and Limnios (1999) etc.
Dans ce paragraphe, nous allons définir les fonctions permettant de décrire une distri-
bution de survie et présenter quelques modèles paramétriques.
Admettons qu’à la date t = 0 un élément (un sujet ou un système) commence à fonc-
tionner (à vivre) et qu’à la date t il se produise une panne (la mort, le décès).
La variable durée de vie X, délai entre la date d’origine et la date du décès (panne) est
une variable aléatoire non négative, X ∈ [0, ∞[.
Soit
F(t) = P{X ≤ t}, t ∈ R1+ . (1)

Nous ne considérons ici que le cas où X est continue, c’est-à-dire que la probabilité de
décès (de panne) à chaque instant est infiniment petite.
Dans ce cas la fonction de répartition F(t) de la variable X est donnée par l’intégrale

Zt
F(t) = f (x) dx,
0

281
où f (t) est la densité de probabilité de X

P{t ≤ X ≤ t + h}
f (t) = F 0 (t) = lim , h > 0. (2)
h→0 h
Donc, F(t) est la probabilité de décéder entre 0 et t, ou la probabilité de défaillance (de
panne) au cours de l’intervalle [0,t].
Définition 1. La fonction

S(t) = F̄(t) = 1 − F(t), t ≥ 0,

s’appelle la fonction de survie ou la fonction de fiabilité (fonction de séjour).

On remarque que S(t) = F̄(t) est la probabilité de bon fonctionnement continu durant
[0,t] :
S(t) = F̄(t) = P{X > t} = P{X ≥ t}, t ∈ R1+ , (3)
ou la probabilité du fonctionnement sans défaillance de l’élément au cours du temps t. La
fonction S(t) est monotone décroissante :

S(0) = 1 et S(t) → 0, quand t → ∞.

La plus importante caractéristique numérique de la durée de survie X est le temps moyen de


survie EX. (On suppose que EX existe). Dans ce cas
Z ∞ Z ∞
EX = tdF(t) = − td[1 − F(t)] =
0 0
Z ∞ Z ∞
− lim t[1 − F(t)] + [1 − F(t)]dt = S(t)dt,
t→∞ 0 0
i.e., si EX existe, alors Z ∞
EX = S(t)dt. (4)
0
De même, on peut montrer que, si VarX existe, alors
Z ∞
VarX = 2 tS(t)dt − (EX)2 . (5)
0

En pratique pour estimer EX on utilise la formule :


Z ∞ k Z (ti +ti+1 )/2 k
ti+1 − ti−1
EX = S(t)dt ≈ ∑ S(t)dt ≈ ∑ Ŝ(ti ) , (6)
0 i=1 (ti−1 +ti )/2 i=1 2

où 0 = t0 < t1 < ... < tk , et Ŝ(ti ) est un estimateur statistique de S(ti ). Considérons un
exemple dans lequel nous soumettons à l’essai ni éléments identiques dans les même condi-
tions au cours du temps ti . Si à l’instant ti , où les essais se terminent, νi éléments fonc-
tionnent encore, alors la statistique νi /ni peut-être considérée comme un estimateur de S(ti ),
puisque d’après la loi de grands nombres
νi
P{ → S(ti ), ni → ∞} = 1.
ni

282
Dans ce cas
νi
S(ti ) ≈ = Ŝ(ti )
ni
et donc
1 k νi
EX ≈ ∑ ni (ti+1 − ti−1).
2 i=1
(7)

Souvent, s’il n’y a pas de censure, pour estimer EX on utilise aussi la moyenne arithmétique
n n
1 1
X̄n =
n ∑ Xj = n ∑ X( j),
j=1 j=1

où X(1) ≤ X(2) ≤ ... ≤ X(n) sont les statistiques d’ordre, associées avec les durées de survies
X1 , X2 , ..., Xn .
Remarque 1. Soit Fn (t) la fonction empirique,

EFn (t) = F(t).

Dans ce cas Sn (t) = 1 − Fn (t) est l’estimateur empirique de la fonction de survie S(t),
1
ESn (t) = S(t), Var Sn (t) = Var Fn (t) = F(t)S(t).
n
Puisque
Var Sn (t) F(t)
Var {ln Sn (t)} ≈ = ,
S (t)
2 nS(t)
nous pouvons dire que l’estimateur Sn (t) n’est pas fiable quand S(t) est trop petite.
D’autres caractéristiques empiriques qui donnent des informations intéressantes sur la loi
F sont :
la fonction empirique
1 n
Fn (x) = ∑ 1]−∞,x] (X j ),
n j=1
la variance empirique
1 n
s2n = ∑ (Xi − X̄n)2,
n i=1
la moyenne harmonique
n
X̄nH = ,
∑nj=1 X1j
la moyenne géométrique √
X̄nG = n
X1 X2 ...Xn ,
l’étendu
R = X(n) − X(1) ,
le coefficient de variation
sn
v= .
X̄n
Définition 2. Soient X et Y deux durées de survie,

S(t) = P{X > t}, H(t) = P{Y > t}, t ∈ R1+ .

283
Nous disons que X est stochastiquement plus grande que Y et notons X º Y si

S(t) ≥ H(t) pour tout t ∈ R1+ . (8)

Le fait que X est stochastiquement plus grande que Y nous pouvons exprimer aussi en disant
que Y est stochastiquement plus petite que X et en notant Y ¹ X. Il est claire que si Y ¹ X,
alors
FY (t) = P{Y ≤ t} ≥ FX (t) = P{X ≤ t}, t ∈ R1+ , (9)
i.e.,
S(t) ≤ H(t) pour tout t ∈ R1+ .
Théorème 1. Si X º Y , alors
EX ≥ EY.
En effet, puisque S(t) ≥ H(t) on a
Z ∞ Z ∞
EX = S(t)dt ≥ H(t)dt = EY.
0 0

6.2 Risque de panne ou taux de défaillance.

Considérons tout d’abord le problème suivant : supposons que l’élément ait fonctionné
sans défaillance jusqu’à l’intant u, u > 0. Quelle est la probabilité pour qu’il ne tombe pas
en panne dans l’intervalle ]u, u + t], t > 0 ? Donc, on s’intéresse à la probabilité

Su (t) = P{X > u + t|X > u}, u > 0, t > 0.

La probabilité cherchée est alors la probabilité conditionnelle et on a

P{X > u + t} S(u + t)


P{X > u + t|X > u} = = = Su (t). (6.1)
P{X > u} S(u)

De (1) on tire immédiatement que pour tout 4t > 0

S(t + 4t) = P{X > t + 4t} = S(t)4t pt , (6.2)


4t pt = P{X > t + 4t|X > t}.
C’est une notation utilisée en démographie. De (1) et (2) il suit que la probabilité de panne
(de décès) au cours de (t,t + 4t], sachant que X > t est

S(t) − S(t + 4t)


4t qt = P{t < X ≤ t + 4t|X > t} = 1 − 4t pt = . (6.3)
S(t)

Définition 1. On appelle risque instantané de décès ou taux de défaillance ou risque de


panne la fonction
f (t) f (t)
α(t) = = , t ≥ 0. (6.4)
F̄(t) S(t)

284
De la définition 1 il suit que

P{t < X ≤ t + 4t} P{t < X ≤ t + 4t}


α(t) = lim = lim =
4t→0 4tS(t) 4t→0 4tP{X > t}

P{t < X ≤ t + 4t|X > t}


= lim = (6.5)
4t→0 4t
1 S(t) − S(t + 4t) S0 (t)
= lim =− . (6.6)
S(t) 4t→0 4t S(t)
Remarque 1. Des formules (2) et (6) on tire que

1 S(t) − S(t + 4t)


α(t) = lim =
S(t) 4t→0 4t

1 S(t + 4t) − S(t) 4t pt − 1 1


=− lim = − lim = lim 4t qt . (6.7)
S(t) 4t→0 4t 4t→0 4t 4t→0 4t

De cette remarque on tire aussi que

4t qt = P{t < X ≤ t + 4t|X > t} ≈ α(t)4t, 4t → 0, (6.8)

tandis que
P{t < X ≤ t + 4t} = f (t)4t + o(4t), 4t → 0.
Donc α(t)4t est approximativement égale (pour de petites valeurs de 4t ) à la probabilité
de tomber en panne au cours de (t,t + 4t] à condition que l’élément ait fonctionné sans
défaillance jusqu’à la date t. On voit que α(t) est une caractéristique locale de fiabilité dé-
terminant la fiabilité de l’élément à chaque instant de temps, d’où le nom de taux instantané
de défaillance. Puisque
f (t)dt = S(t)α(t)dt
il est clair que
α(t) ≈ f (t)
pour les petites valeurs de t.

Remarque 2. De (6) il suit que

d ln S(t)
α(t) = − , S(0) = 1,
dt
d’où on tire que
Zt
ln S(t) = − α(s) ds, t > 0,
0

et donc  
 Zt 
S(t) = exp − α(s) ds . (6.9)
 
0

285
On voit que le taux de défaillance détermine la distribution F(t) = 1 − F̄(t) = 1 − S(t).
Définition 2. On définit A(t), fonction de risque cumulée de α(s) entre 0 et t :

Zt
A(t) = α(s) ds, t ≥ 0. (6.10)
0

La fonction A(t) est aussi appelée fonction du hasard ou simplement hasard.


De (9) il suit que
A(t) = −ln S(t), t ≥ 0, (6.11)
et de (4) on tire que
f (t) = α(t)S(t) = α(t)exp {−A(t)} , (6.12)
puisque
S(t) = exp {−A(t)} , t ≥ 0. (6.13)
On peut définir la distribution de probabilité de la durée de survie X à partir de l’une quel-
conque des fonctions : f (t), α(t), S(t), A(t).
La fonction de risque fournit la description la plus concrète d’une distribution de survie.
Remarque 3. La fonction de survie conditionnelle Su (t) = S(u + t)/S(u) s’exprime facile-
ment en termes de la fonction de défaillance α(t). En effet, pour tout u > 0 on a

Su (t) = P{X > u + t | X > u} =


Z u+t
exp{−A(u + t)}
= exp{− α(x)dx}, t ∈ R1+ . (14)
exp{−A(u)} u
En faisant le changement des variables v = x − u, on en tire que
Z t
Su (t) = exp{− α(v + u)dv}, (s,t) ∈ R1+ × R1+ . (15)
0

De (14) il suit que


Z u+t
P{u < X ≤ t + u|X > u} = 1 − exp{− α(x)dx}.
u

Remarque 4. La fonction α(t) peut-être déterminée d’après les résultats des essais. Si
N = N(0) éléments sont soumis aux essais au moment t = 0 et N(t) désigne le nombre
d’éléments qui fonctionnent encore au moment t, t > 0, alors (N → ∞)

S(t) − S(t + 4t) N(t) − N(t + 4t) 4N(t)


α(t) = lim ≈ = = α̂N (t), (16)
4t→0 4t S(t) 4t N(t) 4t N(t)

α̂N (t) est le taux de défaillance empirique.


En pratique cela signifie que si on partage l’intervalle [0,t] en segments

[0,t1 [, [t1 ,t2 [, ..., [tk−1 ,tk [, ...

de longueur h = 4t, et µk désigne le nombre de pannes au cours de [tk−1 ,tk [, où

tk−1 = (k − 1)h, tk = kh, [(k − 1)h, kh[⊂ [0,t],

286
i.e.,

µk = N(tk−1 ) − N(tk ) = N((k − 1)h) − N(kh) = [N − N(kh)] − [N − N((k − 1)h)],

dans ce cas le taux de défaillance empirique α̂N (t) est doné par la formule :
µk µk
α̂N (t) = = , (k − 1)h ≤ t ≤ kh. (17)
(N − µ1 − µ2 − · · · − µk−1 )h hN(tk−1 )

Remarque 5. Soit X la durée de vie avec la fonction de répartition F(t) et la densité fX (t) =
F 0 (t). Considérons la transformation Y = σX + µ, σ > 0. Dans ce cas
µ ¶ µ ¶
t −µ 1 t −µ
P{Y ≤ t} = F et fY (t) = fX ,
σ σ σ

puisque
y−µ dy
y = σx + µ ⇐⇒ x = , dx = ,
σ σ
d’où on tire que ¡ t−µ ¢
1 µ ¶
fY (t) σ fX σ 1 t −µ
αY (t) = ¡ t−µ ¢ = ¡ ¢ = αX .
S σ S t−µ
σ
σ σ
Remarque 6. Dans le cas où X est une variable aléatoire discrète,

P{X = k} = pk , k ∈ N = {1, 2, ...}

les fonctions de répartition F(k), de survie S(k) et de risque de défaillance α(k) de X sont
données par les formules suivantes :

F(k) = P{X ≤ k} = ∑ pm, (18)


m≤k


S(k) = P{X > k} = P{X ≥ k + 1} = ∑ pm , (19)
m=k+1

α(k) = P{X = k | X > k − 1} = P{X = k | X ≥ k} =


pk pk
∞ = (20)
∑m=k pm S(k − 1)
pour tout k ∈ N (on pose ici, que S(0) = 1).
Comme
S(k − 1) − pk S(k)
1 − α(k) = =
S(k − 1) S(k − 1)
on en tire que
∞ k
S(k) = [1 − α(k)]S(k − 1) = ∑ pm = ∏ [1 − α(m)], k ∈ N,
m=k+1 m=1

puisque
k−1
pk = α(k)S(k − 1) = α(k) ∏ [1 − α(m)], k ∈ N,
m=1

287
en posant p1 = α(1).
Enfin on remarque que
∞ ∞ j ∞ ∞
EX = ∑ jp j = ∑∑ pk = ∑ ∑ pj =
j=1 j=1 k=1 k=1 j=k

∞ ∞ ∞
∑ P{X ≥ k} = ∑ P{X > k − 1} = ∑ S(k − 1). (21)
k=1 k=1 k=1
Exemple 1. Soit X est uniforme sur X = {1, ..., N},

1
pk = P{X = k} = , k ∈ X.
N
Dans ce cas
k
k
F(k) = P{X ≤ k} = ∑ pm = N , k ∈ X,
m=1
k N −k
S(k) = P{X > k} = P{X ≥ k + 1} = 1 − = ,
n N
pk 1
α(k) = = , k ∈ X.
S(k − 1) N − k + 1
On remarque que
1
= p1 = α(1) < α(2) < ... < α(N) = 1.
N
Exemple 2. Soit X suit la loi géométrique de paramètre p, p ∈]0, 1[. Dans ce cas

pm = P{X = m} = pqm−1 , m ∈ N,
k
F(k) = P{X ≤ k} = p ∑ qm−1 = 1 − qk ,
m=1

S(k) = P{X > k} = p ∑ qm−1 = qk
m=k+1

pk pqk−1
α(k) = = k−1 = p, k ∈ N,
S(k − 1) q
d’où on tire que α(k) = const.
Il est facile de démontrer que α(k) = const si et seulement si la variable aléatoire discrète
X suit une loi géométrique.

288
6.3 Modèles paramétriques de survie.

Modèle exponentiel. Le modèle de base est celui pour lequel la fonction de risque d’une
variable aléatoire continue X est constante :

α(t) = λ = const, λ > 0, t ∈ R1+ .

Dans ce modèle λ(t) est constante au cours du temps. On l’appelle modèle exponentiel de
paramètre λ parce que la fonction de survie est exponentielle :
 
 Zt 
S(t) = S(t; λ) = exp − α(s) ds = exp {−λt} = e−λt , (1)
 
0

donc
F(t) = F(t; λ) = P{X ≤ t} = 1 − S(t) = 1 − e−λt , t ≥ 0. (2)
Ce modèle ne dépend que du paramétre λ et on a
1 1
EX = et Var X = . (3)
λ λ2
Définition 1. On dit que la variable de durée de survie X vérifie la proprièté d’indépendance
temporelle (lack-of-memory) si et seulement si

α(t) = λ, t > 0, (4)

où λ = const, λ > 0.
Théorème 1. Il y a indépendance temporelle si et seulement si la loi de la durée de survie
X est exponentielle.
Remarque 1. La loi exponentielle est donc la seule loi continue à taux de défaillance
constant.
Théorème 2. Il y a indépendance temporelle si et seulement si l’une des conditions sui-
vantes est vérifiée :
1. les fonctions de survie conditionnelles {Su (t), u > 0, } sont exponentielles de même
paramètre λ (λ > 0) :

S(u + t)
Su (t) = = e−λt , t ∈ R1+
S(u)

pour tout u ∈ R1+ ;


2. S(u + t) = S(t)S(u) pour tout t, u ∈ R1+ .
Remarque 2. La loi exponentielle est donc la seule loi continue possédant la propriété :

Su (t) = P{X > t + u|X > u} = P{X > t}, t ≥ 0, u > 0. (5)

De cette relation il suit que pour tout u ∈ R1+


Z ∞
E{X | X > u} = u + ue−λu du = u + EX. (6)
0

289
De l’autre côté on voit
Z t Z t −λu
P{t ≥ X ≥ u} e − e−λt 1 te−λt
E{X | X ≤ t} = du = du = − . (7)
0 P{t ≥ X} 0 1 − e−λt λ 1 − e−λt
Remarque 3. Si h est petit (h → 0), alors

P{X ≤ h} = λh + o(h).

L’interprétation de ce résultat est la suivant. Admettons qu’à la date t, t > 0, l’élément


fonctionne. Alors la probabilité de panne dans ]t,t + h] vaut

λh + o(h),

pour des petites valeurs de h, h > 0.


Modèle de Weibull.
Soit
³ α
´
F(t) = F(t; α, λ) = P{X ≤ t} = 1 − e−λt 1]0,∞[ (t), λ > 0, α > 0, t ∈ R1 , (8)

i.e., X suit une loi de Weibull W (α, λ) de paramèters α et λ. Dans ce modèle


α
S(t) = S(t; α, λ) = e−λt 1]0,∞[ (t), (9)
α
f (t) = f (t; α, λ) = αλt α−1 e−λt 1]0,∞[ (t). (10)
On peut montrer que µ ¶
−k/α k
EX = λ
k
Γ +1 ,
α
et par conséquent
¶ µ ¶ µ
11 2 1
EX = 1/α Γ +1 , EX = 2/α Γ
2
+1
λ α λ α
et donc µ
¶ µ ¶
1 2 1 2 1
Var X = 2/α Γ + 1 − 2/α Γ +1 .
λ α λ α
On remarque que le coefficient de variation de X est
√ s ¡ ¢ µ ¶
Var X Γ 1 + α2 π 1
v= = ¡ ¢ −1 = √ +O , α → ∞,
EX Γ 1+ α
2 1
α 6 α2

d’où on tire que la distribution de Weibull devient de plus en plus concentrée autour de EX,
quand α devient de plus en plus grand. Il est évident que
f (t)
α(t) = = αλt α−1 . (11)
S(t)

Si α > 1, le risque de panne α(t) croit de façon monotonne, à partir de 0, et on dit qu’il y
a usure. Si α < 1, le risque de panne α(t) décroit de façon monotonne et il n’est pas borné
pour t = 0, dans ce cas on dit qu’il y a rodage. Si α = 1, on obtient une loi exponentielle de

290
paramètre λ.
Remarque 4. Soit X = (X1 , . . . , Xn )T un échantillon tel que

P{Xi ≤ x} = G(x; α, λ)1]0,∞[ (x), α > 0, λ>0 x ∈ R1 , (12)

où G(x; α, λ) une fonction de répartition qui vérifie les conditions :

G(x; α, λ)
lim = 1, G(x; α, λ) = 0, x ≤ 0,
x↓0 λxα

pour tout α et λ fixés.


Soit X(1) = X(n1) = min(X1 , X2 , . . . , Xn ). Alors

L
n1/α X(n1) → W (α, λ), quand n → ∞.

En effet, pour tout x > 0 on a

P{X(n1) > x} = [1 − G(x; α, λ)]n

et · µ ¶¸n
x
P{n 1/α
X(n1) > x} = 1 − G 1/α ; α, λ ,
n
d’où on déduit que si n → ∞, alors
· µ ¶¸
x
ln P{n X(n1) > x} = n ln 1 − G 1/α ; α, λ =
1/α
n
· µ ¶ µ ¶¸
x α 1
= n −λ 1/α +o = −λxα + o(1),
n n
d’où on tire que pour tout x > 0
α
lim P{n1/α X(n1) > x} = e−λx = S(x; α, λ), (13)
n→∞

i.e. asymptotiquement (n → ∞) la statistique X(n1) suit la loi de Weibull W (α, λ) de para-


mètres α et λ.
Remarque 5. Soit X ∼ W (α, λ). Considérons la statistique Z = ln X. On a

P {Z ≤ z} = P {ln X ≤ z} = P {X ≤ ez } == 1 − exp {−(λez )α }


½ · ¸¾ ½ ¾
1 z−µ
= 1 − exp −exp α(z − ln ) = 1 − exp −exp , (14)
λ σ

1 1
µ = ln et σ= > 0.
λ α
Modèle gamma.
On suppose que la densité de X est

λ p p−1 −λt
f (t) = f (t; λ, p) = t e 1]0,∞[ (t), λ > 0, p > 0, t ∈ R1 . (15)
Γ(p)

291
Alors
p p
EX = , Var X = ,
λ λ2
et
f (t) t p−1 e−λt
α(t) = = R∞ . (16)
S(t) p−1 −λx
x e dx
t
On peut montrer que si p > 1, alors α(t) est croissante et

lim α(t) = λ.
t→∞

D’un autre côté, si 0 < p < 1, α(t) est décroissante et

lim α(t) = λ.
t→∞

En effet,
R∞ p−1 −λx
x e dx Z∞ ³ ´ p−1
1 x
= t
= e−λ(x−t) dx, t > 0.
α(t) t p−1 e−λt t
t
Après avoir fait le changement de variable dans l’intégrale :

u = x − t, dx = du, (u > 0),

on obtient que
Z∞ ³
1 u ´ p−1 −λu
= 1+ e du, t > 0.
α(t) t
0
Posons ³ u ´ p−1
gu (t) = 1 + , t > 0,
t
pour tout u > 0.
Comme
dgu (t) u³ u ´ p−2
= −(p − 1) 2 1 + ,
dt t t
on en tire que pour tout u (u > 0)

dgu (t)
> 0, si 0 < p < 1,
dt
dgu (t)
< 0, si p > 1,
dt
dgu (t)
= 0, si p = 1,
dt
d’où on déduit que pour tout u > 0
gu (t) est croissante, si 0 < p < 1,
gu (t) = 1, si p = 1,
gu (t) est décroissante, si p > 1,
et par conséquent on obtient que

292
α(t) est dćroissante, si 0 < p < 1,
α(t) = λ, si p = 1, et donc on a la loi exponentielle de paramètre λ,
α(t) est croissante, si p > 1.
Enfin, on remarque que pour tout p > 0
1 1
lim = et donc lim α(t) = λ.
t→∞ α(t) λ t→∞

Modèle de Rayleigh.
Dans ce modèle la fonction de survie d’une durée de survie X est
½ ¾
ct 2
S(t) = S(t; c) = exp {−A(t)} = exp − 1[0,∞[ (t), c > 0, (17)
2
½ ¾
0 ct 2
f (t) = f (t; c) = −S (t) = ct exp − 1[0,∞[ (t), (18)
2
Zt Zt
ct 2
A(t) = α(u) du = cu du = , t ≥ 0,
2
0 0

et par conséquent α(t) = A0 (t) = ct, et donc dans ce modèle α(t) est une fonction linéaire.
On peut montrer, que r
π 4−π
EX = , Var X = .
2c 2c
Il est claire que le modéle de Rayleigh représente le cas particulier du modéle de Weibull
avec α = 2 et λ = c/2.

Modèle de Pareto.
Dans ce modèle la fonction de survie est
µ ¶α
θ
S(t) = S(t; α, θ) = 1[θ,+∞[ (t), t ∈ R1 , θ > 0, α > 0, (19)
t

1
f (t) = f (t; α, θ) = −S0 (t) = αθα 1 (t), t ∈ R1 , (20)
t α+1 [θ,+∞[
par conséquent
α
α(t) =1 (t). (21)
t [θ,+∞[
Il est évident que α(t) est décroissante. On emploie ce modèle lorqu’on est assuré que la
survie dure au moins jusqu’à un instant θ > 0.

Modèles de Gompertz et de Makeham (taux de défaillance exponentiel).


Soit T est une durée de survie dont le taux de défaillance est

α(t) = αeβt 1[0,∞[ (t), α > 0, β > 0. (22)

293
Dans ce cas la densité de T est
βt −1]/β
f (t) = f (t; α, β) = αeβt e−α[e (23)

et la fonction de survie est


α
S(t) = S(t; α, β) = exp{ (1 − eβt )}. (24)
β
Souvent on dit que T suit une loi de Gompertz ou Makeham-Gompertz. Parfois on considère

α(t) = γ + αeβt , (25)

où γ ≥ 0, et dans ce cas on dit qu’il y a une loi de Makeham où de Makeham-Gompertz.


Récemment Gerville-Réache et Nikulin (2001) ont construit le test de type du chi-deux
pour ce modèle.

Classe de Lehmann et le modèle de Cox à hasard proportionnel.


Soit S(t), t ∈ R1+ , une fonction de survie, considérée comme la fonction de survie de
base. A la base de S(t) on construit soit disant la classe paramétrique de Lehmann

Hθ = {S(t; θ), θ ∈ Θ =]0, ∞[}

de fonctions de survie S(t; θ), en posant

S(t; θ) = Sθ (t), θ ∈ Θ =]0, ∞[= R1+ . (26)

Soit T une durée de survie, dont la fonction de survie appartient à cette classe de Lehmann :

Pθ {T > t} = S(t; θ), t ∈ R1+ .

Il est évident que si θ = 1, alors on obtient la fonction de survie de base S(t) :

P1 {T > t} = S(t; 1) = S(t), t ∈ R1+ .

De (26) il suit que la fonction de défaillance de T est

F(t; θ) = Pθ {T ≤ t} = 1 − S(t; θ) = 1 − Sθ (t), (27)

d’où on tire que la densité de T est

f (t; θ) = θ[1 − F(t)]θ−1 f (t), (28)

oú F(t) = 1 − S(t) et f (t) = F 0 (t). De (26) et (28) on trouve que le taux de défaillance
instantanné de T est
f (t)
α(t; θ) = θ = θα(t), (29)
S(t)
où α(t) = f (t)/S(t) est le taux de défaillance de base, correspondant à θ = 1. Grâce à (29)
ce modèle est connu sous le nom de modéle à hasard proportionnel.
Remarque 6. Il est clair que le modèle exponentiel entre dans une classe d’alternatives
de Lehmann. En effet, en choisissant

S(t) = e−t 1]0,∞[ (t)

294
comme la fonction de survie de base, on obtient le modèle paramétrique exponentiel dont
la fonction de survie est
S(t; θ) = e−θt 1[0,∞[ (t), θ > 0.
Comme le taux de défaillance de base α(t) = 1, on en tire que le taux de défaillence de
modèle exponentiel est α(t; θ) ≡ θ.

Soit Z = (Z1 , ..., Z p )T ∈ R p un vecteur de p variables exogènes ( explicatives), appelé


covariable ou stress, Z ∈ E , où E est l’ensemble des tous les stresses admissibles (pos-
sibles). Soit
r(·) : E → R1+ , r(0 p ) = 1,
par exemple r(Z) = eβ Z , où et β = (β1 , ..., β p )T ∈ R p est le vecteur représentant les effets
T

estimés des variables exogènes Z1 , ..., Z p sur T , alors en introduisant les paramètres

θ = r(Z) = ez β
T
et α(t) = α(t | Z = 0 p ), (30)

où z est une réalisation obsevée de Z, on obtient le modèle (29) dans la forme suivante :

α(t; z) = α(t | Z = z) = α(t)r(z) = α(t)ez β ,


T
(31)

connu, au cas r(Z) = eβ Z , sous le nom de modèle de regression de Cox avec des cova-
T

riables constantes en temps. Dans ce modèle pour tout t ∈ R1+ le logarithme du taux de
hasard
p
ln α(t | Z = z) = ln α(t) + ln r(Z) = ln α(t) + ∑ z j β j
j=1
est donné par une régression linéaire sur des variables explicatives Z1 , ..., Z p .
Souvent Z ne dépend pas de temps, mais en principe le modèle de Cox générale l’admet.
Le modèle (31), comportant un paramètre β ∈ R p et un paramètre fonctionel α(t), est
appelé semiparamétrique.
On remarque que

βk = ln α(t | Z = z), k = 1, ..., p, (32)
∂zk
et donc nous pouvons dire que le paramètre βk fournit une bonne approximation de la
modification du taux de hasard correspondant à une modification d’une unitè de la variable
explicative Zk . En effet, si, par exemple, une seule variable Zk est égale à 1, toutes les autres
étant nulles, on obtient que

α(t | Z1 = ... = Zk−1 = Zk+1 = ... = Z p = 0, Zk = 1) = α(t)eβk ,

i.e.
α(t | Z1 = ... = zk−1 = Zk+1 = ... = Z p = 0, Zk = 1)
e βk = , (33)
α(t)
d’où on tire que
α(t | Z1 = ... = Zk−1 = Zk+1 = ... = Z p = 0, Zk = 1)
βk = ln . (34)
α(t)
C’est intéressant de remarquer que les rapports dans (33) et (34) ne dépendent pas du taux
de défaillance de base α(t). C’est pour cette raison qu’on utilise le vecteur b pour évaluer

295
les effets des variables explicatives (de contrôle) Z1 , ..., Z p sur T .

Modèle simple de la vie accélérées.


Soit S(t), t ≥ 0, une fonction de survie, considérée comme la fonction de survie de base.
En utilisant S(t) nous pouvons construire une classe de Lehmann

{S(t; θ), θ ∈ Θ =]0, ∞[}

de fonction de survie en posant


S(t; θ) = S(θt). (35)
Si T une durée de survie, dont la fonction de survie appartient à la classe

{S(t; θ) = S(θt), θ > 0}, (36)

i.e., pour tout θ > 0


Pθ {T > t} = S(t; θ) = S(θt), (37)
nous disons que l’on a le modèle simple de la vie accélérées.
On remarque que si θ = 1, alors

P1 {T > t} = S(t; 1) = S(t), (38)

i.e., la fonction de survie de base S(t) appartient à la classe (36).


Notons F(t) = 1 − S(t) la fonction de défaillance de base. Supposons qu’il existe la
densité
f (t) = F 0 (t). (39)
Dans ce cas pour tout θ la fonction de défaillance

F(t; θ) = F(θt), t ≥ 0, (40)

a sa densité
f (t; θ) = θ f (θt), t ∈ R1+ , (41)
d’où on tire que le risque instantané de T est
f (t; θ) θ f (θt)
α(t; θ) = = . (42)
S(t; θ) S(θt)
Si T est une durée de survie qui suit la loi de base F(t), alors il est claire que la durée de
survie T /θ suit la loi F(t; θ) = F(θt), puisque
T
Pθ { ≤ t} = Pθ {T ≤ θt} = F(θt) = F(t; θ), (43)
θ
d’où on voit clairement le rôle multiplicatif du paramètre θ (de paramètre d’échelle) dans
le modèle de la vie accélérée : si une durée de survie T suit une loi F(t), considérée comme
la loi de base, alors la loi de T /θ est

F(t; θ) = F(θt) pour chaque θ > 0.

On remarque que de (11) et (29) il suit que les deux modèles


n o
{S(θt), θ ∈ Θ =]0, 1[} et Sθ (t), θ ∈ Θ =]0, 1[

296
coinsident si et seulement si le risque instantané de base est

α(t) = γt β , γ > 0, β > 0,

i.e. si la fonction de survie de base S(t) appartient à une famille de Weibull W (α, λ), donnée
par la formule (11) avec α = 1 + β et λ = γ/(1 + β).
Enfin on remarque qu’ici nous pouvons nous mettre dans la situation du modèle de Cox, en
introduisant le paramètre β et le vecteur covariable Z telles que

θ = r(Z) = eZ β ,
T
z ∈ R p, β ∈ R p,

Z ∈ E , où E est l’ensemble des tous les stresses admissibles (possibles),

r(·) : E → R1+ , r(0 p ) = 1.

Modèle log-logistique.
Soit X une variable aléatoire qui suit la loi logistique standard L(0, 1), dont la densité
est
ex e−x
gX (x) = = , x ∈ R1 . (44)
[1 + ex ]2 (1 + e−x )2
La fonction de répartition de X est
1 ex
G(x) = P{X ≤ x} = = .
1 + e−x 1 + ex
En utilisant X, on construit une durée de survie T telle que
1
ln T = − ln µ + X, (45)
λ
i.e.
1
T = exp{ X − ln µ} (46)
λ
pour tout λ > 0 et µ > 0. Par calcul direct on trouve que la densité de T est

λµ(µt)λ−1
f (t; θ) = 1[0,∞[ (t), (47)
[1 + (µt)λ ]2

où θ = (µ, λ)T , µ > 0, λ > 0. On dit que T suit une loi log-logistique LL(µ, λ) de paramètre
θ = (µ, λ). De (47) on trouve

(µt)λ
F(t; θ) = Pθ {T ≤ t} = , t ∈ R1+
1 + (µt)λ
et donc la fonction de survie de T est
1
Pθ {T > t} = S(t; θ) = , t ∈ R1+ . (48)
1 + (µt)λ
De (47) et (48) on tire que le risque instantanné de T est

λµ(µt)λ−1 λ λ
α(t; θ) = λ
= [1 − S(t; θ)] = F(t; θ). (49)
1 + (µt) t t

297
De (49) il suit que α(t; θ) est décroissante, si 0 < λ < 1, i.e., dans ce cas T appartient à la
classe DFR. Par contre, si λ > 1, alors α(t; θ) a un maximum

λmax = µ(λ − 1)(λ−1)/λ


au point
1
t = (λ − 1)1/λ .
µ
Enfin on remarque que si une durée de survie T suit une loi log-logistique LL(µ, λ), alors
S(t; θ) Pθ {T > t}
ln = ln = −λ lnt − λ ln µ, (50)
F(t; θ) Pθ {T ≤ t}
i.e., le logarithme du rapport de probabilité de survie à la probabilité de défaillance est une
fonction linéaire du logarithme du temps t (ici θ = (λ, µ)T avec λ > o, µ > 0).
Remarque 7. Il est évident que si une fonction de survie S(t; θ) est considérée comme
la fonction de survie de base, on peut construire la classe d’alternative de Lehmann, en
introduisant
zT β
S(t; θ, z) = [S(t; θ)]e , z ∈ R p , β ∈ R p .
Dans ce modèle le taux de défaillance α(t; θ, β) est

α(t; θ, z) = α(t; θ)ez β .


T

Dans cette optique


S(t; θ) = S(t; θ, 0 p ), et α(t; θ) = α(t; θ, 0 p ),
où 0 p = (0, ..., 0)T ∈ R p .

6.4 Modèles nonparamétriques


.

Définition 1 (La classe de Polya d’ordre 2 ( PF2 )). On dit que T ∼ PF2 , si pour tout s ∈ R1+
la fonction
f (t)
gs (t) =
F(t + s) − F(t)
est croissant en t.
Théorème 1. T ∼ PF2 si et seulement si pour tout s ∈ R1+ la fonction
f (t − s)
f (t)
est croissant en t.
On remarque que T ∼ PF2 si et seulement si
f (t + s)
f (t)

298
est décroissante en t, ce qui est équivalent au théorème 1.
Définition 2 (IFR). On dit qu’un élément, dont la durée de survie est T , est vieillissant si
son taux de panne α(t) est croissant ( décroissant), i.e.

α(s) ≤ α(t) 0 < s < t, (s,t) ∈ R1+ × R1+ .

On dit aussi que T a IFR (DFR) et on note T ∼ IFR (T ∼ DFR).


IFR (DFR) vient de Increasing (Decreasing) Failure Rate
Souvent les différents modèles nonparamétriques sont classée suivant que le risque instan-
tané α(t) est croissant ou décroissant. La fonction F(t) = P{T ≤ t} est alors dite distribution
IFR ou DFR respectivement et on note F ∈ IFR, (F ∈ DFR).
De la définition 2 il suit que T ∼ IFR si et seulement si la fonction ln S(t) est concave.
Théorème 2. Soit T ∼ IFR. Alors

S(t) > e−t/ET , 0 < t < ET.

Démostration.
R
Puisque T ∼ IRF, on en tire que la fonction α(t) est croissante. Comme
A(t) = 0t α(s)ds, alors A00 (t) = α0 (t) > 0 et donc la fonction A(t) est convexe, d’où on tire
que
A(ET )
A(t) ≤ t, 0 ≤ t ≤ ET.
ET
Puisque A(ET ) < 1, alors on a

S(t) = e−A(t) > e−t/ET , 0 < t ≤ ET.

Théorème 3. Soit T ∼ DFR. Alors


½
e−t/ET , si t ≤ ET,
S(t) ≤ 1
e·t ET, si t ≥ ET.

Théorème 4. Si T ∼ IFR, alors


ET 2 ≤ 2(ET )2 .
Corollaire 1. Si T ∼ IFR, alors son coefficient de variation

Var T
v= ≤ 1.
ET
Théorème 5. Si T ∼ DFR, alors

ET 2 ≥ 2(ET )2 .

Corollaire 2. Si T ∼ DFR, alors son coefficient de variation



Var T
v= ≥ 1.
ET
Souvent pour classer les modèles on emploie le risque moyen
Z t
1 1
RM(t) = A(t) = α(s)ds.
t t 0

299
Définition 3 (IFRA). Si RM(t) est croissant (décroissant), alors on dit que T a une dis-
tribution à taux de défaillance moyen croissant (décroissant) en temps et on note T ∼
IFRA (DFRA).
IFRA (DFRA) vient de Increasing (Decreasing) Failure Rate Average.
Théorème 7. Soit F(t) = P{T ≤ t} la fonction de répartition de T , S(t) = 1 − F(t) la
fonction de survie de T . Alors T ∼ IFRA si et seulement si pour tout θ ∈]0, 1[ on a

S(θt) ≥ Sθ (t), t ∈ R1+ .

Autrement dit, si pour tout θ ∈]0, 1[ la durée de survie du modèle de la vie accélérée corres-
pondante à ce θ donné est stochastiquement plus grande que la durée de survie correspon-
dante de la classe de Lehmann (au modèle de Cox).
Théorème 8. Si T ∼ IFR, alors T ∼ IFRA, i.e. IFR ⊂ IFRA.
Démonstration. En effet, comme T ∼ IFR, on a
Z t
A(t) = α(s)ds ≤ tα(t), t ∈ R!+ ,
0

puisque le risque instantané α(t) est croissant, d’où on tire que


µ ¶0
A(t) tα(t) − A(t)
= ≥ 0,
t t2

i.e. A(t)/t est croissante en t, donc T ∼ IFRA.

Définition 4 (NBU). On dit que T ∼ NBU ( New Better then Used où Neuf meilleur
Usagé) si pour tout u > 0
Su (t) ≤ S(t), t ∈ R1+ .
Ici Su (t) = 1 − Fu (t) = P{T > u + t | T > u}.
De cette définition on tire que T ∼ NBU si et seulement si

S(u + t) ≤ S(u)S(t) pour tout u,t ∈ R1+ ,

i.e., si et seulement si pour tout u,t ∈ R1+

A(u + t) ≥ A(u) + A(t).

Théorème 9. Si T ∼ IFRA, alors T ∼ NBU, i.e. IFRA ⊂ NBU.


Démonstration. Soit T ∼ IFRA. Dans ce cas
Z t
A(t) 1
= α(s)ds, t ∈ R1+ ,
t t 0

est croissante en t, d’où on tire que pour tout θ ∈]0, 1[ on a

A(θt) ≤ θA(t) et A((1 − θ)t) ≤ (1 − θ)A(t), t ∈ R1+ .

De ces deux inégalités on déduit que pour tout θ ∈]0, 1[

A(θt) + A((1 − θ)t) ≤ A(t), t ∈ R1+ .

300
En posant θt = u et (1 − θ)t = v, on obtient que

A(u) + A(v) ≤ A(u + v), u, v ∈ R1+ ,

et donc T ∼ NBU.
A(t)
On remarque que IFR 6= IFRA, i.e. on peut construire une durée de survie T telle que t
est croissante en t, t ∈ R1+ , mais α(t) n’est pas croissante. En effet, soit

 t, si 0 < t ≤ 1,

α(t) = 2 − t,
√ si 1 < √
t ≤ 2,

2 − 2, si t > 2.

Dans ce cas  t
1
Z
1 t  2, si 0 < t ≤ 1,

A(t) = α(s)ds = 2−√t 1
2− t, si 1 < √
t ≤ 2,
t t 0 
2 − 2, si t > 2.
On voit que
µ ¶0
1
A(t) ≥ 0, t ∈ R1+ ,
t
i.e. T ∼ IFRA, mais la fonction α(t) n’est pas croissante, et donc la distribution de T n’ap-
partient pas à IFR.

La durée de vie moyenne restante.

Soit T une durée de survie,

F(t) = P{T ≤ t}, S(t) = 1 − F(t), t ∈ R1+ .

Pour tout s ≥ 0 nous pouvons considérer la fonction de défaillance conditionnelle

FRs (t) = Fs (t) = P{T ≤ s + t | T > s} = P{T − s ≤ t | T > s} =

P{s < T ≤ s + t} F(s + t) − F(s)


= , t ∈ R1+ . (1)
P{T > s} S(s)
On remarque que Fs (t) = F(t), si s = 0. Comme Fs (t) a toutes les propriétés d’une fonction
de répartition, du théorème de Kolmogorov il suit l’existance d’une variable aléatoire réelle
Rs admettant Fs (t) en qualité de sa fonction de répartition :

Fs (t) = P{Rs ≤ t}, t ∈ R1+ . (2)

Définition 5. La variable aléatoire Rs est appelée la durée de vie restante où résiduelle (the
residual life) de la durée de survie T qui a atteint l’âge s.
Donc, pour tout s fixé, s ∈ R1+ , Rs est la durée de vie restante de T , sachant que T > s, et sa
loi est une loi conditionnelle avec la fonction de survie
F(s + t) − F(s)
SR(s) (t) = Ss (t) = 1 − Fs (t) = 1 − =
S(s)

301
S(s) − [1 − S(s + t)] − [1 − S(s)] S(s + t)
= , t ∈ R1+ . (3)
S(s) S(s)
Donc Ss (t) est la probabilité de survie au cours de la périod ]s, s + t] sachant que le sujet
a été vivant jusqu’à s, s ∈ R1+ . Il faut remarquer ici que de la construction de Ss (t) il suit
que la famille {Ss (t), s ∈ R1+ } de fonctions de survie conditionnelle caractérise la loi de T .
Du théorème 2 il suit que Fs (t) = F(t) si et seulement si X suoit une loi exponentielle (on
suppose que F est continue).
Si T a la densité f (t) = F 0 (t), alors la densité de Rs existe et s’exprime par la formule

f (s + t)
fRs (t) = fs (t) = , t ∈ R1+ . (4)
S(s)

Cette formule s’ensuit immédiatement de (1).


On remarque que si t = 0, alors

f (s)
fs (0) = lim Fs (t) = = α(s), (5)
t→0 S(s)

où α(t) = f (t)/S(t), t ∈ R1+ , est le risque instantané de T . Dans la remarque 3 de §3 on


a montré que la fonction de survie S(t) de T s’exprime en terme du taux de défaillance
instantané α(t) : Z t
S(t) = exp{− α(u)du}, t ∈ R1+ ,
0
d’où on tire que Ss (t) s’exprime aussi en terme de α(t) :
Z s+t Z t
S(s + t)
Ss (t) = = exp{− α(x)dx} = exp{− α(u + s)du}, (6)
S(s) s 0

et donc le risque instantané αRs (t) de Rs est

αRs (t) = α(s + t), t ∈ R1+ , (7)

où α(t) est le risque instantané de T .


Soit T une durée de survie. Pour tout s ∈ R1+ on peut considérer sa vie restante Rs .
Théorème 10. Le risque instantané de défaillance α(t) de durée de survie T est croissant
si et seulement si Ru est stochastiquement plus grande que Rv pour tous u < v, (u, v ∈ R1+ ).
Démostration. De (6) on a
Z s+t
Ss (t) = exp{− α(x)dx}, t ∈ R1+ ,
s

pour tout s ∈ R1+ , d’où on tire que


Ss (t) = [α(s) − α(s + t)]Ss (t). (8)
∂s
Puisque Ss (t) > 0, on tire de (8) que Ss (t) est décroissante (croissante) en s si et seulement
si le risque de défaillance α(t) est croissant (décroissant). Mais si Ss (t) est décroissante en
s, alors
Su (t) ≥ Sv (t) pour tout u < v, (9)

302
ce qui signifie que Ru est stochastiquement plus grande que Rv , u < v. Le théorème est
démontré.
Définition 6. L’espérance mathématique r(s) = ERs , s ∈ R1+ , est appelée la durée moyenne
de la vie restante Rs .
De cette définition on trouve que

r(s) = ERs = E{T − s | T > s} = E{T | T > s} − s, s ∈ R1+ , (10)

et en particulier r(0) = ET .
Théorème 11. La durée moyenne r(s), s ∈ R1+ , de la vie restante Rs caractérise la loi de la
durée de survie T .
Pour démontrer ce théorème il suffit de montrer que r(s) s’exprime en terme de S(s), par
exemple, ce qui n’est pas difficile, puisque de la définition de r(s) il suit que
Z ∞
1
r(s) = S(u)du, s ∈ R1+ , (11)
S(s) s

et réciproquement Z t
r(0) 1
S(t) = exp{− dx}, t ∈ R1+ .
r(t) 0 r(x)
Définition 7 (NBUE). On dit que T ∼ NBUE (New is Better than Used in Expectation) si
pour tout s ∈ R1+
ET ≥ E{T − s | T > s} = ERs .
Théorème 12. Si T ∼ NBU, alors T ∼ NBUE, i.e. NBU ⊂ NBUE.
Démonstration. En effet, pour tout s > 0 on a

Ss (t) ≤ S(t), t ∈ R1+ ,

d’où on tire que Z ∞ Z ∞


Ss (t)dt ≤ S(t)dt,
0 0
i.e.
r(s) = ERs ≤ ET = r(0), s ∈ R1+ ,
donc, T ∼ NBUE.

Définition 8 (DMRL). On dit que T ∼ DMRL (Decreasing Mean Residual Life), si pour
tout 0 ≤ s < t < ∞
E{T − s | T > s} ≥ E{T − t | T > t}.
On dit aussi que T a la durée de vie moyenne restante décroissante.
Théorème 13. Si T ∼ DMRL, alors T ∼ NBUE, i.e. DMRL ⊂ NBUE.
Définition 9 (HNBUE). On dit que T ∼ HNBUE (Harmonic New Better than Used in
Expectation) si Z ∞
1
S(t)dt ≤ e−s/ET pour tout s ∈ R1+ .
ET s
Exemple 2. Soit P{T ≥ t} = S(t), où

 1, 0 ≤ t < 1,
S(t) = 0.25, 1 ≤ t < 3,

0, t ≥ 3.

303
Il est facile de vérifier que T ∼ HNBUE.
Enfin on introduit encore une classe qui est assez naturelle.
Définition 10. (IDMRL) On dit que T ∼ IDMRL (Increasing and Decreasing Mean Resi-
dual Life), si la vie moyenne restante r(s) de T est unimodale i.e., s’il existe s0 > 0 tel que
r(s) est croissante sur [0, s0 [ et décroissante sur [s0 , ∞[.

De façon analogue à l’introduction de la classe DFR on peut introduire les classes sui-
vantes :
DFRA - Decreasing Failure Rate on Average,
NWU - New Worse than Used,
NWUE - New Worse than Used in Expectation,
IMRL - Increasing Mean Residual Life,
HNWUE - Harmonic New Worse than Used in Expectation.

6.5 Types de censure.

1. Censure du type I : temps à censure fixé C.

Définition 1 (Censure à droite). Étant donné un échantillon X = (X1 , ..., Xn )T de durées


de survie Xi et un nombre positif fixé C, on dit qu’il y a censure à droite de cet échantillon ,
si au lieu d’observer X1 , ..., Xn , on observe n statistiques

(T1 , D1 ), ..., (Tn , Dn ),

où ½
1, si Xi ≤ C,
Ti = Xi ∧C = min(Xi ,C), Di = 1{Ti =Xi } = (6.1)
0, si Xi > C.
Il est clair que
Ti = Xi 1{Xi ≤C} +C1{Xi >C} .
Donc, en realité on observe la défaillance (le décès) du sujet i si Xi ≤ C, et la variable
indicatrice Di de l’état aux dernières nouvelles vaut 1 dans ce cas. Dans le cas contraire,
Xi > C et donc l’observation est censurée et l’état aux dernières nouvelles Di du sujet i vaut
0. Lorsqu’on ordonne les valeurs de Ti par ordre croissant, obtenant les statistiques d’ordre

T(1) ≤ T(2) ≤ ... ≤ T(n) ,

on ne perd aucune information.


C’est par exemple ce qui se passe lorsqu’on observe la durée de fonctionnement de n sys-
tèmes complexes au cours d’une expérience de durée C.
On remarque qu’en cas de censure non aléatoire à droite le nombre de décès (de pannes)
et les durées exactes de survie des sujets décédés sont aléatoires. La période maximale de
l’observation C est fixée. Soit f (xi ; θ) la densité de Xi ,

Xi ∼ f (xi ; θ), θ ∈ Θ, xi ≥ 0,

304
et
S(xi ; θ) = 1 − F(xi ; θ) = Pθ {Xi > xi }
sa fonction de survie, Xi est un élément de l’échantillon X. Dans ce cas la densité de la
statistique (Ti , Di ) est donnée par la formule

g(ti , di ; θ) = [ f (ti ; θ)]di [S(ti ; θ)]1−di , ti > 0; di ∈ {0, 1},

par rapport à la mesure dλ×dµ, où λ est la mesure de Lebesgues sur [0, ∞[, et µ la mesure de
comptage sur {0, 1}. Parce que la statistique Di , représente la partie discrète de la statistique
(Ti , Di ), on a
Pθ {Ti , Di = 0} = Pθ {C ≤, Xi > C} = S(C; θ),
½ Z ti
S(C; θ) si C ≤ ti ,
= = S(C; θ)1v>C dv,
0 sinon, 0
et donc
g(ti , 0; θ) = S(C; θ)1ti >C .
De l’autre côté on a

Pθ {Ti ≤ ti , Di = 1} = Pθ {Xi ≤ ti , Xi ≤ C}
½ Z ti
S(C; θ) si ti ≤ C,
= = f (v; θ)1v≤C dv,
0 sinon, 0
et donc
g(ti , 1; θ) = f (ti ; θ)1ti ≤C .
Donc la fonction de vraisemblance, correspondant aux observations (T1 , D1 ), ..., (Tn , Dn ),
est
n
L(θ) = ∏[ f (Ti ; θ)]Di [S(C; θ)]1−Di . (6.2)
i=1
On remarque que cette distribution est continue par rapport à Ti , et discrète par rapport à
Di .
Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon,

Xi ∼ f (xi ; θ) = θe−θxi , xi > 0, θ ∈ Θ =]0, +∞[,

i.e., la durée de survie du sujet i suit une loi exponentielle de paramètre θ. On remarque que
dans ce modèle
1 1
EXi = et VarXi = 2 .
θ θ
Supposons que la durée C de l’étude est fixée à l’avance.

- t
0 T(1) T(2) T(R) C

Soient T = (T1 , ..., Tn )T , où Ti = min (Xi ,C), et T(·) = (T(1) , ..., T(R) ,C, ...,C)T le vecteur
des statistiques d’ordre associé à T,

0 < T(1) < T(2) < ... < T(R) < C.

305
La statistique
R = D1 + D2 + · · · + Dn = D(1) + D(2) + ... + D(n) ,
nous indique le nombre de décès observés, R ∈ {0, 1, ..., n}. Ici D(i) dénote la statistique Di
associée à T(i) . De (2) il suit que la fonction de vraisemblance L(θ), correspondante à la
statistique T(·) , est donnée par la formule
( )
n ³ ´Di ³ ´1−Di n
L(θ) = ∏ θe−θTi e−θTi = θR exp −θ ∑ Ti , (6.3)
i=1 i=1

donc la statistique exhaustive est bidimensionnelle,


à ! à !
n n n n
(R, T ) = ∑ Di, ∑ Ti = ∑ D(i), ∑ T(i) , (6.4)
i=1 i=1 i=1 i=1


T = T1 + T2 + · · · + Tn = T(1) + T(2) + · · · + T(n) .
On note encore une fois que la loi marginale de R est discrète, ici elle est binomiale B(n, p),

p = p(θ) = S(C; θ) = Pθ {X1 > C} = e−Cθ , (6.5)

et la loi marginale de T est continue.


Puisque
n R
T = ∑ Ti = ∑ T(i) + (n − R)C, (6.6)
i=1 i=1

on en tire que la statistique à !


R
R, ∑ T(i) + (n − R)C (6.7)
i=1

est elle aussi exhaustive.


Pour estimer θ nous pouvons utiliser la méthode du maximum de vraisemblance. De (3)
et (5), de même que de (7), on déduit que
" #
R
ln L(θ) = R ln θ − θ ∑ T(i) + (n − R)C , (6.8)
i=1

d’où " #
∂ R R
Λ(θ) =
∂θ
ln L(θ) = −
θ ∑ T(i) + (n − R)C , (6.9)
i=1

et l’estimateur de maximum de vraisemblance θ̂n du paramètre θ, qui vérifie l’équation


Λ(θ) = 0, est
n
∑ Di
R i=1
θ̂n = R
= n . (6.10)
∑ T(i) + (n − R)C ∑ Ti
i=1 i=1

306
On remarque que si R > 10 et n assez grand pour que R/n < 0.1, alors on peut estimer en
s’appuyant sur la loi des grands nombres que
R
1 R C
∑ T(i) = R · ∑
R i=1
T(i) ≈ R · .
2
i=1

On déduit alors de (10) que


R
θ̂n ≈ £ ¤ .
n − R2 C
Remarque 1. On dit que la statistique
n R
T = ∑ Ti = ∑ T(i) + (n − R)C
i=1 i=1

est le temps global de survie (de fonctionnement) des sujets (des éléments) au cours des
essais.
Remarque 2. Calculons M(θ) = Eθ Ti et D(θ) = Var θ Ti . On a

ZC
M(θ) = Eθ Ti = tθe−θt dt +CP{Xi > C} =
0

1h i 1³ ´
= 1 − e−θC − θCe−θC +Ce−θC = 1 − e−θC .
θ θ
D(θ) = Var θ Ti = ETi2 − (ETi )2 =
2 h −θC −θC
i 1 ³
−θC −2θC
´
= 2 1−e − θCe − 2 1 − 2e +e =
θ θ
1 h i
= 2 1 − 2θCe−θC − e−2θC .
θ
Supposons θC ¿ 1, c’est-à-dire que les éléments sont relativement sûrs. En décomposant
l’exponentielle en série, on obtient

(θC)2 (θC)3
e−θC ≈ 1 − θC + − ,
2 6
4
e−2θC ≈ 1 − 2θC + 2(θC)2 − (θC)3 ,
3
d’où, puisque θC ¿ 1,
· ¸
θC2 θ2C3 θC (θC)2
M(θ) = Eθ Ti ≈ C − + =C 1− + ,
2 6 2 6
· ¸
1 2 4 3 2 3 (θC)4
D(θ) = Var θ Ti ≈ 2 2θC − 2(θC) + (θC) − 2θC + 2(θC) − (θC) + =
θ 3 3
θC3 θC3
= [1 − θC] ≈ .
3 3

307
Si on utilise le théorème limite central, on trouve que si n → ∞, alors le temps global de
fonctionnement
n R
T = ∑ Ti = ∑ T(i) + (n − R)C
i=1 i=1
est asymptotiquement normal de paramètres nM(θ) et nD(θ) :
( )
T − nM(θ)
lim P p ≤ x = Φ(x),
n→∞ nD(θ)
d’où on tire que pour les grandes valeurs de n la variable aléatoire
 h i 2
(θC)2
 T − nC 1 − θC 2 + 6

q
 
n θC3
3

est distribuée approximativement comme χ21 , autrement dit pour de grands n on peut ad-
mettre que
" #2
T − nM(θ)
p = χ21 .
nD(θ)
On peut utiliser ce résultat pour estimer θ par intervalle.

2. Censure de type II : jusqu’au r-ième "décès".

Si au lieu de décider à l’avance de la durée C de l’étude on décide d’attendre que parmi


les n sujets initiaux ou les systèmes de l’étude, r soient morts ou en panne, on a affaire
à une censure de type II. En pratique on applique ce type de censure quand la durée de
vie moyenne avant la première panne du système est trop élevée par rapport à la durée de
l’étude et on ne fixe pas la durée de l’expérience, mais le nombre r de pannes que l’on
veut observer. Il est évident que dans cette situation le moment d’arrêt de l’expérience, le
moment T du décès de r-ième sujet, c’est-à-dire la durée de l’expérience est aléatoire. On
rappelle que dans le cas de la censure du type I la durée C de l’étude est fixée à l’avance,
mais le nombre de décès observés R est aléatoire.
Définition 2. (Censure du type II). Étant donné un échantillon
X = (X1 , ..., Xn )T de durées de survie Xi et un nombre entier positif r, on dit qu’il y a censure
de type II, si au lieu d’observer X1 , ..., Xn on observe n statistiques
(T1 , D1 ), . . . , (Tn , Dn ),

Ti = Xi ∧ X(r) , Di = 1{Ti =Xi } , (6.11)
X(r) est la r-ième statistique d’ordre, i.e. X(r) est la r-ième composante du vecteur des
statistiques d’ordre X (·) = (X(1) , ..., X(n) )T associé à l’échantillon X,
0 < X(1) < X(2) < ... < X(r) < ... < X(n) . (6.12)
C’est-à-dire que dans la situation considérée la date de censure est X(r) et les observations
sont :
T(i) = X(i) , i = 1, 2, ..., r,
T(i) = X(r) , i = r, r + 1, ..., n.

308
Si
Xi ∼ f (xi ; θ) et S(xi ; θ) = Pθ {Xi > xi }, xi > 0, θ ∈ Θ,
alors la fonction de vraisemblance associée aux statistiques
(T1 , D1 ), (T2 , D2 ), . . . , (Tn , Dn )
est
n
n!
L(θ) = ∏
(n − r)! i=1
f (T(i) ; θ)D(i) S(T(i) ; θ)1−D(i) =

r
n!
(n − r)! ∏
= f (X(i) ; θ)S(X(r) ; θ)n−r , (6.13)
i=1
n
puisque ∑ Di = r, où r est donné.
i=1
Exemple 2. Soit
Xi ∼ f (xi ; θ) = θe−θxi , xi > 0, θ ∈ Θ =]0, +∞[,
i.e. Xi suit une loi exponentielle de paramètre θ, θ > 0. Dans ce cas la fonction de vraisem-
blance, associée aux données censurées (censure du type II) est
à !
n! r ³ ´n−r
(n − r)! ∏
−θX(i) −θX(r)
L(θ) = θe e =
i=1
r
n!
= θr exp {−θ ∑ X(i) } exp {−θX(r) (n − r)} =
(n − r)! i=1
( " #)
r
n!
= θr exp −θ ∑ X(i) + (n − r)X(r) =
(n − r)! i=1
( " #)
r
n!
= θr exp −θ ∑ T(i) + (n − r)T(r) .
(n − r)! i=1
On voit que dans ce cas la statistique scalaire
r n n
T = ∑ T(i) + (n − r)T(r) = ∑ T(i) = ∑ Ti
i=1 i=1 i=1

est exhaustive. Elle représente le temps global de survie (de fonctionnement). Il est évident
que l’estimateur de maximum de vraisemblance θ̂n est
n
∑ Di
r
θ̂n = i=1
n = r .
∑ Ti ∑ T(i) + (n − r)T(r)
i=1 i=1

On peut démontrer que


Z Z
( " #)
r
n!
P{T ≤ x} =
(n − r)!
θr ... exp −θ ∑ ti + (n − r)tr dt1 · · · dtr =
i=1
0<t1 <···<tr
r
∑ ti +(n−r)tr ≤x
i=1

309
= P{χ22r ≤ 2θx},
i.e.
χ22r
T= .

En effet,
Z Z
( " #)
r
n!
P{T ≤ x} =
(n − r)!
θr ... exp −θ ∑ ti + (n − r)tr dt1 · · · dtr =
i=1
0<t1 <···<tr
r
∑ ti +(n−r)tr ≤x
i=1

Z Z
( " #)
r−1
n!
=
(n − r)!
θr ... exp −θ ∑ ti + (n − r + 1)tr dt1 · · · dtr .
i=1
0<t1 <···<tr
r−1
∑ ti +(n−r+1)tr ≤x
i=1

Après avoir fait le changement des variables :


r−1
t1 = u1 , t2 = u1 + u2 , . . . ,tr−1 = u1 + . . . + ur−1 , ∑ ti + (n − r + 1)tr = u,
i=1

où ui > 0 et u ≤ x, on a
Z Z
n! 1
P{T ≤ x} = θr ... e−θu du1 · · · dur−1 du ,
(n − r)! n−r+1
u1 >0,...,ur−1 >0
r−1
∑ (n−r+1)ui <u≤x
i=1

puisque ° °
° D(t1 , . . . ,tr ) ° 1
det ° °
° D(u1 , . . . , ur−1 , u) ° = n − r + 1 .
En faisant un nouveau changement des variables :

(n − i + 1)ui = vi , i = 1, . . . , r − 1, u = v,

on trouve que
Z Z r+1
n! 1
P{T ≤ x} =
(n − r + 1)!
θr ... ∏ n − i + 1 e−θv dv1 · · · dvr−1dv =
i=1
v1 >0,...,vr−1 >0
r−1
∑ vi <v≤x
i=1

Zx Z Z
−θv
=θ r
e dv ... dv1 · · · dvr−1 =
0 v1 >0,...,vr−1 >0
r−1
∑ vi <v
i=1

310
Zx Z θx
1
=θr
vr−1 e−θv dv = yr−1 e−y dy = P{γr ≤ θx} = P{χ22r ≤ 2θx}.
Γ(r) 0
0

De ce résultat il suit que


Z∞
2rθ 1 1 2r r
Eθ̂n = E 2 = 2rθ ¡ 2r ¢x 2 −1 e−x/2 dx = θ,
χ2r x2 Γ 2
r r−1
0

et donc
r−1
θ∗n = r
∑ T(i) + (n − r)T(r)
i=1

est ici le meilleur estimateur sans biais (MVUE) pour θ. On note que

θ2
Varθ∗n = , r > 2.
r−2
Enfin, on remarque qu’en l’absence de censure, l’estimateur de maximum de vraisemblance
θ̂n , obtenu avec toutes les données X1 , ..., Xn , est

n 1
θ̂n = n = .
X̄n
∑ Xi
i=1

Exercice. Soit X = (X1 , . . . , Xn )T un échantillon, Xi suit une loi exponentielle de paramètre


θ. Notons
Zi = (n − i + 1)(X(i) − X(i−1) ), (i = 1, 2, ..., n; X(0) = 0),
ωi = (Z1 + ... + Zi )/(Z1 + ... + Zi+1 ), (i = 1, 2, ..., n − 1),
ωn = Z1 + ... + Zn , Vi = ωii (i = 1, 2, ..., n − 1).
Montrer que
a) les variables aléatoires ω1 , ..., ωn sont indépendantes ;
b) Vi ∼ U (0, 1).
Supposons qu’on ait une censure du type II avec r = 6, et que les 6 premiers moments de
défaillance de n = 100 téléviseurs sont :

60, 140, 240, 340, 400, 450 (jours).

c) Vérifier l’hypothèse que la durée de survie des téléviseurs suit une loi exponentielle
de paramètre θ. Utiliser les résultats de a), b) et le critère de Kolmogorov.

3. Censure du type III : censure aléatoire.

Définition 3. Etant donné un èchantillon X = (X1 , ..., Xn )T de durées de survie Xi , on dit


qu’il y a censure aléatoire de cet échantillon s’il existe un autre échantillon C

C = (C1 , ...,Cn )T ∈ Rn+

311
indépendant de X, tel que au lieu d’observer X1 , ..., Xn on observe les statistiques

(T1 , D1 ), (T2 , D2 ), ..., (Tn , Dn ), (6.14)


Ti = Xi ∧Ci , Di = 1{Ti =Xi } .
Donc en cas de censure aléatoire, on associe à chaque sujet i (i = 1, 2, ..., n) une statistique
de dimension 2 : (Xi ,Ci ) ∈ R2+ , dont seulement la plus petite composante est observée :
½
Xi est la survie ,
Ci est la censure .

On sait de plus quelle est la nature de cette durée :


si Di = 1, c’est une survie,
si Di = 0, c’est une censure.
Nous avons supposé que le délai de censure Ci du sujet i est une variable aléatoire
indépendante de la durée de survie Xi . Notons

H(t) = P{Ci ≤ t} et Q(t) = P{Ci > t}

la fonction de répartition et la fonction de survie de Ci et h(t) = H 0 (t), densité de Ci , i =


1, 2, . . . , n. Dans ce cas la densité g(ti , di ; θ) de la statistique (Ti , Di ) est

f (ti ; θ)Q(ti ), si Di = 1 (Xi est la survie),

h(ti )S(ti ; θ), si Di = 0 (Ci est la censure),


où S(x; θ) = 1 − F(x; θ), i.e.,

(Ti , Di ) ∼ g(ti , di ; θ) = [ f (ti ; θ)Q(ti )]di [h(ti )S(ti ; θ)]1−di .

On obtient donc la fonction de vraisemblance de l’échantillon (14)


n
L(θ) = ∏[ f (Ti ; θ)Q(Ti )]Di [h(Ci )S(Ci ; θ)]1−Di .
i=1

Comme Q(t) et h(t) ne dépendent pas de θ on en tire que


n
L(θ) = const ∏[ f (Ti ; θ)]Di [S(Ci ; θ)]1−Di .
i=1

On remarque que ce résultat suit immédiatement du fait que T1 , T2 , ..., Tn forment aussi un
échantillon, où Ti suit la même loi H(t; θ) = 1 − S(t; θ)Q(t) :

H(t; θ) = Pθ {Ti ≤ t} = 1 − Pθ {Ti > t} = 1 − Pθ {min (Xi ,Ci ) > t} =

1 − Pθ {Xi > t,Ci > t} = 1 − Pθ {Xi > t}P{Ci > t} = 1 − S(t; θ)Q(t).

312
6.6 Troncature.

Définition 1. On dit qu’il y a troncature gauche (respectivement droite) lorsque la va-


riable d’intérêt T n’est pas observable quand elle est inférieure à un seuil c > 0 fixé
(respectivement supérieure à un seuil C > 0 fixé).
On remarque que ce phénomène de troncature est très différent de celui de la censure,
car dans le cas de la censure, on sait que la variable T , non observée, est supérieure (ou
inférieure) à une valeur C qui, elle, a été observée. Donc, la troncature élimine de l’étude
une partie des T , ce qui a pour conséquence que l’analyse pourra porter seulement sur la loi
de T conditionnellement à l’événement (c < T ≤ C), en cas de troncature gauche et droite
simultanées.
Exemple 1. Soit T une variable aléatoire, dont la fonction de répartition est

F(t) = P{T ≤ t}.

Supposons que T ait pour densité f (t) = F 0 (t), et qu’il y ait troncature gauche et droite
simultanées : pour cette raison T est observable seulement sur l’intervalle ]c,C]. Donc, on
a une distribution tronquée dont la fonction de répartition est


 0, si t ≤ c,
F(t)−F(c)
F(t|c < T ≤ C) = F(C)−F(c) , si c < t ≤ C,

 1, si t > C.

En termes de fonction de survie de T ,

S(t) = P{T > t} = 1 − F(t),

la fonction de survie de la loi tronquée est




 1, si t ≤ c,
S(t)−S(C)
S(t|c < T ≤ C) = S(c)−S(C) , si c < t ≤ C,

 0, si t > C.

Si C = +∞ et c > 0 on a une troncature à gauche,


si c = 0 et C < ∞ on a une troncature à droite.
Il est facile de vérifier que si f (t) existe alors la densité de la loi tronquée existe aussi et
(
f (t) f (t)
f (t|c < T ≤ C) = F(C)−F(c) = S(c)−S(C) , si c < t ≤ C,
0, sinon.

Le risque de panne α(t|c < T ≤ C) de la loi tronquée est

f (t|c < T ≤ C) f (t)


α(t|c < T ≤ C) = = ,
S(t|c < T ≤ C) S(t) − S(C)
qui peut s’écrire aussi
f (t) S(t) S(t)
α(t|c < T ≤ C) = = α(t) , c < t ≤ C.
S(t) S(t) − S(C) S(t) − S(C)

313
On remarque que le risque de panne ne dépend que de C. Donc, s’il n’y a que la troncature
à gauche (c > 0,C = ∞), on a S(C) = 0 et

α(t|c < T ) = α(t),

i.e. la troncature à gauche ne change pas le risque de panne, tandis que la troncature à droite
augmente ce risque.
Notons Tc,C la variable aléatoire, dont la fonction de répartition conditionnelle est

F(t|c < T ≤ C) = Fc,C (t).

Il est évident que


ZC
fc,C (t) dt = 1.
c
Nous pouvons calculer aussi son espérance mathématique
ZC
ETc,C = E{T |c < T ≤ C} = t fc,C (t) dt.
c

Par exemple, si F(t) est la fonction de répartition de la loi uniforme sur [a, d], i.e.

 0, t ≤ a,
t−a
F(t) = , a < t ≤ d,
 d−a
1, t > d,
et
[c,C] ⊂]a, d[,
alors 

 0, si t ≤ c,
F(t)−F(c)
F(t|c < T ≤ C) = F(C)−F(c) , si c < t ≤ C,

 1, si t > C,

 0, si t ≤ c,
t−c
=
 C−c , si c < t ≤ C,
1, si t > C,
et la distribution tronquée est de nouveau uniforme, mais sur l’intervalle ]c,C].
(Voir Woodroofe (1985), Huber (1989).)
Exemple 2. Modèle de la loi normale tronquée. Soit T une durée de survie dont la fonc-
tion de répartition est
¡ ¢ ¡ µ¢
Φ t−µ
σ −¡Φ − σ
F(t; µ, σ ) = Pµ,σ2 {T ≤ t} =
2
µ¢ 1[0,∞[ (t), t ∈ R1 ,
1 − Φ −σ

où Φ(·) est la fonction de répartition de la loi normale standard N(0, 1), |µ| < ∞, σ2 > 0.
On dit que la durée de survie T suit la loi normale, tronquée au zéro. La fonction de survie
de T est ¡ ¢
1 − Φ t−µ
S(t; µ, σ ) = 1 − F(t; µ, σ ) =
2 2 ¡ µ ¢σ 1[0,∞[ (t), t ∈ R1 ,
Φ σ

314
et la densité de T est
µ ¶
1 t −µ
f (t; µ, σ ) =
2 ¡ ¢ϕ 1[0,∞[ (t), t ∈ R1 ,
σΦ σµ σ

où ϕ(·) = Φ0 (·), d’où on tire que le risque de panne α(t) est


¡ t−µ ¢
ϕ
α(t) = ¡ σµ−t ¢1[0,∞[ (t), t ∈ R1 ,
σΦ σ

puisque Φ(x) + Φ(−x) ≡ 1, x ∈ R1 .


La vie moyenne ET de T est
Z ∞ Z ∞ µ ¶ Z µ/σ
1 µ−t σ
ET = S(t; µ, σ )dt =
2 ¡µ¢ Φ dt = ¡µ¢ Φ(u)du =
0 Φ σ 0 σ Φ σ −∞

· Z µ/σ ¸
σ µ ³ mu ´
¡ ¢ Φ − uϕ(u)du =
Φ σµ σ σ −∞

Z µ/σ ¡ ¢
σ 0 σϕ σµ
µ+ ¡µ¢ ϕ (u)du = µ + ¡ µ ¢ > µ.
Φ σ −∞ Φ σ
Pour étudier le comportement de α(t) on remarque que
µ ¶ µ ¶
4 1
ϕ(x) 1 − 2 < ϕ(x) < ϕ(x) 1 + 2 , x > 0, (1)
x x

d’où on tire immédiatement que


µ ¶
1 1 1
− 2 ϕ(x) < 1 − Φ(x) < ϕ(x), x > 0, (2)
x x x

puisque µ¶
Z ∞
1 1
ϕ(x) = ϕ(u) 1 + 2 du
x 0 u
et µ ¶ Z ∞ µ ¶
1 1 4
− ϕ(x) = ϕ(u) 1 − 2 du.
x x3 x u
Comme ¡ t−µ ¢
ϕ
α(t) = ¡ σµ−t ¢1[0,∞[ (t), t ∈ R1 ,
σΦ σ
de (2) on tire que
1 1 1 1
− 3< < ,
t t α(t) t
d’où on obtient que
α(t)
lim = 1.
t→∞ t

315
6.7 Estimateur de Kaplan-Meier.

Si l’on ne peut pas supposer a priori que la loi de la durée de survie X obéit à un modèle
paramétrique, on peut estimer la fonction de survie S(t) grâce à plusieurs méthodes non-
paramétriques dont la plus intéressante est celle de Kaplan-Meier, (1958).
Cet estimateur est aussi appelé P-L estimateur car il s’obtient comme un produit : la
probabilité de survivre au delà de l’instant t(n) est égale au produit suivant :

S(t(n) ) = P{X > t(n) } = P(X > t(n) |X > t(n−1) ) · S(t(n−1) ) = ∆n pt(n−1) S(t(n−1) ),

où 0 = t(0) < t(1) < ... < t(n) ,

∆n pt(n−1) = St(n−1) (∆n ), ∆n = t(n) − t(n−1) ,

t(n−1) est une date antérieure à t(n) .

∆1 ∆2 ∆3 ∆n
- t
0 t(1) t(2) t(3) t(n−1) t(n)

Si on renouvelle l’opération en choisissant une date t(n−2) antérieure à t(n−1) , on aura de


même
S(t(n−1) ) = P{X > t(n−1) } = P(X > t(n−1) |X > t(n−2) ) · S(t(n−2) ),
et ainsi de suite, on obtient la formule :
n n
S(t(n) ) = ∏ ∆i pt(i−1) = ∏(1 − ∆i qt(i−1) ),
i=1 i=1

sachant que S(0) = 1.


Cet estimateur est bien adopté aux cas de la présence de la censure. Si on choisit pour
dates où l’on conditionne celles où s’est produit un événement, qu’il s’agisse d’une mort
ou d’une censure, t(i) = T(i) on aura seulement à estimer des quantités de la forme :

pi = P{X > T(i) |X > T(i−1) } = ∆i pT(i−1) ,

qui est la probabilité de survivre pendant l’intervalle de temps ∆i =]T(i−1) ; T(i) ] quand on
était vivant au début de cet intervalle. On note que

0 = T(0) ≤ T(1) ≤ · · · ≤ T(n) .

Notons :

Ri = card R(T(i) ) le nombre des sujets qui sont vivants juste avant l’instant T(i) , en désignant
par R(t ) l’ensemble des sujets à risque à l’instant t − ;

Mi = le nombre de morts à l’instant T(i) ;


qi = 1 − pi la probabilité de mourir pendant l’intervalle ∆i sachant que l’on était vivant au
début de cet intervalle.
Alors l’estimateur naturel de qi est
Mi
q̂i = .
Ri

316
Supposons d’abord qu’il n’y ait pas d’ex-aequo, i.e. on suppose que

0 = T(0) < T(1) < · · · < T(n) .

Dans ce cas,
si D(i) = 1, c’est qu’il y a eu un mort en T(i) et donc Mi = 1,
si D(i) = 0, c’est qu’il y a eu une censure en T(i) et donc Mi = 0.
Par suite,
µ ¶ ½
Mi 1 D(i) 1 − R1i , en cas de mort en T(i) ,
p̂i = 1 − = 1− =
Ri Ri 1, en cas de censure en T(i) ,

donc p̂i n’est différent de 1 qu’aux instants de décès observés.


L’estimateur de Kaplan-Meier pour la fonction de survie S(t) est :
µ ¶D(i)
1
Ŝ(t) = Ŝn (t) = ∏ p̂i = ∏ 1−
Ri
=
T(i) ≤t T(i) ≤t

µ ¶D(i)
1
= ∏ 1−
n−i+1
.
T(i) ≤t

Il est évident que en absence de la censure, i.e. si Di = 1 pour ∀i, alors



 1, t ≤ T(1) ,
n−i
Ŝn (t) = , T(i) ≤ t < T(i+1) ,
 n
0, t ≥ T(n) .

On remarque que Ri = n − i + 1 car, mort ou censuré le sujet disparait de l’étude.


Il est évident que l’estimateur de Kaplan-Meier F̂n (t) de F(t) = 1 − S(t) est


 0 , si t < T(1) ,
¡ n−i ¢D(i)
F̂n (t) = 1 − Ŝn (t) = 1 − ∏T(i) ≤t n−i+1 , si T(1) ≤ t < T(n) ,

 1, si t ≥ Tn .

Pour estimer la variance de Ŝn (t), on utilise l‘approximation de Greenwood, d’après laquelle
£ ¤ £ ¤2 Di
Var Ŝn (t) ≈ Ŝn (t) ∑ .
i:Ti ≤t (n − i)(n − i + 1)
R∞
La moyenne EXi de survie Xi est estimée par 0 Ŝn (t)dt. Enfin on remarque que

Ân (t) = − ln Ŝn (t)

peut-être considéré comme l’estimateur de Kaplan-Meier de la fonction de risque cumulée


A(t).
Quand n est assez grand pour évaluer Ân (t) on peut utiliser l’approximation de Nelson :
Di
Ân (t) ≈ ∑ ,
i:Ti ≤t n − i + 1

317
puisque µ ¶
1 1
log 1 − ≈− ,
n− j+1 n− j+1
pour les grandes valeurs de n − j + 1. La statistique
Di
A∗n (t) = ∑
i:Ti ≤t n − i + 1

est connue comme l’estimateur de Nelson pour le taux de hasard cumulé A(t).
Théorème 1. Si les lois F et H de la survie Xi et de la censure Ci n’ont aucune discontinuité
commune, la suite d’estimateurs {Ŝn (t)} de Kaplan-Meier de la fonction de survie S(t) est
consistante.
Théorème 2. Si l’échantillon X = (X1 , ..., Xn )T et l’échantillon de censure
C = (C1 , ...,Cn )T sont indépendants, alors dans les conditions du théorème 1
√ L
n(Ŝn (t) − S(t)) → W (t), n → ∞,

où W (t) est un processus gaussien centré, EW (t) ≡ 0, dont la fonction de covariance est
Z s∧t
dF(u)
k(s,t) = EW (s)W (t) = S(s)S(t) .
0 [1 − F(u)]2 [1 − H(u)]
Remarque 1. Il est facile à voir que

Ŝn (t)
E = 1,
S(t ∧ T(n) )

et donc
S(t)
S(t) = E Ŝn (t) > EŜn (t),
S(t ∧ T(n) )
i.e. l’estimateur de Kaplan-Meier Ŝn (t) n’est pas un estimateur sans biais pour S(t).
Remarque 2. Si S(t) est continue, alors pour ∀t < H −1 (1)

1 n
Ŝn (t) = S(t) + ∑ ψi(t) + rn(t),
n i=1

où ψ1 (t) sont i.i.d., Eψi (t) = 0, uniformément bornées sur [0, T ], et

sup |tn (t)| = O(n−1 log n) (mod P)


t∈[0,T ]

quand T < H −1 (1), H(t) = P{Ti ≤ t}.


Théorème 3. Dans les conditions du théorème 2 l’estimateur de Nelson A∗n du taux de
hasard cumulé A vérifie :
√ L
n(Â∗n (t) − A(t)) → W (t), n → ∞,

où W (t) est un processus gaussien centré, EW (t) ≡ 0, dont la fonction de corrélation est
Z t1 ∧t2
dG(t, 1)
k(s,t) = EW (s)W (t) = ,
0 S2 (t)

318
où G(t, 1) = P{Ti ≥ t, Di = 1}.
Exemple 1. Sur 10 patients atteints de cancer des bronches on a observé les durées de survie
suivantes, exprimées en mois :
1 3 4+ 5 7+ 8 9 10+ 11 13+ .
Les données suivies du signe + correspondent à des patients qui ont été perdues de vue à la
date considérée, i.e. censurées.
L’estimateur de Kaplan-Meier Ŝ(t) = Ŝ10 (t) de la fonction de survie S(t) vaut :
Ŝ(0) = 1 et Ŝ(t) = 1 pour tout t dans [0; 1[
1
Ŝ(t) = (1 − 10 )Ŝ(0) = 0.9, 1 ≤ t < 3,
Ŝ(t) = (1 − 19 )Ŝ(1) = 0.80, 3 ≤ t < 5,
Ŝ(t) = (1 − 17 )Ŝ(3) = 0.694, 5 ≤ t < 8,
Ŝ(t) = (1 − 15 )Ŝ(5) = 0.555, 8 ≤ t < 9,
Ŝ(t) = (1 − 14 )Ŝ(8) = 0.416, 9 ≤ t < 11,
Ŝ(t) = (1 − 12 )Ŝ(9) = 0.208.

6
1 a -a -
0.9 a -
0.8
0.7 a -
0.6 a -
0.5 a -
0.4
0.3 a -
0.2
0.1 - t
0 1 2 3 4 5 6 7 8 9 10 11 12 13 (mois)

Mais la plupart du temps il y a des ex-aequo, comme dans le premier exemple qui est
celui des données de Freireich de l’exemple suivant.

Exemple 2 (Données de Freireich). Ces données, très souvent citées dans la littérature
statistique médicale car les performances des diverses méthodes sont souvent testées sur
elles, ont été obtenues par Freireich, en 1963, lors d’un essai thérapeuti- que ayant pour but
de comparer les durées de rémission, exprimées en semaines, de sujets atteints de leucémie
selon qu’ils ont reçu de la 6-mercaptopurine (notée 6-MP) ou un placebo. L’essai a été
fait en double aveugle, c’est-à-dire que ni le médecin, ni le patient ne sont informés de
l’attribution du traitement ou du placebo.
Le tableau ci-après donne, pour chacun des 42 sujets, la durée de rémission.
Traitement Durée de rémission
6, 6, 6, 6+ , 7, 9+ , 10, 10+ , 11+ , 13, 16, 17+ ,
6-MP
19+ , 20+ , 22, 23, 25+ , 32+ , 32+ , 34+ , 35+ .
1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8,
Placebo
11, 11, 12, 12, 15, 17, 22, 23.

319
Les chiffres suivis du signe + correspondent à des patients qui ont été perdus de vue à la
date considérée. Ils sont donc exclus vivants de l’étude et on sait seulement d’eux que leur
durée de vie est supérieure au nombre indiqué. Par exemple, le quatrième patient traité par
6-MP a eu une durée de rémission supérieure à 6 semaines. On dit que les perdus de vue ont
été censurés, et ce problème de censure demande un traitement particulier. En effet, si l’on
se contentait d’éliminer les observations incomplètes, c’est-à-dire les 12 patients censurés
du groupe traité par le 6-MP, on perdrait beaucoup d’information : un test de Wilcoxon
appliqué aux 9 patients restant dans le groupe 6-MP et aux 21 patients du groupe placebo
sous-évaluerait très visiblement l’effet du traitement.

Cas où il y a des ex-aequo : 0 = T(0) ≤ T(1) ≤ ... ≤ T(n) .

1) Si ces ex-aequo sont tous de morts la seule différence tient à ce que Mi n’est plus égal à
1 mais au nombre des morts et l’estimateur de Kaplan-Meier devient :

µ ¶
Mi
Ŝ(t) = ∏ 1−
Ri
.
T(i) ≤t

2) Si ces ex-aequo sont des deux sortes, on considère que les observations non censurées
ont lieu juste avant les censurées. Voyons ce que donne l’estimateur de Kaplan-Meier dans
le cas des données de Freireich :
Pour le 6-MP :

Ŝ(0) = 1 et Ŝ(t) = 1 pour tout t dans [0; 6[,


3
Ŝ(6) = (1 − 21 )Ŝ(0) = 0.857,
1
Ŝ(7) = (1 − 17 )Ŝ(6) = 0.807,
1
Ŝ(10) = (1 − 15 )Ŝ(7) = 0.753,
1
Ŝ(13) = (1 − 12 )Ŝ(10) = 0.690,
1
Ŝ(16) = (1 − 11 )Ŝ(13) = 0.627,
Ŝ(22) = (1 − 17 )Ŝ(16) = 0.538,
Ŝ(23) = (1 − 17 )Ŝ(22) = 0.448.

320
Pour le Placebo :
Ŝ(t) = 1, 0 ≤ t < 1,
2
Ŝ(1) = (1 − 21 )Ŝ(0) = 0.905,
2
Ŝ(2) = (1 − 19 )Ŝ(1) = 0.895,
1
Ŝ(3) = (1 − 17 )Ŝ(2) = 0.842,
2
Ŝ(4) = (1 − 16 )Ŝ(3) = 0.737,
2
Ŝ(5) = (1 − 14 )Ŝ(4) = 0.632,
4
Ŝ(8) = (1 − 12 )Ŝ(5) = 0.421,
Ŝ(11) = (1 − 28 )Ŝ(8) = 0.316,
Ŝ(12) = (1 − 26 )Ŝ(11) = 0.210,
Ŝ(15) = (1 − 14 )Ŝ(12) = 0.158,
Ŝ(17) = (1 − 13 )Ŝ(15) = 0.105,
Ŝ(22) = (1 − 12 )Ŝ(17) = 0.053,
Ŝ(23) = (1 − 11 )Ŝ(22) = 0.
Plus d’information sur le modèle de survie on peut voir dans Kaplan and Meier (1958),
Turnbull (1974),(1976), Kalbfleisch and Prentice (1980), Lawless (1982), Droesbeke, Fi-
chet & Tassi (1989), Bagdonaviv̧ius et Nikulin (1995, 1998, 1999).

6.8 Modèle de Cox.

Le modèle de Cox est employé lorsque on cherche à évaluer l’effet de certaines variables
sur la durée de survie. D’après ce modèle on a les 2n variables aléatoires indépendantes

X1 , X2 , . . . , Xn et C1 ,C2 , . . . ,Cn

que sont les durées de survie et les temps de censures des n individus considérés. En réalité,
on observe la suite des n vecteurs (Ti , Di ), où Ti date de départ du i-éme individu (en sup-
posant qu’ils sont entrés à l’instant 0), Di indicatrice de la cause de départ (Di = 1 si c’est
la mort, Di = 0 sinon),
Di = 1{Xi ≤Ci } .
Mais on a aussi observé sur chacun des individus un vecteur Z i = (Zi1 , . . . , Zip )T dont dé-
pend la durée de survie Xi . Ce vecteur Z est généralement appelé covariable.
Le modèle des "hasards proportionnels", ou modèle de Cox suppose que
n o
α(t|Z = z) = αz (t) = α0 (t)exp βT z ,

βT z = β1 z1 + β2 z2 + · · · + β p z p ,
où βT = (β1 , . . . , β p )T est le vecteur des coefficient de la regression, α0 (t) est le risque
instantané de base. En général, ils sont inconnus tous les deux. C’est pour cela on dit

321
souvent que le modèle de Cox est semiparamétrique.
Remarque 1. La famille des loi d’un tel modèle est du type suivant :
toutes les fonctions de survie sont égales à une même fonction de survie S0 (t) de base,
élevée à des puissances variées :

S(t; θ) = [S0 (t)]θ ,


 
 Zt 
S0 (t) = exp − α0 (u) du ,
 
0
( )
p n o
θ = exp ∑ β jz j = exp βT z .
j=1

Exemple 1. Prenons le cas le plus simple : 1 seule covariable (p = 1), Z prenant seulement
les valeurs 0 ou 1. Il peut s’agir par exemple d’un essai thérapeutique destiné à comparer
l’effet d’un nouveau traitement (Z = 1 pour les patient traités) à celui du traitement habituel
ou d’un placebo (Z = 0), sur la durée de survie.
On a alors deux populations :

si Z = 0, S(t) = S0 (t),
si Z = 1, S1 (t) = [S0 (t)]γ ,

où γ = eβ mesure l’effet du traitement.


Ce modèle comporte donc un paramètre qui est une fonction λ0 , considérée en général
comme nuisible et p paramètre réels β1 , β2 , . . . , β p qui sont les quantités à estimer, où à
tester, car elles représent l’effet sur la durée de survie de chacune des covariables corres-
pondantes.
Pour éliminer le "paramètre" nuisible totalement inconnu qu’est le risque instantané de
base α0 (t), Cox (1972) considère la vraisemblance "partielle" suivante
n o
exp βT Z (i)
VC (β) = ∏ n o,
{i:D(i) =1} ∑ exp β Z
T (k)
k∈R(i)

où T(1) < T(2) < · · · < T(n) désignent la suite des instant où a lieu un événement (mort ou
censure), et à l’instant T(i) sont observés :
D(i) la nature de l’événement ; D(i) = 1, si c’est une mort, D(i) = 0, si c’est une censure ;
Z (i) la covariable, de dimension p, de l’individu à qui est arrivé l’événement ;

R(i) l’ensemble des indices des individus encore à risque à l’instant T(i) ainsi que la valeur
de leur covariable, Z (k) , k ∈ R(i) .
Cox traite cette vraisemblance partielle comme une vraisemblance ordinaire.
En temps continu, on fait l’hypothèse qu’il n’y a aucun ex-aequo, et dans ce cas
³√ ´ ¡ ¢
L n(β̂n − β) → N 0, I −1 (β) ,

où β̂n est l’estimateur de maximum de vraisemblance partielle pour β,

VC (β̂n ) = maxVC (β).

322
6.9 Sur l’estimation semiparamétrique pour le modèle de
Cox

On observe n individus. Notons Xi et Ci les durées de survie et les temps de cen-


sures. On suppose que la durée de survie du i-ème individu dépend du vecteur Zi (·) =
(Zi1 (·), ..., Zip (·))T des covariables. Posons

Ti = Xi ∧Ci , Di = 1{Xi ≤ Ci }.

Nous supposons que les statistiques (X1 ,C1 ), ..., (Xn ,Cn ) soient indépendantes. On a un
échantillon (Ti , Di , Zi (·)), (i = 1, ..., n).
Supposons que la censure est indépendante pour chaque individu, i.e. αci (t) = αi (t)
pour tout t : P(Ti ≥ t) > 0, où

P{Ti ∈ [t,t + h[, Di = 1|Ti ≥ t}


αci (t) = lim ,
h↓0 h

P{Xi ∈ [t,t + h[|Xi ≥ t}


αi (t) = lim .
h↓0 h
Supposons que les variables aléatoires X1 , ..., Xn sont absolument continues. Soient N le
nombre, X(1) < ... < X(N) les moments des décès observés, (i) l’indice de l’individu décédé

au moment X(i) , R(i) l’ensemble des indices des individus à risque à l’instant X(i) .
Supposons que le modèle de Cox ait vérifié :

αZi (·) (t) = eβ


T
Zi (t)
α0 (t),

où β = (β1 , ..., β p )T est le vecteur des coefficients de regression inconnus, α0 (t) le risque
instantané de base inconnu. Alors

pi ( j|r,t) = P{(i) = j|R(i) = r, X(i) = t} = lim P{(i) = j|R(i) = r, X(i) ∈ [t,t + h)} =
h↓0

P{(i) = j, R(i) = r, X(i) ∈ [t,t + h)}


lim =
h↓0 P{R(i) = r, X(i) ∈ [t,t + h)}

P{T j ∈ [t,t + h), D j = 1, Tl ≥ t, l ∈ r \ { j}, Tl < t, l ∈


/ r}
lim =
h↓0 ∑s∈r P{Ts ∈ [t,t + h), Ds = 1, Tl ≥ t, l ∈ r \ {s}, Tl < t, l ∈ / r}
P{T j ∈ [t,t + h), D j = 1} ∏l∈r\{ j} P{Tl ≥ t} ∏l ∈r
/ P{Tl < t}
lim =
h↓0 ∑s∈r P{Ts ∈ [t,t + h), Ds = 1} ∏l∈r\{s} P{Tl ≥ t} ∏l ∈r / P{Tl < t}

P{T j ∈ [t,t + h), D j = 1|T j ≥ t} ∏l∈r P{Tl ≥ t}


lim =
h↓0 ∑s∈r P{Xs ∈ [t,t + h), Ds = 1|Ts ≥ t} ∏l∈r P{Tl ≥ t}

eβ Z j (t)
T
αc j (t) α j (t)
= = .
∑s∈r αcs (t) ∑s∈r αs (t) ∑ eβT Zs (t)
s∈r

323
La fonction de vraisemblance partielle est déterminée comme le produit


T
N N Z(i) (X(i) )
L(β) = ∏ p((i)|R(i) ; X(i) ) = ∏ .
β Zs (X(i) )
T
i=1 i=1 ∑
s∈R(i) e

Alors
N N

T
log L(β) = ∑ βT Z(i) (X(i) ) − ∑ log ∑ Zs (X(i) )
i=1 i=1 s∈R(i)

et
β
T
Zs (X(i) )
∂ log L(β) N N ∑s∈R(i) Zs (X(i) )e
U(β) = = ∑ Z(i) (X(i) ) − ∑ .
∂β

T
Zs (X(i) )
i=1 i=1 ∑s∈R(i)

L’estimateur β̂ vérifie l’équation U(β̂) = 0 p .


Alors on peut démontrer (voir la section suivante) que
Z t
EN(t) = E S(0) (u, β)α0 (u)du,
0


n
(u, β) = ∑ eβ
T
(0) Zi (u)
S Yi (u).
i=1
Rt
Cela implique l’estimateur Â0 (t) pour la fonction A0 (t) = 0 α0 (u)du :
Z t
N(t) = S(0) (u, β̂)d Â0 (u),
0

d’où Z t
dN(u)
Â0 (t) = .
0 S(0) (u, β̂)
L’estimateur de la fonction
Z t

T
Z(u)
AZ(·) (t) = dA0 (u)
0

est Z t T
eβ̂ Z(u) dN(u)
ÂZ(·) (t) = ,
0 S(0) (u, β̂)
et l’estimateur de la fonction de survie SZ(·) (t) = e−AZ(·) (t) :

ŜZ(·) (t) = e−ÂZ(·) (t) .

Les résultats obtenus nous permettent de construire des tests statistiques pour beaucoup de
problèmes importants.
Test d’homogénèité Considérons l’hypothèse

H0 : β1 = β2 = · · · = β p = 0

324
Sous cette hyphothèse la loi de survie ne dépend pas des covariables. Elle peut etre vérifiée
en utilisant plusieurs tests.
a) Test du score
Sous H0 :
U(0) ≈ N(0, Σ(0)),
où ½ ¾
k ∑s∈Ri zs (X(i) )
U(0) = ∑ z(X(i) ) − ,
i=1 ni
½ ¾
k ∑ j∈Ri zr j (X(i) )zs j (X(i) ) ∑ j∈Ri zr j (X(i) ) ∑ j∈Ri zs j (X(i) )
Σ(0) = − ∑ −
i=1 ni ni ni
(0) (0)
ni = Y (Ti ) est le nombre des sujets à risque juste avant Ti . Donc

U T (0)Σ(0)−1U(0) ≈ χ2 (p).

On rejette H0 au niveau de signification α, si

U T (0)Σ(0)−1U(0) > χ21−α (p).

b) Test de Wald
Sous H0
β̂ ≈ N(0, Σ−1 (0)).
Donc
β̂T Σ(0))β̂ ≈ χ2 (p).
On rejette H0 au niveau de signification α, si

β̂T Σ(0))β̂ > χ21−α (p).

c) Test du rapport de vraisemblance


On peut montrer que
−2(ln L(β) − ln L(β̂) ≈ χ2 (p).
Sous H0
−2(ln L(0) − ln L(β̂)) ≈ χ2 (p).
Notons que
k
ln L(0) = − ∑ ln ni ,
i=1
( )
k
ln L(β̂) = ∑ β̂T zi (X(i) ) − ln ∑e βT z l (X(i) ) .
i=1 s∈Ri

On rejette H0 , si
−2(ln L(0) − ln L(β̂)) > χ21−α (p).
Si la seule caractéristique d’un individu est son appartenance à un groupe :
½
1 pour les individus du 1 groupe
z(t) =
0 pour les individus du 2 groupe,

325
le modèle de Cox a la forme
½ β
e h0 (t) pour les individus du 1 groupe
h(t | z) =
h0 (t) pour les individus du 2 groupe.

Dans ce cas l’hypothèse H0 : β = 0 signifie l’egalité des fonctions de risque de deux groupes
qui est equivalent à l’egalitd́es fonctions de survie. Donc les tests du score, de Wald et du
rapport de vraisemblance vérifient l’hypothèses de l’egalité des lois des deux groupes.
Modèle stratifié
Supposons qu’on étudie l’effet des sous covariables z(s) = (z1 , · · · , zs ) du vecteur des
covariables z(p) = (z1 , · · · , z p ) (p > s) sur la survie, mais le modèle de Cox n’est pas vérifié
par rapport à z(p) . Parfois la modification suivante du modèle peut être utile.
Supposons que la région des valeurs de zs+1 , · · · , z p est divisée en q strates et pour des
sujets de j-ème strate le modèle de Cox est vérifié :
(s) ))T z(s) )(t)
h j (t | z(s) ) = e(β h0 j (t) ( j = 1 · · · q).

Pour chaque strate la fonction de risque de base est differente mais l’effet des covariables
z(s) est le même pour toutes strates.
Pour estimer β, on commence par la vraisemblance partielle L j à l’interieur de chaque
strate.
La vraisemblance partielle pour tous les sujets est le produit de toutes les vraisem-
blances :
s
L(β(s) ) = ∏ L j .
j=1

Test graphique du modèle


Si des covariables sont constantes en temps, alors sous le modèle de Cox

H(t | z) = − ln S(t | z) = eβ z H0 (t)


T

et donc
ln H(t | z) = βT z + ln H0 (t).
Sous des valeures differents de z les graphes des fonctions ln H(t | z) sont parallèls. Donc,
si z est discrète avec valeurs z(1) , · · · , z(s) , alors on considère les graphs des estimateurs

ln Ĥ(t | z( j) ) ( j = 1, · · · , s)

Sous le modèle de Cox ces graphs sont approximativement parallels.


Test de l’hypothèse Hl : βl+1 = · · · = β p = 0
Considŕons le problème de la vérification de l’hypothèse

Hl : βl+1 = · · · = β p = 0,

où l = 1, · · · , p − 1. Sous Hl les covariables zl+1 , · · · , z p n’améliorent pas la prédiction. Donc


si Hl est vérifié, on peut exclure ces covariables du modèle.
a) Test du rapport de vraisemblance
Soient
(l) T (l)
h(t | z(l) ) = e(β )) z )(t) h0 (t)

326
et
(p) ))T z(p) )(t)
h(t | z(p) ) = e(β h0 (t)
les modèles de Cox avec l et p covariables,respectivement. Alors

−2(ln Ll (β(l) ) − ln Ll (β̂(l) )) ≈ χ2 (l),

−2(ln L p (β(p) ) − ln L p (β̂(p) )) ≈ χ2 (p)


Sous Hl :
Ll (β(l) ) = L p ((β(l) , 0))
et la difference
Ll,p = −2(ln Ll (β(l) ) − ln L p (β̂(p) )) ≈ χ2 (p − l),
Donc Hl est rejetée si
Ll,p > χ21−α (p − l).
L’hypothèse la plus intéressante de point de vue pratique est

H p−1 : β p = 0.

Elle signifie que le modèle avec (p − 1) covariables z1 , · · · , z p−1 donne la même prediction
que le modl̀e avec (p) covariables z1 , · · · , z p , i.e. la covariable z p peut être exclue du modèle.
L’hypothèse H p−1 est rejetèe, si

L p−1,p > χ21−α (1).


b) Test de Wald
On écrit l’inverse da la matrice d’information de Fisher sous la forme

Σ−1 (β) =

où A11 (β) et A22 (β) ont les dimentions l × l et (p − l) × (p − l). Alors

(β̂l+1 , · · · , β̂ p ) ≈ N p−l ((βl+1 , · · · , β p ), A22 (β)).

Sous Hl :

Wl,p = (β̂l+1 , · · · , β̂ p )T A−1


22 (β̂1 , · · · , β̂l , 0, · · · , 0)(β̂l+1 , · · · , β̂ p ) ≈ χ (p − l).
2

L’hypothèse Hl : βl+1 = · · · = β p = 0 est rejetée, si

Wl,p > χ21−α (p − l)

Si l = p − 1, alors
Wp−1,p = β̂2p /A22 (β̂1 , · · · , β̂ p−1 , 0)
et l’hypothèse H p−1 : β p = 0 est rejetée, si

Wp−1,p > χ21−α (1).

327
6.10 Processus de comptage et l’estimation non paramé-
trique

Soient X et C la durée de vie et le moment de censure, respectivement,

T = X ∧C, δ = I(X ≤ C), N(t) = I(T ≤ t, δ = 1), Y (t) = I(T ≥ t).

N(t) est le nombre des pannes observées dans l’intervalle [0, τ], Y (t) est le nombre des
unités à risque au moment t−. N(t) et Y (t) peuvent prendre des valeurs 0 et 1. On suppose
que la variable aléatoire X est absolument continue et pour tout t tel que P{T ≥ t} > 0 il
existe la limite
P{T ∈ [t,t + h[, δ = 1|T ≥ t}
αc (t) = lim .
h↓0 h
αc (t) montre le risque de panne après ou au moment t sachant que une unité était à risque
(pas censurée et pas en panne) juste avant le moment t.
On dit que la censure est indépendante, si

P{X ∈ [t,t + h[|X ≥ t}


αc (t) = α(t) = lim
h↓0 h

pour tous t : P{T ≥ t} > 0.


Donc la censure ne influence pas le risque de panne d’une unité qui est “à risque”.
Notons que
P{t ≤ X < t + h, X ≤ C}
αc (t) = lim =
h↓0 hP{X ≥ t,C ≥ t}
P{X ≤ C|t ≤ X < t + h}P{t ≤ X < t + h}
lim =
h↓0 hP{X ≥ t,C ≥ t}
P{C ≥ X|X = t} fX (t) fX (t)
= .
P{X ≥ t,C ≥ t} SX (t)
Donc l’égalité αc (t) = α(t) est équivalente à l’égalité

P{X ≥ t,C ≥ t}
P{C ≥ t|X = t} = .
SX (t)

Si X et C sont indépendantes, cette égalité est évidement vérifiée. De l’autre côté on peut
faire aussi une remarque intéressante :

P{t ≤ X < t + h,C ≥ t}


αc (t) = lim =
h↓0 h · P{X ≥ t,C ≥ t}

1 ∂
− [P{X ≥ s,C ≥ t}] |s=t .
P{X ≥ t,C ≥ t} ∂s
Exemple. Soit le vecteur (X,C) ait une loi exponentielle de trois paramètres λ > 0, µ >
0, θ > 0 :
P{X ≥ t,C ≥ s} = exp(−λt − µs − θts), t > 0, s > 0,

328
d’où on tire que X suit une loi exponentielle de paramètre λ,

P{X ≥} = exp(−λt),

et donc α(t) = λ. De l’autre côté en utilisant la dernière remarque on trouve que

1 ∂
αc (t) = − [P{X ≥ s,C ≥ t}] |s=t = λ + θt,
P{X ≥ t,C ≥ t} ∂s
et donc on voit que dans cet exemple la censure n’est indépendante.
Notons Z t
M(t) = N(t) − Y (u)α(u)du.
0
Proposition. Si la censure est indépendante, alors EM(t) = 0 pour tout t tel que P{T ≥
t} > 0.
Preuve. L’égalité
P{X ≥ t,C ≥ t}
P{C ≥ t|X = t} = .
SX (t)
implique Z t
EM(t) = EN(t) − EY (u)α(u)du =
0
Z t
P{X ≤ t, X ≤ C} − P{X ≥ u,C ≥ u}α(u)du =
0
Z t Z t
P{C ≥ u|X = u} fX (u)du − P{C ≥ u|X = u}SX (u)α(u)du = 0.
0 0
La proposition est démontrée.
De plus on peut montrer le processus M(t) est une martingale par rapport à la filtration
Ft ,t ≥ 0, où Ft est la σ-algèbre engendrée par les processus N(t) et Y (t) :
Ft = σ{N(s),Y (s) : 0 ≤ s ≤ t}.
Dans ce cas on a :
E{M(t)|Fs } = M(s), pour t ≥ s,
ou ½Z t
¾
E{N(t) − N(s)|Fs } = E Y (u)α(u)du|Fs ,
s
d’où on tire que
1
lim E{N(t) − N(s)|Fs } =
h↓0 h
½Z s+h ¾
lim E Y (u)α(u)du|Fs = E{ Y (s)α(s)|Fs } = Y (s)α(s).
h↓0 s
Cette relation montre que le processus

λ(t) = Y (t)α(t)

est l’intensitée du processus de comptage N(t). Il représente le risque instantané observable


au moment t. On dit aussi que l’intensité λ(t) est l’intensité multiplicative parce que dans

329
ce modèle elle est le produit d’un terme déterministe, α(t), et d’un processus Y (t), qui est
prévisible, c’est-à-dire sa valeur au moment t est connue si l’histoire dans l’intervalle [0,t[ :

Ft− = σ{N(s),Y (s) : 0 ≤ s < t}


est connue.
Nous allons appliquer ces résultats dans la situation quand on observe n individus. No-
tons Xi et Ci les durées de survie et les temps de censures. Posons

Ti = Xi ∧Ci , Di = 1{Xi ≤ Ci }.

On a un échantillon (Ti , Di ), (i = 1, ..., n).


Supposons que la censure est indépendante pour chaque individu et que les variables
aléatoires X1 , ..., Xn sont absolument continues.
Notons
Ni (t) = I{Ti ≤ t, Di = 1}, Yi (t) = I{Ti ≥ t},
n n
N(t) = ∑ Ni (t), Y (t) = ∑ Yi (t).
i=1 i=1

N(t) est un processus de comptage du nombre de défaillances observées sur [0,t] par sa
valeur à l’instant t. Le processus N(t) est un processus cadlag : ses trajectoires sont des
fonctions continues à droite et limitées à gauche. Enfin, le processus Y (t) représente le
nombre des sujets à "risque" juste avant l’instant t, i.e. Y (t) montre le nombre de données
restant encore en vie.
On introduit la filtration Ft engendrée par tous les processus Ni (s) et Yi (s) :

Ft = σ{Ni (s),Yi (s) : 0 ≤ s ≤ t (i = 1, ..., n)},

qui représente l’histoire des défaillances et des censures observées jusqu’à l’instant t. No-
tons Z t
Λi (t) = λi (s)ds.
0
Parce que
Mi (t) = Ni (t) − Λi (t)
est une martingale avec E{Mi (t)} = 0, on dit que Λi (t) est le compensateur du processus
de comptage Ni (t).
De même le processus
Z t Z t Z t
Λ(t) = λ(s)ds = Y (s)α(s)ds = Y (s)dA(s)
0 0 0

est l’intensité cumulée du processus de comptage N(t), où


n
λ(t) = ∑ λi (t),
i=1

d’où on obtient la décomposition de Doob-Meyer pour le processus N(t) :

N(t) = Λ(t) + M(t),

330
où M(t) = ∑ni=1 Mi (t) est une Ft -martingale,

E{M(t)|Fs } = M(s).

On dit que Λ(t) est le le compensateur du processus de comptage N(t). Introduisons le


processus
J(t) = I{Y (t)>0} , t > 0.
Pour estimer le taux de panne cumulé A(t) on utilise la méthode des moments. Parce que
Z t
E{N(t) − Y (s)dA(s)} = 0,
0

on en tire que pour trouver l’estimateur Ân (t) il nous faut résoudre l’équation suivante :

dN(t) −Y (t) · dA(t) = 0,

d’où on obtient l’équation


dN(t)
dA(t) = J(t) ·
,
Y (t)
ce qui nous donne le fameux estimateur de Nelson-Aalen :
Z t Z t∧τ
dN(u) dN(u)
Ân (t) = J(u) =
0 Y (u) 0 Y (u)
où τ = max Xi . Pour étudier les proriétés de l’estimateur Nelson-Aalen on utilise la relation
suivante : Z t
dN(u)
Ân (t) − A(t) = {J(u) − J(u)dA(u)} =
0 Y (u)
Z t Z t
dN(u) −Y (u)dA(u) dM(u)
J(u) = J(u) ,
0 Y (u) 0 Y (u)
où M(t) est la martingale définie plus haut, et donc Ân (t) − A(t) est une Ft -martingale, et
donc pour nos études nous povons appliquer les résultas de R. Rebolledo (Central Limit
Theorems for Local Martingales, 1984).
On va présenter l’estimateur de Nelson-Aalen en terme d’une somme.
Soit T(1) < T(2) < · · · < T(n) la suite des instants où a lieu un événement (mort ou cen-
sure). A chaque instant T(i) est observée D(i) - la nature de l’événement :
D(i) = 1, si c’est une mort, D(i) = 0, si c’est une censure. Il est évident que

Y (T(i) ) = n − i + 1,

d’où on tire l’estimateur de Nelson pour le taux de hazard cumulé A(t) :


D(i) Di
Ân (t) = ∑ = ∑ .
i:T(i) ≤t n − i + 1 i:Ti ≤t n − i + 1

Ayant l’estimateur d’Aalen-Nelson pour le risque cumulé A(t) on peut facilement obte-
nir le product-limite (Kaplan-Meier) estimateur Ŝn (t) pour la fonction de survie S(t) =
exp{−A(t)} : µ ¶
∆N(s)
Ŝn (t) = ∏ 1 − ,
0<s<t Y (s)

331
où ∆N(t) = N(t) − N(t − ) est un processus Ft -prévisible.
Pour obtenir cette formule on note d’abord que de l’équation

dS(t) = −S(t) dA(t), S(0) = 1,

il suit que Z t Z t
S(t) = 1 − S(u)dA(u) = 1 − S(u−)dA(u).
0 0
Puisque
dN(t)
d Ân (t) =
Y (t)
on en tire que on a : Z t
S(u−)
Ŝn (t) = 1 − dN(u)
0 Y (u)
et
Ŝn (t−)
d Ŝn (t) = − dN(t).
Y (t)
Donc
Z t Z t−
Sn (u−) Sn (u−) Ŝn (t−)
Ŝn (t−) − Ŝn (t) = dN(u) − dN(u) = ∆N(t),
0 Y (u) 0 Y (u) Y (t)
d’où on tire que µ ¶
∆N(t)
Ŝn (t) = Ŝn (t−) 1 − , Ŝn (0) = 1,
Y (t)
et par la suit on obtient la formule de Kaplan-Meier :
µ ¶
∆N(s)
Ŝn (t) = ∏ 1 − .
0<s<t Y (s)

Le théorème suivant permet d’étudier les propriétés asymptotiques de l’estimateur de Kaplan-


Meier.
Théorème 4. Si S(t) > 0 alors
Z t
Ŝn (t) Ŝn (u−)
= 1− dM(u).
S(t) 0 S(u)Y (u)
Démonstration. On remarque d’abord que
Z t Z t
u(s−)dv(s) = u(t)v(t) − u(0)v(0) − v(s)du(s).
0 0

En utilisant cette relation on trouve que


Z t Z t
1 Ŝn (t) Ŝn (0) 1
Ŝn (u−)d = − − d Ŝn (u−).
0 S(u) S(t) S(0) 0 Ŝ(u)
Donc Z t Z t
Ŝn (t) Ŝn (u−) 1
= 1− dS(u) + d Ŝn (u−).
S(t) 0 S2 (u) 0 S( u)

332
Puisque on a
Ŝn (t−)
dS(t) = −S(t)dA(t), d Ŝn (t) = − dN(t),
Y (t)
et
dN(t) = dM(t) +Y (t)dA(t),
on trouve que
Z t Z t
Ŝn (t) Ŝn (u−) Ŝn (u−)
= 1+ dA(u) − dN(u) =
S(t) 0 S(u) 0 S(u)Y (u)
Z t
Ŝn (u−)
1− dM(u).
0 S(u)Y (u)
Le théorème est démontré.
Ce théorème nous permet de calculer
½ Z t ¾2
Ŝn (u−)I{N(u) > 0}
Var Ŝn (t) = E S(t) dM(u) ,
0 S(u)Y (u)

d’où on obtient son estimateur


Z t
ˆ Ŝn (t) = Ŝn2 (t) dN(u)
Var ,
0 (Y (u) − ∆N(u))Y (u)

connu comme la formule de Greenwood.

11. Comparaison des fonctions de survie

Supposons qu’on a deux groupes des individus (unités). Le i- ème groupe a ni individus.
Pour le premier groupe on a un échantillon

(X11 , δ11 ), ..., (X1n1 , δ1n1 ),

où en forme équivalente

(N11 (t),Y11 (t),t ≥ 0), ..., (N1n1 (t),Y1n1 (t),t ≥ 0).

Pour le deuxième groupe on observe

(X21 , δ21 ), ..., (X2n2 , δ2n2 ),


(N21 (t),Y21 (t),t ≥ 0), ..., (N2n2 (t),Y2n2 (t),t ≥ 0).
Soit Si (t) la fonction de survie du i-ème groupe. On va tester l’hypothèse

H0 : S1 (t) = S2 (t) ∀t ≥ 0.
Notons Hi (t) = − ln Si (t) la fonction de risque cumulé pour le i-ème groupe.

333
L’estimateur de Nelson-Aalen pour Hi (t) est
Z t
dNi (u)
Ĥi (t) = .
0 Yi (u)

Si l’hypothèse H0 est vérifiée, alors les estimateurs Ĥ1 (t) et Ĥ2 (t) doivent être proches.
Donc le test est basé sur la statistique
Z ∞ Z ∞ Z ∞
dN1 (u) dN2 (u)
V= K(u)d(Ĥ1 (u) − Ĥ2 (u)) = K(u) − K(u) ,
0 0 Y1 (u) 0 Y2 (u)

où K(u) est le poids,


ni ni
Ni (u) = ∑ Ni j (u), Yi (u) = ∑ Yi j (u).
j=1 j=1

Sous l’hypothèse H0 les valeurs de la statistique V sont dispersées autour de zero.


En choisissant des poids différents, on obtient des statistiques différentes :
1. Test de logrank (Cox, Mantel - Haenchel) :

Y1 (u)/n1 ·Y2 (u)/n2


KL (u) = an ,
Y (u)/n
q
n1 n2
où Y = Y1 +Y2 , n = n1 + n2 , an = n .

2. Test de Tarone-Ware :

Y1 (u)/n1 ·Y2 (u)/n2


KTW (u) = an p .
Y (u)/n

3. Test de Gehan (généralisation du test de Wilcoxon) :

Y1 (u) Y2 (u)
KG (u) = an .
n1 n2

4. Test de Prentice :
Y (u)
KP (u) = an S̃(u−) ,
Y (u) + 1

µ ¶
∆N(v)
S̃(u) = ∏ 1− , N = N1 + N2 , ∆N(u) = N(u) − N(u−).
v≤u Y (v) + 1

5. Test de Efron :
KE (u) = an Ŝ1 (u−)Ŝ2 (u−)1{Y1 (u)Y2 (u)>0} ,

où Ŝi est l’estimateur de Kaplan-Meier de Si .

334
Si n1 et n2 sont grands, la loi de V est approchée par la loi normale :

V ≈ N(0, σ2 ),

et la variance σ2 est estimée par :


Z ∞ µ ¶
K 2 (u) ∆N(u) − 1 P
σ̂ =
2
1− dN(u) → σ2 , Eσ̂2 = σ2 .
0 Y1 (u)Y2 (u) Y (u) − 1
Donc
V2
≈ χ2 (1)
σ̂2
et H0 est rejetée au niveau de signification α si

V2
> χ21−α (1).
σ̂2
Des integrals peuvent être écrites en terme des sommes :
m1 m2
d1 j d2 j
V= ∑ K(T10j )
n1 j
− ∑ K(T20j )
n2 j
,
j=1 j=1


Ti10 < ... < Tim
0 sont des moments distincts des décès observés du i-ème groupe,
i
di j est le nombre des décès au moment Ti0j pour le i-ème groupe,
ni j - le nombre des individus à risque juste avant le moment Ti0j pour le i - ème groupe.
Par exemple, pour le test de Gehan
Z ∞ µ ¶ m1
dN1 (u) dN2 (u) d1 j m2 d2 j
VG = KG (u) − = ∑ KG (T10j ) − ∑ KG (T20j ) =
0 Y1 (u) Y2 (u) j=1 n1 j j=1 n2 j
à !
m1 m2
an
n1 n2 ∑ n2 j d1 j − ∑ n1 j d2 j .
j=1 j=1

Considérons une autre expression pour ce test. Notons T1∗ < ... < Tm∗ les moments des décès
observés de tous n = n1 + n2 individus,
Di j , Ni j les nombres des décès au moment T j∗ et les nombres des individus à risque juste
avant T j∗ pour les individus de i-ème groupe,

D j = D1 j + D2 j , N j = N1 j + N2 j ;

Ici D j > 0 mais il est possible que D1 j = 0 ou D2 j = 0. Alors


Z ∞ ½ ¾
dN1 (u) dN2 (u)
VG = KG − =
0 Y1 (u) Y2 (u)
µZ ∞ Z ∞ ¶
an
Y2 (u)dN1 (u) − Y1 (u)dN2 (u) =
n1 n2 0 0
à !
m m
an
∑ N2 j D1 j − ∑ N1 j D2 j =
n1 n2 j=1 j=1

335
an m ¡ ¢
n1 n2 ∑ N2 j D1 j + N1 j D1 j − N1 j D2 j =
j=1
µ ¶
an m ¡ ¢ an m N1 j
n1 n2 ∑ N j D1 j − N1 j D j = n1n2 ∑ Nj D1 j − D j
Nj
.
j=1 j=1

Dans la dernière formule D1 j représente le nombre des décès du premier groupe au moment
N
T j∗ , E1 j = D j N1jj représente sous l’hypothèse H0 le nombre expecté des décès du premier
groupe sachant que le nombre des décès de tous les deux groupes est D j et la proportion
N
des individus à risque juste avant T j∗ est N1jj . Donc

m
an
VG =
n1 n2 ∑ N j (D1 j − E1 j ).
j=1

Si des autres statistiques sont considérées, les poids associés à (D1 j − E1 j ) sont différents :
m
n
VL = an
n1 n2 ∑ (D1 j − E1 j );
j=1

n m p
VTW = an
n1 n2 ∑ N j (D1 j − E1 j );
j=1
m N 2j
VP = an ∑ S̃(T j0 −) (D1 j − E1 j );
j=1 (N j + 1)N1 j N2 j
m Ŝ1 (T j0 −)Ŝ2 (T j0 −)
VE = an ∑ N j 1{N1 j N2 j >0} .
j=1 N1 j N2 j

L’estimateur de la variance σ̂2 de la statistique V peut être donnée en terme des sommes :
µ ¶
m K 2 (T j0 ) Dj −1
σ̂ =
2
∑ N1 j N2J
1−
Nj − 1
D j.
j=1

6.11 Estimation dans des expériences accélérées

6.11.1 Modèles de vie accélérée

Supposons que des unités sont très fiables et il n’y a pas de possibilité d’obtenir des
pannes pendant le temps t donné par expérience. Dans ce cas on effectue des expériences
sous des stress qui sont supérieurs au stress usuel. On appele ces expériences expériences
accélérées. L’application des stress accélérés racourci la durée de vie des unités et des
pannes peuvent se produire pendant le temps t. Des exemples des stress : température,
voltage, poids etc.

336
Dans le cas général des stress x peuvent varier en temps et peuvent être multidimension-
nels :
x = x(τ), τ ≥ 0, où x : [0, ∞[→ B ⊂ Rm .
Supposons que la durée de vie Tx(·) sous le stress x(·) est la variable aléatoire non-
négative absolument continue de fonction de survie

Sx(·) (t) = P{Tx(·) > t}, t ≥ 0.

Considérons un ensemble des stress E . Formelement, on dit qu’un stress x1 (·) est supérieur
à un stress x0 (·), si Sx0 (·) (t) ≥ Sx1 (·) (t) pour tout t ≥ 0.
Le but d’expériences accélérés est d’estimer la fiabilité des unités correspondante aux
conditions usuelles x0 de fonctionnement en utilisant des données de ces expériences. La
solution de ce problème exige construction des modèles qui déterminent de quelle façon
la fonction de survie Sx(·) ou une autre caractéristique (la densité, le taux de pannes, etc. )
change quand on change le stress x(·).
Soit fx(·) (t) = Sx−1
0
◦ Sx(·) (t), où x0 ∈ E est un stress usuel, Sx−1
0
= inf{s : Sx0 (s) ≥ p} est
la fonction inverse de Sx0 . Alors pour tout x(·) ∈ E

P{Tx0 ≥ fx(·) (t)} = P{Tx(·) ≥ t}.

Pour tout x(·) ∈ E la probabilité de survivre jusqu’au moment t sous le stress x(·) est
la même que la probabilité de survivre jusqu’au moment fx(·) (t) sous le stress x0 (t). Le
nombre fx(·) (t) est appelé la ressource utilisé sous le stress x(·) jusqu’au moment t. Il est
clair que fx(·) (0) = 0 pour tout x(·) ∈ E . La variable aléatoire R = fx(·) (Tx(·) ) est la res-
source utilisé sous le stress x(·) jusqu’au la panne. La fonction de survie de R est Sx0 et ne
dépend pas de x(·).
Le modèle de vie accélérée (VA) est vérifé sur E si’il existe une fonction r : E → R+
telle que pour tout x(·) ∈ E
d
f (t) = r[x(t)]. (1)
dt x(·)
Le modèle VA signifie que la vitesse d’utilisation de la ressource au moment t ne dépend
que de la valeur du stress appliqué au moment t. La formule (1) implique que
µZ t ¶
Sx(·) (t) = Sx0 r[x(τ)]dτ . (2)
0

Nous nous bornons au modèle (2). Pour nombreuses généralisations et applications voir
Bagdonavičius & Nikulin (1995, 1997, 1998), voir aussi L.Gerville-Réache & V.Nikoulina
(1998), V. Bagdonavičius, L.Gerville-Réache, V.Nikoulina & M.Nikulin (2000).
Dans le cas x(τ) ≡ x = const le modèle (2) implique

Sx (t) = Sx0 (r(x)t), (3)

donc le stress ne change que l’échelle. Notons que r(x0 ) = 1.


Considérons deux plans d’expériences accélérées possibles.
Le premier plan : Soient x1 , ..., xk des stress accélérés : x0 < x1 < ... < xk et x0 le stress
usuel. k groupes d’unités sont observés. On teste le ième groupe sous le stress xi . Donc le
stress usuel x0 n’est pas utilisé.

337
Le deuxième plan peut être utilisé si le coefficient de variation de la durée de vie sous
le stress usuel x0 n’est pas très grand et la plupart des pannes se produisent dans un certain
intervalle [s1 , s2 ], où s1 est supérieur au temps t donné pour l’expérience. Alors on peut faire
deux expériences : l’une sous un stress accéléré x1 et une autre sous le stress x1 jusqu’au
moment t1 < t, en remplaçant le stress x1 par le stress usuel x0 au moment t1 . Des unités
utilisent beaucoup de ses “ressources” jusqu’au moment t1 sous le stress x1 donc même
sous le stress usuel x0 on peut obtenir des pannes dans l’intervalle [t1 ,t]
Dans le cas du premier plan d’expériences on n’a pas d’expérience sous le stress usuel
x0 . Si la fonction r(t) est completement inconnue, la fonction Sx0 ne peut pas être estimée
même si l’on connaît la famille des distributions à laquelle elle appartient.
α
Par exemple, si Sx0 (t) = e−(t/θ) , alors
· µ ¶ ¸
r(x) α
Sx (t) = exp − t .
θ

Les paramètres α, r(xθ1 ) , ..., r(xθk ) et les fonctions Sx1 , ..., Sxk peuvent être estimés mais puisque
r est complètement inconnu, r(x0 ) et donc Sx0 (t) ne peuvent pas être estimés.
Donc la fonction r doit être choisie dans une certaine classe des fonctions.
Considérons choix possible de la fonction r(x). Si le modèle (3) est vérifié sur un en-
semble des stress E , alors pour tous x1 , x2 ∈ E

Sx2 (t) = Sx1 (ρ(x1 , x2 )t),

où ρ(x1 , x2 ) = r(x2 )/r(x1 ) montre comment l’échelle de distribution change quand le stress
x2 est utilisé au lieu du stress x1 . Il est évident que ρ(x, x) = 1. Supposons que des stress
x ∈ E sont unidimensionnels : E ⊂ R. Le taux de changement d’échèle est déterminé par
la dérivée
ρ(x, x + ∆x) − ρ(x, x)
δ(x) = lim = [log r(x)]0 .
∆x→0 ∆x
Donc pour tout x ∈ E ½Z ¾
x
r(x) = exp δ(v)dv .
x0

Supposons que δ(x) est proportionnelle à une fonction connue u(x) de stress :

δ(x) = αu(x), α > 0. (4)

Alors
r(x) = eβ0 +β1 z(x) ,
où z(x) est une fonction connue, β0 , β1 - des paramètres inconnus.

Des cas particulers :


a). δ(x) = α, i.e. le taux de changement de l’échelle est constant. Alors

r(x) = eβ0 +β1 x ,

où β1 > 0. C’est le modèle loglinéaire. Ce modèle est appliqué pour analyser des donnés de
fatigue, testant divers composantes électroniques.

338
b). δ(x) = α/x, alors
r(x) = eβ0 +β1 log x = αxβ1 ,
où β1 > 0. C’est le modèle de la règle de puissance (“power rule model”).
Ce modèle est appliqué quand le stress est le voltage, la charge mécanique.
c). δ(x) = α/x2 , alors
r(x) = eβ0 +β1 /x = αeβ1 /x ,
où β1 < 0. C’est le modèle d’Arrhénius.
Ce modèle est largement appliqué quand le stress est la température.
S’il n’est pas clair laquelle de ces trois paramétrisations de r(x) à choisir, on peut consi-
dérer la plus large paramétrisation :
δ(x) = αxγ ,
qui est équivalente à ½ ε
eβ0 +β1 (x −1)/ε , si ε 6= 0,
r(x) =
eβ0 +β1 log x , si ε = 0.
Dans le cas du deuxième plan la paramétrisation de r n’est pas nécessaire. Si le premier
groupe est testé sous le stress accéléré x1 et le deuxième groupe sous le stress
½
x1 , 0 ≤ τ ≤ t1 ,
x2 (t) =
x0 , t1 < τ ≤ t2 ,
alors
Sx1 (u) = Sx0 (ru),
½
Sx0 (ru), 0 ≤ u ≤ t1 ,
Sx2 (·) (u) =
Sx0 (r(u ∧ t1 ) + (u − t1 ) ∨ 0), t1 < u ≤ t2 ,
où r = r(x1 )/r(x0 ). Les fonctions Sx1 et Sx2 (·) peuvent être toujours estimées. On verra plus
tard que des estimateurs de r et consécutivement de Sx0 peuvent être obtenues même dans
le cas quand la fonction Sx0 est complètement inconnue.
Le modèle (4) peut être généralisé, en supposant que δ(x) est la combinaison linéaire
des fonctions connues du stress :
k
δ(x) = ∑ αi ui (x).
i=1

Dans ce cas
k
r(x) = exp {β0 + ∑ βi zi (x)},
i=1
où ri (x) sont des fonctions du stress connus, β0 , ..., βk des paramètres inconnus (peut être
pas tous).
Exemple.
1. δ(x) = 1/x + α/x2 .
Alors r(x) = eβ0 +β1 log x+β2 /x = α1 xeβ2 /x , où β1 = 1, β2 < 0. C’est le modèle d’Eyring,
on l’applique souvent quand le stress est une température.
2. δ(x) = ∑ki=1 αi /xi . Alors
k−1
r(x) = exp {β0 + β1 log x + ∑ βi /xi }.
i=1

339
C’est le modèle d’Eyring généralisé.
Le stress peut être multidimensionnel : x = (x1 , ..., xm )T . Alors on considère des carac-
téristiques infinitésimales δi (x) données par des égalités :

ρ(x, x + ∆xi ei ) − ρ(x, x) ∂ log r(x)


δi (x) = lim = ,
∆xi →0 ∆xi ∂xi

où ei = (0, ..., 1, ..., 0). L’unité est dans la i-ème coordoné.


Généralisant le cas unidimensionnel, δi (x) peut être paramétrisé de façon suivant

ki
δi (x) = ∑ αi j ui j (x),
j=1

où ui j (x) sont des fonctions connues, αi j -des constantes inconnues. Dans ce cas

m ki
r(x) = exp{β0 + ∑ ∑ βi j zi j (x)},
i=1 j=1

où zi j (x) sont des fonctions connues, βi j sont des constantes inconnues.


Exemples.
1. δ1 (x) = 1/x1 + (α11 + α12 x2 )/x12 , δ2 (x) = α21 + α22 /x1 .
C’est le modèle d’Eyring généralisé. On l’applique pour certains matériels des semi-
conducteurs, quand x1 est la température et x2 est le voltage.
2. δi (x) = αi ui (xi ),
où ui sont connues. Alors
m Z xi m
r(x) = exp { ∑ αi ui (v)dv} = exp {β0 + ∑ βi zi (xi )},
i=1 xi0 i=1

où z j sont des fonctions connues. C’est le modèle d’Arrhénius généralisé.


Donc dans tous les cas considérés les modèles (2) et (3) peuvent être écrits sous la forme
µZ t T ¶
Sx(·) (t) = Sx0 e β z (τ)
dτ , (5)
0

ou µ T ¶
Sx (t) = Sx0 eβ zt , (6)

où β = (β0 , ..., βm )T est un vecteur des paramètres,

z(t) = (z0 (t), ..., zm (t))T = (z0 (x(t)), ..., zm (x(t)))T , z = (z0 (x), ..., zm (x))T

sont des vecteurs des fonctions connues du stress, la première composante z0 est égale à 1.
Ces modèles peuvent être considérés comme paramétriques, si la fonction Sx0 appar-
tienne à une certaine classe des répartitions, ou comme semiparamétriques si Sx0 est com-
plètement inconnue.

340
6.11.2 Estimation paramétrique

On suppose, que le modèle (6) est considéré et le premier plan d’expériences est utilisé :
k groupes d’unités sont observés ; on fixe la durée maximale d’expérience ti du i -ème
groupe et on teste ce groupe sous le stress accéléré xi (i = 1, ..., k). Notons

zil = zl (xi ), z(i) = (zi0 , ..., zim )T (i = 1, ..., k; l = 0, ..., m).

On suppose que Sx0 appartienne à une classe des répartitions

Sx0 (t) = S0 ((t/θ)ν ) , (θ, ν > 0). (7)

Par exemple, si
S0 (t) = e−t , (1 + t)−1 , 1 − Φ(lnt),
alors on obtient des classes des répartitions de Weibull, loglogistique, lognormale respecti-
vement. Ici Φ est la fonction de répartition de la loi normale standard. Donc le modèle (6)
peut être écrit sous la forme :
µ ¶
lnt − γT z
Sx (t) = S , t > 0,
σ

S(u) = S0 (eu ), u ∈ R, σ = 1/ν, γ = (γ0 , ..., γm ), γ0 = ln θ − β0 ,
γl = −βl (l = 1, ..., m).
Dans les cas des lois de Weibull, loglogistique et lognormale
u
S(u) = e−e , (1 + eu )−1 , 1 − Φ(u)

respectivement.
Notons Ti j la durée de vie (pas nécessairement observée) de jème unité du ième groupe,

f (u)
Xi j = ln (Ti j ∧ ti ), δi j = I{Ti j ≤ ti }, f (u) = −S0 (u), λ(u) = .
S(u)
La fonction de survie et la densité de ln Ti j sont
à ! à !
u − γT z(i) 1 u − γT z(i)
Si (u; γ, σ) = S , fi (u; γ, σ) = f , u ∈ R.
σ σ σ

Donc la fonction de vraisemblance


" à !#δi j à !
k ni
1 Xi j − γT z(i) Xi j − γT z(i)
L(γ, σ) = ∏ ∏ λ S .
i=1 j=1 σ σ σ

En dérivant par rapport à γi et σ la fonction ln L(γ, σ), on obtient

∂ ln L(γ, σ) 1 k ni
Ul (γ; σ) = = ∑ zil ∑ ai j (γ, σ), (l = 1, ..., m),
∂γl σ i=1 j=1

341
∂ ln L(γ, σ) 1 k ni
Um+1 (γ; σ) = = ∑ ∑ {vi j (γ, σ)ai j (γ, σ) − δi j },
∂σ σ i=1 j=1

Xi j − γT z(i)
vi j (γ, σ) = , ai j (γ, σ) = λ(vi j (γ, σ)) − δi j (ln λ)0 (vi j (γ, σ)).
σ
Des estimateurs de maximum de vraisemblance σ̂, γ̂ peuvent être obtenus en résolvant le
système d’équations
Ul (γ, σ) = 0 (l = 1, ..., m + 1).
Notons
I(γ, σ) = (Ilk (γ, σ))(m+1)×(m+1)
la matrice avec des éléments suivants :

∂2 ln L(γ, σ) 1 k ni
Ils (γ, σ) = − = 2 ∑ zil zis ∑ ci j (γ, σ), l, s = 0, ..., m;
∂γl ∂γs σ i=1 j=1

∂2 ln L(γ, σ) 1 1 k ni
Il,m+1 (γ, σ) = − = Ul (γ, σ) + 2 ∑ zil ∑ vi j (γ, σ)ci j (γ, σ), l = 0, ..., m;
∂γl ∂σ σ σ i=1 j=1

∂2 ln L(γ, σ) 2 1 k ni 2
Im+1,m+1 (γ, σ) = − = Um+1 (γ, σ) + 2 ∑ ∑ (vi j (γ, σ)ci j (γ, σ) + δi j ),
∂σ2 σ σ i=1 j=1

ci j (γ, σ) = λ0 (vi j (γ, σ)) − δi j (ln λ)00 (vi j (γ, σ)).
Si Tx0 suit les lois de Weibull, loglogistique ou lognormale, alors

λ(t) = et ; (1 + e−t )−1 ; ϕ(t)/(1 − Φ(t)).

respectivement, où
1 2
ϕ(t) = √ e−t /2 .

Si les estimateurs de maximum de vraisemblance γ̂ et σ̂ sont obtenus, alors l’estimateurs de
la fonction de survie Sx0 et de la p-quantile t p (x0 ) sont
à !
lnt − γ̂T z(0)
, tˆp (x0 ) = eγ̂ z [S0−1 (1 − p)]σ̂ .
T (0)
Ŝx0 (t) = S
σ̂

La loi asymptotique de (γ̂, σ̂)T quand ni sont grands est approchée par la loi normale
N((γ, σ)T , Σ (γ, σ)) et la matrice de covariance Σ (γ, σ) peut être estimé par

I−1 (γ̂, σ̂) = (I ls (γ̂, σ̂)(m+2)×(m+2) .

L’estimateur tˆp (x0 ) est la fonction régulière de γ̂ et σ̂, donc la loi asymptotique de tˆp (x0 ) est
aussi normale. Mais t p (x0 ) prend des valeurs positives, donc la vitesse de convergence vers
la loi normale est plus grande si on considère la loi limite de

K̂ p (x0 ) = ln tˆp (x0 ) = γ̂T z(0) + σ̂ ln [S0−1 (1 − p)].

342
La loi de K̂ p (x0 ) est approximée par la loi normale N(K p (x0 ), σ2Kp ), où la variance σ2Kp peut
être estimée par
µ ¶
∂K̂ p (x0 ) ∂K̂ p (x0 ) ∂K̂ p (x0 ) −1
σ̂Kp =
2
, ..., , I (γ̂, σ̂)×
∂γ̂0 ∂γ̂m ∂σ̂
µ ¶T
∂K̂ p (x0 ) ∂K̂ p (x0 ) ∂K̂ p (x0 ) m m

∂γ̂0
, ...,
∂γ̂m
,
∂σ̂
= ∑ ∑ z0l z0sI ls(γ̂, σ̂)+
l=0 s=0
m
2 ln [S0−1 (1 − p)] ∑ I l,m+1 (γ̂, σ̂)z0l + ln2 [S0−1 (1 − p)]I m+1,m+1 (γ̂, σ̂).
l=0
La loi de
K̂ p (x0 ) − K p (x0 )
σ̂Kp
est approchée par la loi N(0, 1). L’intervalle approximatif de confiance de niveau de confiance
(1 − α) pour K p (x0 ) est donné par la formule

K̂ p (x0 ) ± σ̂Kp w1−α/2 ,

où wα est la α-quantile de la loi de N(0, 1). L’intervalle approximatif pour t p (x0 ) est donné
par la formule
tˆp (x0 ) exp{±σ̂Kp w1−α/2 }.
L’estimateur Ŝx0 (t) est aussi la fonction régulière de γ et σ. Notons

Ŝx0 (t) Sx0 (t)


Q̂x0 (t) = ln et Qx0 (t) = ln .
1 − Ŝx0 (t) 1 − Sx0 (t)

La fonction Qx0 (t) prend ces valeurs dans R donc la convergence de Q̂x0 (t) vers la loi limite
est plus grande que la convergence de Ŝx0 (t) vers sa loi limite. Comme dans le cas de t p (x0 )
on obtient que la loi de
(Q̂x0 (t) − Qx0 (t))/σ̂Q0
est approximée par la loi normale N(0, 1) ; ici

S0 (S−1 (Ŝx0 (t)))


σ̂Q0 = ×
σ̂2 Ŝx0 (t)(1 − Ŝx0 (t))
s
m m m
σ̂2 ∑ ∑ z0l z0sI ls(γ̂, σ̂) − 2γ̂T z(0) ∑ z0l σ̂ + (γ̂T z(0))2.
l=0 s=0 l=0

Donc les (1 − α)-intervalles approximatifs de confiance pour Qx0 (t) et Sx0 (t) sont Q̂x0 (t) ±
σ̂Q0 w1−α/2 et
µ ¶−1
1 − Ŝx0 (t)
1+ exp{∓σ̂Q0 w1−α/2 } .
Ŝx0 (t)
Exemple 1. Si Tx0 suit la loi de Weibull, i.e.
ν
Sx0 (t) = e−(t/θ) , t ≥ 0,

343
et la paramétrisation d’Arrhénius est choisie (le stress est la température, par exemple), i.e.

r(x) = eβ0 +β1 /x ,

alors S(t) = exp{− exp(t)}, z00 = 1, z10 = 1/x0 , donc

lnt − γ̂0 − γ̂1 /x0


Ŝx0 (t) = exp{− exp{ }}, tˆp (x0 ) = eγ̂0 +γ̂1 /x0 (− ln (1 − p))σ̂ .
σ̂
Exemple 2. Si Tx0 suit la loi loglogistique, i.e.

Sx0 (t) = (1 + (t/θ)ν )−1 , t ≥ 0,

et la paramétrisation de la règle de puissance est choisie (le stress est le voltage, par exemple),
i.e.
r(x) = eβ0 +β1 ln x ,
alors
S(t) = (1 + et )−1 , z00 = 1, z10 = ln x0 ,
donc
· µ ¶¸ µ ¶σ̂
lnt − γ̂0 − γ̂1 ln x0 −1 γ̂0 +γ̂1 ln x0 p
Ŝx0 (t) = 1 + exp , tˆp (x0 ) = e .
σ̂ 1− p

Exemple 3. Si Tx0 suit la loi lognormale et la paramétrisation d’Eyring est choisie, i.e.

r(x) = eβ0 +β1 ln x+β2 /x ,

alors
z00 = 1, z10 = ln x0 , z20 = 1/x0 , S(t) = 1 − Φ(t)
et
µ ¶
lnt − γ̂0 − γ̂1 ln x0 − γ̂2 /x0 −1 (p)
Ŝx0 (t) = 1 − Φ , tˆp (x0 ) = eγ̂0 +γ̂1 ln x0 +γ̂2 /x0 +σ̂Φ .
σ̂

Exemple 4. Supposons que la durée de vie Tx0 suit la loi de Weibull et le stress x =
(x1 , x2 )T est bidimensionel (le voltage et la température, par exemple) et le modèle d’Ar-
rhénius généralisé avec δ1 (x) = α1 /x1 , δ2 /x22 est choisi. Alors

z00 = 1, z10 = ln x10 , z20 = 1/x20

et
lnt − γ̂0 − γ̂1 ln x10 − γ̂2 /x20
Ŝx0 (t) = exp {− exp { }},
σ̂
tˆp (x0 ) = eγ̂0 +γ̂1 ln x10 +γ̂2 /x20 (− ln (1 − p))σ̂ .
Les formules sont plus simples, si ν = 1 dans (7), par exemple dans le cas de la loi
exponentielle :

t p (x0 ) = −e−γ z ln (1 − p).


T (0)
Sx0 (t) = e−t/θ , t ≥ 0,

344
Le modèle (6) peut être écrit

Sx (t) = exp{− exp (γT z)t},


γ = (γ0 , ..., γm )T , γ0 = β0 − ln θ, γi = βi , (i = 1, ..., m).
La fonction de survie et le taux de pannes de Ti j sont

Sxi (t) = exp{− exp (γT z(i) )t},

λxi (t) = e−γ z .


T (i)

Notons Xi j = Ti j ∧ ti , δi j = I(Ti j ≤ ti ). La fonction de vraisemblance

£
k ni ¤δi j k ni
L(γ) = ∏ ∏ λxi (Xi j ) Sxi (Xi j ) = exp{− ∑ ∑ (δi j γT z(i) + eγ
T (i)
z X )}.
ij
i=1 j=1 i=1 j=1

Les fonctions score

∂ ln L(γ) k
= − ∑ zil (δi + eγ z Xi· ),
T (i)
Ul (γ) =
∂γl i=1


ni ni
δi = ∑ δi j , Xi· = ∑ Xi j
j=1 j=1

et la matrice d’information de Fisher

I(γ) = (Ils (γ)), (l, s = 0, ..., m),


½ ¾ ( ) µ ¶
∂2 ln L(γ) −eγ
k k T (i)
= E ∑ zil zis eγ z Xi·
z
= ∑ ni zil zis 1 − e
T (i) ti
Ils (γ) = −E .
∂γl ∂γs i=1 i=1

S’il n’y a pas de censures, i.e. ti = ∞, alors


k
Ils (γ) = ∑ ni zil zis
i=1

ne dépendent pas de γ.
Notons Î = I(γ̂) la matrice d’information de Fisher estimée.
La loi asymptotique de γ̂ quand ni sont grands est approximée par la loi normale N(γ, I−1 (γ))
et donc la loi de
K̂ p (x0 ) = ln tˆp (x0 ) = −γ̂T z(0) + ln (− ln (1 − p))
est approximée par la loi normale N(K p (x0 ), σ2Kp ), où

m m
σ2Kp = ∑ ∑ I ls(γ)z0l z0s,
l=0 s=0

345
Notons
m m
σ̂2Kp = ∑ ∑ I ls(γ̂)z0l z0s.
l=0 s=0
Donc
K̂ p (x0 ) − K p (x0 )
σ̂Kp
est approximée par la loi N(0, 1). L’intervalle approximatif de confiance du niveau 1 − α
pour t p (x0 ) est donné par la formule

tˆp (x0 ) exp{±σ̂Kp w1−α/2 }.

L’estimateur Ŝx0 (t) est aussi la fonction régulière de γ. Notons

Ŝx0 (t) Sx0 (t)


Q̂x0 (t) = ln et Qx0 (t) = ln .
1 − Ŝx0 (t) 1 − Sx0 (t)

Comme dans le cas du quantile t p (x0 ) on obtient que la loi de

Q̂x0 (t) − Qx0 (t)


σ̂x0

peut être approximée par la loi N(0, 1) ; ici


s
m m
σ̂Q0 = ln Ŝx0 (t) ∑ ∑ z0l z0sI ls(γ̂).
l=0 s=0

Donc les (1 − α)-intervalles de confiance approximatifs pour Qx0 (t) et Sx0 (t) sont

Q̂x0 (t) ± σ̂Q0 w1−α/2

et µ ¶−1
1 − Ŝx0 (t)
1+ exp{∓σ̂Q0 w1−α/2 } .
Ŝx0 (t)
Si γ̂ est l’estimateur de maximum de vraisemblance pour γ, alors

Ŝx0 (t) = exp{−eγ̂ z t}, tˆp (x0 ) = − exp{−eγ̂ z ln (1 − p)}.


T (0) T (0)

Par exemple, dans le cas de modèles d’Arrhénius et de la règle de puissance il faut prendre
zil = 1/xil et zil = ln xil respectivement et on a

Ŝx0 (t) = exp{−eγ̂0 +γ̂1 /x0 t}, Ŝx0 (t) = exp{−eγ̂0 +γ̂1 ln x0 t}

respectivement.
Le premier plan d’expérience a ses points faibles :
1) des strictes suppositions sur la forme de la fonction r(x) sont faites ;
2) comme dans le cas de tous les modèles de régression la prédiction de variable dépen-
dante pour la valeur de stress x0 peut être mauvaise parce que cette valeur n’appartient pas
à la région des stress utilisés pendant des expériences.

346
Donc supposons que le deuxième plan est utilisé : le premier groupe d’articles de taille
n1 est testé sous le stress accéléré x1 et un échantillon complet T11 ≤ ... ≤ T1n1 est obtenu,
le deuxième groupe de taille n2 est testé sous le stress
½
x1 , si 0 ≤ τ ≤ t1 ,
x2 (τ) =
x0 , si t1 ≤ τ ≤ t2

et un échantillon censuré du premier type T21 ≤ ... ≤ T2m2 est obtenu (m2 ≤ n2 ).
Supposons que ¡ ¢
Sx0 (t) = S0 (t/θ)α ,
donc le modèle (2) peut être écrit
µµZ t
¶α ¶
Sx(·) (t) = S0 r[x(t)]dτ/θ . (8)
0

La formule (8) implique µ³ ´α ¶


rt
Sx1 (t) = S0 ,
θ
¡ ¢
Sx2 (t) = S0 ((r(t1 ∧ t) + (t − t1 ) ∨ 0)/θ)α ,
où r = r(x1 ).
Notons

ρ = ln r, ψ = ln θ, S(t) = S0 (et ), f (t) = −S0 (t), λ(t) = f (t)/S(t).

Alors
Sx1 (t) = S(α(lnt + ρ − ψ));
½
S(α(lnt + ρ − ψ)), t ≤ t1 ,
Sx2 (t) = ρ
S(α(ln (e t1 + t − t1 ) − ψ)), t > t1 ;
α
fx1 (t) = f (α(lnt + ρ − ψ)) ;
t
½ α
f (α(lnt + ρ − ψ)) t , t ≤ t1 ,
fx2 (t) = ρ α
f (α(ln (e t1 + t − t1 ) − ψ)) eρt1 +t−t1 , t > t1 .
Notons r2 le nombre de pannes du deuxième groupe jusqu’au moment t1 . La fonction de
vraisemblance
n1
α r2
α
L = ∏ f (α(ln T1 j + ρ − ψ)) ∏ f (α(ln T2 j + ρ − ψ)) T2 j ×
j=1 T1 j j=1

m2
α
∏ f (α(ln (eρt1 + T2 j − t1 ) − ψ))
eρt 1 + T2j − t1
Sn2 −m2 (α(ln (eρt1 + t2 − t1 ) − ψ)),
j=r2 +1

donc
∂ ln L n1
c(T1 j ) n1 + m2
U1 (α, ρ, ψ) =
∂α
= ∑ (ln f )0(c(T1 j )) α
+
α
+
j=1
r2 m2
c(T2 j ) d(T2 j ) d(t2 )
∑ (ln f )0(c(T2 j )) α
+ ∑ (ln f )0 (d(T2 j ))
α
− (n2 − m2 )λ(d(t2 ))
α
,
j=1 j=r2 +1

347
∂ ln L n1 r2
U2 (α, ρ, ψ) =
∂ρ
= ∑ (ln f )0(c(T1 j ))α + ∑ (ln f )0(c(T2 j ))α+
j=1 j=1
m2
αeρt1 m2
eρt1 αeρt1
∑ eρt1 + T2 j − t1 j=r∑
(ln f )0 (d(T2 j )) −
e ρt + T − t
1 2 j 1
−(n 2 −m 2 )λ(d(t 2 ))
eρt + t − t
1 2 1
,
j=r2 +1 2 +1
"
∂ ln L n1 r2
U3 (α, ρ, ψ) = = −α ∑ (ln f )0 (c(T1 j )) + ∑ (ln f )0 (c(T2 j ))+
∂ψ j=1 j=1
#
m2
∑ (ln f )0 (d(T2 j )) − (n2 − m2 )λ(d(t2 )) ,
j=r2 +1


c(u) = α(ln u + ρ − ψ), d(u) = α(ln (eρt1 + u − t1 ) − ψ).
Dans les cas des lois de Weibull, loglogistique et lognormale

1 − et
(ln f )0 (t) = et ; ; −t,
1 + et
respectivement, et
ϕ(t)
λ(t) = et ; (1 + e−t )−1 ; ,
1 − Φ(t)
respectivement.
Si les estimateurs de maximum de vraisemblance α̂, ρ̂, ψ̂ sont obtenus, alors l’estima-
teurs de la fonction de survie Sx0 et de la p-quantile t p (x0 ) sont

1
Ŝx0 (t) = S(α̂(lnt − ψ̂)), tˆp = exp{ψ̂ + S−1 (1 − p)}.
α̂
Dans les cas des lois de Weibull, loglogistique et lognormale

1
S−1 (p) = ln (− ln (1 − p)); − ln ( − 1); Φ−1 (1 − p).
p

Notons I(α, ρ, ψ) = (Ii j (α, ρ, ψ) une (3 × 4) matrice symétrique avec des éléments sui-
vantes : (
∂2 ln L 1 n1
I11 = −
∂α2
= − ∑ (ln f )00(c(T1 j ))[c(T1 j )]2 − n1 − m2+
α2 j=1
r2 m2
∑ (ln f )00(c(T2 j ))[c(T2 j )]2 + ∑ (ln f )00 (d(T2 j ))[d(T2 j )]2 −
j=1 j=r2 +1
ª
(n2 − m2 )λ0 (d(t2 ))[d(t2 )]2 ,
∂2 ln L n1
I12 = I21 = − = − ∑ (ln f )00 (c(T1 j ))c(T1 j )−
∂α∂ρ j=1
r2 m2
eρt1
∑ (ln f )00(c(T2 j )) − ∑ (ln f )00 (d(T2 j ))d(T2 j ) + (n2 − m2 )λ0 (d(t2 ))
eρt1 + t2 − t1

j=1 j=r2 +1

348
1 1 m2
eρt1
α
U2 (α, ρ, ψ) −
α ∑ eρt1 + T2 j − t1 ,
j=r2 +1

∂2 ln L n1 r2
I13 = I31 = −
∂α∂ψ
= ∑ (ln f )00(c(T1 j ))c(T1 j ) + ∑ (ln f )00(c(T2 j ))c(T2 j )+
j=1 j=1
m2
1
∑ (ln f )00 (d(T2 j ))d(T2 j ) − (n2 − m2 )λ0 (d(t2 ))d(t2 ) − U3 (α, ρ, ψ),
α
j=r2 +1

∂2 ln L n1
I22 = −
∂ρ2
= −α2
∑ (ln f )00(c(T1 j ))−
j=1
µ ¶2
r2 m2
eρt1
α ∑ (ln f ) (c(T2 j )) − α ∑ (ln f ) (d(T2 j )) ρ
2 00 2 00

j=1 j=r2 +1 e t1 + T2 j − t1
m2
eρt1 (T2 j − t1 )
∑ [α(ln f )0 (d(T2 j )) − 1]
(eρt1 + T2 j − t1 )2
+
j=r2 +1
µ ¶2
0 αeρt1 αeρt1 (t2 − t1 )
(n2 − m2 )λ (d(t2 )) ρ + (n2 − m2 )λ(d(t2 )) ρ ,
e t1 + t2 − t1 (e t1 + t2 − t1 )2
(
∂2 ln L n1 r2
I23 = I32 = − = α ∑ (ln f ) (c(T1 j )) + ∑ (ln f )00 (c(T2 j ))+
2 00
∂ρ∂ψ j=1 j=1
)
m2
eρt e ρt
∑ (ln f )00(d(T2 j )) eρt1 + T2 j − t1 − (n2 − m2)λ0(d(t2)) (eρt1 + t2 − t1) ,
1 1

j=r2 +1
"
∂ ln L
2 n1 r2
I33 = − = −α ∑ (ln f ) (c(T1 j )) + ∑ (ln f )00 (c(T2 j ))+
2 00
∂ψ 2
j=1 j=1
#
m2
∑ (ln f )00 (d(T2 j )) − (n2 − m2 )λ0 (d(t2 )) .
j=r2 +1

Dans les cas des lois de Weibull, loglogistique et lognormale

00 t −2et
(ln f ) (t) = e ; ; −1,
(1 + et )2

respectivement, et
µ ¶2
0 et ϕ(t) ϕ(t)
λ (t) = e ; t
; −t + ,
(1 + et )2 1 − Φ(t) 1 − Φ(t)

respectivement.
Si n est grand, la loi de (α̂, ρ̂, ψ̂) peut être approchée par la loi normale de moyenne
(α, ρ, ψ) et la matrice de covariance estimée par

I−1 (α̂, ρ̂, ψ̂) = (I ls (α̂, ρ̂, ψ̂))3×3 .

349
Notons
Ŝx0 (t)
Q̂x0 (t) = ln .
1 − Ŝx0 (t)
La loi de
(Q̂x0 (yt) − Qx0 (t))/σ̂Q0
est approchée par la loi normale N(0, 1), ici

S0 (S−1 (Ŝx0 (t)))


σ̂Q0 = ×
Ŝx0 (t)(1 − Ŝx0 (t))
q
(lnt − ψ̂)2 I 11 (α̂, ρ̂, ψ̂) − 2α̂(lnt − ψ̂)I 13 (α̂, ρ̂, ψ̂) + α̂2 I 33 (α̂, ρ̂, ψ̂).
Donc les (1 − α) intervalles approximatifs de confiance pour Qx0 (t) et Sx0 (t) sont
µ ¶−1
1 − Ŝx0 (t)
Q̂x0 ± σ̂Q0 w1−α/2 et 1+ exp{∓σ̂Q0 w1−α/2 } ,
Ŝx0 (t)
respectivement.
Notons
1
K̂ p (x0 ) = ln tˆp (x0 ) = ψ̂ + S−1 (1 − p).
α̂
La loi de
(K̂ p (x0 ) − K p (x0 ))/σ̂Kp
est approchée par la loi normale N(0, 1) ; ici
µ ¶2
S−1 (1 − p) S−1 (1 − p) 13 33
σ̂2Kp = I 11 − I +I .
α2 α2
Donc les (1 − α) intervalles approximatifs de confiance pour

K p (x0 ) = lnt p (x0 ) et t p (x0 )

sont
K̂ p (x0 ) + ±w1−α/2 σ̂Kp et tˆp (x0 ) exp{±σ̂Kp w1−α/2 }
respectivement.

6.11.3 Estimation semiparamétrique

On suppose que le modèle (5) est considéré et la fonction Sx0 est inconnue. On considère
le premier plan d’expériences. La fonction de survie sous le stress xi est

Sxi (t) = Sx0 (eβ zi t).


T

Notons Ni (τ) les nombres des pannes observées du i-ème groupe dans l’intervalle [0, τ],
Yi (τ) des nombres d’unités “a risque” (à l’état de fonctionnement et non-censurés) avant le

350
moment τ, Ti1 ≤ ... ≤ Timi les moments de pannes du i-ème groupe, mi = Ni (ti ). On suppose
d’abord que β soit connu. Les variables aléatoires

eβ zi Ti j
T
(i = 1, ..., k; j = 1, ..., mi )

peuvent être considérées comme des pseudo-pannes “observées” dans une expérience où
n = ∑mi=1 ni unités avec la fonction de survie Sx0 ont été testés et ni parmi elles ont été
censurées au moment eβ zi t (i = 1, 2, ..., k). Alors
T
i

k
N R (τ, β) = ∑ Ni (e−βzi τ)
i=1

est le nombre des pannes observées dans l’intervalle [0, τ] et


k
Y (τ, β) = ∑ Yi (e−βzi τ)
R
i=1

est le nombre des unités à risque avant le moment t.


La fonction de survie Sx0 peut être estimée par l’estimateur de Kaplan-Meier : pour tous
s ≤ maxi {eβzi ti }
µ ¶ Ã !
∆N −βzi τ)
∆N (τ, β)
R
∑ m
(e
S̃x0 (s, β) = ∏ 1 − R = ∏ 1 − l=1
l
,
τ≤s Y (τ, β) τ≤s ∑ Yl (e−βzi τ)
m
l=1

où ∆N R (τ, β) = N R (τ, β) − N R (τ−, β). On écrit S̃0 de façon suivant :


à !
1
S̃x0 (s, β) = ∏ 1−
β(zi −zl ) Ti j )
.
(i, j):Ti j ≤exp{−βzi }s ∑m
Y
l=1 l (e

La fonction de vraisemblance
k mi
L(β) = ∏ ∏ [S̃x0 (eβ zi Ti j −, β) − S̃x0 (eβ zi Ti j , β)]S̃xni0−mi (eβ zi ti , β),
T T T

i=1 j=1


S̃x0 (u−, β) = lim S̃x0 (u − ε, β).
ε↓0

Le facteur qui correspond à une panne est le saut de la fonction S̃x0 parce que la den-
sité fx0 = −Sx0 0 est inconnue et peut être approchée dans les points eβ zi Ti j par le facteur
T

proportionnel à
S̃x0 (eβ zi Ti j −, β) − S̃x0 (eβ zi Ti j , β).
T T

Si on a des ex aequo, alors on note T1∗ (β) < ... < Tq∗ (β) les moments différents parmi
exp{βT zi }Ti j , d j - le nombre des pseudopannes au moment T j∗ (β). Alors pour tout s ≤
maxi {eβ zi ti }
T

 
dj
S̃x0 (s, β) = ∏ 1 − 
β
T
j:T ∗ (β)≤s ∑ Y (e
m − z l ∗
T (β))
j l=1 l j

351
et
q m
(β), β) − S̃x0 (T j∗ (β), β)]di ∏ S̃xni0−mi (eβ zi ti , β).
T
L(β) = ∏ [S̃x0 (T j−1

j=1 i=1

Notons β̂ = Argmaxβ L(β). La fonction de survie sous le stress normale est estimée pour
T
tous s ≤ maxi {eβ̂ zi ti } par
Ŝx0 (s) = S̃x0 (s, β̂).
Au lieu d’estimation par la méthode de maximum de vraisemblance on peut considérer la
méthode des moments modifiée.
Si β est connu, le taux de pannes accumulé

Ax0 (t) = exp{−Sx0 (t)}

peut être estimé par l’estimateur de Nelson-Aalen :


pour tout t ≤ max{eβ zi t } on a
T
i

d ∑ki=1 Ni (e−β zi u)
Z t Z t T
dN R (u)
Ãx0 (t, β) = = .
∑ki=1 Yi (e−β zi u)
0 Y R (u) 0
T

La proposition (annexe) implique que


k Z ∞
dNi (u) −Yi (u)dAx0 (eβ zi u) =
T
E ∑ zi
i=1 0

k Z ∞
E ∑ zi dNi (u) −Yi (u)dAi (u) = 0.
i=1 0

Donc l’estimateur de β peut être trouvé en considérant la fonction


k Z ∞
Ũ(β) = ∑ zi dNi (u) −Yi (u)d Ãx0 (eβzi u, β). (9)
i=1 0

C’est la fonction en escaliers et ces valeurs sont dispersées autour zéro. L’estimateur de β
peut être déterminé comme
β̂ = sup Arg min Ũ(β).
β
Le choix de poids zi peut être justifié de façon suivante. Si Ax0 est connue, alors la fonction
de vraisemblance pour β
k ni
δ
L(β) = ∏ ∏ λxiij (Xi j )Sxi (Xi j )
i=1 j=1
et donc

∂ ln L(β) k ni
βz α0x0 (eβzi Xi j )
Ul (β) = = ∑ ∑ δi j zil [1 + e Xi j
i
− αx0 (eβzi Xi j )eβzi Xi j ] =
∂βl i=1 j=1
βz
αx (e Xi j )
i
0

k Z ∞
∑ Wi (u)(dNi (u) −Yi (u)dAx0 (eβzi )),
i=1 0

352
où Ã !
βz α0x0 (eβzi u)
Wil = zil 1+e u i
.
αx0 (eβzi u)
Les poids optimaux Wil dépendent de la loi de Tx0 . Si Tx0 suit la loi de Weibull, alors
Wil (u) = zil . Notons

U(β) = (U0 (β), ...,Um (β))T , Wi (u) = (Wi0 , ...,Wim (u)).

Alors
k Z ∞
Wi (u)(dNi (u) −Yi (u)dAx0 (eβ zi u).
T
U(β) = ∑ (10)
i 0

Remplaçant dans (10) la fonction inconnue Ax0 (v) par le pseudoestimateur Ãx0 (v, β) et en
prenant des poids Wil (u) = zil , on obtient la fonction score modifiée Ũ(β), donnée par la
formule (9).
Le choix de poids influence un peu l’effectivité mais pas la validité des procédures
inférentielles. Les poids optimaux dépendent de la dérivée du taux de pannes et donc ne
peuvent pas être bien estimés quand la loi est inconnue.Donc on utilise les poids les plus
simples Wil (u) = zil qui sont optimaux pour la loi de Weibull.
Après avoir trouvé l’estimateur β̂ par une des méthodes considérées on obtient un esti-
mateur de la fonction de survie :

Ŝx0 (t) = S̃x0 (t, β̂)

ou, de façon alternative,


Ŝx0 (t) = exp{−Ã0 (t, β̂)}.
Considérons le deuxième plan d’expériences. Le premier groupe d’articles de taille n1 est
testé sous le stress accéléré x1 et un échantillon complet T11 ≤ ... ≤ T1n1 est obtenu. Le
deuxième groupe de taille n2 est testé sous le stress ( ) et un échantillon censuré T21 ≤ ... ≤
T2m2 est obtenu (m2 ≤ n2 ). Notons Ni (τ) et Yi (τ) les nombres des pannes observées dans
l’intervalle [0, τ], Yi (τ) les nombres d’unités “à risque” avant le moment τ du ième groupe :
n1 m2
N1 (τ) = ∑ I(T1 j ≤ τ), N2 (τ) = ∑ I(T2 j ≤ τ),
j=1 j=1
" #
n1 m2
Y1 (τ) = ∑ I(T1 j ≥ τ),Y2(τ) = ∑ I(T2 j ≥ τ) + n2 − m2 I(τ ≤ t).
j=1 j=1

Le modèle (8) implique que

Sx1 (t) = Sx0 (rt), Sx2 (t) = Sx0 (r(t ∧ t1 ) + (t − t1 ) ∨ 0),

où r = r(x1 ). Les moments

Ri j = rTi j et R2 j = r(T2 j ∧ t1 ) + (T2 j − t1 ) ∨ 0

peuvent être interprétés comme les moments de pannes obtenus dans une expérience pen-
dant laquelle n = n1 + n2 “unités” de fonction de survie Sx0 ont été observés et le temps de

353
censure pour les dernières n2 “unités” a été égale à (rt1 + t − t1 ). Les nombres des pannes,
“obsrvées” dans un intervalle [0, u] serait

N R (u) = W1 (u/r) + N2 (u/r ∧ t1 + (u − rt1 ) ∨ 0)

et le nombre des “unités à risque”

Y R (u) = Y1 (u/r) +Y2 (u/r ∧ t1 ) + (u − rt1 ) ∨ 0).

Donc le pseudoestimateur Ã0 (s, r), dependant de r, de la fonction de pannes accumulées


A0 (t) = − ln S0 (t) est
Z s
dN1 (u/r) + dN2 ((u/r) ∧ t1 + (u − rt1 ) ∨ 0)
Ã0 (s, r) =
0 Y1 (u/r) +Y2 ((u/r) ∧ t1 + (u − rt1 ) ∨ 0)

et le pseudoestimateur S̃0 (s, r) de la fonction de survie S0 est


µ ¶
1
S̃0 (s, r) = ∏ 1− ×
(i, j)∈B(s)
Y1 (T1i ) +Y2 (t1 ∧ T1i + r((T1i − t1 ) ∨ 0))
à !
1
1− T2 j −t1
,
Y2 (T2 j ) +Y1 (t1 ∧ T2 j + ( r ) ∨ 0)

B(s) = {(i, j)| rT1i ≤ s et r(T2 j ∧ t1 ) + (T2 j − t1 ) ∨ 0 ≤ s}.
Alors les pseudoestimateurs pour S1 = Sx1 et S2 = Sx2 sont

S̃1 (s, r) = S̃0 (rs, r), S̃2 (s) = S̃0 (r(s ∧ t1 ) + (s − t1 ) ∨ 0).

La fonction de vraisemblance observée


n1 m2
L(r) = ∏[S̃0 (rT1i −, r) − S̃0 (rT1i , r)] ∏ [S̃0 ((r(T2 j ∧ t1 ) + (T2 j − t1 ) ∨ 0)−, r)
i=1 j=1

−S̃0 (r(T2 j ∧ t1 ) + (T2 j − t1 ) ∨ 0, r)][S̃0 (rt1 + t − t1 , r)]n2 −m2 .


Considérons la méthode des moments modifiée. De la même façon qu’au cas du premier
plan, on a
2 Z ∞
E∑ xi (τ)(dNi (τ) −Yi (τ)dAi (t)) =
i=1 0
Z ∞ Z ∞
x1 E (dN1 (τ) −Y1 (τ)dA0 (rτ) + E x2 (τ){dN2 (τ) −Y2 (τ)dA0 (r(τ ∧ t1 ) + (τ − t1 ) ∨ 0)
0 0
Notons n = n1 + n2 . Considérons la fonction
Z ∞
1
Û(r) = {x1 (dN1 (τ) −Y1 (τ)d Ã0 (rτ, r)+
x1 − x0 0
Z ∞
x2 (τ){dN2 (τ −Y2 (τ)d Ã0 (r(t ∧ t1 ) + (t − t1 ) ∨ 0, r)}.
0

354
Il est facile à montrer que
Z t
Y2 (τ)dN1 (t1 + τ−t τ−t1
r ) −Y1 (t1 + r )dN2 (τ)
1
Û(r) =
t1 Y1 (t1 + τ−t
r ) +Y2 (τ)
1

ou
Y2 (t1 + r(T1 j − t1 ))
Û(r) = ∑ −
j:T1 j >t1 Y1 (T1 j ) +Y2 (t1 + r(T1 j − t1 ))
T2 j −t1
Y1 (t1 + r )
∑ T2 j −t1
.
j:T2 j >t1 Y1 (t1 + r ) +Y2 (T2 j )

La fonction Û est décroissante et en escaliers, Û(0) > 0, Û(∞) < 0 avec une probabilité 1.
L’estimateur du paramètre r :

r̂ = Û −1 (0) = sup {r : Û(r) ≥ 0}.

Alors Z s £ ¤
dN1 ( ur̂ ) + dN2 ur̂ ∧ t1 + (u − r̂t1 ) ∨ 0
Â0 (s) = £u ¤ =
0 Y1 ( ur̂ ) +Y2 r̂ ∧ t1 + (u − r̂t1 ) ∨ 0
1
∑ Y (T ) +Y2 [T1 j ∧ t1 + r̂(T1 j − t1 ) ∨ 0]
+
j: T1 j ≤s 1 1j

1
∑ T2 j −t1
.
j: T2 j ≤ r̂s ∧t1 +(s−r̂t1 )∨0 Y1 [T2 j ∧ t1 + r̂ ∨ 0] +Y2 (T2 j )
La fonction de survie Sx0 peut être estimée par l’estimateur

Ŝx0 (t) = S̃x0 (t, β̂)

ou de façon alternative
Ŝx0 (t) = exp{−Â0 (t)}.
Les propriétés asymptotiques des estimateurs et construction des intervalles de confiance
approximatifs sont données dans Bagdonavičius & Nikulin (1997).

355
356
Chapitre 7

INFERENCE BAYESIENNE

7.1 La règle Bayesienne

Soit (X, Θ)T un vecteur aléatoire à valeurs dans l’espace χ × Ω et soit p(x, θ) sa densité.
Alors Z Z
π(θ) = p(x, θ)dx et q(x) = p(x, θ)dθ (7.1)
χ Ω

sont les densités marginales de Θ et X, respectivement. L’approche bayesienne suppose que


pendant l’expérience on n’observe que des réalisations de X, i.e. on suppose que X est une
variable (un vecteur) observable appelée un échantillon. Par contre la deuxième composante
Θ est inconnue et non observée et est considérée comme un paramètre. Supposons que la
densité conditionnelle de X sachant la valeur de Θ est connue. Notons
p(x, θ)
π(x|θ) = (7.2)
π(θ)

la densité conditionnelle de X sachant que Θ = θ, et soit

p(x, θ)
q(θ|x) = (7.3)
q(x)

la densité conditonnelle de Θ sachant que X = x. Puisque

p(x, θ) = π(x|θ)π(θ) = q(θ|x)q(x), (7.4)

de (1)-(4) on tire les formules de Bayes :

π(x|θ)π(θ) π(x|θ)π(θ)
q(θ|x) = =R (7.5)
q(x) Ω π(x|θ)π(θ)dθ

et
q(θ|x)q(x) q(θ|x)q(x)
π(x|θ) = =R . (7.6)
π(θ) χ q(θ|x)q(x)dx

La densité marginale π(θ) de Θ est appelée la densité à priori et la densité conditionnelle


q(θ|x) de Θ sachant X = x est appelée la densité à posteriori ¤

357
Exemple 1. Supposons que Θ suit la loi normale N(µ, τ2 ), i.e. la densité à priori est
µ ¶
1 θ−µ
π(θ) = ϕ , θ ∈ R1 , (7.7)
τ τ

où ϕ(u) est la densité de la loi normale standard N(0, 1), µ et τ sont connus, |µ| < ∞, τ2 > 0.
On suppose que la loi conditionnelle de X sachant que Θ = θ est normale N(θ, σ2 ) i.e., la
densité conditionnelle de X sachant Θ = θ est
µ ¶
1 x−θ
π(x|θ) = ϕ , (7.8)
σ σ

σ2 > 0, σ2 est connu. Calculons la densité q(x) de la loi marginale de X. D’aprés (1)-(3) on
a Z ∞ Z ∞ µ ¶ µ ¶
1 x−θ 1 θ−µ
q(x) = π(x|θ)π(θ)dθ = ϕ ϕ dθ
−∞ −∞ σ σ τ τ
Z ∞ ½ ¾ ½ ¾
1 1 1 1
= √ exp − 2 (x − θ) √ 2
exp − 2 (θ − µ) dθ 2
−∞ 2πσ2 2σ 2πτ2 2τ
Z ∞ ½ · ¸¾
1 1 x2 − 2xθ + θ2 θ2 − 2θµ + µ2
= exp − + dθ
2πστ −∞ 2 σ2 τ2

½ µ ¶¾ Z ∞ ½ · ³x ¸¾
1 1 x2 µ2 1 θ2 µ ´ θ2
= exp − + exp − − 2θ 2 + 2 + 2 dθ
2πστ 2 σ2 τ2 −∞ 2 σ2 σ τ τ
½ µ ¶¾
1 1 x2 µ2
= exp − + ×
2πστ 2 σ2 τ2

Z ∞ ½· µ ¶ ³x ¸¾
1 2 1 1 µ´ ³ x µ ´2 ³ x µ ´2
× exp − θ + − 2θ 2 + 2 + 2 + 2 − 2 + 2 dθ
−∞ 2 σ2 τ2 σ τ σ τ σ τ
½ ¾
1 1 τ2 x2 + σ2 µ2
= exp − ×
2πστ 2 σ2 τ2

Z ∞
( " µ 2 ¶2 µ 2 ¶2 #)
τ2 + σ2 2 τ2 x + σ2 µ τ x + σ2 µ τ x + σ2 µ
× exp − 2 2 θ − 2θ 2 + − dθ
−∞ 2σ τ σ + τ2 σ2 + τ2 σ2 + τ2
½ ¾
1 1 τ2 x2 + σ2 µ2
= exp − ×
2πστ 2 σ2 τ2
Z ∞
( µ ¶2 ) ½ ¾
τ2 + σ2 τ2 x + σ2 µ (xτ2 + µσ2 )2
exp − 2 2 θ − 2 exp dθ
−∞ 2σ τ σ + τ2 2σ2 τ2 (σ2 + τ2 )
½ 2 2 ¾
1 τ x + σ2 µ2 (x2 τ2 + µ2 σ2 )2
=√ √ exp − + 2 2 2
2π τ2 + σ2 σ2 τ2 2σ τ (σ + τ2 )

358
½ ¾
1 1 2
=√ √ exp − (x − µ) , (7.9)
2π τ2 + σ2 2(σ2 + τ2 )
i.e. la loi marginale de X est normale N(µ, σ2 + τ2 ) de paramètres

EX = µ et Var X = σ2 + τ2 . (7.10)

D’après (2) la densité p(x, θ) du vecteur (X, Θ)T est


µ ¶ µ ¶
1 x−θ 1 θ−µ
p(x, θ) = π(x|θ)π(θ) = ϕ ϕ .= (7.11)
σ σ τ τ

½ · ¸¾
1 1 (x − µ)2 (x − µ)(θ − µ) (σ − µ)2
p exp − − 2ρ √ + ,
2πσ1 σ2 1 − ρ2 2(1 − ρ2 ) σ2 + τ2 τ σ2 + τ2 τ2


τ2
ρ2 = , σ21 = σ2 + τ2 , σ22 = τ2 ,
σ2 + τ2
i.e. (X, Θ)T suit la loi normale bidimensionnelle de paramètres a = (µ, µ)T et ∑, où
¯¯ 2 ¯¯
¯¯ σ + τ2 ρστ ¯¯
∑ = ¯¯ ρστ τ2 ¯¯¯¯
¯¯

¤
L’inférence statistique sur Θ dans l’optique de l’approche bayesienne est donnée en
utilisant la densité à posteriori q(θ|x) basée sur l’échantillon X, puisque toute information
probabiliste sur Θ est exprimée en termes de q(θ|X). S’il est nécessaire d’estimer la va-
leur U(θ), où θ est une réalisation non-observée du paramètre aléatoire Θ, alors on utilise
l’espérance conditionnelle E{U(Θ)|X} comme l’estimateur ponctuel pour U(θ). ¤

7.2 Estimation ponctuelle


Supposons que pendant une expérience une réalisation de X est observée et la réalisation
correspondante de Θ est inconuue. Il faut estimer la valeur θ de la réalisation non observée
de Θ. Soit
Θ∗ = Θ∗ (X) (7.1)
un estimateur ponctuel de θ. L’erreur systématique de Θ∗ est

E{Θ∗ − Θ|X} = E{Θ∗ |X} − E{Θ|X}, (7.2)

où Z
E{Θ|X = x} = θq(θ|x)dθ et E{Θ∗ |X = x} = Θ∗ (x). (7.3)

Définition 1. L’estimateur Θ̂(X) est sans biais si l’erreur systématique est égale à zéro,
i.e., si
Θ̂(x) ≡ E{Θ|X = x}. (7.4)

359
Il s’ensuit que l’estimateur sans biais est unique presque sûrement.
Soit Θ̃ = Θ̃(X) un autre estimateur de θ. Puisque

Θ̃(x) − Θ = [Θ̃(x) − Θ̂(x)] + [Θ̂(x) − Θ],

on a
E{(Θ̃ − Θ)2 |X = x}
= [Θ̃(x) − Θ̂(x)]2 + 2[Θ̃(x) − Θ̂(x)]E{Θ̂(X) − Θ|X = x} + E{[Θ̂(X) − Θ]2 |X = x}
= [Θ̃(x) − Θ̂(x)]2 + E{[Θ̂(X) − Θ]2 |X = x} ≥ E{[Θ̂(X) − Θ]2 |X = x}. (7.5)
Donc l’estimateur sans biais Θ̂ minimize le risque quadratique à postériori. L’inégalité
implique qu’avec la probabilité 1

E{(Θ̃ − Θ)2 |X} ≥ E{(Θ̂ − Θ)2 |X}. (7.6)

Prenant l’espérance de la gauche et de la droite, on a

E{(Θ̃ − Θ)2 |X} ≥ E(Θ̂ − Θ)2 } (7.7)

L’inégalité (7) implique que l’estimateur sans biais


Z
Θ̂(X) = E{Θ|X} = θq(θ|X)dθ (7.8)

est le meilleur dans le sens du minimum du risque quadratique. ¤


Définition 2. L’estimateur sans biais Θ̂(X) est appelé l’estimateur bayesien.
Remarque 1. L’estimateur bayesien Θ̂ est l’espérance de la répartition à posteriori. ¤

Remarque 2. De (1.1) - (1.4) on a


Z Z
Eq(θ|X) = q(θ)|x)q(x)dx = p(x, θ)dx = π(θ),
χ χ

i.e., q(θ|X) l’estimateur sans biais de la densité à priori π(θ). ¤

Exemple 1. Soit (X, Θ)T un vecteur aléatoire où Θ est une variable aléatoire suivant la
loi uniforme [0, 1], i.e. la densité à priori est
½
1, si θ ∈ Ω = [0, 1],
π(θ) = (7.9)
0, sinon .

et la répartition conditionnelle de X sachant Θ = θ est la répartition de Bernoulli B(1, θ),


i.e., ½ x
θ (1 − θ)1−x , x ∈ χ = {0, 1},
π(x|θ) = (7.10)
0, sinon .
On peut estimer θ en utilisant l’estimateur du maximum de vraisemblance X, qui est le
meilleur estimateur sans biais pour θ, et le risque quadratique de X est θ(1 − θ).
On va construire l’estimateur bayesien Θ̂ = Θ̂(X). De (1.5), (9) (10) on a
(
θx (1−θ)1−x
π(x|θ)π(θ) R1 , si, x ∈ χ,
q(θ|x) = R = 0 θ (1−θ)
x 1−x dθ

Ω π(x|θ)π(θ)dθ 0 , sinon ,

360

 2(1 − θ), si x = 0, θ ∈ Ω,
= 2θ, si x = 1, θ ∈ Ω,

0, sinon .
Supposons que X = 0. Alors
Z 1 Z 1
1
Θ̂(0) = θq(θ|0)dθ = 2 θ(1 − θ)dθ = .
0 0 3
Dans le cas X = 1 on a
Z 1 Z 1
2
Θ̂(1) = θq(θ|1)dθ = 2 θ2 dθ = .
0 0 3

Le risque quadratique de l’estimateur bayesien Θ̂ = Θ̂(X) est

1 2
E{(Θ̂ − Θ)2 |Θ = θ} = E{(Θ̂ − θ)2 } = ( − θ)2 P{X = 0} + ( − θ)2 P{X = 1}
3 3
1 2 1 1
= ( − θ)2 (1 − θ) + ( − θ)2 θ = (θ2 − θ + ).
3 3 3 3
Il peut être comparé avec le risque quadratique θ(1 − θ) de l’estimateur de maximum de
vraisemblance X de θ. ¤

Exemple 2. Soit (X, Θ)T le modèle bayesien où

Θ ∼ N(µ, τ2 ),

et la répartition conditionnelle de X sachant Θ = θ est normale N(θ, σ2 ), µ, τ2 , σ2 sont


connus. Dans l’exemple 1.1 on a été montré que la répartition marginale q(x) de X est
normale N(µ, σ2 + τ2 ), i.e.,
½ ¾ µ ¶
1 1 1 x−µ
q(x) = √ √ exp − 2
(x − µ) = √ ϕ √
2π σ2 + τ2 2(σ2 + τ2 ) σ2 + τ2 σ2 + τ2

et la densité de (X, Θ)T est


µ ¶ µ ¶
1 x−θ 1 θ−µ
p(x, θ) = π(x|θ)π(θ) = ϕ ϕ , (7.11)
σ σ τ τ

d’où la densité à posteriori q(θ|x) peut être trouvé :


¡ ¢ 1 ³ θ−µ ´
σϕ σ τϕ
1 x−θ
p(x, θ) τ
q(θ|x) = = ³ ´
q(x) √ 1 ϕ √ x−µ
σ2 +τ 2 σ +τ
2 2

√ (√ )
σ2 + τ2 σ2 + τ2 h ³x µ ´i
= ϕ θ − σ2 ρ2 2 + 2 ,
στ στ σ τ
µ h ³x ¾
1 1 µ ´i
= ϕ θ−σ ρ 2 2
+ , (7.12)
ρσ ρσ σ2 τ2

361
τ2
où ρ2 = σ2 +τ2
. i.e. la répartition à posteriori est normale de paramètres
³x µ´
σ ρ
2 2
+ et ρ2 σ2 :
σ2 τ2
½ h ³x ¾
1 µ ´i
P{Θ ≤ θ|X = x} = Φ θ−σ ρ2 2
+ ,
ρσ σ2 τ2
d’où l’estimateur bayesien est obtenu :
Z ∞ µ ¶
X µ
Θ̂ = E{Θ|X} = θq(θ|X)dθ = σ ρ2 2
+ .
−∞ σ2 τ2
La statistique X est l’estimateur de maximum de vraisemblance de θ et est le meilleur
estimateur sans biais. Notons que si σ2 est fixé et τ2 → ∞, alors ρ2 → 1, d’où

Θ̂(x) → x.

Ca signifie que quand τ est grand alors

Θ̂(X) ≈ X,

et le gain d’utilisation de l’estimateur bayesien est petit. De même, si τ2 est fixé et σ2 → 0.


D’autre part si τ2 → 1 et σ2 → 0, alors ρ2 → 1 et Θ̂(x) → µ, i.e. Θ̂ ≈ µ. Donc τ2 et σ2
représentent les poids relatives donnés à X, et à la moyenne à priori µ. ¤
Remarque 3. Soit T = T (X) la statistique exhaustive pour θ dans le modèle bayesien
(X, Θ)T de paramètre Θ, Θ ∈ Ω. Alors, pour toute répartition à priori π(θ) on a

q(θ|x) = q∗ (θ|t(x)),

où q(θ|x) est la densité à posteriori de Θ sachant X et q∗ (θ|t(x)) est la densité à posteriori


de Θ sachant T . En effet, d’après la régle bayesienne on a
π(x|θ)π(θ)
q(θ|x) = .
q(x)
Puisque T est la statistique exaustive pour θ on a

p(x, θ) = π(x|θ)π(θ) = π∗ (T (x)|θ)π(θ)w(x)

où w(x) est une fonction nonnégative. Donc

π(x|θ) = π∗ (T (x)|θ)w(x).

Il s’ensuit immédiatement que

q(θ|x) = q∗ (θ|t(x)).

Notons que dans l’approche bayesienne la notion de l’exhaustivité joue le même rôle comme
dans la statistique classique. De plus, la statistique T = T (X) est exhaustive si la répartition
à posteriori de Θ, sachant T , est la même que la répartition à posteriori de Θ, sachant X.
Donc, R
θπ∗ (T |θ)w(X)π(θ)dθ
Θ̂ = Θ̂(T ) = R ∗ =
π (T |θ)w(X)π(θ)dθ

362
R R
θπ∗ (T |θ)π(θ)dθ θπ∗ (T |θ)π(θ)dθ
R = .¤
π∗ (T |θ)π(θ)dθ q∗ (T )
Exemple 3. Supposons que sachant Θ = θ les composantes X1 , X2 , · · · , Xn du vecteur
observé X = (X1 , X2 , · · · , Xn )T sont des variables indépendantes Bernoulli B(1, θ), X1 prend
la valeur 1 avec la probabilité θ et la valeur 0 avec la probabilité 1 − θ, θ ∈ Ω = [0, 1], i.e.,
pour tout i = 1, 2, · · · , n on a

P{Xi = x|Θ = θ) = θx (1 − θ)1−x , x ∈ χ = {0, 1}.

Alors Tn = X1 + X2 + · · · + Xn est la statistique exhaustive et


µ ¶
n
P{Tn = k|Θ = θ} = θk (1 − θ)n−k , k = 0, 1, · · · , n. (7.13)
k

L’estimateur de maximum de vraisemblance θ̂ de θ est le meilleur estimateur de θ,


1
θ̂ = X n = Tn (7.14)
n
θ(1 − θ)
E{X n |Θ = θ} = θetVar {X n |Θ = θ} = . (7.15)
n
Construisons l’estimateur bayesien Θ̂. La densité de la répartition conditionnelle de la v.a.
Xi sachant que Θ = θ est donné par la formule

π(x|θ) = θx (1 − θ)1−x , x ∈ χ = {0, 1}.

Supposons que x1 , x2 , · · · , xn sont les valeurs observées des variables aléatoires X1 , X2 , · · · , Xn .


Dans ce cas la densité de la répartition à posteriori du paramètre Θ sachant que

X1 = x1 , X2 = x2 , · · · , Xn = xn

est
π(θ)θt (1 − θ)n−t
q(θ|x1 , · · · , xn ) = q∗ (θ|t) = R 1 = (7.16)
0 π(θ)θ (1 − θ)
t n−t dθ

θt (1 − θ)n−t
R1 ,
0 θt (1 − θ)n−t dθ
où t = x1 + x2 + · · · + xn est une réalisation de la statistique exhaustive

Tn = X1 + X2 + · · · + Xn , (7.17)

et q∗ (θ|t) est la densité de la répartition à posteriori de Θ sachant Tn . De plus, supposons


que Θ suit la loi uniforme sur Ω = [0, 1], i.e., la densité π(θ) de la répartition à priori est
½
1, si θ ∈ Ω = [0, 1],
π(θ) = (7.18)
0, sinon .

Puisque
t µ ¶
n
P{Tn ≤ t|Θ = θ} = ∑ k
θk (1−θ)n−k ≡ I1−θ (n−t,t +1) ≡ 1−Iθ (t +1, n−t) (7.19)
k=0

363
et
Γ(t + 1)Γ(n − t + 1) d
θt (1 − θ)n−t ≡ Iθ (t + 1, n − t + 1), (7.20)
Γ(n + 2) dθ
on a Z 1
t!(n − t)! Γ(t + 1)Γ(n − t + 1)
θt (1 − θ)n−t dθ = = (7.21)
0 (n + 1)! Γ(n + 2)
et donc
θt (1 − θ)n−t
q∗ (θ|t) = R 1
0 θt (1 − θ)n−t dθ
Γ(n + 2) 1
θt (1 − θ)n−t = θt (1 − θ)n−t . (7.22)
Γ(t + 1)Γ(n − t + 1) B(t + 1, n − t + 1)
Pour tout t = 0, 1, · · · , n, la fonction Iθ (t + 1, n − t + 1), comme la fonction de θ dans l’in-
tervalle [0, 1] est la fonction de répartition, voir §2.3, avec la densité

1
fβ (θ;t + 1, n − t + 1) = θt (1 − θ)n−t , θ ∈ Ω = [0, 1], (7.23)
B(t + 1, n − t + 1)

de la loi beta, i.e., pour tout θ ∈ Ω = [0, 1] on a

P{Θ ≤ θ|Tn = t} = Iθ (t + 1, n − t + 1). (7.24)

Soit Z une variable de la loi donnée par (23). Dans ce cas

Γ(n + 2) Γ(t + k + 1)Γ(n − t + 1) Γ(n + 2)Γ(t + k + 1)


EZ k = = .
Γ(t + 1)Γ(n − t + 1) Γ(n + k + 2) Γ(n + k + 2)Γ(t + 1)

Cette formule et (24) impliquent

t +1 (t + 1)(t + 2)
E{Θ|Tn = t} = et E{Θ2 |Tn = t} = , (7.25)
n+2 (n + 2)(n + 3)

i.e.,
Var {Θ|Tn = t} = E{Θ2 |Tn = t} − (E{Θ|Tn = t})2
µ ¶
(t + 1)(n − t + 1) 1 t +1 t +1
= = 1− . (7.26)
(n + 2)2 (n + 3) n+3 n+2 n+2
Utilisant (16), (22), (23) et (25) on a
Tn + 1
Θ̂ = E{Θ|X1 , · · · , Xn } = E{Θ|Tn } = . (7.27)
n+2
(27) et (14) impliquent que pour grandes valeurs de n on a

Θ̂ ∼ θ̂n (7.28)

et (26) implique
t t
n (1 − n )
Var {Θ̂|X1 = x1 , · · · , Xn = xn } = Var {Θ̂|Tn = t} ∼ .¤ (7.29)
n

364
Exemple 4. (continuation de l’Exemple 2). Supposons que la densité à priori π(θ) dans
l’exemple 2 suit la loi beta de paramètres a et b, a > 0, b > 0 :
1
π(θ) = θa−1 (1 − θ)b−1 , θ ∈ Ω = [0, 1]. (7.30)
B(a, b)

Il est évident que si a = b = 1 alors on a la densité π(θ) de la loi uniforme sur [0, 1],
considérée en (18). La statistique

Tn = X1 + X2 + · · · + Xn

est suffisante et la loi conditionnelle de Tn , sachant Θ = θ, est donnée par (13). De (16) on
a que la densité à posteriori q(θ|t) sachant Tn = t,

θa+t−1 (1 − θ)b+n−1 θa+t−1 (1 − θ)b+n−t−1


q(θ|t) = R 1 = , (7.31)
0 θa+t−1 (1 − θ)b+n−t−1 dθ B(a + t, b + n − t)

i.e. c’est la densité beta de paramètres a + t et b + n − t, d’où l’estimateur bayesien Θ̂ =


Θ̂(Tn ) est
Z 1 Z 1
1 Tn + a
Θ̂ = θq(θ|Tn )dθ = θa+Tn (1 − θ)b+n−Tn −1 dθ = .
0 B(a + Tn , b + n − Tn ) 0 a+b+n
(7.32)
On peut voir que pour grands valeurs de n on a

Θ̂ ∼ θ̂n (7.33)

pour tout a et b, a > 0, b > 0. ¤

Exemple 5. Supposons que, sachant Θ, le vecteur aléatoire X = (X1 , · · · , Xn )T est un


échantillon de la loi exponentielle de la moyenne 1/Θ, i.e. , la densité conditionnelle π(x|θ)
de Xi sachant Θ = θ est ½ −θx
θe , x > 0,
π(x|θ) = (7.34)
0, sinon ,
1 1
E{Xi |Θ = θ} = , Var {Xi |Θ = θ} = . (7.35)
θ θ2
Trouvons l’estimateur bayesien pour

P{Xi > t|Θ = θ} = e−θt . (7.36)

On suppose que la répartition à priori est gamma de p degrés de liberté et de paramètre


d’echelle λ (p et λ sont connus), i.e., la densité π(θ) de Θ, Θ ∈ Ω = (0, +∞), est
( p
λ
Γ(p) θ
p−1 e−λθ , θ > 0,
π(θ) = (7.37)
0, sinon .

On sait que
λ λ
EΘ = et Var Θ = 2 . (7.38)
p p

365
Dans ce modèle la statistique
Tn = X1 + · · · + Xn (7.39)
est exhaustive pour θ, et
Z t
θn
P{Tn ≤ t|Θ = θ} = xn−1 e−θx dx, t ≥ 0, (7.40)
Γ(n) 0

i.e. sachant Θ = θ la statistique exhaustive Tn suit la loi gamma de n degrés de liberté et de


paramètre θ, i.e. la densité conditionnelle π(t|θ) de la statistique exhaustive Tn sachant Θ
est
θn n−1 −θt
π(t|θ) = t e , t > 0, θ ∈ Ω = (0, ∞), (7.41)
Γ(n)
et
n n
E{Tn |Θ = θ} = , Var {Tn |Θ = θ} = 2 . (7.42)
θ θ
D’après (1.5) la densité q(θ|t) de la loi à posteriori, i.e. la densité de Θ sachant Tn = t, est

π(t|θ)π(θ) θn+p−1 e−θ(t+λ)


q(θ|t) = R ∞ = R ∞ n+p−1 −θ(t+λ) =
0 π(x|θ)π(θ)dθ 0 θ e dθ

(t + λ)n+p θn+p−1 e−θ(t+λ) (t + λ)n+p n+p−1 −θ(t+λ)


= R∞ = θ e , (7.43)
0 u
n+p−1 e−u du Γ(n + p)
i.e., q(θ|t) est la densité de la loi gamma de n + p degrés de liberté et de paramètre d’échelle
t + λ. On peut trouver l’estimateur bayesien S(Tn ) pour e−θt . On a
Z ∞
−Θt
S(Tn ) = E{e |Tn } = e−θt q(θ|Tn )dθ =
0
Z ∞
(λ + Tn )n+p n+q−1
= e−θt θ exp[−θ(Tn + λ)dθ =
0 Γ(n + p)
Z ∞ µ ¶−(n+p)
(λ + Tn )n+p 1 n+p−1 −u t
= u e du = 1 + . (7.44)
(λ + t + Tn )n+p Γ(n + p) 0 λ + Tn
On peut vérifier, voir par exemple Voinov & Nikulin (1993), que le meilleur estimateur sans
biais de e−θt est ( ³ ´n−1
t
U(Tn ) = 1 − Tn , si Tn > t, (7.45)
0, sinon .¤
Exemple 6. Soit (X, Θ)T le modèle bayesien, où Θ ∼ N(0, 1), i.e. la densité à priori
π(θ) de Θ est la densité de la loi standard normale
µ 2¶
1 θ
π(θ) = √ exp − = ϕ(θ), θ ∈ R1 . (7.46)
2π 2

De plus, supposons que sachant Θ, X = (X1 , · · · , Xn )T est un échantillon de la loi normale


N(Θ, 1). Dans ce cas, sachant Θ = θ, la statistique

1 n
Xn = ∑ Xi
n i=1

366
est suffisante pour θ, et puisque la loi conditionnelle de X n est N(θ, 1n ) i.e.
√ Z x n n o
n √
P{X n ≤ x|Θ = θ) = √ exp − (u − θ)2 du = Φ[ n(x − θ)],
2π −∞ 2
la densité conditionnelle de X n , sachant Θ = θ, est
√ n n o √ √
n
π(x|θ) = √ exp − (x − θ)2 = nϕ( n(x − θ)), x ∈ R1 . (7.47)
2π 2
Utilisant (46) et (47) on peut trouver la densité q(x) de la loi marginale de X n :
Z ∞ Z ∞
√ √
q(x) = π(x|θ)π(θ)dθ = nϕ( n(x − θ))π(θ)dθ =
−∞ −∞
√ Z ∞ n n o 1 µ 2¶
n θ
=√ exp − (x − θ) √ exp −
2

2π −∞ 2 2π 2
√ Z ∞ ½ ¾
n nx2 nθ2 θ2
= exp − + nxθ − − dθ
2π −∞ 2 2 2
r ½ ¾ r µr ¶
1 n nx2 n n
=√ exp − = ϕ x , (7.48)
2π n + 1 2(n + 1) n+1 n+1
i.e., la loi marginale de X n est normale N(0, n+1
n ) de paramètres 0 et (n+1)/n. De la formule
de Bayes on peut obtenir la densité q(θ|x) de la loi à posteriori, sachant X n = x :
√ √
π(x|θ)π(θ) nϕ( n(x − θ))π(θ)
q(θ|x) = = q ³ q ´
q(x) n
ϕ x n
n+1 n+1
√ ½ ¶
n+1 nx2 nx2 θ2
= √ exp − + + nxθ − (n + 1)
2π 2 2(n + 1) 2
√ ( µ ¶2 ) · µ ¶¸
n+1 n+1 nx √ √ nx
= √ exp − θ− = n + 1ϕ n + 1 θ − , (7.49)
2π 2 n+1 n+1
¡ nx 1 ¢
i.e. la loi à posteriori de Θ, sachant X n = x, est normale N n+1 , n+1 ,
· µ ¶¸
√ nx
P{Θ ≤ θ|X n = x} = Φ n + 1 θ − ,
n+1

d’où l’estimateur bayesien Θ̂ de θ est


Z ∞ µ ¶
1
Θ̂ = E{Θ|X n } = θq(θ|X n )dθ = X n 1− .
−∞ n+1
Nous savons déjà que l’estimateur de maximum de vraisemblance, qui est le meilleur esti-
mateur sans biais pour θ, est θ̂n = X n .
On peut vérifier que si Θ ∼ N(µ, τ2 ), où µ et τ2 sont connus, τ2 > 0, et sachant Θ = θ
on a Xi ∼ N(θ, σ2 ), σ2 est connu, σ2 > 0. Alors
(√ µ ¶)
nτ2 + σ2 nτ2 σ2
P{Θ ≤ θ|X n } = Φ Xn + 2 µ , (7.50)
στ nτ2 + σ2 nτ + σ2

367
i.e.,
nτ2 σ2 σ2 τ2
E{Θ|X n } = X n + µ et Var {Θ|X n } = .¤
nτ2 + σ2 nτ2 + σ2 nτ2 + σ2
Exemple 7. Soit (X, Θ)T le modèle bayesien de paramètre Θ, Θ ∈ Ω = (0, ∞). Sachant
Θ, soit X la variable aléatoire de Poisson de paramètre θ :
θx −θ
P{X = x|Θ = θ} = e , x = 0, 1, · · · . (7.51)
x!
Supposons que la densité à priori π(θ) est la densité de la loi gamma de m degrés de liberté
et de paramètre d’échelle α, i.e.
αm m−1 −αθ
π(θ) = θ e , (7.52)
Γ(m)
α et m sont connus, α > 0 , m > 0. Dans ce cas, la densité marginale q(x) de X est
Z ∞ Z ∞ x
θ −θ αm m−1 −αθ
q(x) = π(x|θ)π(θ)dθ = e θ e dθ
0 0 x! Γ(m)
Z ∞ ∞ Z
αm x+m−1 −θ(α+1) αm
= θ e dθ = ux+m−1 e−u du
x!Γ(m) 0 Γ(x + 1)Γ(m)(α + 1)x+m
0
µ ¶m µ ¶x
Γ(x + m)α m Γ(x + m) 1 α
= = , (7.53)
Γ(x + 1)Γ(m)(α + 1)x+m Γ(x + 1)Γ(m) 1 + α 1+α
i.e. la loi marginale de X est la loi binomiale negative, donnée dans la section 0.3. L’esti-
mateur bayesien Θ̂ = Θ̂(X) pour θ est
Z ∞ Z ∞ Z ∞ X
θπ(x|θ)π(θ) 1 θ αm m−1 −αθ
Θ̂ = θq(θ|X)dθ = dθ = θ e−θ θ e dθ
0 0 q(X) q(X) 0 X! Γ(m)
Z ∞
αm
= θX+m e−θ(α+1) dθ
Γ(m)q(X)Γ(X + 1) 0
αm Γ(X
+ m + 1) X +m
= = .¤ (7.54)
Γ(m)q(X)Γ(X + 1)(α + 1)X+m+1 1+α
Remarque 4. Considérons le modèle bayesien (X, Θ)T de paramètre Θ, Θ ∈ Ω ∈ R1 ,
et soit q(θ|x) la densité de la loi à posteriori de Θ sachant X = x. Utilisant la densité à
posteriori q(θ|x) on peut construire (1 − α) -intervalle de confiance (Θ(X), Θ(X)) pour Θ,
tel que
P{Θ ≤ Θ ≤ Θ|X = x} = 1 − α, 0 < α < 0.5. (7.55)
En effet, soit β et γ deux nombres positifs tels que β + γ = α. Définissons Θ = Θ(x, γ)
comme le γ-quantile supérieur de la loi à posteriori, i.e., Θ est la racine de l’équation
Z Θ(x,γ)
P{Θ ≤ Θ|X = x} = q(θ|x)dθ = 1 − γ. (7.56)
−∞

De même, on peut trouver le β-quantile inférieur Θ = Θ(x, β) de la loi à posteriori comme


la racine de l’équation
Z Θ(x,β)
P{Θ ≤ Θ|X = x} = q(θ|x)dθ = β. (7.57)
−∞

368
Dans ce cas on obtient l’estimateur par intervalle (Θ(X), Θ(X)) pour Θ de coefficient de
confiance P = 1 − α :
Z Θ
P{Θ ≤ Θ ≤ Θ|X = x} = q(θ|x)dθ = 1 − γ − β = 1 − α = P. (7.58)
Θ

Il existe une autre approche qui permet de construire “le plus court" intervalle de confiance
pour Θ . Sachant X = x soit I(x, c) un esemble dans Ω tel que
I(x, c) = {θ : q(θ|x) > c}, (7.59)
où c est la constante positive, et soit
Z
P(x.c) = q(θ|x)dθ = P{Θ ∈ I(x, c)|X = x}
I(x,c)

= P{q(Θ|X) > c|X = x} = 1 − P{q(Θ|X) ≤ c|X = x}. (7.60)


Choisissons c = cα tel que le coefficient de confiance P = 1 − α, i.e., tel que
P(x, c) = P = 1 − α. (7.61)
Dans ce cas I(X, cα ) est un estimateur par intervalle de Θ de coefficient de confiance P = 1−
α, on le tire de (58) et (60). Montrons que I(X, cα ) est le plus court intervalle de confiance
pour Θ entre tous les intervalles avec le même coefficient de confiance P. En effet, soit J(X)
un autre intervalle de confiance pour Θ, J(X) ⊆ Ω, tel que
P{Θ ∈ J(X)|X = x} = P = 1 − α. (7.62)
Notons que [
I = (I ∩ J) [I\(I ∩ J)] = (I ∩ J) ∪ ∆I (7.63)
et [
J = (I ∩ J) [J\(I ∩ J)] = (I ∩ J) ∪ ∆J . (7.64)
De (58) et (60) et de la définition de ∆I et ∆J on a
Z Z
q(θ|x)dθ = q(θ|x)dθ. (7.65)
∆J ∆I

D’un autre côté on a


Z Z
cα mes∆ j ≥ q(θ|x)dθ = q(θ|x)dθ ≥ cα mes∆I , (7.66)
∆J ∆I

d’où
mes∆ j ≥ mes∆I , (7.67)
où Z
mes∆ j = dθ.¤
∆J

Exemple 8. Soit (X, Θ)T le modèle bayesien de paramètre Θ, Θ ∼ N(0, 1). Sachant Θ,
les éléments X1 , X2 , · · · , Xn d’échantillon X sont les variables normales N(Θ, 1) indépen-
dantes. La loi à posteriori de Θ est normale de paramètres
µ ¶
1 1
E{Θ|X n } = X n 1 − et Var {Θ|X n } = , (7.68)
n+1 n+1

369
où X n = (X1 + X2 + · · · + Xn )/n. De la symétrie de la densité de la loi normale on tire que
le plus court (1 − α)-intervalle de confiance pour Θ est
µ µ ¶ µ ¶ ¶
1 xα/2 1 xα/2
Xn 1 − −√ ;Xn 1 − +√ (7.69)
n+1 n+1 n+1 n+1
On peut remarquer que cet intervalle bayesien est plus court que (1 − α)-intervalle de
confiance classique µ ¶
xα/2 xα/2
Xn − √ ;Xn + √
n n

7.3 Approche bayesienne empirique

L’approche bayesienne empirique permet de faire des conclusions sur le paramètre non
observé Θ dans le modèle bayesien (X, Θ)T même si sa loi à priori π(θ) est inconnue. Soit
π(x|θ) la densité de la répartition conditionnelle de X sachant Θ. On suppose que π(x|θ) est
connu. L’estimateur bayesien pour Θ est
Z Z
1
Θ̂ = E{Θ|X} = θq(θ|X)dθ = θπ(X|θ)π(θ)dθ, (7.1)
Ω q(X) Ω

où q(θ|x) est la densité à posteriori de Θ sachant X, et


Z
q(x) = π(x|θ)π(θ)dθ (7.2)

est la densité de la loi marginale de X. Si la densité à priori π(θ) est inconnue, il est im-
possible de calculer les valeurs de θ̂ et q(x). Mais si la taille n de X = (X1 , X2 , · · · , Xn )T
est suffisament grande, il est possible de construire un estimateur consistant q̂(X) de q(x).
S.N. Bernstein (1941) a proposé d’estimer Θ en remplacant q(x) par q̂(X) dans (2), et cher-
chant la solution π̂(θ) de cette équation intégrale. Après on peut estimer Θ, en utilisant
π̂(θ) et q̂(X) au lieu de π(θ) et q(x) dans (1). Cependant la méthode de Bernstein est dif-
ficile, puisque trouver la solution d’équation (2) est le problème difficile de la théorie des
équations intégrales. Nous allons donner un exemple (Nikulin, 1978), où est démontré que
la répartition à posteriori de la variable aléatoire Xn , Xn ∼ B(n, Θ) sachant Θ, peut être ap-
proximée par la loi beta, si le paramètre n de la loi binomiale tend vers l’infini et la densité
à priori Θ est continue. Ici nous allons suivre l’article de Nikulin (1992).

7.4 Exemple

7.4.1 La loi beta et ses propriétés


Soit β la variable aléatoire suivant la loi beta de paramètres a et b. La densité de β est
Γ(a + b) a−1
p(y|a, b) = y (1 − y)b−1 , 0 < y < 1, a > 0, b > 0, (7.1)
Γ(a)Γ(b)

370
la fonction de répartition de β est

P{β ≤ y} = Iy (a, b), (7.2)

où Iy (a, b) vérifie l’identité

Iy (a, b) + I1−y (b, a) ≡ 1, 0 ≤ y ≤ 1, 0, b > 0, (7.3)

On suppose que
Iy (a, 0) ≡ 1 − I1−y (0, a) ≡ 0, 0 ≤ y ≤ 1, a > 0. (7.4)
Sous cette hypothèse pour tout x = 0, 1, 2, · · · , n (n est un entier positif) on a une identité
x µ ¶
n
∑ k θk (1 − θ)n−k ≡ I1−θ(n − x, x + 1) ≡ 1 − Iθ(x + 1, n − x). (7.5)
k=0

par rapport à θ, θ ∈ [0, 1]. Notons que


a ab 1
Eβ = et Var β = ≤ (7.6)
a+b (a + b)2 (a + b + 1) 4(a + b + 1)
et donc de l’inégalité de Chebyshev’s on obtient que
½ ¾
a
P |β − | ≥ ε ≤ (a + b + 1)−1/2 , ε = 1/2(a + b + 1)−1/4 . (7.7)
a+b

7.5 Résultats principaux.

Soit {(Xn , Θ)} une suite des vecteurs aléatoires où Θ est la variable aléatoire, Θ ∈ [0, 1],
dont la densité p(θ) est continue sur [0, 1]. On suppose que la loi conditionelle de Xn sachant
Θ = θ est binomiale B(n, θ) :
µ ¶
n
P{Xn = x|Θ = θ} = θx (1 − θ)n−x ; x = 0, 1, · · · , n. (7.8)
x

Soit u(θ) une fonction bornée sur [0, 1], |u(θ)| ≤ U , où U est une constante. On considère
une fonction En (u|x, p) qui représente l’espérance conditionnelle de la statistique u(Θ) sa-
chant Xn = x. D’après la formule de Bayes cette fonctionnelle peut être représentée comme
le rapport
J (x; u, p)
En (u|x, p) = E{u(Θ)|Xn = x} = n , (7.9)
Jn (x; 1, p)
où, comme il s’ensuit de (1) et (8),
Z 1
Jn (x; u, p) = u(θ)p(θ|x + 1, n − x + 1)p(θ)dθ. (7.10)
0

Lemme. Soit u(θ) et v(θ) deux fonctions continues sur [0, 1]. Alors lorsque n → ∞
µ ¶Z 1
x+1
Rn (x; u, p) = Jn (x; u, v) − v u(θ)p(θ|x + 1, n − x + 1)dθ → 0 (7.11)
n+2 0

371
uniformément par rapport à x = 0, 1, 2, · · · , n.
Démonstration. On considére un ensemble
½ ¾
x+1
Aε = θ : |θ − | < ε, 0 ≤ θ ≤ 1 ,
n+2
où d’après (7)
2ε = (n + 3)−1/4 .
Dans ce cas en utilisant (10) on obtient
Z 1· µ ¶¸ Z Z
x+1
Rn = Rn (x; u, v) = v(θ) − v u(θ)p(θ|x + 1, n − x + 1)dθ = + .
0 n+2 Aε Aε

D’où d’après la définition de la variable alétoire β (sous conditions a = x+1 et b = n−x+1)


on a µ ¶ · ¸ ½ ¾
|Rn | x+1 x+1
≤ sup |v(θ) − v | + 2 max v(θ) P |β − |≥ε ,
U θ∈Aε n+2 0≤θ≤1 n+2
où U = max0≤θ≤1 u(θ). Le premier terme tend vers zéro uniformément par rapport à x,
puisque v est une fonction continue sur [0, 1]. Le second terme tend vers zéro uniformément
en x d’après (7), d’où (12) est démontré. ¤
Considérons un ensemble

V = {v = v(θ) : v ∈ C[0, 1], v(θ) ≥ 0}

de toutes fonctions non négatives continues sur [0, 1], telles que pour tout v ∈ V on a

{θ : v(θ) = 0} ⊆ {θ : p(θ) = 0},

d’où il s’ensuit que la densité à priori p(θ) appartient à V .


Corollaire 1. Si v ∈ V , alors avec la probabilité 1
Z 1
En (u|Xn , v) − u(θ)p(θ|Xn + 1, n − Xn + 1)dθ → 0 (7.12)
0

lorsque n =⇒ ∞.
Démonstration. D’après (9), (10) et le lemme sachant Xn = x on a
¡ x+1 ¢ R 1
v n+2 0 u(θ)p(θ|x + 1, n − x + 1)dθ + Rn (x; u, v)
E (u|x, v) = ¡ x+1 ¢ ,
v n+2 + Rn (x; 1, v)

où le reste Rn dans le numérateur et dans le dénominateur tend vers zéro uniformément par
rapport à x = 0, 1, 2, · · · , n, lorsque n −→ ∞ (bien sûr, la vitesse de convergence dépend du
choix de la fonction v). Pour la statistique (Xn + 1)/(n + 2) la loi de grands nombres est
vérifiée et puisque la fonction v(θ) est continue on a
½ µ ¶ ¾
Xn + 1
P v −→ v(θ), n −→ ∞|Θ = θ = 1. (7.13)
n+2
De plus, puisque v ∈ V on a

P{v(Θ) > 0} = 1 − P{v(Θ) = 0} ≥ 1 − P{p(Θ) = 0} = 1. (7.14)

372
D’où, sachant Θ la probabilité conditionnelle de la relation limite (12) égale à 1, et par
conséquent la probabilité non conditionnelle est aussi égale à 1.
Corollaire 2. Si v ∈ V , alors avec la probabilité 1 on a lorsque n −→ ∞
n+1 µ ¶
n+1
P{Θ ≤ θ|Xn = x} − ∑ k
θk (1 − θ)n−k+1 −→ 0, (7.15)
k=x+1

ou, qui est équivalent,

P{Θ ≤ θ|Xn = x} − P{Xn+1 ≥ x + 1|Θ = θ} −→ 0, (7.16)

et
x!(n + k + 1)!
E{Θk |Xn = x}. −→ 1 (7.17)
(x + k)!(n + 1)!
uniformément par rapport à θ, 0 ≤ θ ≤ 1 ; (k est un entier positif).
Pour démontrer (15) on peut remarquer que (15) suit immédiatement de (12), si on pose
½
1,t ≤ θ,
u(t) ≡
0,t > θ.

La formule (17) peut être obtenue de (12) avec u(t) = t k . ¤


Particuliérement de (17) il s’ensuit que pour toutes les grandes valeurs de n l’estimateur
bayesien
Θ̂ = E{Θ|Xn = x},
qui est le meilleur estimateur ponctuel (dans le sens de minimum du risque quadratique)
pour la valeur inconnue du paramètre Θ, vérifie les relations

x+1 (x + 2)(x + 1)
Θ̂ = E{Θ|Xn = x} ≈ and Θ̂2 = E{Θ2 |Xn = x} ≈ ,
n+2 (n + 3)(n + 2)

d’où µ ¶
ˆ (x + 1)(n − x + 1) 1 x + 1 x+1
(Θ2 ) − (Θ̂) ≈
2
= 1 − ,
(n + 2)2 (n + 3) (n + 3) n+2 n+2
i.e., pour les grandes valeurs de n on a
x+1 x
E{Θ̂|Xn = x} ≈ ≈ ,
n+2 n
µ ¶ x
¡x¢
x+1 x+1
Var {Θ̂|Xn = x} ≈ 1− ≈ n n
.
(n + 2)(n + 3) n+2 n

7.6 Aproximations

Le Corollaire 2 donne la possibilité de construire une approximation normale et de


Poisson pour la loi à posteriori de Θ.

373
Approximation normale. Si 0 < θ0 ≤ θ ≤ θ1 < 1 et v ∈ V , alors avec la probabilité 1
on a lorsque n =⇒ ∞
" #
x − (n + 1)θ + 0.5
P{Θ > θ|Xn = x} − Φ p −→ 0. (7.18)
(n + 1)θ(1 − θ)

Ce résultat ne différe que par des détails non significatifs du théorème de S. Berstein (1946),
connu comme le théorème “inverse de Laplace". ¤
Approximation de Poisson. Si x ≤ x0 (x0 est une constante positive) et v ∈ V , alors
avec la probabilité 1 on a, lorsque n −→ ∞,
x
[λ(x, n, θ)]k −λ(x,n,θ)
P{Θ > θ|Xn = x} − ∑ e −→ 0 (7.19)
k=1 k!

uniformément par rapport à θ, θ ∈ [0, 1], où

λ(x, n, θ) = (2n − x + 2)θ/(2 − θ).¤

Remarque 1. Supposons que la densité à priori p(θ) est positive sur [0, 1]. Dans ce cas,
dans les Corollaires (18) et (19) on peut omettre des mots “avec la probabilité 1" et après
les relations (12)-(19) ajouter “uniformément par rapport à Xn = x = 0, 1, 2, · · · , n",
Remarque 2. Les relations (15) - (17) dans certains sens approuvent le choix de M. De
Groot de la famille des lois beta comme la famille conjuguée des répartitions à priori pour
des échantillons de la loi Bernoulli. ¤
Remarque 3. (Nikulin (1978)). Considérons V = {v = v(θ) : v ∈ Lr [0, 1]} tel que si x0
est un point de Lebesgue de v ∈ V , alors
¯ Z x +h ¯1/r à !
¯1 0 ¯ 1
¯ r ¯
¯ 2h x −h |v(x) − v(x0 )| dx¯ = o [lnln 1 ]1/2r .
0 h

Dans ce cas avec la probabilité 1 les relations (15) - (17) sont vérifiées pour toute densité à
priori de V , lorsque n −→ ∞. ¤.
Plus de détails à ce problème on peut trouver dans Nikulin (1992), (1978), Voinov and
Nikulin (1996), et C. Robert (1992).

374
Chapitre 8

EXERCICES.

1. Soit X = (X1 , . . . , Xn )T un vecteur aléatoire, dont la densité est f(x) = f(x1 , x2 , . . . , xn ), x ∈ Rn .


Notons

A = {x ∈ Rn : x1 ≤ x2 ≤ . . . ≤ xn }.
Montrer que la densité

f∗X(1) ,...,X(n) (x1 , x2 , . . . , xn ) = f∗ (x1 , x2 , . . . , xn )


du vecteur des statistiques d’ordre

X(n) = (X(1) , X(2) , . . . , X(n) )T


est donnée par la formule
(
∑ f(xr1 , xr2 , . . . , xrn ), si x ∈ A,
f∗ (x1 , x2 , . . . , xn ) = (r1 ,...,rn )∈σn
0, sinon ,
où σn est l’ensemble de toutes les permutations de (1, 2, . . . , n).
2. Soit X = (X1 , . . . , Xn )T un échantillon tel que

P{Xi ≤ x} = F(x) et f (x) = F 0 (x)


est la densité de Xi , i = 1, . . .,n. Montrer que dans ce cas la densité de r premières statistiques
(r)
d’ordre Xn = (X(1) , X(2) , . . . , X(r) )T , (1 ≤ r ≤ n) est donnée par la formule suivante

n!
f∗X(1) ,...,X(r) (x1 , x2 , . . . , xr ) = [1 − F(x)]n−r f (x1 ) · . . . · f (xr )
(n − r)!
(n)
pour tout x ∈ A. Il est évident que si r = n, dans ce cas Xn = X(n) .
3. Trouver la densité de
(r)
Xn = (X(1) , X(2) , . . . , X(r) )T , 1 ≤ r ≤ n,
quand

375
f (x; θ) = θe−θx , x ≥ 0, θ > 0.
4. (suite) On suppose que la durée de la vie de certains produits suit une loi exponentielle
de paramètre θ, θ > 0. On considère un échantillon X = (X1 , .., Xn )T de cette distribution et
on arrête l’expérience dès qu’on a obtenu la r-me (1 ≤ r ≤ n) défaillance. Le résultat de
l’expérience est donc une réalisation du vecteur
(r)
Xn = (X(1) , X(2) , . . . , X(r) )T .
a) Trouver la statistique exhaustive minimale associée à ce problème et sa fonction de ré-
partition.
b) Estimer le paramètre θ par la méthode du maximum de vraisemblence,
c) Trouver le biais de cet estimateur. Construire le meilleur estimateur sans biais pour Eθ Xi
sachant que Eθ Xi = 1/θ .
d) Trouver l’estimateur de maximum de vraisemblance et le meilleur estimateur sans biais
S∗ (t) pour la fonction de survie

S(t; θ) = 1 − F(t; θ) = exp{−θt},t > 0.


5. Soit X = (X1 , . . . , Xn )T un échantillon. Notons

Wn = X(n) − X(1) .
Cette statistique est appellée l’étendue de l’échantillon. On suppose que Xi suive une loi
continue, dont la densité f ne dépend que des paramètres de translation µ et d’échelle σ,
1 x−µ
f ( σ ) , | µ |< ∞, σ > 0.
Xi ∼
σ
a) Montrer qu’il existe une constante cn telle que

EWn = cn σ.
b) Construire un estimateur sans biais pour σ.
c) Trouver cn quand Xi est uniforme sur [µ, µ + σ].
6. Soit X = (X1 , . . . , Xn )T un échantillon et f (x) la densité de Xi . On désigne Ri le numéro
de Xi dans la suite des statistiques d’ordre

X(1) ≤ X(2) ≤ . . . ≤ X(n) .


On dit que Ri est le rang de Xi .
Montrer que la distribution conditionelle de la statistique des rangs R = (R1 , . . . , Rn )T , à
condition que

X(n) = x, x = (x1 , . . . , xn )T ∈ A,
est donnée par la formule :

f(xr1 , . . . , xrn )
P{R1 = r1 , . . . , Rn = rn | X(1) = x1 , . . . , X(n) = xn ) =
f∗ (x1 , . . . , xn )
pour tout r = (r1 , . . . , rn )T ∈ σn .

376
7. Soient X = (X1 , . . . , Xn )T un échantillon et f (x) la densité de Xi .
Montrer que dans ce cas les statistiques R et X(n) sont indépendantes et que
1
P{R = r} = P{R1 = r1 , . . . , Rn = rn } = , r = (r1 , . . . , rn ) ∈ σn ,
n!
(n − m)!
P{Ri1 = ri1 , . . . , Rim = rim } = , (i1 , . . . , im ) ⊆ {1, 2, . . . , n},
n!
n+1 n2 − 1 n+1
ERi = , VarRi = , Cov(Ri , R j ) = − .
2 12 12
8. Soient X = (X1 , ..., Xn )T et Y = (Y1 , ...,Yn )T deux échantillons peut être dépendants.
On range (Xi ,Yi ) de façon que les Xi forment une suite nondécroissante. On remplace les Xi
et les Yi par leur rangs. On a les statistiques de rangs :

R(1) = (R11 , R12 , ..., R1n )T et R(2) = (R21 , R22 , ..., R2n )T .

Le coefficient de correlation linéaire empirique entre les vecteurs R(1) et R(2) :


n
∑ (R1i − R̄1 )(R2i − R̄2 )
i=1
rs = r n n
∑ (R1i − R̄1 )2 ∑ (R2i − R̄2 )2
i=1 i=1

est appelé le coefficient de correlation de Spearman.


Montrer que
6 n
a) rs = 1 − ∑ (R1i − R2i )2 ;
n(n2 − 1) i=1
b) rs = 1, si R1i = R2i et rs = −1, si R2i = n + 1 − R1i ;
1
c) Ers = 0, Varrs = n−1 , si Xi et Yi sont indépendantes.
9. Soient X = (X1 , . . . , Xn )T et Y = (Y1 , . . . ,Ym )T deux échantillons indépendants,

P{Xi ≤ x} = F(x), P{Y j ≤ y} = G(y).


Notons X(n) et Y(m) les statistiques d’ordre correspondant à ces deux échantillons. Notons
Z(N) le vecteur des statistiques d’ordre, N = n + m, correspondant à la statistique

Z = (X1 , . . . , Xn ,Y1 , . . . ,Ym )T .


Soit Ri le rang de Xi dans Z(N) . On dit que
n
W = ∑ Ri
i=1
est la statistique de Wilcoxon. Montrer que sous l’hypothèse H0 : F(x) = G(x)

n(N + 1) nm(N + 1)
EW = et VarW = .
2 12
10. Soit X = (X1 , . . . , Xn )T un échantillon,
1 x−µ
Xi ∼ f ( σ ), | µ |< ∞, σ > 0,
σ

377

f (x) = exp(−x)1[0,∞[ (x).
a) Estimer les paramètres µ et σ en utilisant la méthode des moments ;
b) estimer les paramètres µ et σ en utilisant la méthode de maximum de vraisemblance.
11. Supposons que, pour trouver une constante µ, on ait fait n mesures indépendantes.
Supposons de plus que les resultats de l’expérience sont libres d’erreur systématique et
que les erreurs de mesure suivent une loi normale N(0, σ2 ). Pour estimer la variance σ2 de
l’erreur de mesure on a proposé deux formules :

1 n 1 n−1
σ̂21 = ∑
n − 1 i=1
(xi − x̄)2 , σ̂22 = ∑
2(n − 1) i=1
(xi+1 − xi )2 .

Peut-on dire que σ̂21 et σ̂22 sont des valeurs de deux estimateurs sans biais pour la variance ?
Quel est le meilleur de ces deux estimateurs ?
12. Soit X = (X1 , . . . , Xn )T un échantillon,

1
H0 : Xi ∼ fr (x, θ) = xr−1 e−x/θ 1]0,+∞[ (x),
θr Γ(r)

i.e. Xi suit une loi gamma avec deux paramètres r et θ, qui sont inconnus, r ∈ N et θ ∈ Θ =
]0, ∞[.
a) Trouver par la méthode des moments les estimateurs rn∗ et θ∗n pour r et θ.
b) Peut-on dire que les suites {rn∗ } et {θ∗n } sont consistantes ?
c) Supposons que n = 10 et on a reçu :

X1 = 0.117, X2 = 0.438, X3 = 0.054, X4 = 0.732, X5 = 0.601,


X6 = 0.443, X7 = 0.016, X8 = 0.129, X9 = 0.871, X10 = 0.104.
∗ et θ∗ .
Calculer les réalisations des statistiques r10 10
T
13. Soit X = (X1 , ...,Xn ) un échantillon de taille n,

θ x −θ
H0 : Xi ∼ f (x; θ) = e , x ∈ X = {0, 1, . . .}, θ ∈ Θ =]0, ∞[,
x!
i.e. Xi suit la loi de Poisson de paramètre θ. Notons

T = X1 + . . . + Xn
la statistique exhaustive pour θ.
a) Montrer que les statistiques

1 2 1
θI = χ1−γ1 (2T ) et θS = χ2γ2 (2T + 2)
2n 2n
sont γ1 -limite inférieure de confiance et γ2 -limite supérieure de confiance pour θ, où χ2α (n)
désigne α-quantile de la distribution du chi-deux de n degrés de liberté.
b) Trouver γ-intervalle de confiance pour :

ln (1 + θ)
θ = Eθ X, b(θ) = Eθ X 2 , c(θ) = .
1+θ

378
c) Le nombre de coups de téléphone venus au commutateur pendant une unité de temps est
une réalisation d’une variable aléatoire qui suit la loi de Poisson de parametre θ. On a reçu
X = 3 coups de télephone. Construire 0.95-intervalle de confiance pour θ et 0.95-limites de
confiance pour la probabilité

p0 (θ) = Pθ {X = 0}.
14. Soit X = (X1 , . . . , Xn )T un échantillon,
1 x
H0 : Xi ∼ f (x; θ) = exp{− }1(x>0) ,
θ θ
i.e. Xi suit la loi exponentielle de parametre d’échelle θ, θ > 0.
a) Construire γ-limites de confiance pour θ.
b) Supposons que n = 5 et que

X1 = 0.71, X2 = 1.02, X3 = 0.28, X4 = 2.49, X5 = 0.62.


Construire 0.9-intervalle de confiance pour θ.
(r)
c) Soit Xn = (X(1) , . . . , X(r) )T un échantillon censuré, lié avec X (r représente le nombre
des défaillances observées de certains produits dans un expérience).
Trouver le γ-intervalle de confiance pour θ et pour la fonction de survie

S(x; θ) = Pθ {X ≥ x}.
d) Soit n = 20 ; le résultat d’expérience est donné par le vecteur
(8)
X20 = (X(1) , . . . , X(r) )T = (10, 15, 41, 120, 159, 181, 222, 296)T .

Trouver les 0.95-limites inférieures pour θ et S(400; θ).


15. Soit X = (X1 , . . . , Xn )T un échantillon,

H0 : Xi ∼ f (x, θ) = θx (1 − θ)1−x , x ∈ X = {0, 1}, θ ∈ Θ =]0, 1[,


i.e. Xi suit la loi de Bernoulli de parametre θ.
a) Trouver les γ-limites de confiance pour θ.
b) Soit n = 3 et T3 = X1 + X2 + X3 = 2, i.e. on a eu 2 "succès". Trouver les 0.95-limites de
confiance pour θ et 0.95-intervalle de confiance pour θ.
16. Soit X une variable aléatoire, dont la fonction de répartition

F(x; θ), θ ∈ Θ =]0, 1[,

est donnée par la formule :

F(x; θ) = 1 − θx , si x > 0,
F(x; θ) = 0, sinon.
Supposons que dans l’expérience on a observé X = 1. Construire un intervalle de confiance
de niveau P pour θ dans deux cas :
a)X est continue ;
b)
X est discrète, P{X ≤ x} = F([x]).

379
17. Soit X1 et X2 deux variables aléatoires indépendantes,

H0 : Xi ∼ e−(x−θ) 1[θ,∞[ (x), θ ∈ Θ = R1 .


Trouver le plus petit γ-intervalle de confiance pour θ.
18. Soit X1 et X2 deux variables aléatoires indépendantes, Xi suit la loi uniforme sur
]θ − 1, θ + 1[.
Trouver le plus court 0.81-intervalle de confiance pour θ.
19. Soit 20.76 et 20.98 deux mesures indépendantes d’un angle, qui ont la même préci-
sion, et soient

21.64, 21.54, 22.32, 20.56, 21.43 et 21.07


6 autres mesures indépendantes du même angle, faites avec une précision 4 fois plus petite.
On suppose que les erreurs aléatoires des mesures suivent une loi normale. Trouver les
0.95-limites de confiance pour la différence des erreurs systématiques des deux instruments
utilisés pour obtenir les mesures données.
20. Quelles sont les valeurs de la moyenne et de la variance de la loi empirique construite
d’après les valeurs successivement observées suivantes :

3.92, 4.04, 4.12, 4.35, 4.55?


Peut on, avec le niveau de signification α = 0.05, retenir l’hypothèse H0 selon laquelle
ces nombres sont les réalisations des variables aléatoires X1 , . . . , Xn , qui forment un échan-
tillon ?
21. (suite de 9.) Montrer que la répartition de la statistique de Wilcoxon ne dépend pas
des paramètres inconnus si l’hypothèse H0 : F(x) = G(x) est vraie.
Comment définir la région critique pour l’hypothèse H0 contre l’alternative bilatérale
H1 : F(x) 6= G(x) et unilatérale H2 : F(x) > G(x) ?
22. Soit X = (X1 , ..., Xn )T un échantillon,

Xi ∼ f (x; θ) = θe−θx 1(]0,+∞[) , θ > 0.

Trouver le test uniformément le plus puissant (UPP) pour l’hypothèse simple H0 : θ =


θ0 contre l’alternative composée H1 : θ < θ0 . Le niveau de signification est α. Trouver la
fonction de puissance et faire son graphe.
23. Quelle est le plus petit nombre des mesures indépendantes suivant la même loi nor-
male avec l’espérance µ et variance σ2 = 1 qui verifie l’hypothèse µ = 0 contre l’alternative
µ = 1 avec les probabilités d’erreurs de première et seconde espèce inférieures ou égales à
0.01 ?
24. Soit X = (X1 , ..., Xn )T un èchantillon, Xi ∼ U(0, θ), θ > 0. Trouver
a) le test UPP pour l’hypothèse H0 : θ = θ0 contre l’alternative H1 : θ > θ0 ;
b) le test UPP pour l’hypothèse H0 : θ = θ0 contre l’alternative H2 : θ < θ0 ;
c) le test UPP pour l’hypothèse H0 : θ = θ0 contre l’alternative H3 : θ 6= θ0 .
25. Dans la suite des épreuves indépendantes de Bernoulli la probabilité de succes est égale
à p. Construire un critère pour vérifier l’hypothèse p = 0 contre l’alternative p = 0.01 et dé-
terminer la valeur minimale de taille d’échantillon, pour laquelle les probabilitées d’erreurs
de première et de seconde espèces sont inférieures ou égales à 0.01.
26. Cinq variables aléatoires indépendantes X1 , X2 , . . . , X5 qui suivent la même loi ont
pris les valeurs : 47,46,49,53,50. Vérifier l’hypothèse H0 , avec le niveau de signification

380
α = 0.1, que Xi suit une loi de Poisson. Calculer, sous l’hypothèse H0 , la loi conditionelle
5
de Xi sachant ∑ Xi .
i=1
27. Après 8000 épreuves indépendantes les événements A, B,C se sont realisés respec-
tivement 2014, 5012 et 974 fois.
Tester l’hypothèse

H : P(A) = 0.5 − 2a, P(B) = 0.5 + a, P(C) = a,

(0 < a < 0.25 ; niveau du test α = 0.05).


28. Au cours de la première heure de travail le compteur a enregistré 150 impulsions
d’un processus poissonien, pendant les deux heures suivantes - 250 impulsions. Est-ce que
l’intensité d’arrivée des impulsions à une unité de temps est la même ? (Prendre le niveau
du test égal à 0.05.
29. Au cours du premier jour de travail on a enregistré 20026 impulsions d’un processus
de Poisson, tandis que le jour suivant on n’a enregistré que 19580 impulsions. Y a-t-il
des raisons d’affirmer que pendant le deuxième jour l’intensité d’arrivée des impulsions a
diminué ? (Prendre le seuil α = 0.05.)
30. Parmi 300 ’etudiants 97 ont obtenu d’excellentes notes à l’examen de fin d’études
et 48 à l’examen d’entrée à l’université. 18 parmi eux ont eu d’excellentes notes aux deux à
la fois. Vérifier l’hypothèse de l’indépendance des résultats des examens. Niveau de signi-
fication : α = 0.1.
31. Le premier groupe de 300 étudiants a obtenu les notes suivantes à l’examen :
“excellent” : 144,
“bon” : 80 ;
“médiocre” : 43 ;
“mauvais” : 33.
Les résultats pour le deuxième groupe sont 154,72,35,39. Peut-on affirmer avec le ni-
veau de signification α = 0.05 que les étudiants de ces groupes ont les mêmes connais-
sances ?
32. Soit {Xt }t≥0 un processus homogène de Poisson de paramètre λ, λ > 0. (X0 = 0).
Supposons que aux moments 0 < t1 < t2 < ... < tn on observe les réalisations Xt1 , ..., Xtn .
Montrer que
1
λ̂n (Xt1 , ..., Xtn ) = Xtn
tn
est l’estimateur sans biais pour λ de variance minimale (MVUE).
33. Soit W (t), t ≥ 0, un processus de Wiener,

EW (t) = at, VarW (t) = σ2t

Cov (W (s),W (t)) = σ2 min (s,t), s ≥ 0, t ≥ 0,


|a| < ∞, σ > 0.
Supposons que nous observons W (t1 ), ...,W (tn ) (n réalisations de W (t) dans les points 0 <
t1 < ... < tn ). Notons

W (tk ) −W (tk−1 )
∆k = tk − tk−1 , yk = , t0 = W (0) = 0.
∆k

381
Montrer que en statistique

1 n 1 n
ân = ∑ ∆k yk
tn k=1
et σ̂n = ∑ δk (yk − ân)2
n − 1 k=1

sont les estimateurs sans biais pour a et σ2 de variances minimales (MVUE’s).


34. Soit W (t), t ≥ 0, un processus de Wiener

EW (t) = t, VarW (t) = σ2t.

Supposons que l’on observe W (t) sur un intervalle [0, ε], ε > 0.
Soit 0 = t0 < t1 < ... < tn−1 < tn = ε, ti = ni ,

1 n−1
Sn2 = ∑ [W (ti+1) −W (ti)]2.
ε i=0

Montrer que
P
Sn2 → σ2 , n → ∞.

382
Chapitre 9

SOLUTIONS.

1. Soit F(x) = F(x1 , . . . , xn ) la fonction de répartition de X(n) , x ∈ Rn . Dans ce cas pour tout

x ∈ A = {x ∈ Rn : x1 ≤ x2 ≤ . . . ≤ xn }

on a
F(x1 , . . . , xn ) = PX(1) ≤ x1 , . . . , X(n) ≤ xn } =

= ∑ P{Xr1 ≤ x1 , Xr2 ≤ x2 , . . . , Xrn ≤ xn } =


(r1 ,...,rn )∈σn

Zx1 Zxn
= ∑ ... fXr1 ,...,Xrn (u1 , u2 , . . . , un )du1 . . . dun =
(r1 ,...,rn )∈σn−∞ −∞

Zx1 Zxn
= ... ∑ fXr1 ,...,Xrn (u1 , u2 , . . . , un )du1 . . . dun ,
−∞ −∞ (r1 ,...,rn )∈σn

d’où on tire que pour tout x ∈ A on a

f∗ (x1 , x2 , . . . , xn ) = ∑ fXr1 ,...,Xrn (x1 , x2 , . . . , xn ) =


(r1 ,...,rn )∈σn

= ∑ f(xr1 , xr2 , . . . , xrn ).


(r1 ,...,rn )∈σn

On remarque que s’il existe au moins deux numéros i et j pour lesquels xi > x j , (i < j),
c’est à dire si x 6∈ A ,dans ce cas

F(x1 , . . . , xn ) = P{X(1) ≤ x1 , . . . , X(n) ≤ xn } = 0.

2. X = X est un échantillon, i.e. X1 , . . . , Xn sont indépendantes et suivent la même loi, dont


la densité est f (x). Dans ce cas, comme il suit du problème 1, pour tout x ∈ A la densité de
(r)
Xn = (X(1) , X(2) , . . . , X(r) )T
est donnée par la formule :

383
Z∞ Z∞
f∗X(1) ,...,X(r) (x1 , . . . , xr ) = ... f∗X(1) ,...,X(n) (x)dxr+1 . . . dxn .
−∞ ∞

Mais

f∗X(1) ,...,X(n) (x) = 0, si x 6∈ A,


et donc
Z∞ Z∞ Z∞
f∗X(1) ,...,X(r) (x1 , . . . , xr ) = dxr+1 dxr+2 . . . f∗X(1) ,...,X(n) (x)dxn .
xr xr+1 xn−1

Parce que X est un échantillon, on en tire que pour tout x ∈ A :

f∗ (x) = n! f (x1 ) f (x2 ) . . . f (xn ),


et donc

f∗X(1) ,...,X(r) (x1 , . . . , xr ) =


Z∞ Z∞
= n! f (x1 ) f (x2 ) . . . f (xr ) f (xr+1 )dxr+1 . . . f (xn )dxn .
xr xn−1

Notons que
Z∞
f (xn )dxn = S(xn−1 ),
xn−1

où S(x) = 1 − F(x), et donc


Z∞ Z∞
1
f (xn−1 )S(xn−1 )dxn−1 = − S(xn−1 )dS(xn−1 ) = S2 (xn−2 ).
2
xn−2 xn−2

En procédant de la même façon on en tire que


Z∞
1 1
f (xr+1 ) Sn−r+1 (xr+1 )dxr+1 = Sn−r (xr ),
(n − r − 1)! (n − r)!
xr

et par consécence on trouve que

n!
f∗X(1) ,...,X(r) (x1 , . . . , xr ) = Sn−r (xr ) f (x1 ) . . . f (xr ).
(n − r)!
3. En cas de la loi exponentielle on a Xi ∼ f (x; θ), θ ∈ Θ =]0, ∞[, où pour tout θ ∈ Θ

f (x; θ) = θexp{−θx}, x ≥ 0,
et

384
S(x; θ) = 1 − F(x; θ) = e−θx , x ≥ 0, F(x; θ) = P{Xi ≤ x; θ} = Pθ {Xi ≤ x}, et donc avec la
probabilité 1

X(n) ∈ A = {x ∈ Rn : 0 ≤ x1 ≤ x2 ≤ . . . ≤ xn },
(r)
d’où on trouve que la densité de Xn est donnée par la formule :
n!
f∗X(1) ,...,X(r) (x1 , . . . , xr ; θ) = θr exp{−θt}, x ∈ A,
(n − r)!

r
t = ∑ xi + (n − r)xr .
i=1
4. a) La statistique
r
T = ∑ X(i) + (n − r)X(r)
i=1
(r)
est exhaustive pour θ, parce que la fonction de vraisemblance L(Xn ; θ) de la statistique
(r)
Xn peut être présentée comme un produit

( )
r
n!
θr exp θ ∑ X(i) + θ(n − r)X(r) 1{X(1) ≥0} ,
(r) (r)
L(Xn ; θ) = g(T ; θ)h(Xn ) =
(n − r)! i=1

et donc selon le critère de factorisation de Neyman-Fisher la statistique T est exhaustive. On


remarque que la fonction de vraisemblence de la statistique X(n) est donnée par la formule :

L(X(n) ; θ) = n! f (X(1) ; θ) f (X(2) ; θ) . . . f (X(n) ; θ).


Par la tradition on dit que T est la survie sommaire de tout n produits observés dans l’expé-
rience.
b) Pour trouver l’estimateur du maximum de vraisemlence θ̂n pour θ, il nous faut maximi-
(r) (r)
ser L(Xn ; θ) par rapport à θ, ce qui est équivalent à la maximisation de lnL(Xn ; θ) par
rapport à θ. Donc pour trouver l’estimateur du maximum de vraisemblance θ̂n il nous faut
résoudre l’équation de maximum de vraisemblance
d (r)
lnL(Xn ; θ) = 0.

Parce que

(r) n!
lnL(Xn ; θ) = ln + rlnθ − θT,
(n − r)!
on trouve que
r
θ̂n = .
T
On remarque que θ̂n ne dépend que de la statistique exhaustive T. Sachant θ̂n nous pouvons
construire tout de suite l’estimateur de maximum de vraisemblance Ŝ(x) pour S(x; θ) pour
tout x fixé :

385
n rx o
Ŝ(x) = exp − .
T
Tout d’abord on remarque que dans ce problème on n’observe que la statistique
(r)
Xn = (X(1) , . . . , X(r) )T , (1 ≤ r ≤ n)
et pas X ou X(n) , et pour cette raison on dit que on a un échantillon censuré.
c). Pour apprendre des propriétés des estimateurs, basées sur la statistique exhaustive T ,
il nous faut savoir la distribution de T. On remarque que la statistique T peut être présentée
dans la forme suivante :

T = nX(1) + (n − 1)(X(2) − X(1) ) + . . . + (n − r − 1)(X(r) − X(r−1) ),


parce que n produits ont fonctionnés jusqu’à la première défaillance, (n − 1) restants entre
la première et la seconde défaillances, etc.
Soit
(r)
Z = (Z1 , . . . , Zr )T = UXn ,
une statistique dont les coordonnées Zi sont déterminées par la transformation linéaire z =
Ux, x ∈ A, avec la matrice U, dont les éléments ui j sont

uii = n − i + 1, i = 1, . . . , r,
ui j = −(n − j + 1), j = i − 1; i = 2, . . . , r,
ui j = 0 dans tout les autres cas,
et donc

zi = (n − i + 1)(xi − xi−1 ), i = 1, . . . , r; x0 = 0.
Dans ce cas

Zi = (n − i + 1)(X(i) − X(i−1) ), i = 1, . . . , r, X(0) = 0,


d’où on tire que dans les terms de Zi la statistique T est donnée par la formule suivante

T = Z1 + . . . + Zr .
Tout d’abord nous allons montrer que les statistiques Z1 , . . . , Zr sont indépendantes et suivent
la mème loi. Pour prouver cela il nous faut trouver la densité fZ (z; θ) de la statistique
(r) (r)
Z = UXn . Sachant que la densité de Xn est
( )
r
n!
f∗X(1) ,...,X(r) (x1 , . . . , xr ; θ) = θr exp −θ[ ∑ xi + (n − r)xr ] ,
(n − r)! i=1

pour trouver la densité fZ (z; θ), il nous faut calculer le Jacobian de la transformation U−1 .
Parce que

det U = n!/(n − r)!,


on trouve que

386
fZ (z; θ) = θr exp{−θ(z1 + . . . + zr )} = f (z1 ; θ) . . . f (zr ; θ),
d’où on voit bien que les statistiques Z1 , . . . , Zr sont indépendantes et suivent la loi expo-
nentielle de paramètre θ. Mais dans ce cas la satistique T suit la loi gamma avec r degrés
de liberté, dont la densité est donnée par la formule :
θr r−1 θt
fT (t; θ) = t e , t > 0.
Γ(r)
En utilisant ce résultat on trouve que
Z∞
r r θr
Eθ̂n = Eθ = fT (t; θ)dt = ,
T t r−1
0
d’où on trouve que le meilleur estimateur sans biais pour θ est
r−1
θ∗ = .
T
d). Pour trouver le meilleur estimateur sans biais S∗ (x) pour S(x; θ) nous pouvons ap-
pliquer l’approche de Rao-Blackwell-Kolmogorov, d’apres laquelle tout d’abord il nous
faut trouver n’importe quel estimateur sans biais, et apres calculer son espérance condi-
tionelle par rapport à la statistique exhaustive T , qui est complète, parce que la famille
{ fT (t; θ), θ ∈ Θ} est complète. En qualité de l’estimateur primaire pour S(x; θ) il est raison-
nable de choisir la statistique

S̃(x) = 1{Z1 >x} ,


parce que

Eθ S̃(x) = P{Z1 > x; θ} = e−θx = S(x; θ),


et donc le meilleur estimateur sans biais pour S(x; θ) est

S∗ (x) = Eθ {S̃(x) | T }.
On remarque que cette espérance conditionelle ne dépend pas de θ, parce que la statistique
T est exhaustive. Pour trouver la densité conditionnelle de Z1 par rapport à T , il nous faut
savoir la densité de la statistique (Z1 , T )T . On remarque que la densité de

(Z1 , T − Z1 )T = (Z1 , Z2 + Z3 + . . . + Zr )T ,

est donnée par la formule

−θz θ
r−1 vr−2
fZ1 ,T −Z1 (z, v; θ) = θe e−θv , z ≥ 0; v ≥ 0,
Γ(r − 1)

sinon fZ1 ,T −Z1 (z, v; θ) = 0, d’où on trouve, par le changement de variables

z = z et t = z + v,
la densité fZ1 ,T (z,t; θ) de la statistique (Z1 , T )T :

387
θr−1
fZ1 ,T (z,t; θ) = θe−θz (t − z)r−2 e−θ(t−z) ,t ≥ z ≥ 0,
Γ(r − 1)
parce que le Jacobian de la transformation est égal à 1. En utilisant ce résultat on trouve
immédiatement la densité conditionelle

fZ1 ,T (z,t) r − 1
fZ1 |T =t (z) = = r−1 (t − z)r−2 ,t ≥ z ≥ 0,
fT (t) t
sinon fZ1 |T =t (z) = 0. Donc si T ≥ x on a

ZT
r−1 z x
Eθ {S̃(x) | T } = 1· (1 − )r−2 dz = (1 − )r−1 ,
T T T
x

sinon Eθ {S̃(x) | T } = 0. Donc


½
∗ (1 − Tx )r−1 , si T ≥ x
S (x) = Eθ {S̃(x) | T } =
0, sinon.
En fin on remarque que si T >> x, alors
x r−1 x
S∗ (x) = (1 − ) = exp{(r − 1)ln (1 − )} =
T T
x x x
= exp{−(r − 1)[ + o( )]} ∼ = exp{−r } = Ŝ(x).
T T T
6. Pour tout x ∈ A et r = (r1 , . . . , rn ) ∈ σn on a :

P{R = r | X(n) = x} = lim P{R = r | x1 < X(1) ≤ x1 + h1 , . . . , x1 < X(n) ≤ xn + hn } =


h1 ,...,hn ↓0

P{R1 = r1 , . . . , Rn = rn , x1 < X(1) ≤ x + h1 , . . . , xn < X(n) ≤ xn + hn }


= lim =
h1 ,...,hn ↓0 P{x1 < X(1) ≤ xn + hn , . . . , xn < X(n) ≤ xn + hn }
P{xr1 < X1 ≤ xr1 + hr1 , . . . , xrn < Xn ≤ xrn + hrn }h1 h2 . . . hn
= lim
h1 ,...,hn ↓0 P{x1 < X(1) ≤ x1 + h1 , . . . , xn < X(n) ≤ xn + hn }h1 . . . hn

f(xr1 ,... xrn )


= .
f∗ (x)
n
13. a) La statistique exhaustive T = ∑ Xi suit la loi de Poisson de paramètre nλ (λ >
i=1
0) : T ∼ P (nλ). La fonction de répartition de T
k
(nλ)i −nλ
G(k; λ) = ∑ e = P{χ2 (2k + 2) ≥ 2nλ} = P (2nλ, 2k + 2),
i=1 i!


P (x, n) = P{χ2 (n) ≥ x}.
On a
k−1
(nλ)i −nλ
G(k − 0, λ) = ∑ i! e = P (2nλ, 2k) (k = 1, 2, ...),
i=1

388
G(k − 0, λ) = 0, si k = 0.
Les fonctions I et S du théorème de Bolshev

I(λ; X) = P (2nλ, 2T ), si X 6= 0,

I(λ; X) = 0, si X = 0,
S(λ; X) = P (2nλ, 2T + 2).
La fonction S est strictement décroissante pour toutes valeurs de T , la fonction I est stricte-
ment décroissante pour T 6= 0.
On déduit du théorème de Bolshev que γ1 -limite inférieure de confiance λi et γ2 -limite
supérieure de confiance λs pour λ peuvent être trouvées des équations

P (2nλi , 2T ) = γ1 ,
P (2nλs , 2T + 2) = 1 − γ2

1 2
λi = χ (2T )
2n 1−γ1
1
λs = χ2γ2 (2T + 2). (1)
2n
Si T = 0, I(λ; X) = 0. Dans ce cas il n’existe pas λ tel que I(λ; X) ≥ γ1 > 1/2. On déduit
du théorème de Bolshev que

λi = inf λ = 0.
λ>0
b) Pour obtenir γ-intervalle de confiance ]λi , λs [ pour λ il faut prendre γ1 + γ2 = 1 + γ dans
les formules (1) . Dans le cas γ1 = γ2 on a γ1 = γ2 = (1 + γ)/2.
c) Si n = 1, T = X = 3, on a
1 1
λi = χ21−γ1 (6), λs = χ2γ2 (6).
2 2
Pour obtenir 0.95-intervalle de confiance il faut prendre

γ1 = γ2 = (1 + 0.95)/2 = 0.975.

On a
1 1
λi = χ20.025 (6) = 1.237 = 0.6185,
2 2
1 1
λs = χ20.975 (8) = 17.535 = 8.7675.
2 2
Si p0 (λ) = e−λ , on a

λi < λ ⇔ e−λi > e−λ , λs > λ ⇔ e−λs < e−λ ,

donc 0.95-intervalle de confiance pour p0 (λ) est ]Pi0 , Ps0 [ avec

Pi0 = e− 2 χ0.95 (8) = e− 2 15.507 ≈ 0.000431.


1 2 1

389
Ps0 = e− 2 χ0.05 (6) = e− 2 1.635 ≈ 0.441.
1 2 1

14. a) Notons
T = X1 + ... + Xn .
La statistique T suit une loi gamma G(n; θ1 ) de paramètres n and 1/θ :
Z t
1
P{T ≤ t} = un−1 e−u/θ du, t ≥ 0,
(n − 1)!θn 0

et donc T /θ suit la loi gamma G(n; 1), et par conséquant


2T
= χ22n .
θ
Dans cet exemple les fonctions I et S peuvent être choisies de façons suivante
µ ¶
2T
I(θ; X) = S(θ; X) = 1 − P , 2n .
θ
Ces fonctions sont décroissantes en θ et du théorème de Bolshev il suit que les limites
inférieure θi et supérieure θs peuvent être trouvées des équations
µ ¶ µ ¶
2T 2T
1−P , 2n = γ et 1 − P , 2n = 1 − γ,
θi θs
c’est-à-dire
2T 2T
= χ2γ (2n) and = χ21−γ (2n),
θi θs
d’où on trouve que
2T 2T
θi = et θs = .
χ2γ (2n) χ21−γ (2n)
c) La statistique
r
Tr = ∑ X(k) + (n − r)X(r)
k−1

suit une loi gamma G(r; θ1 ), et par conséquant γ-intervalle de confiance pour θ est ]θi , θs [,

2Tr 2Tr
θi = 2 et θs = 2 .
χ 1+γ (2r) χ 1−γ (2r)
2 2

Puisque la fonction de survie S(x; b) = e−x/θ 1[0,∞[ (x) est croissante en θ, nous avons γ-
intervalle de confiance ]Si , Ss [ pour S(x; θ) avec

Si = e−x/θi et Ss = e−x/θs .
15. a) Il est clair que la statistique
n
T = ∑ Xi
i=1
suit une loi binomialle B(n, θ) de paramètres n et θ. La fonction de répartition de T est
k µ ¶
n
G(k; θ) = Pθ {T ≤ k} = ∑ θi (1 − θ)n−i =
i=0
i

390
I1−θ (n − k, k + 1) = 1 − Iθ (k + 1, n − k), k = 0, 1, ..., n − 1,
G(k; θ) = 1, si k = n,
où Ix (a, b) est la fonction de répartition de la loi beta de paramètres a et b, et
k−1 µ ¶
n
G(k − 0; θ) = ∑ i
θi (1 − θ)n−i = 1 − Iθ (k, n − k + 1), k = 1, 2, ..., n,
i=0

G(k − 0; θ) = 0, si k = 0.
Les fonctions I et S sont
½
I1−θ (n − T + 1, T ), si T 6= 0
I(θ; X) =
0, sinon ,
½
I1−θ (n − T, T + 1), si T =
6 n
S(θ; X) =
1, si T = n.
On remarque que S(θ; X) est strictement décroissante en θ pour T 6= n, et I(θ; X) est stric-
tement decroissante en θ pour T 6= 0, et par conséquant du théorème de Bolshev il suit
que
I1−θi (n − T + 1, T ) = γ1 pour T 6= 0,
et donc
θi = 0, si T = 0,
I1−θs (n − T, T + 1) = 1 − γ1 pour T 6= n,
et donc
θs = 1, si T = n.
Donc, ½
1 − x(γ1 ; n − T + 1, T ), si T =
6 0
θi =
0, si T = 0,
½
1 − x(1 − γ1 ; n − T, T + 1), si T =
6 n
θs =
1, si T = n,
où x(γ1 ; a, b) est le γ1 -quantil de la distribution beta de paramètres a et b.
16. b) Dans ce cas

I(X; θ) = F(X − 0; θ) et S(X; θ) = F(X; θ).

Si X = 1 alors
I(1; θ) = F(1 − 0; θ) = F(0; θ) = 0.
Du théorème de Bolshev il suit que la limite inférieure de confiance θi pour θ du niveau de
confiance supérieur ou égal à γ1 est

θi = inf θ = inf ]0, 1[ = 0.

Si γ1 = 1, alors P{θi ≤ θ} = γ1 , et donc θi = 0 est la limite inférieure de 1-confiance pour


θ. De l’autre côté la fonction

S(1; θ) = F(1; θ) = 1 − θ, θ ∈]0, 1[,

391
est décroissante en θ et donc du théorème de Bolshev nous avons

S(1; θs ) = 1 − γ2 ,

d’où il s’ensuit que θs = γ2 . Donc γ1 = 1 et γ2 limites de confiance pour θ sont 0 et γ2 , et


γ-intervalle de confiance pour θ est ]0, γ[, puisque pour γ1 = 1 l’égalité γ = γ1 + γ2 − 1 est
juste quand γ2 = γ.
17. La fonction de vraisemblance

L = exp{−(X1 + X2 − 2θ)}1{X(1) ≥ θ},

l = ln L = (2θ − X1 − X2 )1{θ ≤ X(1) }.


l = max, si θ̂ = X(1) , parce que sur l’intervalle ] − ∞, X(1) [ la fonction l est croissante. On a
 2
Z∞
P{X(1) > x} = P{X1 > x, X2 > x} =  e−(x−θ) dx = e−2(x−θ) , x ≥ θ.
x

La fonction de répartition de X(1)

G(x) = FX(1) (x) = 1 − e−2(x−θ) , x ≥ θ.

Notons T = X(1) . Les fonctions I et S du théorème de Bolshev

I(θ; X) = S(θ; X) = G(X(1) ) = 1 − e−2(X(1) −θ)

sont décroissantes, d’où on déduit que

1 − e−2(X(1) −θi ) = γ1 ,

1 − e−2(X(1) −θs ) = 1 − γ2 ,

1
θi = X(1) + ln (1 − γ1 ),
2
1
θs = X(1) + ln γ2 .
2
L’intervalle ]θi , θs [ est γ-intervalle de confiance pour θ si γ = γ1 + γ2 − 1.
La longueur de cet intervalle
1
θs − θi = (ln γ2 − ln (1 − γ1 )).
2
On cherche γ1 et γ2 tels que

γ1 + γ2 = 1 + γ, 0.5 < γi ≤ 1 (i = 1, 2)

et pour lesquels la longeur θs − θi est minimale. on considère θs − θi comme fonction de γ2 .


la dérivée
1
(θs − θi )0 = (ln γ2 − ln γ2 − γ)0 =
2

392
µ ¶
1 1 1
− < 0.
2 γ2 γ2 − γ
cette fonction est décroissante, donc θs − θi = min si γ2 = 1 et γ1 = 1 + γ − γ2 = γ, d’où on
tire que
1
θi = x(1) + ln (1 − γ);
2
θs = x(1) .
18. il est évident que yi − θ suit la loi uniforme sur [-1,1], d’où il suit que la répartition
de la variable aléatoire
t = x1 + x2 − 2θ = y1 + y2
ne dépend pas de θ. il est facile à montrer que

 0, y ≤ −2,

 1 (y + 2)2 ,
8 −2 ≤ y ≤ 0,
g(y) = p{t ≤ y} = (y−2)2

 1 − 8 , 0 ≤ y ≤ 2,

1, y ≥ 2.
la fonction
g(t) = g(x1 + x2 − 2θ), θ ∈ r1 ,
est décroissant en θ. du théorème de bolshev il s’ensuit que les limites de confiance, infé-
rieure et supérieure, de niveau de confiance γ1 et γ2 respectivement (0.5 < γi ≤ 1) vérifient
les équations
g(x1 + x2 − 2θi ) = γ1 et g(x1 + x2 − 2θs ) = 1 − γ2 ,
d’où nous trouverons
x1 + x2 p x1 + x2 p
θi = − 1 + 2(1 − γ1 ) et θs = + 1 − 2(1 − γ2 ).
2 2
il est facile à montrer que pour γ = γ1 + γ2 − 1 donné la fonction
p p
θs − θi = 2 − 2(1 − γ1 ) − 2(1 − γ2 )

prend sa valeur minimale (considérée comme fonction de γ1 , 0.5 < γ1 ≤ 1) quand


1+γ
γ1 = .
2

2 , et donc le γ-intervalle de confiance le plus court pour θ est ]θi , θs [


dans ce cas γ2 = 1−γ
avec
X1 + X2 p X1 + X2 p
θi = − 1 + 1 − γ et θs = + 1 − 1 − γ.
2 2
22. La fonction de vraisemblance est :
( )
n
L(X; θ) = θn exp −θ ∑ Xi 1{X(1) > 0}.
i=1

Le rapport de vraisemblance sera supérieur à c :


µ ¶n ( )
θ n
L(X; θ)/L(X; θ0 ) = exp −(θ − θ0 ) ∑ Xi > c
θ0 i=1

393
si et seulement si
n
∑ Xi > c1
i=1
où c1 est une constante. On a utilisé le fait que θ < θ0 . On cherche c1 tel que :
( ) ( )
n n © ª
α = Pθ0 ∑ Xi > c1 = Pθ0 2θ0 ∑ Xi > 2θ0 c1 = P χ2 (2n) > 2θ0 c1 ,
i=1 i=1

d’où
2θ0 c1 = χ21−α (2n)
et donc
1 2
c1 = χ (2n).
2θ0 1−α
Le test ne dépends pas de θ, donc il est UPP pour l’alternative θ < θ0 . La fonction de
puissance est :
( ) µ ¶
n © 2 ª θ 2
β(θ) = Pθ ∑ Xi > c1 = Pθ χ (2n) > 2θc1 = P (2θc1 , 2n) = P χ (2n), 2n ,
i=1 θ0 1−α
© ª
oú P (x, n) = P χ2 (n) > x . β(θ0 ) est décroissante,
lim β(θ) = P (0, n) = 1, β(θ0 ) = α.
θ→0+0

Figure 1.
Le test est biaisé pour l’alternatives θ > θ0 .

23. La fonction de vraisemblance est


( )
1 n
L(X; θ) = const · exp − ∑ (Xi − θ)2 .
2 i=1

Le rapport de vraisemblance sera supérieur à c :


( ) ( )
1 n n
L(X; 1)/L(X; 0) = exp − ∑ [(Xi − 1)2 − Xi2 ] = exp ∑ (Xi − 1/2) > c
2 i=1 i=1

394
si et seulement si
1 n
X̄ = ∑ Xi > c.
n i=1
Les risques de première et deuxième espèce sont :

α = P0 {X̄ > c} ≤ 0.01,

β = P1 {(X̄ ≤ c} ≤ 0.01.

Si θ = 0, X̄ ∼ N(0, 1n ), nX̄ ∼ N(0, 1).

Si θ = 1, X̄ ∼ N(1, 1n ), n(X̄ − 1) ∼ N(0, 1).

Donc

1 − Φ( nc) ≤ 0.01

Φ( n(c − 1)) ≤ 0.01
où √
nc ≥ Φ−1 (0.99)
√ (1)
n(c − 1) ≤ 1 − Φ−1 (0.99).

Notons a = Φ−1 (0.99) ≈ 2.326, m = n. Il faut trouver le plus petit m vérifiant

mc ≥ a,

m(c − 1) ≤ −a,

a a
c≥ , c ≤ 1− . (2)
m m

Figure 2
La fonction g(m) = est décroissante, la fonction h(m) = 1 − ma est croissante. On
a
m
cherche le point d’intersection m∗ :
a a
= 1− ,
m m

395
donc m∗ = 2a ≈ 4.652.

lim g(m) = 0, lim h(m) = 1, lim g(m) = +∞,


m→∞ m→∞ m→0+0

lim h(m) = −∞; h(m) = 0, si m = a ≈ 2.326.


m→0+0

Dans la région hachurée (figure 2) les inégalités (1) sont vérifiées.

Parce que
2 · 2.325 < m∗ < 2 · 2.33
et
21.6 < (m∗ )2 < 21.8,
le plus petit nombre naturel pour lequel les inégalités (1) sont vérifiées est n = [(m∗ )2 ] + 1 =
22.
24. La fonction de vraisemblance est
1
L(θ) = 1{0 ≤ X(1) ≤ X(n) ≤ θ}.
θn
a) H : θ = θ0 , H̄ : θ > θ0 .
On cherche le test pur de Neyman-Pearson de niveau α :
½
1, si L(θ) > kL(θ0 )
ϕ(X) =
0, sinon

Si X(n) ≤ θ0 , l’inégalité
L(θ) > kL(θ0 ) (1)
est vérifiée pour k > 0, si et seulement si
µ ¶n
θ0
> k.
θ
³ ´n
θ0
Si X(n) > θ0 , l’inégalité (1) est toujours vérifiée. Prenons k < θ :

α = Pθ0 {X(n) ≤ θ0 } + Pθ0 {X(n) > θ0 } = 1 + 0 = 1.

Il n’y a pas de test ´ de niveau α < 1.


³ pur n
θ0
Prenons k ≤ θ :
α = Pθ0 {X(n) > θ0 } = 0.
Il n’y a pas non plus de test pur de niveau de signification α. On cherche le test randomisé
de Neyman-Pearson 
 1, si L(θ) > kL(θ0 ),
ϕ(X) = γ, si L(θ) = kL(θ0 ), (2)

0, sinon .
Si X(n) ≤ θ0 , l’égalité
L(θ) = kL(θ0 ) (3)

396
est vérifiée pour k > 0 si et seulement si
µ ¶n
θ0
= k.
θ
³ ´n
θ0
Si X(n) > θ0 , l’égalité (3) n’est pas vérifiée. Prenons k = θ :
½
1, X(n) > θ0 ,
ϕ(X) =
γ, X(n) ≤ θ0 ,

car l’égalité (1) est vérifiée si X(n) > θ0 .


Le niveau de signification est :

α = Eθ0 ϕ(X) = Pθ0 {X(n) > θ0 } + γPθ0 {X(n) ≤ θ0 } = γ.

Donc on a ½
1, X(n) > θ0 ,
ϕ(X) =
α, X(n) ≤ θ0 .
D’après le lemme de Neyman-Pearson le test ϕ est UPP car il ne dépend pas de θ > θ0 .
b) H : θ = θ0 , H̄ : θ < θ0 . On cherche le test pur de Neyman-Pearson.
Si X(n) ≤ θ, l’inégalité (1) est vérifiée pour k > 0 si et seulement si
µ ¶n
θ0
> k.
θ
Si X(n) > θ, l’inégalité (1) n’est pas vérifiée.
³ ´n
Prenons k < θθ0 . Dans ce cas
½
1, X(n) ≤ θ,
ϕ(X) =
0, sinon ,
et µ ¶n
θ
α = Pθ0 {X(n) ≤ θ} = .
θ0
Le niveau de signification est α pour l’alternative θ1 = θ0 α1/n . Sous cette alternative
½
1, X(n) ≤ θ0 α1/n ,
ϕ(X) =
0, sinon .
Dans le cas d’autres alternatives cherchons le test randomisé (2).
Si X(n) ≤ θ, l’égalité (3) est vérifiée si et seulement si
µ ¶n
θ0
= k.
θ
Pour X(n) > θ, l’égalité (3) n’est pas vérifiée.
³ ´n
Prenons k = θθ0 . Le test de Neyman-Pearson donne
½
γ, X(n) ≤ θ,
ϕ1 (X) =
0, sinon ,

397
µ ¶n
θ
α = Eθ0 ϕ1 (X) = γP{X(n) ≤ θ} = γ ,
θ0
µ ¶n
θ0
γ=α .
θ
L’inégalité γ ≤ 1 est vérifiée si θ ≥ θ0 α1/n .
Le test de Neyman-Pearson n’existe pas quand θ < θ0 α1/n .
Pour θ ≥ θ0 α1/n µ ¶n
θ0
ϕ(X) = α .
θ
On cherche la puissance de ϕ et ϕ1 pour θ ≥ θ0 α1/n ’ :
à !n µ ¶
θ 0 α 1/n θ0 n
Eθ ϕ(X) = Pθ {X(n) ≤ θ0 α } =
1/n
= α,
θ θ
µ ¶n µ ¶n
θ0 θ0
Eθ ϕ1 (X) = α Pθ {X(n) ≤ θ} = α.
θ θ
La puissance de ϕ est la même que la puissance du test le plus puissant ϕ1 pour l’alternative
θ ≥ θ0 α1/n . Si θ < θ0 α1/n

Eθ ϕ(X) = Pθ {X(n) ≤ θ0 α1/n } = 1.

Donc, le test ϕ est le plus puissant pour toutes alternatives θ > 0.


c) On a obtenu que le test ½
1, X(n) > θ0
ϕ(X) =
α, X(n) ≤ θ0
est le plus puissant pour l’alternative θ > θ0 et le test
½
1, X(n) ≤ θ0 α1/n
ϕ0 (X) =
0, sinon

est le plus puissant pour l’alternative θ < θ0 et les puissances de ces tests

Eθ ϕ(X) = Pθ {X(n) > θ0 } + αPθ {X(n) ≤ θ0 },

Eθ ϕ0 (X) = Pθ {X(n) ≤ θ0 α1/n }.


Définissons ½
1, si X(n) > θ0 ou X(n) ≤ θ0 α1/n
ϕ2 (X) =
0, sinon .
Ce test a le niveau α car

Eθ0 ϕ2 (X) = Pθ0 {X(n) ≤ θ0 α1/n } = α.

La puissance de ϕ2 :

Eθ ϕ2 (X) = Pθ {X(n) > θ0 } + Pθ {X(n) ≤ θ0 α1/n }.

398
Si θ < θ0
Eθ ϕ2 (X) = Pθ {X(n) ≤ θ0 α1/n } = Eθ0 ϕ0 (X),
si θ > θ0 µ ¶n
θ0
Eθ ϕ2 (X) = Pθ {X(n) > θ0 } + α =
θ
Pθ {X(n) > θ0 } + αPθ {X(n) ≤ θ0 } = Eθ ϕ(X),
ϕ2 est le test UPP pour l’hypothèse H : θ = θ0 contre l’alternative bilatérale H̄ : θ 6= θ0 .

399
BIBLIOGRAPHIE.

Aguirre N. (1993). Test d’ajustement du chi-deux pour une loi logistique. XXV Journée
de Statistique, Vannes, Session 35 (191).
Aguirre N. and Nikulin M. (1994) Chi squared goodness-of-fit test for the family of
logistic distributions. Kybernetika, 30 3, p. 214-222.
Aalen, O. (1980). A model for nonparametric regression analysis of counting processes.
In. Mathematical Statistics and Probability Theory, Lecture Notes in Statistics, 2, (Eds. W.
Klonecki, A. Kozek and J. Rosinski), New York : Springer Verlag, 1-25.
Achtziger W., Bendsøe M.P. Taylor J.E. (1998). Bounds on the effect of progressive
structural degradation. J. Mech. Phys. Solids, 46, 6, 1055-1087.
Anderson T.W. (1962). On the distribution of the two-sample Cramer-von Mises crite-
rion. Annals of the Mathematical Statistics, 33, p.1148- 1159.
Anderson T.W. and Darling D.A. (1952). Asymptotic theory of certain "Goodness of
fit" criteria based on stochastic processes. Annals of the Mathematical Statistics, 23, p.193-
212.
P.K.Andersen and R.D.Gill. (1982). "Cox’s regression model for counting processes :
A large sample study", Ann. Statist, 10, p. 1100-1120.
P.K.Andersen, O.Borgan, R.D.Gill and N.Keiding, (1993). Statistical Models Based
on Counting Processes, New York : Springer-Verlag.
Andersen, P.K. (1991). Survival analysis 1981-1991 : The second decade of the pro-
portional hazards regression model. Statistics in Medicine, 10, # 12, 1931-1941.
V.Bagdonavičius. (1978.) "Testing the hyphothesis of the additive accumulation of da-
mages". Probab. Theory and its Appl., 23, pp. 403-408.
V.Bagdonavičius and M.Nikulin. (1994). " Stochastic models of accelerated life". In :
Advanced Topics in Stochastic Modelling, (eds. J.Gutierrez, M.Valderrama), Singapore :
World Scient.
Bagdonavičius, V., Nikulin, M. (1995). Semiparametric models in accelerated life tes-
ting. Queen’s Papers in Pure and Applied Mathematics. Queen’s University, Kingston, On-
tario, Canada. 98, 70p.
V.Bagdonavičius and M.Nikulin. (1996). “Analyses of generalized additive semipara-
metric models “, Comptes Rendus, Academie des Sciences de Paris, 323, 9, Série I, 1079-
1084.
V.Bagdonavičius and M.Nikulin. (1997a). "Transfer functionals and semiparametric
regression models", Biometrika, vol. 84 pp. 365-378.
V.Bagdonavičius and M.Nikulin. (1997b). "Asymptotic analysis of semiparametric
models in survival analysis and accelerated life testing", Statistics, vol. 29 pp. 261-283.
V.Bagdonavičius and M.Nikulin. (1997). "Semiparametric estimation in the generali-
zed additive multiplicative model". In : Probability and Statistics, 2, (Eds : I.A. Ibragimov,
V.A. Sudakov), Proceeding of the Steklov Mathematical Institute, St. Petersbourg, 7-27.
V.Bagdonavičius and M.Nikulin. (1997). “Statistical analysis of the generalized addi-
tive semiparametric survival model with random covariates”, Qüestiió, Qüestiió, 21, # 1-2,
p. 273-291.
V.Bagdonavičius and M.Nikulin. (1997). “Sur l’application des stress en escalier dans
les expériences accélérées “, Comptes Rendus, Academie des Sciences de Paris, 325, Série
I, p. 523-526.

400
V.Bagdonavičius and M.Nikulin. (1997). “Accelerated life testing when a process of
production is unstable”, Statistics and Probabilité Letters, 1997, 35, p. 269-279.
V.Bagdonavičius and M.Nikulin. (1997). “Transfer functionals and semiparametric
regression models”, Biometrika, 1997, 84, 2, p. 365-378.
V.Bagdonavičius and M.Nikulin. (1997). “Analysis of general semiparametric models
with random covariates”, Revue Roumaine de mathématiques Pures et Appliquées, 42, #
5-6, p. 351-369.
V.Bagdonavičius and M.Nikulin. (1997). “Asymptotic analysis of semiparametric mo-
dels in survival analysis and accelerated life testing”, Statistics, 29, p.261-283.
V.Bagdonavičius and M.Nikulin. (1997). “Some rank tests for multivariate censored
data”. In : Advances in the Theory and Practice of Statistics : A volume in Honor of Samuel
Kotz. (eds. N.L.Johnson and N.Balakrishnan), New York : J. Wiley and Sons, 193-207.
V.Bagdonavičius and M.Nikulin. (1998a). Additive and multiplicative semiparametric
models in accelerated life testing and survival analysis. Queen’s Papers in Pure and Applied
Mathematics, vol. 108, Kingston : Queen’s University, Canada.
V.Bagdonavičius and M.Nikulin. (1998b). "Estimation in generalized proportional ha-
zards
model". C.R.Acad.Sci.Paris, Serie I, 326, pp. 1415-1420.
V.Bagdonavičius, S.Malov and M.Nikulin. (1998). “Characterizations and semipa-
rametric regression estimation in Archimedean copulas”, Journal of Applied Statistical
Sciences, 8, 549-562.
V.Bagdonavičius, V.Nikoulina and M.Nikulin. (1998). “Bolshev’s method of confi-
dence interval construction”, Qüestiió, 21, # 3, 549-562.
V.Bagdonavičius and M.Nikulin. (1999). "Generalized proportional hazards model ba-
sed on modified partial likelihood" , Life Data Analysis, 5, 329-350.
Bagdonavičius, V. and Nikulin, M. (2001). Estimation in Degradation Models with
Explanatory variables, Lifetime Data Analysis, 7, 85-103.
V.Bagdonavičius and M.Nikulin. (1999). “Model Buildings in Reliabilty", In : Proba-
bilistic and Statistical Models in Reliability , (Eds. N. Limnios and D. Ionescu), Boston :
Birkhauser, 51-74.
V.Bagdonavičius and M.Nikulin. (1999). “On Nonparametric Estimation From Ac-
celerated Experiments", In : Probabilistic and Statistical Models in Reliability, (Eds. N.
Limnios and D. Ionescu), Boston : Birkhauser, 75-90.
V.Bagdonavičius and M.Nikulin. (2000)"Modèle statistique de dégradation avec des
covariables dépendant de temps", Comptes Rendus, Academie des Sciences de Paris, 2000,
329, Série I, p. 131-134.
V.Bagdonavičius and M.Nikulin. (2000). "On goodness-of-fit for the Linear Transfor-
mation and Frailty models", Statistics and Probability Letters, 47, #2, 177-188.
V.Bagdonavičius and M.Nikulin. (2000). "On nonparametric estimation in accelerated
experiments with step-stresses", Statistics, 33, 349-365.
V.Bagdonavičius, L.Gerville-Réache, V.Nikoulina, M.Nikulin. (2000) "Expériences
Accélérées : Analyse Statistique du Modèle Standard de Vie Accélérée", Revue de Statis-
tique Appliquée, XLVIII, #3, 5-38.
V.Bagdonavičius and M.Nikulin. (2001). Accelerated Life Models, Chapman&Hall/CRC,
348p.
V.Bagdonavičius, M.Nikulin. (2003) Stochastical Modeling in survival analysis and its
influence on duration analysis. In : " Advances in Survival Analysis. v.23 ". (by N.Balakrishnan

401
and C.R.Rao) North-Holland.
V.Bagdonavičius, M.Nikulin. (2003) " Semiparametric statistical analysis for aging
and longevity ". In : "Advances in statistical inferential methods : theory and applications"
(Ed. by V. Voinov), Gylym : Almaty, ISBN 9965-07-253-, p.17-30.
Bagdonavičius, V., Bikelis, A., Kazakevičius, A. and Nikulin, M. (2002). Non-parametric
estimation from simultaneous degradation and failure data, Comptes Rendus, Academie des
Sciences de Paris, v. 335, 183-188.
V.Bagdonavičius, A.Bikelis, V.Kazakevicius, M.Nikulin. (2003) Estimation from si-
multaneous degradation and failure time data. In : Mathematical and Statistical Methods in
Reliability,(B. Lindqvist and Kjell A Doksum, eds.), World Scientific Publishing, Series on
Quality,Reliability and Engineering Statistics, 7, p.301-318.
Bagdonaviçius,V., Hafdi,M., Himdi, K., Nikulin,M.. (2003). "Statistical analysis of
the Generalised Linear Proportionnal Hazards model." Proceedings of the Steklov Mathe-
matical Institute, St.Petersburg, : Probability and Statistics, 6., v.294, p.5-18, (ISSN 0373-
2703).
Bagdonaviçius,V., Haghighi, F., Nikulin, M. (2003). Statistical Analysis of General
Degradation Path Model and Failure time data with Multiple failure modes, Preprinte de
l’IFR-99 Sané Publique, Université Victor Segalen Bordeaux 2.
Bagdonavičius, V. (1978). Testing the hyphothesis of the additive accumulation of da-
mages. Probab. Theory and its Appl., 23, No. 2, 403-408.
Bagdonavičius V., M.Hafdi and Nikulin M. (2002). The Generalized Proportional
Hazards Model and its Application for Statistical Analysis of the Hsieh Model. In : Procee-
dings of The Second Euro-Japanese Workshop on Stochastic Risk Modelling for Finance,
Insurance, Production and Reliability, September 18-20, Chamonix, France, (Eds. T.Dohi,
N.Limnios, S.Osaki), p. 42-53.
Bagdonavičius V., Hafdi, M., El Himdi, K. and Nikulin M. (2002). Analyse du mo-
dèle des hazards proportionnels généralisé. Application sur les donnés du cancer des pou-
mons. Preprint 0201, I.F.R. "Santé Publique".
Bagdonavičius V., Hafdi, M., El Himdi, K. and Nikulin, M. (2002). Analysis of Sur-
vival Data with Cross-Effects of Survival Functions. Applications for Chemo and Radiothe-
rapy Data. Preprint 0202, I.F.R. "Santé Publique".
Bagdonavičius, V. and Nikulin, M. (2004). Semiparametric analysis of Degradation
and Failure Time Models. In : Semiparametric Models and Applications for Reliability, Sur-
vival Analysis and Quality of Life, (Eds. : M.Nikulin, N.Balakrishnan, M.Mesbah, N.Limnios),
Birkhauser : Boston.
Balakrishnan N., Ed. (1992) Handbook of the logistic distribution. New York : Marcel
Dekker.
Balakrishnan, E., Nelson, M. I., Wake, G. C. (1999). Radiative ignition of combus-
tible materials. I. Polymeric materials undergoing nonflaming thermal degradation :the cri-
tical storage problem.Math. Comput. Modelling,30, # 11-12, 177-195.
Berger T., Zhang Z. (1983). Minimum breakdown degradation in binary source enco-
ding. IEEE Trans. Inform. Theory, 29, # 6, 807-814.
Boulanger,M., Escobar, L.A.(1994). Experimental design for a class of accelerated
degradation tests. Technometrics, 36, 260-272.
Burchard A. (1994). Substrate degradation by a mutualistic association of two species
in the chemostat. J. Math. Biol., 32, #5, 465-489.
Busenberg S., Tang B. (1994). Mathematical models of the early embryonic cell cycle :

402
the role of MPF activation and cyclin degradation. J.Math.Biol., 32, #6, 573-596.
Birnbaum Z.W. (1952). Numerical tabulation of the distribution of Kolmogorov’s sta-
tistic for finite sample size. JASA, v.47, p.425.
Bolshev L.N. and Nikulin M.S. (1975) One solution of the problem of homogeneity.
Serdika, Bulgarsko Mathematichesko Spicanie, v.1, p.104-109.
Bolshev L.N. and Smirnov N.N. (1968). Tables of mathematical statistics. Moscow :
Nauka (in russian).
S.C.Cheng, L.J.Wei and Z.Ying. (1995). "Analysis of tranformation models with cen-
sored data", Biometrika, vol. 82 pp. 835-846.
Chernoff H., Lehmann E.L. (1954) The use of maximum likelihood estimator in χ2
tests for goodness of fit. Ann. Math. Stat., 25, 579-586.
Cantrell R.S., Cosner C., Fagan W. F.(1998). Competitive reversals inside ecological
reserves : the role of external habitat degradation. J. Math. Biol., 37, #6, 491-533.
Carasso A.S., Sanderson J.G.., Hyman J.M. (1978). Digital removal of random media
image degradations by solving the diffusion equation backwards in time. SIAM J. Numer.
Anal. 15, #2, 344-367.
Carey, M.B., Koenig,R.N. (1991). "Reliability assessment based on accelerated degra-
dation : a case study. IEEE Transactions on Reliability",40, 499-506.
Chiao, C.H., Hamada, M. (1996). Using Degradation Data from an Experimet to
Achive Robust Reliability for Light Emmitining Diodes, Quality and Reliability Enginee-
ring International, 12, 89-94.
Cinlar,E. (1980). On a generalization of gamma processes, J.Appl.Probab.,17, 467-480.
Cramer H. (1946). Mathematical methods of statistics. Princeton University Press,
Princeton, N.J.
D.R.Cox. (1972). "Regression models and life tables", J.Roy.Statist. Soc., B, vol. 34 pp.
187-220.
D.R.Cox and D.Oakes. (1984). Analysis of Survival Date, London : Chapman and Hall.
Cox, D.R. (1975) Partial likelihood. Biometrika, 62, 269-276.
Cox, D.R.(1999). Some Remarks on Failure-times, Surrogate Markers, Degradation,
Wear, and the Quality of Life, Lifetime Data Analysis, 5, 307-314, 1999.
D.M.Dabrowska and K.A.Doksum. (1988a). "Estimation and Testing in a Two-Sample
Generalized Odds-Raparte Model", JASA, 83 pp. 744-749.
D.M.Dabrowska and K.A.Doksum. (1988b). "Partial likelihood in transformation mo-
del with censored data", Scand. J. Statist., 15, pp. 1-23.
Darling D.A. (1957) The Kolmogorov-Smirnov, Cramer-fon-Mises tests. Ann. Math.
Statist.,28, p.1-7.
Dowling, N.E.(1993). Mechanical Behavior of Materials, Prentice Hall : Englewood
Cliffs.
Doksum, K.A., Hoyland, A.(1992). Models for variable-stress accelerated life testing
experiment based on Wiener processes and the inverse Gaussian distribution, Technome-
trics, 34, 74-82.
Doksum,K.A., Normand, S.-L.T.(1995). "Gaussian Models for Degradation Processes
- Part I : Methods for the Analysis of Biomarker Data", Lifetime Data Analysis,1, 131-144.
Doksum K.A., Normand S.-L.T. (1996). Models for degradation processes and event
times based on Gaussian processes. Lifetime data : models in reliability and survival analy-
sis (Cambridge, MA, 1994), 85-91.Dordrecht : Kluwer Acad. Publ.

403
Droesbeke, J.-J., Fichet B. & Tassi P., (1989). Analyse statistique des durées de vie,
Paris : Economica.
Drost F. (1988) Asymptotics for generalized chi-square goodness-of-fit tests, Amster-
dam : Center for Mathematics and Computer Sciences, CWI Tracts, 48.
Dzhaparidze, K.O. and Nikulin M.S. (1974). On a modification of the standard sta-
tistics of Pearson. Theory of probability and its applications, 19, #4, p.851-852.
Dzhaparidze, K.O. and Nikulin M.S. (1982). Probability distributions of the Kolmo-
gorov and omega-square statistics for continuous distributions with shift and scale para-
meters. Journal of Soviet Mathematics, 20, p.2147-2163.
Dzhaparidze, K.O., Nikulin, M.S. (1995), On the computation of the chi-square type
statistics, Journal of Mathematical Sciences, 75, 5, 1910-1921.
Fasano A., Primicerio M., Rosso F. (1992). On quasi-steady axisymmetric flows of
Bingham type with stress-induced degradation. Computing,49, # 3, 213-237.
Friedrich J. (1999). A dual reciprocity boundary element model for the degradation of
strongly eroded archaeological signs. Math. Comput. Simulation, 48, 3, 281-293.
Gajewski, H., Sparing, H.-D. (1992).On a model of a polycondensation process with
thermal degradation. Z. Angew. Math. Mech., 62, #11, 615-626.
Garrigoux, C., Meeker, W.Q. (1994). A reliability model for planning in-service ins-
pections for components subject to degradation failure. Pakistan J. Statist., 10, 1, 79-98.
Gupta, R. (1991). Analysis of a two-unit cold standby system with degradation and
linearly increasing failure rates. Internat. J. Systems Sci., 22, #11, 2329-2338.
Gerville-Réache L., Nikulin, M. (2000). " Analyse statistique du modéle de Makeham
" Revue Roumaine Math. Pure et Appl., 45, #6, 947-957.
Gihman, I.I. (1961) On the empirical distribution function in the case of grouping data.
In : Selected Translation in Mathematical Statistics and Probability, 1, p.77-81.
Grizzle, J.E. (1961) A new method of testing hypotheses and estimating parameters for
the logistic model. Biometrics, 17, p.372-385.
Habib, M.G., Thomas, D.R. (1986). Chi-square goodness-of-fit tests for randomly cen-
sored data. Annals of Statistics, 14,759-765.
Haghighi, F., Nikulin, M (2003). Chi-square type test for power generalized Weibull
family. In : Advances in statistical inferential methods : theory and applications, (Ed. by V.
Voinov), Gylym : Almaty, p.89-105.
Hamada, M.(1995). "Analysis of Experiments for Reliability Improvement and Robust
Reliability", In : Recent Advances in Life-Testing and Reliability, (Ed. N. Balakrishnan),
CRC Press : Boca Raton.
Hald, A. (1952) Statistical Theory with Engineering Applications. Wiley, New York.
Hougaard, P. (1986) Survival models for heterogeneous populations derived from stable
distributions, Biometrika, 73, 3, 387-396.
Hsieh, F. (2001). On heteroscedastic hazards regression models : theory and application.
Journal of the Royal Statistical Society, Series B 63, 63-79.
Huber-Carol C. (1989). Statistique au PCEM . Masson, Paris .
Huber C and Nikulin M.S. (1993). Classical random walks and some statistical pro-
blems. In : Rings and modules. Limit theorems of probability theory.#3. St. Petersburg State
University.
Huber C. (1991). Modeles log-lineaires. Preprinte de l’Université Paris 5, DEA STA-
TISTIQUE ET SANTE, 50 p.

404
Huber-Carol C. (1991). Statistique. Preprinte de l’Université Paris 5, Maitrise de Sciences
Biologiques et Medicales d’Informatique, Statistique et Epidémiologie et DUPESB, 134 p.
Huber C. (1991). Elements de statistique générale. Choix et réduction d’un modele
statistique. Preprinte de l’Université Paris 5, 48 p.
Huber C. (2000). Censored and Truncated Lifetime Data. In : Recent Advances in Re-
liability Theory. (Eds. N. Limnios, M.Nikulin). Boston : Birkhauser, 291-306.
C.Huber and M.Nikulin. (1997). “Remarques sur le maximum de vraisemblance”,
Qüestiió, 21, # 1-2, p. 37-58 (avec C. Huber).
Igaki N., Sumita U., Kowada M., (1998). On a generalized M/G/1 queue with service
degradation/enforcement. J. Oper. Res. Soc. Japan, 41, 3, 415-429.
Jayanti P, Chandra T. D., Toueg S. (1999). The cost of graceful degradation for omis-
sion failures. Inform. Process. Lett., 71, # 3-4, 167-172.
Kleinbaum, D. (1996). Survival Analysis : A Self-Learning text. New York : Springer-
Verlag.
Klein, J.P. and Moeschberger, M.L. (1997). Survival Analysis, New York : Springer.
Kalbfleisch J.D., Prentice R.L. (1980) The Statistical Analysis of Failure Time Data.
New York : J. Wiley and Sons.
Kaplan E.L. and Meier P. (1958) Monparametric estimation from incomplete obser-
vations. J.Am.Stat.Assoc., 53, p.457-481.
Khalfina N.M. (1983) Some asymptotic results associated with the Chauvenet test for
multidimensional random variables. Journal of Soviet Mathematics, 23, #1, p.99-106.
Klinger D.J..(1992). "Failure time and rate constant of degradation : an argument for
the inverse relationship". Microelectronics and Reliability,32, 987-994.
Klimontovich, Yu. L. (1997). Chaoticity, degradation and self-organization in open
systems. Self-organization of complex structures, ( Berlin, 1995), 37-50. Amsterdam : Gor-
don and Breach.
Koike T., Kameda H. (1973). Reliability theory of structures with strength degradation
in load history. Mem. Fac. Engrg. Kyoto Univ., 35, 331-360.
Kolmogorov A.N. (1933). Sulla determinizione empirica di una legge di distribuzione.
Giorn.Ist.Ital.Attuari, 4, p.83-91.
Kolmogorov A.N. (1951). Une généralisation d’une formule de Poisson. Uspekhi Mat.Nauk.,
6,p. 133-134.
Lawless J.F. (1982) Statistical Models and Methods for Lifetime Data. New York : J.
Wiley and Sons.
Lawless,J.,Hu,J., and Cao, J.(1995). Methods for the estimation of failure distributions
and rates from automobile warranty data, Lifetime Data Analysis, 1, 227-240.
LeCam, L., Mahan,C., Singh, A. (1983). An extension of a Theorem of H.Chernoff
and E.L.Lehmann. In : Recent advances in statistics, Academic Press, Orlando, 303-332.
Lehmann E.H. (1973). On two modification of the Cramer-von Mises statistic. Journal
of the Royal Statist.Soc.,Ser, 35, p.523.
Lin, D.Y., and Ying, Z. (1996). " Semiparametric analysis of the general additive-
multiplicative hazard models for counting processes", Ann. Statist., 23, p. 1712-1734.
Lin, D.Y., Geyer, C.J. (1992). Computational methods for semiparametric linear re-
gression with censored data. Journal Comput. and Graph. Statist.,, 1, 77-90.
Lu, C.J. (1995). "Degradation processes and related reliability models", Ph.D. thesis,
McGill University, Montreal, Canada.

405
Lu,C.J.,Meeker.W.Q.(1993). "Using degradation Measures to Estimate a Time-to-Failure
Distribution", Technometrics, 35,161-174.
Lu C. J., Meeker W.Q., Escobar L.A. (1996). A comparison of degradation and failure-
time analysis methods for estimating a time-to-failure distribution. Statist. Sinica, 6, 3, 531-
546.
Mann, N.R., Schafer, R.E. and Singpurwalla, N. (1974) Methods for Statistical Ana-
lysis of Reliability and Life Data. New York : John Wiley and Sons.
Mann H.B. and Whitney D.R. (1947). Annals of Mathematical Statistics, v.18, p.50-
60.
Mardia K.V. and Zemroch P.J. (1978). Tables of the F- and related distributions with
algorithms. Academic Press.
McKeague, I.W., Sasieni, P.D.(1994). A partly parametric additive risk model. Biome-
trika, 81,#3, 501-514.
Meinhold R.J. and Singpurwalla N.D. (1987) A Kalman-Filter Smoothing Approach
for Extrapolation in Certain Dose - Response. Damage Assessment. and Accelerated-Life-
Testing Studies. The American Statistician, 41, p.101-106.
Margolis S. B. (1979). An analytical solution for the multidimensional degradation of
a packed bed thermocline. J. Franklin Inst., 307, #1, 39-58.
Meeker,W.Q., Escobar,L.A., Lu, C.J. (1998)."Accelerated Degradation Tests : Mode-
ling and Analysis", Technometrics, 40, 89-99.
Meeker,W.Q., Escobar,L.A. (1998).Statistical Methods for Reliability Data, John Wi-
ley and Sons : New York.
Mine H., Kawai H. (1976). Marginal checking of a Markovian degradation unit when
checking interval is probabilistic. J. Operations Res. Soc. Japan, 19, 2, 158-173.
Mitsuo,F.(1991). "Reliability and Degradation of Semiconductor Lasers and LEDs",
Artech House : Norwood.
Meeker, W.Q. and Escobar, L. (1998). Statistical Analysis for Reliability Data, John
Wiley and Sons, New York.
Miller L. (1956). Table of percentage points of Kolmogorov statistics. JASA, 51, p.111.
Mises R. von (1931). Warhrscheinlichkeit, Statistik und Wahrheit. Springer-Verlag.
Molenar W. (1970). Approximations to the Poisson,Binomial and Hypergeometric Dis-
tribution Functions Amsterdam, Mathematical centre tracts, 31.
Moore D. and Spruill M. (1975). Unified large-sample theory of general chi-squared
statistics for tests of fit, Ann. Statist.,, 3, 599-616.
S.A.Murphy. (1995). "Asymptotic theory for the frailty model", Annals of Statist., vol.
23 pp. 182-198.
S.A.Murphy, A.J.Rossini and A.W. van der Vaart. (1997). Maximum likelihood es-
timation in the proportional odds model, JASA., 92, p. 968-976.
Nelson, W. (1990). Accelerated Testing : Statistical Models, Test Plans, and Data Ana-
lysis, John Wiley and Sons : New York.
Nikulin M.S. (1973) Chi-square test for continuous distributions with shift and scale
parametres. Theory of probability and its applications, 18, p.559-568.
Nikulin M.S. (1973). On a chi-square test for continuous distributions.Theory of pro-
bability and its applications, 18, p.638-639.
Nikulin M.S. (1979). Hypothesis testing for a parameter difference in binomial distri-
butions. Theory of probability and its applications, v.24, #2, p.392-396.

406
Nikulin M.S. (1984). F-distributions and its relations with others distributions. In :
Mardia K.V. and Zemroch P.J. Tables of the F- and related distributions with algorithms.
Academic Press. Moscow, Nauka (in russian).
Nikulin M.S. (1991). Some recent results on chi-squared tests. Queen’s papers in pure
and applied mathematics, 86, Queen’s University, Kingston, Canada, 74 p.
Nikulin M.S., Nacerra Seddik-Ameur (1991). Analyse statistique des données binor-
males. Seminaire 90-91, Université Paris 5, p.87-110.
Nikulin M.S. (1992). Gihman statistic and goodness-of-fit tests for grouped data. C.R.
Math. Rep. Acad. Sci. Canada, 14, #4, p.151-156.
M.Nikulin and V.Solev. (1999). Chi-squared goodness of fit test for doubly censored
data, applied in Survival Analysis and Reliability, In : Probabilistic and Statistical Models
in Reliability, (Eds. N. Limnios and D. Ionescu), Boston : Birkhauser, 101-112.
M.Nikulin, M.Novak, D.Turetaev, V.Voinov. (2000). Estimating Environmental Ra-
dioactive Contamination in Kazakhstan, Central Asian Journal of Economics, Management
and Social Research, # 1, 59-71. (ISBN 9965-9047-3-1)
Nikulin, M., Pya, N., Voinov,V. (2003). Chi-squared goodness-of-fit tests for the family
of logistic distributions. Preprinte "Statistique Mathématique et ses Applications, Université
Victor Segalen Bordeaux 2, France.
Oliver F.R. (1964). Methods of estimating the logistic growth function. Appl. Statist.,
13, p.57-66.
Olson W.H. (1977). Non-uniform breakage-mechanism branching processes and de-
gradation of long-chain polymers. J. Appl. Probability, 14, 1, 1-13.
E.Parner. (1998). Asymptotic theory for the correlated gamma-frailty model, Ann. Sta-
tist., 26, p. 183-214.
Patnaik P.B. (1949) . The non-central χ2 and F distributins and their applications. Bio-
metrika, 36, p.202-232.
Pearson E.S. (1959). Note on an approximation to the distribution of non-central χ2 .
Biometrika, 46, p.364.
Pearson E.S. and Hartley H.O. (1966). Biometrika tables for statisticians, 1. Cam-
bridge University Press.
Pearson E.S. and Hartley H.O. (1972). Biometrika tables for statisticians, 2. Cam-
bridge University Press.
Pearson K. (1934). Tables of the incomplete Γ-fonction. Cambridge University Press.
Pearson K. (1968). Tables of the incomplete Beta-function. Cambridge University Press.
Pearl R., Reed L.J. (1920). On the rate of growth of the population of the United States
since 1790 and its mathematical representation. Proc. of National Acad. Sci., 6, p.275-288.
Pearlman W.A. (1976). A limit on optimum performance degradation in fixed-rate co-
ding of the discrete Fourier transform. IEEE Trans. Information Theory, IT-22, 4, 485-488.
Pinçon, C. (2003) Estimators non-paramétriques et semi-paramétriques efficaces dans
l’analyse des données censurées multivariées, Thèse de l’Université Paris XI, Faculté de
MEDECINE PARIS-SUD.
Prékopa A. (1954). Statistical treatment of the degradation process of long chain poly-
mers. Magyar Tud. Akad. Alkalm. Mat. Int. Kozl., 2, 103-123 .
Pettit L. I., Young K. D. S. (1999). Bayesian analysis for inverse Gaussian lifetime data
with measures of degradation. J. Statist. Comput. Simulation, 63, 3, 217-234.
Redinbo G.R. (1979). Optimum soft decision decoding with graceful degradation. In-
form. and Control,41, #2, 165-185.

407
Rao C.R. (1965) Linear Statistical Inferece and its application. New York : J.Wiley and
Sons.
Rao K.C., Robson D.S. (1974). A chi-squared statistic for goodness-of-fit tests within
the exponential distribution, Commun. Statist., 3, 1139-1153.
Reed L.J., Berkson J. (1929). The application of the logistic function to the experi-
mental data. Journal Physical Chemistry, 33, p.760-779.
Sedyakin, N.M. (1966). On one physical principle in reliability theory.(in russian).
Techn. Cybernetics, 3,80-87.
Singpurwalla, N.D.(1995). Survival in Dynamic Environnements. Statistical Science,l,10,
86-103.
Singpurwalla,N.D.(1997). Gamma processes and their generalizations : an overview. In
Engineering Probabilistic Design and Maintenance for Flood Protection, (R.Cook, M.Mendel
and H.Vrijling, eds.) Kluwer Acd.Publishers, 67-73.
Singpurwalla,N.D., Youngren, M.A.(1998). Multivariate distributions induced by dy-
namic environments, Scandinavian Journal of Statistics, 20, 251-261.
Schiffer, M. (1993). Quantum fog and the degradation of information by the gravitatio-
nal field. Gen. Relativity Gravitation, 25, # 7, 721-752.
Srinivasan S. K., Mehata K. M. (1972). A stochastic model for polymer degradation.
J. Appl. Probability, 9,43-53.
Suzuki,K., Maki,K., Yokogawa, S. (1993). An analysis of degradation data of a carbon
film and properties of the estimators. In : Statistical Sciences and Data Analysis, (Eds.
K.Matusita, M.Puri,T.Hayakawa), Utrecht, Netherlands :VSP.
Smirnov N.V. (1936). Sur la distribution de ω2 .[C.R.Acad.Sci. de Paris, 202, p.449-452.
Smirnov N.V. (1939). On estimating the discrepancy between empirical distribution
functions in two independent samples. The Bulletin of the Moscow’s Gos.University, ser.A,
2, p.3-14.
Smirnov N.V. (1937). On the distribution of Mises ω2 -test. Math.Sbornik, 2, p.973-994.
Smirnov N.V. (1939). On deviation of the empirical distribution function.Math. Sbor-
nik, 6, p.3-26.
Smirnov N.V. (1944). Approximate distribution laws for random variables, constructed
from empirical data.Uspekhi Math.Nauk, 10, p.197-206.
Stablein, D. M., Koutrouvelis, I. A. (1985). A two sample test sensitive to crossing
hazards in uncensored and singly censored data. Biometrics 41, 643-652.
Thompson C.M. (1963). Tables of percentage points of theχ2 -distribution. Biometrika,
32, p.187-191.
Thompson C.M. (1941) . Tables of percentage of the incomplete Beta-function. Biome-
trika, 32, p.151-181.
Thompson W.R. (1935). On a criterion for the rejection of observations and the dis-
tribution of the ratio of deviation to sample standard deviation. Annals of mathematical
statistics, v.6, p.214-219.
Tseng,S.T., Hamada,M.S. and Chiao,C.H.(1994). Using degradation data from a frac-
tional experiment to improve fluorescent lamp reliability. Research Report RR-94-05. The
Institute for Improvement in Quality and Productivity, University of Waterloo, Waterloo,
Ontario, Canada.
A.A.Tsiatis. (1981). A large sample study of Cox’s regression model, Ann. Statist., 9, p.
93-108.
Tumanian S.Kh. (1956). Asymptotic distribution of χ2 criterion when the number of

408
observations and classes increase simultaneously. Theory of Probability and its Applica-
tions, 1, #1, p.131-145.
Turnbull B.W. (1974). Non parametric estimation of survivorship function with doubly
censored data. JASA, 69, 169-173.
Turnbull B.W. (1976). The empirical distribution function with arbitrarily grouped,
censored, and truncated Data. .Royal Statist. Soc. B 38, p.290-295.
J.W.Vaupel, K.G.Manton and E.Stallard. (1979). The impact of heterogeneity in in-
dividual frailty on the dynamics of mortality, Demography, 16, p. 439-454.
Van der Vaart, A. W. (2000). Asymptotic Statistics. Cambridge : UK.
Verdooren L.R. (1963). Extended tables of critical values for Wilcoxon’s test statis-
tic.Biometrica, v.50, p.177-186.
Voinov V.G. and Nikulin M.S. (1993). Unbiased estimators and their applications, v.1
Univariate case, Dordrecht : Kluwer Academic Publishers.
Voinov V.G. and Nikulin M.S. (1996). Unbiased estimators and their applications, v.2
Multivariate case, Dordrecht : Kluwer Academic Publishers.
Woodroofe M. (1985). Estimating a distribution function with truncates data. Ann.
Statist., 13, p.163-177.
Wulfsohn, M. and Tsiatis, A. (1997). A Joint Model for Survival and Longitudinal
Data Measured with Error. Biometrics, 53, 330-339.
Whitmore,G.A..(1995). Estimating Degradation By a Wiener Diffusion Process Sub-
ject to Measurement Error. Lifetime Data Analysis, 1, 307-319.
Whitmore, G.A., Schenkelberg,F.(1997). Modelling Accelerated Degradation data
Using Wiener Diffusion With a Time Scale Transformation, Lifetime Data Analysis, 3, 27-
45.
Whitmore, G.A., Crowder,M.I. and Lawless, J.F.(1998). Failure inference from a
marker process based on bivariate model, Lifetime Data Analysis, 4, 229-251.
Wu S.-J., Shao J. (1999). Reliability analysis using the least squares method in nonli-
near mixed-effect degradation models. Statist. Sinica, 9, # 3, 855–877.
Yanagisava, T. (1997). Estimation of the degradation of amorphous silicon cells, Mi-
croelectronics and Reliability, 37, 549-554.
Yu H.-F., Tseng S.-T. (1999). Designing a degradation experiment. Naval Res. Logist.,
46, #6, 689-706.
Zeleny M. (1995). The ideal-degradation procedure : searching for vector equilibria.
Advances in multicriteria analysis, 117-127, Nonconvex Optim. Appl., 5, Kluwer Acad.
Publ., Dordrecht.
Zacks S. (1971) The theory of statistical inference. New York : Wiley and Sons.
Zerbet A. (2001) Statistical tests for normal family in the presence of outlying obser-
vations. In : Goodness-of-fit tests and Validity of Models (Eds. C.Huber, N.Balakrishnan,
M.Nikulin, M.Mesbah), Boston : Birkhauser.
Zerbet, A., Nikulin, M. (2003). A new statistics for detecting outliers in exponential
case, Communications in Statistics : Theory and Methods,32, 573-584.
Zhang B. (1999) A chi-squared goodness-of-fit test for logistic regression models based
on case-control data, Biometrika, 86, #3, 531-539.
Zdorova-Cheminade, O. (2003) Modélisation du processus d’évolution de l’incapa-
cité chez les personnes agées, Mémoire de DEA "Epidémiologie et Intervention en Santé
Publique", Université Bordeaux 2, Juin 2003, 77 pages.

409

Anda mungkin juga menyukai