à
l’usage des étudiants de DEUG, Licence et Master
M. Nikulin
V. Bagdonavičius
C. Huber
V. Nikoulina
BORDEAUX
2004/2005
1
2
Table des matières
3
2.19 Decomposition orthogonale de Fisher . . . . . . . . . . . . . . . . . . . . 151
2.20 Modèle d’analyse des variances à 2 facteurs. . . . . . . . . . . . . . . . . 154
2.21 Modèle exponentiel. Analyse statistique. . . . . . . . . . . . . . . . . . . 163
5 REGRESSION 243
5.1 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
5.1.1 Modèle de la régression linéaire . . . . . . . . . . . . . . . . . . . 243
5.1.2 Codage des covariables . . . . . . . . . . . . . . . . . . . . . . . 244
5.1.3 Interprétation des coefficients β. . . . . . . . . . . . . . . . . . . . 245
5.1.4 Modèle avec interactions . . . . . . . . . . . . . . . . . . . . . . 245
5.1.5 Estimateurs des moindres carrés . . . . . . . . . . . . . . . . . . . 246
5.1.6 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . 247
5.1.7 Décomposition des sommes de carrés . . . . . . . . . . . . . . . . 250
5.1.8 Le coefficient de détermination. . . . . . . . . . . . . . . . . . . . 252
5.1.9 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . 253
5.1.10 Régression normale . . . . . . . . . . . . . . . . . . . . . . . . . 254
5.1.11 Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . 255
5.1.12 Lois des estimateurs β̂ et σ̂2 . . . . . . . . . . . . . . . . . . . . . . 255
5.1.13 Test de l’hypothèse H0 : βk+1 = ... = βm = 0 . . . . . . . . . . . . 257
5.1.14 Les coefficients empiriques de la correlation partielles . . . . . . . 260
4
5.1.15 Intervalles de confiance pour les coefficients β et leur combinaisons
linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
5.1.16 Intervalles de confiance pour les valeurs de la fonction de régres-
sion m(x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
5.1.17 Prédiction de la nouvelle observation . . . . . . . . . . . . . . . . 263
5.1.18 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . 263
5.2 Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
5.3 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
5.3.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
8 EXERCICES. 375
9 SOLUTIONS. 383
5
6
AVANT PROPOS
7
blèmes concrets, en particulier pour les ingénieurs, mais aussi, et c’est moins connu, dans
les domaines de la médecine, de la biologie et de la sociologie.
De plus cette approche nous permet de considérer "les transformations des variables
aléatoires" comme le synonyme d’une partie de "la statistique mathématique", qui est basée
sur la théorie de la probabilité. Ce point de vue sur le rôle des transformations des variables
aléatoires dans la statistique a été exprimé tres nettement par Professeur L.N. Bolshev dans
ces articles, voir, par exemple, (1959), (1963) etc.
Dans cette optique C.Huber, T.Smith and M.Nikulin ont préparé le manuscript "Intro-
duction to the Theory of Statistical Inference",(1992), Departement of Mathematics and
Statistics, Queen’s University, Kingston, Canada. Ce manuscrit a été largement utilisé pour
créer la base du cours de la statistique que j’ai donné à Queen’s University en 1991-1992,
ainsi que les cours de statistiques donnés au sein de l’UFR MI2S à l’Université Bordeaux
2.
Il faut noter que pour préparer le cours actuel nous avons utilisé aussi les livres suivants :
V. Bagdonavičius & M.Nikulin, "Accelerated Life Models", 2002,
Chapman&Hall/CRC : Boca Raton,
C.Huber, "Statistique au PCEM",1992, Masson, Paris,
V.Voinov & M.Nikulin, "Unbiased Estimators and Their Applications. Vol.1 : Univa-
riate Case" 1993, Kluwer Academic Publishers, Dortrecht),
V.Voinov & M.Nikulin, "Unbiased Estimators and Their Applications. Vol.2 : Multiva-
riate Case", 1996, Kluwer Academic Publishers, Dortrecht,
P.E.Greenwood & M.Nikulin, "A Guide to Chi-Squared Testing", 1996, John Wiley and
Sons, New-York,
Encyclopaedia of Mathematics, 1994, (Editor : M.Hasewinkel), Kluwer Academic Pu-
blishers, v. 1-10,
Probability & Mathematical Statistics : Encyclopaedia, 1999, (Ed. : Yu.V.Prokhorov),
Big Russian Encyclopaedia,Moscow,
d’où était tiré la plupart des exemples, définitions, remarques, exercises et démonstrations
des résultats à caractère théorique pour construire les cours de statistique que nous avons
donné à l’Université Bordeaux 2 (DEUG, Licence et Maîtrise de la filère MASS, DESS et
DEA de la filière Sciences Cognitive à l’UFR MI2S, DESS de Statistique Appliquée aux
Sciences Sociales et de Santé de l’ISPED. Ce cours est lié avec d’autres cours de statis-
tiques donnés à l’Université Bordeaux 2 ( les UFR’s STAPS, Sciences de la Vie, Sciences
Pharmaceutiques, l’ISPED) et peut-être bien utilisé comme le support de base dans l’en-
seignement des cours de statistiques de niveau de DESS et DEA orientés vers le milieu
biomédicale, ainsi que pour les sciences sociales et économiques. En particulier, il est bien
adapté pour le DESS "Statistique Appliquée aux Sciences Sociales et de la Santé" et DEA
d’Epidémiologie (Option Biostatistique) à l’Institut de Santé Publique, d’Epidémiologie et
de Développement. Cet ouvrage est tres lié avec notre ouvrage précident "Statistique ma-
thématique : Théorie, Méthodes and Applications", (2000/2001).
Dans ces cours nous avons essayé d’exposer les idées et les notions fondamentales de
la statistique mathématique en termes de définitions, exemples et remarques et d’introduire
les techniques des transformations des données et les méthodes statistiques que l’on utilise
souvent dans les applications. Tout cela ensemble permet d’apprendre les bases fondamen-
tales de la statistique mathématique, d’apprendre à travailler avec des logiciels et des tables
statistiques, de construire des modèles probabilistes et de faire des inférences statistiques,
et par conséquent, à être pret de travailler dans les différents domaines d’applications des
8
modèles et méthodes de la statistique mathématique. Il est évident que ce cours de statis-
tique reflète des intérets statistiques des auteurs et que nous avons traité plus profondément
les thèmes qui sont proches aux thèmes de recherches, développés au sein du Laboratoire
"Statistique Mathématiques et ses Applications" de l’Université Bordeaux 2. Il faut noter
que parallelement à l’Université Bordeaux 2 on fait d’autres cours de statistiques, qui sont
plus appliqués et où on considère des méthodes d’analyse des données, de la statistique
multivariée, de l’analyse des régressions et surtout de l’analyse de survie dans le cadre des
cours de statistiques de l’ISPED.
Vu l’importance d’applications des modèles semiparamétriques avec des covariables dé-
pendant du temps dans l’analyse de survie, en fiabilité, dans l’économie etc., nous avons mis
quelques résultas récents, liés avec la théorie des épreuves accélérées. Plus d’informations
on peut voir, par exemple, dans nos monographies avec V.Bagdonavičius “Semiparametric
Models in Accelerated Life Testing”, (1995), et "Additive and Multiplicative Semiparame-
tric Models in Accelerated Life Testing and Survival Analysis", (1998).
A la fin il faut ajouter que nos cours de statistiques sont accompagnés des travaux pra-
tiques en Statistiques avec l’utilisation de SPSS.
Je remercie mes collegues des Universités Bordeaux 1, 2 et 4, de l’Université Paris
5, et tous les participants au Séminaire Statistique des Universités de Bordeaux et du Sé-
minaire Européan "Mathematical Methods in Survival Analysis and Reliability", avec les-
quels nous avons discuté sur les problèmes d’enseignement de la statistique. Les discus-
sions ont été très intéressantes et très utiles pour nous, et surtout avec A.Alioum„ Ch.Bulot,
D.Commenges, V.Couallier, L.Gerville-Réache, H.Lauter, M.Mesbah, J.Poix, V.Solev, V.Voinov.
Mikhail Nikouline
9
10
Chapitre 0
LOIS USUELLES.
APPROXIMATIONS.
Ici nous allons exposer des lois probabilistes que l’on utilise souvent en applications sta-
tistiques, des liaison entre elles et des approximations utiles. Plus d’information à ce sujet
on peut trouver dans les publications de L.Bolshev (1963), C.Huber et M.Nikulin (1993),
où, en particulier, est exposé la théorie des transformations asymptotique de Pearson, dé-
veloppée par L.Bolshev, voir aussi, L.Bolshev et N.Smirnov (1968), M.Nikulin (1984),
Bagdonaviv̧uis et Nikulin (2002).
Définition 1. On dit qu’une variable aléatoire discrète X suit la loi de Bernoulli de
paramètre p, p ∈ [0, 1], si X ne prend que 2 valeurs 1 et 0 avec les probabilités
i.e.
P{X = x} = px (1 − p)1−x , x ∈ {0, 1}. (1)
Il est clair que
1
EX = p, Var X = EX 2 − (EX)2 = pq ≤ .
4
On remarque que
Var X
= q < 1.
EX
Définition 2. Soient X1 , ..., Xn des variables aléatoires indépendantes et qui suivent la
même loi de Bernoulli (1) de paramètre p. Dans ce cas on dit que la statistique
n
µn = ∑ Xi
i=1
11
Il est facile de montrer que
µ ¶
n
P{µn = k} = pk (1 − p)n−k , k ∈ {0, 1, ..., n}, (2)
k
Notons
Sn = X1 + ... + Xn et τ = min{k : Sk > a},
où a est une constante positive.
Construisons des variables aléatoires
Il est facile de montrer que Y1 ,Y2 , ...,Yn , ... forment une suite de variables aléatoires indé-
pendantes, ayant la même loi de Bernoulli de paramètre p = 0.5 :
Définition 3. On dit qu’une variable aléatoire X suit la loi uniforme discrète sur l’en-
semble {1, 2, ..., N}, si
1
P{X = k} = , ∀k ∈ {1, 2, ..., N}.
N
Il est facile de montrer que
N +1 N2 − 1
EX = , Var X = .
2 12
12
Définition 4. On dit que la variable aléatoire discrète X suit la loi géométrique de
paramètre p, 0 < p < 1, si
On remarque que
Var X 1
= > 1.
EX p
Définition 5. On dit que la variable aléatoire discrète X suit la loi de Poisson de para-
mètre λ, λ > 0, si
λk
P{X = k} = e−λ , k ∈ {0, 1, 2, ...}.
k!
Il est facile de montrer que
EX = Var X = λ,
et donc
Var X
= 1.
EX
La fonction de répartition de X est
m
λk −λ
P{X ≤ m} = ∑ e = 1 − Iλ(m + 1),
k=0 k!
où Z x
1
Ix ( f ) = t f −1 e−t dt, x > 0,
Γ( f ) 0
13
0.2 Approximations normales et de Poisson
Théorème Limite Central de Moivre-Laplace. Soit {Xn }∞ n=1 } une suite de variables
aléatoires indépendantes de même loi de Bernoulli de paramètre p, 0 < p < 1 :
P{Xi = 1} = p, P{Xi = 0} = q = 1 − p,
½ ¾
µn − np
µn = X1 + ... + Xn , Fn (x) = P √ ≤x , x ∈ R1 .
npq
Alors, uniformément par rapport à x, x ∈ R1 ,
Z x
1 2 /2
Fn (x) → Φ(x) = √ e−t dt, n → ∞.
2π −∞
Alors
λm −λ
lim P{µn = m} = e .
n→∞ m!
En pratique cela signifie que pour n “grand” et p “petit” on obtient l’approximation de
Poisson de la loi binomiale B(n, p) par une loi de Poisson de paramètre λ = np :
λm −λ
P{µn = m} ≈ e .
m!
On peut montrer (J.L. Hodges et L. Le Cam, 1968) que
x µ ¶ √
n x
λm −λ C
sup | ∑ pm (1 − p)n−m − ∑ e |≤ √ , avec C ≤ 3 λ.
x m=0 m m=0 m! n
EXi = µ et Var Xi = σ2
14
existent. Notons Sn = X1 + ...Xn . Alors, uniformément par rapport à x ∈ R1
½ ¾
Sn − nµ
P √ ≤ x → Φ(x), n → ∞.
σ n
Corrolaire 1. Dans les conditions du Théorème de Lévy on a : quelque soit ε > 0
½¯ ¯ √ ¾
1 n ¯ Sn − nµ ¯ ε n
P{| ∑ X j − µ| ≥ ε} = P ¯¯ √ ¯¯ >
n j=1 σ n σ
µ√ ¶
ε n
≈ 2Φ − .
σ
√
Par exemple, si ε = 3σ/ n, alors
n
1
P{|
n ∑ X j − µ| ≤ ε} ≈ 0.997,
j=1
√
si ε = 2σ/ n, alors
n
1
P{|
n ∑ X j − µ| ≤ ε} ≈ 0.965.
j=1
Définition 1. On dit qu’une variable aléatoire U suit la loi uniforme sur [a, b], si la
densité de probabilité de U est donnée par la formule :
1
f (x; a, b) = 1 (x), x ∈ R1 .
b − a [a,b]
La fonction de répartition de U est
x−a
F(x; a, b) = P{U ≤ x} = 1 (x) + 1]b,+∞[ (x), x ∈ R1 .
b − a [a,b]
Il est facile de vérifier que
a+b (b − a)2
EU = , VarU = .
2 12
Remarque 1. Soit X une variable aléatoire continue. Notons F(x) sa fonction de répar-
tition. Il est facile de vérifier que la variable aléatoire U = F(X) suit la loi uniforme sur
[0, 1]. Souvent on dit que pour obtenir U on a appliquée la transformation de Smirnov.
Définition 2. On dit qu’une variable aléatoire Z suit la loi normale standard N(0, 1) ou
réduite, si la densité de probabilité ϕ(x) de Z est donnée par la formule
1 2
ϕ(x) = √ e−x /2 , x ∈ R1 . (1)
2π
15
La fonction de répartition correspondante joue un rôle important dans la suite. Aussi lui
donne-t-on un nom particulier, on l’appelle Φ :
Z x
1 2 /2
Φ(x) = P{Z ≤ x} = √ e−z dz, x ∈ R1 . (2)
2π −∞
Si nous notons Ψ(y) = Φ−1 (y) la fonction inverse de y = Φ(x), 0 < y < 1, de (3) et (4) il
résulte que
Φ[Ψ(p)] ≡ p et Φ[Ψ(1 − p)] ≡ 1 − p (5)
pour tout p, 0 < p < 1. De plus comme
µ = EX et σ2 = Var X. (7)
La densité de X est
µ ¶ ½ ¾
1 x−µ 1 (x − µ)2
ϕ =√ exp − , x ∈ R1 , (8)
σ σ 2πσ 2σ2
Définition 3. On dit qu’une variable aléatoire χ2f suit la loi de chi-deux à f degrés de
liberté, f > 0, si sa densité de probabilité est donnée par la formule
1 f
q f (x) = f
³ ´ x 2 −1 e−x/2 1]0,∞[ (x), x ∈ R1 , (10)
2 Γ 2f
2
où Z ∞
Γ(a) = t a−1 e−t dt, a>0 (11)
0
est la fonction Gamma de Euler.
16
Nous allons noter Q f (x) = P{χ2f ≤ x} la fonction de répartition de χ2f . Par des calculs
directs il est facile de montrer que
Cette définition de la loi du chi-deux n’est pas constructive. Pour construire une variable
aléatoire χ2n , n ∈ N ∗ , il suffit de prendre n variables aléatoires indépendantes Z1 , ..., Zn , qui
suivent la même loi normale standard N(0, 1) et construire la statistique
suit la loi de chi-deux à n degrés de liberté. Souvent (13) on prend pour la définition de χ2n .
Nous allons suivre aussi cette tradition.
D’après le Théorème Limite Central il résulte que si n est assez grand alors on a l’ap-
proximation normale :
½ 2 ¾ µ ¶
χn − n 1
P √ ≤ x = Φ(x) + O √ .
2n n
On utilise aussi souvent pour la loi du χ2 l’approximation normale de Fisher, d’après la-
quelle µ ¶
q √ 1
P{ 2χ2n − 2n − 1 ≤ x} = Φ(x) + O √ , n → ∞.
n
Les meilleurs résultats donne l’approximation normale de Wilson-Hilferty :
"µr ¶r # µ ¶
x 2 9n 1
P{χn ≤ x} = Φ
2 3
−1+ +O , n → ∞.
n 9n 2 n
Définition 4. On dit qu’une variable aléatoire γ f suit la loi Gamma à f degrés de liberté
( f > 0), si pour tout x > 0
P{γ f ≤ x} = Ix ( f ), (14)
où x Z
1
Ix ( f ) = t f −1 e−t dt (15)
Γ( f ) 0
est la fonction Gamma incomplète de Euler.
Il est facile de vérifier que
1 2
χ = γf . (16)
2 2f
En effet, ∀x > 0 on a
Z 2x
1 1
P{ χ22 f ≤ x} = P{χ22 f ≤ 2x} = Q2 f (2x) = f t f −1 e−t/2 dt.
2 2 Γ( f ) 0
17
où γ f est une variable aléatoire qui suit la loi gamma à f degrés de liberté. En utilisant la
relation (16) on trouve que
1 1 1
Eγ f = E χ22 f = f , Var γ f = Var χ22 f = Var χ22 f = f .
2 2 4
Si f = 1, alors de (14) on déduit
Z x
P{γ1 ≤ x} = e−t dt = 1 − e−x , x > 0, (17)
0
c’est-à-dire que la variable aléatoire γ1 suit la loi exponentielle standard. De cette propriété
et de (16) on tire que 12 χ22 suit la loi exponentielle standard aussi.
Théorème 1 Soient X1 , ..., Xn des variables aléatoires indépendantes, qui suivent la
même loi exponentielle (17). Alors leur somme suit la loi gamma à n degrés de liberté, i.e.
X1 + ... + Xn = γn . (18)
Remarque 2. Soit X une variable aléatoire qui suit la loi de Poisson de paramètre λ,
λ > 0. Il est facile de montrer que pour tout m ∈ N
P{X ≤ m} = P{γm+1 ≥ λ} = P{χ22m+2 ≥ 2λ} =
1 − P{χ22m+2 ≤ 2λ} = 1 − Q2m+2 (2λ). (19)
En effet, soit γm une variable aléatoire qui suit la loi gamma de paramètre m. Dans ce cas la
fonction de survie de γm est
Z ∞
1
P{γm ≥ λ} = xm−1 e−x dx =
Γ(m) λ
Z ∞
1 1
e−x dxm = P{γm+1 ≥ λ} − e−λ λm ,
Γ(m + 1) λ Γ(m + 1)
i.e. on a reçu que
λm −λ
P{γm+1 ≥ λ} = P{γm ≥ λ} + e ,
m!
d’où par la récurrence il résulte que pour tout m ∈ {0, 1, 2, ...}
Z ∞
λkm
1
P{X ≤ m} = ∑ e−λ = P{γm+1 ≥ λ} = xm e−x dx.
k=0 k! Γ(m + 1) λ
Supposons maintenant que λ est grand (en pratique cela signifie que λ ≥ 25). Comme
EX = Var X = λ
de l’inégalité de Tchebyshev il suit que nous pouvons compter que
m − λ = o(λ), λ → ∞,
parce que pour chaque m, qui ne vérifie pas cette condition, la probabilité P{X ≤ m} coin-
cide pratiquement avec 0 ou avec 1. De l’autre côté, de la relation (19) et de l’approxima-
tion normale pour la loi du chi-deux on obtient l’approximation normale de Bolshev (1963),
d’après laquelle
( )
χ22m+2 − (2m + 2) 2λ − 2m − 2
P{X ≤ m} = 1 − P √ ≤ √ =
4m + 4 4m + 4
18
µ ¶ µ ¶ µ ¶ µ ¶
λ−m−1 1 m−λ+1 1
1−Φ √ +O √ =Φ √ + O √ , λ → ∞.
m+1 λ m+1 λ
On remarque que en utilisant l’approximation normale de Fisher pour la loi de chi-deux on
obtient facilement une autre approximation normale de Bolshev :
√ √
P{X ≤ m} = P{χ22m+2 ≥ 2λ} ≈ 1 − Φ( 4λ − 4m + 3) =
√ √ p √
Φ( 4m + 3 − 2 λ) = Φ( 4(m + 0.5) + 1 − 2 λ), λ → ∞.
Le nombre 0.5 dans la dernière formule peut être considéré comme la correction de conti-
nuité dans cette approximation.
En pratique cela signifie que
³√ √ ´ √ √
P{X ≤ m} ≈ Φ 4m + 1 − 2 λ ≈ Φ(2 m − 2 λ), λ → ∞,
√ √
i.e., si λ ≥ 25, alors la statistique 4X + 1 suit approximativement la loi normale N(2 λ, 1).
Les meilleurs résultats on obtient en utilisant l’approximation de Wilson-Hilferty, voir, par
exemple, Bolshev (1963), Huber et Nikulin (1993), Nikulin (1984), d’après laquelle
" Ã r !#
√ λ 4
P{X ≤ m} = P{χ2m+2 ≥ 2λ} ≈ Φ 3 m + 1 1 −
3
− .
m + 1 9(m + 1)
Définition 5. On dit que la variable aléatoire β = βa,b suit la loi Béta de paramètres a
et b (a > 0, b > 0), si la densité de β est
1
f (x; a, b) = xa−1 (1 − x)b−1 1]0,1[ (x), (20)
B(a, b)
où Z 1
Γ(a)Γ(b)
B(a, b) = t a−1 (1 − t)b−1 dt = (21)
0 Γ(a + b)
est la fonction Béta de Euler.
En notant x Z
1
Ix (a, b) = t a−1 (1 − t)b−1 dt (22)
B(a, b) 0
la fonction incomplète Béta de Euler, on voit que
et
P{β > x} = 1 − Ix (a, b) = I1−x (b, x), 0 < x < 1.
Il est facile de vérifier que
a ab
Eβ = , Var β = . (24)
a+b (a + b)2 (a + b + 1)
Remarque 4. Soit µn une variable aléatoire Binomiale de paramétres n et p. Il est facile
de montrer que pour m = 0, 1, ..., n
m µ ¶
n
P{µn ≤ m} = ∑ pk (1 − p)n−k = I1−p (n − m, m + 1). (25)
k=0
k
19
Remarque 5. Soit γn et γm sont indépendantes. Il est utile de remarquer que les statis-
tiques
γn
β= γn+m = γn + γm
γn + γm
sont indépendantes, β suit la loi béta de paramètres a = n et b = m, γn+m suit la loi gamma
à n + m degrés de liberté.
Définition 6. Soit
1 1
χ2m = γ m2 et χ2n = γ 2n
2 2
indépendantes. Dans ce cas on dit que la statistique
m χm
1 2 nγm/2 1
Fm,n = = = (26)
n χn
1 2 mγn/2 Fn,m
Si m = 1, on en déduit que
√
P{F1,∞ ≤ x} = P{χ21 ≤ x} = 2Φ( x) − 1.
Cette relation nous permet de calculer les valeurs de Φ(x) en utilisant les tables statistiques
de la loi F. La relation suivante
χ2
F1,n = 1 12 = tn2 (28)
n χn
nous montre que F1,n représente le carré de la variable aléatoire tn de Student à n degrés de
liberté, d’où on tire que pour chaque x ∈ R1
1 n
P{F1,n ≤ x2 } = P{tn2 ≤ x2 } = I x2 ( , ) = 2Sn (|x|) − 1, (29)
n+x2 2 2
20
où
¡ ¢Z µ
2 ¶− 2
n+1
1 Γ n+1 x u
Sn (x) = P{tn ≤ x} = √ ¡2¢ 1+ du (30)
πn Γ n2 −∞ n
est la fonction de répartition de la variable aléatoire tn de Student à n degrés de liberté. La
variable aléatoire tn peut être construite par la façon suivante.
Soit X = (X1 , ..., Xn )T un échantillon normale, Xi ∼ N(µ, σ2 ). On construit deux statis-
tiques
1 n 1 n
X̄n = ∑ Xi et Sn2 = ∑ (Xi − X̄n )2 ,
n i=1 n i=1
représentant les meilleurs estimateurs sans biais pour µ et σ2 . Alors la variable aléatoire
√ X̄n − µ
tn = n−1 (31)
Sn
suit la loi de Student à n degrés de liberté :
P{tn ≤ x} = Sn (x), x ∈ R1 .
Cette loi est plus connue sous le nom de la loi standard de Cauchy ou tout simplement de
Cauchy. Cette loi nous donne un très simple exemple d’une variable aléatoire t1 , dont l’es-
pérance mathématique n’existe pas. Un autre exemple intéressant lié avec la loi de Cauchy
est le suivant.
Soit X = (X1 , ..., Xn )T un échantillon de la loi de Cachy de densité
1
, x ∈ R1 ,
π[1 + (x − µ)2 ]
1 n
X̄n = ∑ Xi
n i=1
suit la même loi de Cauchy que Xi et donc X̄n ne converge pas en probabilité vers µ.
21
Exercices 1. Soit X suit la loi standard de Cauchy . Montrer que les statistiques
1 2X 3X − X 2
, ,
X 1 − X2 1 − 3X 2
suivent la même loi de Cauchy.
Exercices 2. Soient X et Y deux variables aléatoires standards normales indépendantes.
Trouver la loi de Z = X/Y .
Exercices 3. Soit X = (X1 , ..., Xn ) un échantillon,
1 −1
P{Xi = k} = e , k ∈ N,
k!
i.e. Xi suit la loi de Poisson de paramètre λ = 1. Considérons la statistique
Sn = X1 + ... + Xn , n = 1, 2, ....
22
Donc, un résultat de l’expérience sera représenté par un chemin dans le treillis S.
Si, après une épreuve, la particule se trouve au point de coordonnées (x, y), après l’épreuve
suivante elle se trouvera soit au point (x, y + 1) avec la probabilité p s’il y a eu succès, soit
au point (x + 1, y) avec la probabilité q = 1 − p s’il y a eu échec parce qu’il n’y a pas d’autre
possibilité.
Nous supposerons que le point de départ de la particule est l’origine des axes O(0, 0). Soit
A0 , A1 , · · · , An , · · · la suite des points obtenus à l’issue de l’expérience, A0 = O(0, 0). Un
chemin dans S peut être représenté par une ligne brisée reliant ces points (fig. 1).
On peut associer à cette expérience la suite X1 , X2 , · · · , Xn , · · · des variables aléatoires indé-
pendantes de Bernoulli,
½
1, s’il y a eu succès à la i-ème epreuve,
Xi =
0, s’il y a eu échec à la i-ème epreuve.
P{Xi = 1} = p et P{Xi = 0} = q.
Soient Ax et AX les points de S dont les coordonnées sont (x, y) et (X,Y ) respectivement
(0 ≤ x ≤ X; 0 ≤ y ≤ Y ).
23
Un chemin reliant Ax à AX comporte (X − x) déplacements horizontaux et (Y − y) déplace-
ments verticaux, chaque combinaison différente définissant un chemin différent ; le nombre
de chemins possibles relient Ax à AX sera donc :
µ ¶ µ ¶
X − x +Y − y X − x +Y − y
= . (1)
X −x Y −y
Il est évident que chacun de ces chemins a la même probabilité de réalisation égale à
pY −y (1 − p)X−x , (2)
donc la probabilité d’arriver au point AX en étant parti du point Ax est
µ ¶
X − x +Y − y
pY −y (1 − p)X−x . (3)
X −x
En particulier, si on part de l’origine A0 , la probabilité d’arriver en AX est
µ ¶
X +Y
pY (1 − p)X . (4)
X
Remarque 1. De façon évidente, on déduit des formules précédentes que le nombre de
chemins possibles pour aller de Ax (x, y) à AU (u, v) en passant par AX (X,Y ) est égal au
produit du nombre de chemins allant de Ax à AX par le nombre de chemins allant de AU à
AX .
Nous allons nous intéresser aux expériences pour lesquelles la réalisation de la marche
aléatoire est limitée (avec la probabilité 1) par une frontière absorbante B (B ⊂ S). Cela
signifie que l’expérience s’arrête dès que la particule a atteint la frontière. Un point b ∈ B
est appelé point limite ou point frontière. Si un chemin atteint ce point, il s’arrête. On dit
que b est une réalisation de la statistique temps d’arrêt.
Nous verrons plus tard que pour certaines expériences, la seule connaissance des coordon-
nées du point de la frontière où le chemin s’arrête nous permet d’estimer de la meilleure
façon le paramétre p lorsque celui-ci est inconnu.
La frontière B est généralement définie par une équation de la forme y = f (x). Nous allons
étudier différentes frontières et leur associer des variables aléatoires connues.
Considérons une marche aléatoire à 1 pas dans un treillis limité par la frontière B donné
par l’équation :
x + y = 1.
24
Dans ce cas il existe seulement 2 points limites. Si nous considérons la variable aléatoire
X qui prend la valeur 1 lorsque le chemin se termine en A1 (0, 1) et la valeur 0 lorsqu’il se
termine en A01 (0, 1) nous obtenons :
P{X = 1} = p et P{X = 0} = 1 − p, 0 < p < 1.
La variable X suit une distribution de Bernoulli de paramètre p : X ∼ B(1, p) = B(p).
X représente le résultat d’une unique épreuve de Bernoulli.
On peut par exemple associer à cette épreuve un contrôle de qualité :
on contrôle un article dans une production et on lui affecte la note 1 s’il est deféctueux, 0
s’il est bon.
Considérons une marche aléatoire dans le treillis S commençant à l’origine et limitée par
la frontière B d’équation x + y = n (le nombre de points frontières est n + 1). Cette marche
comporte n pas. Nous pouvons associer à cette marche n variables aléatoires de Bernoulli
indépendantes de paramètres p : X1 , X2 , · · · , Xn .
Considérons la statistique :
n
Tn = ∑ Xi .
i=1
Elle représente le nombre de succès au cours des n épreuves ou bien le nombre d’articles
défectueux dans un échantillon de taille n si on s’intéresse à un probléme de contrôle de
qualité.
Pour tout k = 0, 1, · · · , n l’événement {Tn = k} est équivalent à une marche aléatoire se
terminant au point b de B de coordonnées (n − k, k). Par suite d’après (4)
n k
P{Tn = k} = ( )p (1 − p)n−k , k = 0, 1, · · · , n,
k
25
et donc la loi de Tn est une loi binomiale de paramètres n et p, Tn ∼ B(n, p).
26
r ≤ k k ∈ N, on doit avoir k − r déplacements horizontaux et r déplacements verticaux
mais le dernier pas est obligatoirement un déplacement vertical : le point (k − r, r) n’est
accessible qu’à partir du point (k − r, r − 1) et ce passage se fait avec la probabilité p.
Considérons la statistique Sr , rang du r-ème succès.
Alors
µ ¶
k−1
P{Sr = k} = pr−1 (1 − p)k−r p, k = r, r + 1, · · · .
r−1
Remarques
r
Sr = ∑ Zi
i=1
r r(1 − p)
ESr = et VarSr = .
p p2
n
Un = ∑ Zi
i=1
27
On choisit la frontière B donnée par l’équation y = x + r, r ∈ N ∗ . Cela signifie qu’on
arrête l’expérience dès que le nombre de succès est supérieur de r au nombre d’échecs (ou
que le nombre d’articles défectueux dépasse de r le nombre d’articles bons).
Une marche issue de l’origine O et s’arrêtant au point frontière de coordonnées
(k, r + k), k ∈ N, comporte donc (k, k + r) étapes mais le point(k + r, k) n’est accessible
qu’à partir du point M(k, k + r − 1) par un chemin qui ne doit pas avoir encore rencontré
la frontière. Le nombre de chemins allant de O à M et qui touchent ou coupent la frontière
peut être calculé de la façon suivante : lorsque le chemin touche la frontière B pour la
première fois on prend son symétrique par rapport à B : c’est un chemin qui arrive au point
M 0 (k − 1, k + r) (symétrique de M par rapport à B). Le nombre de chemins reliant O à M 0
est égale à
µ ¶
2k + r − 1
k−1
et le nombre de chemins reliant O à M est égale à
µ ¶
2k + r − 1
,
k
d’où on déduit donc que le nombre de réalisations possibles de la marche considérée est
égale à
µ ¶ µ ¶ µ ¶
2k + r − 1 2k + r − 1 (2k + r − 1)! r 2k + r
− = (k + r − k) = .
k k−1 k!(k + r)! 2k + r k
Si nous associons à cette marche la variable Vr : rang de l’épreuve pour laquelle le nombre
de succès est pour la première fois supérieur de r au nombre d’échecs, alors l’événement
{Vr = v} est équivalent à une marche partant de l’origine et comportant v étapes :
v − r/2 déplacements horizontaux et v − r/2 déplacements verticaux.
De façon évidente on doit avoir v ≥ r et v − r ∈ 2N, c’est-à-dire v = 2k + r, k ∈ N.
Dans ce cas, pour r > 0 on a :
µ ¶
r 2k + r
P{Vr = v} = P{Vr = 2k + r} = pk+r (1 − p)k .
2k + r k
Examinons le cas r = 0. Nous devons dans ce cas considérer les chemins partant non plus
de l’origine O mais du point A1 (1, 0).
Un raisonnement analogue du précédent nous montre alors que
·µ ¶ µ ¶¸
2k − 2 2k − 2
P{V0 = 2k} = − [p(1 − p)]k =
k−1 k
µ ¶
2k − 1
2(k − 1) [p(1 − p)]k .
k
28
Soient N et M deux entiers positifs fixés et 0 ≤ M ≤ N.
Considérons une marche aléatoire dans le treillis S limitée par la frontière B : x + y = N.
Nous nous intéressons plus particulièrement à la marche aléatoire partant de l’origine et
atteignant le point B de coordonnées (N − M, M). Soit
n
Tn = ∑ Xi , où Xi ∼ B(p),
i=1
les Xi étant indépendantes, et donc Tn ∼ B(n, p). Nous savions que TN = M et il est intéres-
sant de savoir comment cette information influe sur la distribution de la statistique Tn , n < N.
C’est-à-dire que, sachant que la marche a atteint le point (N − M, M), nous allons évaluer
la probabilité pour qu’après n pas elle soit à un point donné de la frontière
β : x + y = n.
P{Tn = k; TN = M}
P{Tn = k|TN = M} = ,
P{TN = M}
où
Max(0, n + M − N) ≤ k ≤ Min(n, M).
On sait que :
µ
¶µ ¶
n N −n
P{Tn = k; TN = M} = pk (1 − p)n−k .pN−k (1 − p)N−n =
k M−k
µ ¶µ ¶
n N −n
= pM (1 − p)N−M
k M−k
et µ ¶
N
P{TN = M} = pM (1 − p)N−M .
M
Par suite, la probabilité cherchée est égale à
µ ¶µ ¶ µ ¶µ ¶
n N −n N −M M
k M −k n−k k
P{Tn = k|TN = M} = µ ¶ = µ ¶ ,
N N
M n
où
1 ≤ n ≤ N, 1 ≤ M ≤ N, Max(0, n + M − N) ≤ k ≤ Min(n, M).
Cette loi conditionnelle de Tn est la loi hypergéométrique H(N, M, n) de paramètres N, M
et n. On peut remarquer qu’elle ne dépend pas du paramètre p .
On peut montrer que si X suit une loi H(N, M, n), alors
nM n(N − n)M(N − M)
EX = et Var X = .
N N 2 (N − 1)
29
30
Chapitre 1
QUELQUES PROBLÈMES
CLASSIQUES DE LA STATISTIQUE
MATHEMATIQUE.
µn 1359671
= = 0.5141?
n 2644757
Il est évident que si au lieu de l’hypothèse H0 : p = 0.5 on avait pris une autre hypothèse
H1 : p = 0.1, par exemple, alors cette hypothèse H1 serait rejetée par tous comme une
hypothèse peu probable (ou même impossible). La question est : sur quoi est basée cette
décision ?
La réponse peut être donnée puisqu’on sait que l’estimateur
µn
p̂n =
n
31
de la probabilité p, p ∈]0, 1[, est basé sur la statistique µn qui suit une loi binomiale B(n, p)
µ ¶
n
P{µn = k|p} = P p {µn = k} = pk (1 − p)n−k , k = 0, 1, . . . , n,
k
µn µn p(1 − p)
Ep =p et Var = .
n n n
De l’inégalité de Tchebyshev il suit que pour tout ε > 0
Nous disons que { p̂n } est une suite consistante (cohérente) d’estimateurs sans biais du
paramètre p, puisque
Pp
E p p̂n = p et p̂n → p.
La relation (1) on peut préciser, notamment, pour tout λ > 0 on a :
r
p(1 − p) 1
P p {| p̂n − p| < λ } ≥ 1− 2.
n λ
En particulier, si λ = 2, on en tire que
1
P p {| p̂n − p| < √ } ≥ 0.75.
n
En utilisant l’approximation normale, basée sur le théorème limite central de de Moivre-
Laplace, on a
µn − p
lim P p q n
≤ x = Φ(x) pour tout x ∈ R1 , (2)
n→∞ p(1−p)
n
où Z
x
1 2
Φ(x) = √ e−t /2 dt, −∞ < x < ∞. (3)
2π −∞
En prenant α assez petit, 0 < α < 0.5 ), ( on va appeler ce nombre α le niveau de significa-
tion, on peut affirmer, par exemple, que
½ r ¾
n µn
P p −x̄α/2 ≤ ( − p) ≤ x̄α/2 ≈ 1 − α, (4)
p(1 − p) n
La quantité x̄α/2 s’appelle quantile supérieur de niveau α/2 de la loi normale standard.
32
Par exemple,
S = [−x̄α/2 , x̄α/2 ] ⊂ R1
appelé la région critique pour H0 , représente l’ensemble des valeurs de la statistique Tn , qui
sont favorable à H1 . Par contre, l’ensemble S s’appelle la région d’acceptation de l’hypo-
thèse H0 .
On remarque que
33
est favorable à H1− , et l’événement
i.e. l’événement {Tn > 4} est apparu. La valeur observée de Tn est très supérieure à la
valeur critique x̄α/2 = 4, correspondant au niveau de signification α/2 = 0.00003167, qui
est égal pratiquement à 0, et donc ce phenomène doit être considéré comme impossible sous
l’hypothèse H0 : p = 0.5. Que devons nous faire ? Il faut évidemment rejeter l’hypothèse
H0 : p = 0.5 en faveur de H1 , puisque Tn ∈ K. Nous disons que l’hypothèse H0 ne concorde
pas avec les données observées. En plus comme dans l’expérience on a observé l’événement
{Tn ∈ K1+ }, il est raisonable d’accepter l’hypothèse H1+ . Comme estimateur de la valeur
inconnue de p sous l’hypothèse H1+ il est recommandé de prendre p̂n = 0.514.
Enfin de (4) on tire que
r r
µn p(1 − p) µn p(1 − p)
P{ − x̄α/2 ≤ p ≤ + x̄α/2 } ≈ 1 − α,
n n n n
c’est-à-dire pour les grandes valeurs de n on obtient l’intervalle de confiance pour p avec
le coefficient de confiance P ≈ 1 − α :
µn 1 µn 1
P{ − x̄α/2 √ ≤ p ≤ + x̄α/2 √ } ≈ 1 − α (= 0.9973 si x̄α/2 = 3).
n 2 n n 2 n
34
Exemple 2. K. Pearson a jeté une pièce symétrique n = 24000 fois et a observé
µn = 12012
On pourrait penser que c’est trop beau pour être vrai. Quelle est donc la probabilité d’ob-
server l’événement {|µn − n2 | ≤ 12} sous l’hypothèse H0 ?
On a ½ ¯ ¾
n |µn − n2 | 12 ¯¯
P{|µn − | ≤ 12|H0 } = P √ ≤ H0 ≈
2 n 0.5 · 0.5 77.5 ¯
1
≈ Φ(0.155) − Φ(−0.155) ≈ 0.124 = .
8
Il est évident que cet événement est bien probable, donc K. Pearson pouvait observer ce
résultat.
Exemple 3. Supposons que nous avons un générateur de nombres aléatoires et que ce géné-
rateur nous fournit les “nombres aléatoires” x1 , x2 , ..., xn qu’on peut considérer (hypothèse
H0 ) comme des réalisations de variables aléatoires indépendantes
X1 , X2 , ..., Xn ,
ayant chacune la distribution discrète uniforme sur l’ensemble S = {0, 1, ..., 9} i.e.,
35
Considérons maintenant un échantillon X = (X1 , X2 , ..., Xn )T de taille n = 10 000, associé
au générateur de nombres aléatoires mentionné précédemment. Nous désirons tester l’hypo-
thèse H0 que l’échantillon X est issu de la distribution uniforme (1) si dans notre échantillon
on a observé seulement 4999 fois xi ne dépassant pas 4. Quel niveau de signification doit
on avoir pour rejeter H0 ?
Solution. Soit
µn = #{Xi ≤ 4}. (7)
On remarque que
P{Xi ≤ 4|H0 } = 0.5.
D’après nos données :
µn 4999
p̂n = =
n 10 000
qui est très voisin de 0.5. Par ailleurs, sous l’hypothèse H0 , la statistique µn suit une distri-
bution binomiale B(n, p) de paramètres n = 10 000, p = 0.5 et donc sous H0
Eµn = np = 5000 and Varµn = np(1 − p) = 2500. (8)
D’où pour tout x = 1, 2, ..., d’après le théorème de de Moivre-Laplace, nous avons (avec la
correction de continuité de 0.5)
nn n o
P{| µn − np |≤ x | H0 } = P − x ≤ µn ≤ + x|H0 ≈
2 2
µ ¶ µ ¶ µ ¶
0.5n + x + 0.5 − 0.5n 0.5n − x − 0.5 − 0.5n 2x + 1
Φ √ −Φ √ = 2Φ √ − 1. (9)
n · 0.5 · 0.5 n · 0.5 · 0.5 n
Notons α le niveau de signification du test (0 < α < 0.5) avec la région critique :
n¯
¯ n ¯¯ o nn n o
¯µn − ¯ ≤ x̄α/2 = − x̄α/2 ≤ µn ≤ + x̄α/2 . (10)
2 2 2
Alors, à la valeur critique x̄α/2 , correspond le niveau de signification α :
µ ¶
2x̄α/2 + 1
α ≈ 2Φ √ − 1, (n = 10000). (11)
n
En particulier, si x̄α/2 = 1, alors
µ ¶
3
α ≈ 2Φ √ − 1 = 2Φ(0.03) − 1 = 2 · 0.512 − 1 = 0.024.
n
Inférence statistique : d’après le test statistique, basé sur la région critique :
{| µn − 5000 |≤ 1},
l’hypothèse H0 sera rejetée avec le niveau de signification α ≈ 0.025, puisque
P{|µn − 5000| ≤ 1|H0 } ≈ 0.024 < α = 0.025.
(Voir, aussi, Cuadras C., Nikulin (1993)).
Exemple 4. Le problème du Chevalier de Méré. D’abord on considère l’épreuve sui-
vante : on jette 4 fois un dé.
Soit A l’événement :
A = {obtenir au moins une fois le 1 au cours de cette expérience}.
36
Considérons ensuite la deuxième expérience qui consiste à jeter 24 fois 2 dés.
Soit B l’événement :
n 25 50 100 250
µn (A) 18 27 52 121
µn (B) 14 24 47 126
Ici µn (A) et µn (B) représentent les nombres de succès dans la première et la seconde expé-
riences respectivement.
D’après la loi des grands nombres
(1) (2)
µn P µn P
p̂1n = → p1 p̂2n = → p2 , (n → ∞),
n n
c’est-à-dire il y a la consistance de deux suites d’estimateurs { p̂1n } et { p̂2n } de paramètres
p1 et p2 . En plus on sait que
1 (1) 1 (2)
E p̂1n = Eµn = p1 , E p̂2n = Eµn = p2 ,
n n
donc pour tout n ∈ N∗ p̂1n et p̂2n sont les estimateurs sans biais pour p1 et p2 respectivement.
Enfin, on remarque, que quand n → ∞
p1 (1 − p1 ) p2 (1 − p2 )
Var p̂1n = → 0, Var p̂2n = → 0.
n n
En utilisant les résultats de modélisation du jeu on obtient une nouvelle table
n 25 50 100 250
(1)
µn
n 0.72 0.54 0.52 0.484
(2)
µn
n 0.56 0.48 0.47 0.504
37
Il faut noter que bien que p1 soit supérieur à p2 l’expérience nous donne ici
(1) (2)
µn = 121 < µn = 126 pour n = 250,
et donc
(1) (2)
µn µn
= 0.484 < = 0.504 pour n = 250.
n n
Si on arrête “le jeu” à n = 250, on aura une conclusion erronée que p1 < p2 . On va évaluer
(1) (2)
P{µn < µn }
(1) (2)
la probabilité d’événement {µn < µn }. Notons
(1) (2)
µn − np1 µn − np2
Xn = p , Yn = p , n ∈ N∗ .
np1 (1 − p1 ) np2 (1 − p2 )
où
Zx
1 2 /2
Φ(x) = √ e−t dt.
2π
−∞
(1) (2)
Maintenant nous somme capable d’évaluer la probabilité de l’événement {µn < µn }.
En effet,
(1) (2) (1) (2)
P{µn < µn } = P{µn − µn < 0} =
( (1) (2) √ )
µn − µn + n(p2 − p1 ) n(p2 − p1 )
P p <p ≈
np1 (1 − p1 ) + np2 (1 − p2 ) p1 (1 − p1 ) + p2 (1 − p2 )
à √ !
n(p2 − p1 )
≈Φ p → 0, n → ∞, si p2 < p1 .
p1 (1 − p1 ) + p2 (1 − p2 )
38
On remarque qu’en utilisant les tables statistiques on peut calculer cette probabilité pour
39
on accepte H0 . On remarque que
½¯ ¯ ¯ ¾
¯ µn1 µn2 ¯ ¯
P ¯¯ − ¯ < cα ¯ H0 ≥ 1 − α.
n1 n2 ¯ ¯
où
µn µn1 + µn2
= = p̂n
n n1 + n2
est le meilleur estimateur sans bias pour p sous l’hypothèse H0 .
Il est évident que
¯ ¯ ¯
¯ µn1 µn2 ¯ ¯
¯ ¯ − ¯ ¯
n n ¯ ¯
P ¯¯ r 1 2 ¯ > x̄α/2 ¯ H0 ≈ α,
¡ ¢³ 1 ´¯ ¯
¯¯ µn 1 − µn 1 ¯ ¯
¯
n n n1 + n2 ¯
40
où Φ(x̄α ) = 1 − α. Le niveau de ce test unilatéral ≈ α.
Remarque 2. Si nous voulons tester H0 : p1 = p2 contre l’alternative H1− : p1 < p2 , qui
est unilatérale, il faut rejeter H0 si
µn1 µn2
−
n1 n2
r ³ ´ < −x̄α .
µn ¡ µn ¢ 1 1
n 1− n n1 + n2
Tout résultat d’observation provenant de quelque façon que ce soit de mesures engendre
des erreurs d’origines diverses.
Les erreurs se divisent en trois groupes : erreurs grossières, erreurs systématiques et
erreurs aléatoires.
Les erreurs grossières sont souvent appelées en statistique observations aberrantes (aber-
rations) ; elles proviennent de mauvais calculs, de lectures incorrectes sur l’appareil de me-
sure etc ... ; cela induit donc une donnée erronée. En général ces résultats de mesures qui
contiennent des erreurs grossières diffèrent sensiblement des autres résultats et sont ainsi
faciles à identifier.
Les erreurs aléatoires ont un effet imprévisible sur les mesures, à la fois en surestimant
certaines et en sousestimant d’autres résultats.
δ = X −µ (1.1)
est appelée erreur de mesure ou erreur vraie.
41
De (1) il s’ensuit que
X = µ + δ, (1.2)
et puisque µ est une constante, on en tire
b = Eδ et σ2 = Var δ (1.4)
l’espérance mathématique et la variance de l’erreur vraie δ.
Alors on a
X = µ + b + (δ − b). (1.5)
La quantité b = Eδ est appelée erreur systématique ou biais de la procédure de mesure.
La variable aléatoire
ξ = δ−b (1.6)
est appelée erreur aléatoire de la procédure de mesure. De (2), (5) et (6) il s’ensuit que la
variable aléatoire X peut être représentée par la façon suivante
X = µ + b + ξ, (1.7)
où
Eξ = 0 et Var ξ = σ2 (1.8)
Nous obtenons donc pour notre modèle :
EX = µ + b, VarX = σ2 . (9)
Souvent on dit que σ2 est la précision de la méthode ou de l’instrument qu’on utilise
pour faire les mesures. Traditionellement, en statistique mathématique on dit que X est un
estimateur sans biais de µ + b.
Nous avons maintenant une décomposition très intéressante (7) de la variable aléatoire
X dont nous utiliserons la réalisation pour estimer la quantité inconnue µ.
Selon notre modèle, l’observation X est la somme de la vraie (mais inconnue) valeur µ,
du biais b qui est la valeur de l’erreur systématique de l’instrument de mesure et de l’er-
reur aléatoire ξ, qui satisfait (8) et dont la variance donne donc la mesure de l’imprécision
et décrit la dispersion ou la variation des données si nous avons besoin de plusieurs mesures.
42
De façon évidente, la mesure parfaite serait celle pour laquelle b = 0 et σ2 = 0 mais
on ne peut l’obtenir dans la pratique. Par contre, on peut organiser l’expérience de façon
à avoir b = 0 et en même temps à minimiser σ2 , c’est-à-dire à augmenter la précision des
mesures ou de l’appareil qu’on utilise pour obtenir ces mesures.
Si b = 0, alors EX = µ ce qui signifie l’absence d’erreur systématique. Dans ce cas δ
représente l’erreur aléatoire et nous dirons comme nous l’avons vu plus haut que X est un
estimateur sans biais pour µ.
1
k= p
2(σ2 + b2 )
est appelé précision de l’estimateur X.
Dans le cas d’absence d’erreur systématique (b = 0)
1 1
k= √ = √ .
2σ2 σ 2
Lorsque la déviation standard σ et le biais b sont petits, nous avons une haute préci-
sion et dans ce cas l’erreur quadratique moyenne est petite ; d’où une erreur quadratique
moyenne petite signifie une précision plus grande.
Exemple 1. Supposons que l’on cherche à déterminer le poids µ1 d’un objet à l’aide d’une
balance. On utilise un modèle Gaussien pour l’erreur de mesure en représentant le résultat
d’une mesure comme la réalisation de la variable aléatoire
X = µ1 + δ, (14)
où δ est l’erreur de mesure, δ ∼ N(0, σ2 ), et σ2 ne dépend pas de µ1 . Il est évident que si σ2
est connu et que nous voulons avoir une précision σ2 /N, alors nous devons faire N mesures
et prendre comme estimateur µ̂1 de µ1 , la réalisation de la statistique :
1
µ̂1 = X̄N = (X1 + X2 + . . . + XN ), (15)
N
43
moyenne des N mesures. De (14) il s’ensuit que
σ2
X̄N ∼ N(µ1 , ). (16)
N
Supposons maintenant que nous voulions déterminer les poids µ1 et µ2 de deux objets. De
combien de mesures avons nous besoin pour obtenir des estimateurs µ̂1 et µ̂2 pour µ1 et
µ2 respectivement, chacun avec la précision σ2 /N ? Il est évident qu’on peut peser chaque
objet N fois et de cette façon obtenir les estimateurs
1
µ̂1 = (X11 + X12 + . . . + X1N )
N
et
1
µ̂2 = (X21 + X22 + . . . + X2N ) (17)
N
pour µ1 et µ2 . Puisque
σ2 σ2
µ̂1 ∼ N(µ1 ,) et µ̂2 ∼ N(µ2 , ), (18)
N N
notre but est atteint mais au prix de 2N mesures.
Nous allons maintenant montrer comment on peut obtenir la même précision avec seule-
ment N mesures.
On peut remarquer qu’avec une balance et 2 objets, on peut faire plusieurs choses :
1) on peut déterminer le poids de chaque objet séparément.
2) on peut les peser tous les 2 ensemble ;
3) on peut déterminer la différence entre les 2.
En tenant compte de cette remarque, on peut représenter aussi les résultats de ces mesures :
X1i = µ1 + δ1i , i = 1, 2, . . . , n1 ,
X2i = µ2 + δ2i , i = 1, 2, . . . , n2 ,
X3i = µ1 + µ2 + δ3i , i = 1, 2, . . . , n3 ,
X4i = µ1 − µ2 + δ4i , i = 1, 2, . . . , n4 ,
où {δki } sont des variables aléatoires indépendantes identiquement distribuées :
n1 = n2 , n3 = n4 .
Il est évident que les statistiques
1 n1 1 n2 1 n3 1 n4
X̄1 = ∑ 1i 2 n2 ∑ 2i 3 n3 ∑ 3i 4 n4 ∑ X4i,
n1 i=1
X , X̄ = X , X̄ = X , X̄ = (20)
i=1 i=1 i=1
sont indépendantes et
σ2 σ2
X̄1 ∼ N(µ1 , ), X̄2 ∼ N(µ2 , ), (n1 = n2 )
n1 n1
44
et
σ2 σ2
X̄3 ∼ N(µ1 + µ2 , ), X̄4 ∼ N(µ1 − µ2 , ), (n3 = n4 ) (21)
n3 n3
d’où on déduit que
µ̂1 = X̄1 et µ̂2 = X̄2
sont des estimateurs sans biais pour µ1 et µ2 ayant chacun pour précision σ2 /n1 . Construi-
sons les statistiques
1 1
µ∗1 = (X̄3 + X̄4 ) et µ∗2 = (X̄3 − X̄4 ). (22)
2 2
Il est clair que
σ2 σ2
µ∗1 ∼ N(µ1 , ) et µ∗2 ∼ N(µ2 , ), (23)
2n3 2n3
d’où il s’ensuit que µ∗1 et µ∗2 sont aussi des estimateurs sans biais de µ1 et µ2 . De l’autre
côté, on peut remarquer que si n1 = n3 , alors la variance de µ∗1 est 2 fois plus petite que la
variance de µ̂1 . De même pour µ∗2 et µ̂2 . En posant n1 = N/2, notre but est atteint :
1
Varµ∗2 = Varµ̂2 . (24)
2
Exemple 2. (suite). Supposons maintenant que l’on a 3 objets dont on veut déterminer les
poids, en les pesant sur une balance non calibrée. Dans ce cas, les mesures pour ces trois
objets peuvent être représentés de la façon suivante :
X1 = µ1 + b + δ1 , X2 = µ2 + b + δ2 , X3 = µ3 + b + δ3 , (25)
respectivement, où b est l’erreur systématique ou le biais (supposé inconnu) de la procédure
de mesure due au fait que la balance n’est pas calibrée et δi est l’erreur aléatoire, δi ∼
N(0, σ2 ). Puisque
EXi = µi + b, (26)
pour estimer µi , nous avons besoin du biais. Cela demande une lecture sans aucun objet sur
la balance, c’est-à-dire qu’on obtient
X4 = b + δ4 , δ4 ∼ N(0, σ2 ). (27)
Puisque
EX4 = b, (28)
on peut utiliser X4 comme estimateur de b.
Considérons les statistiques
µ̂i = Xi − X4 , i = 1, 2, 3. (29)
Puisque toutes les mesures sont indépendantes, on peut dire que δ1 , δ2 , δ3 , δ4 sont des va-
riables aléatoires i.i.d.,
δi ∼ N(0, σ2 ), i = 1, . . . , 4,
et puisque
µ̂i = Xi − X4 = µi + b + δi − b − δ4 = µi + δi − δ4 (30)
45
des propriétées de δ1 , δ2 , δ3 , δ4 , on déduit que
Puisque
Eµ̂i = µi , (32)
on peut dire que µ̂i est un estimateur sans biais pour µi . On remarque que
X4 = µ1 + µ2 + µ3 + b + δ4 .
Y1 = X1 + X4 − X2 − X3 , Y2 = X2 + X4 − X1 − X3 , Y3 = X3 + X4 − X1 − X2 .
Alors :
Eµ∗i = µi , i = 1, 2, 3.
46
De plus les variables aléatoires δ1 , δ2 , δ3 , δ4 sont indépendantes, δi ∼ N(0, σ2 ), d’où nous
obtenons
1 4σ2
Varµ∗i = VarYi = = σ2 .
4 4
Ainsi, si nous organisons l’expérience selon la matrice Σ2 , nous pouvons obtenir les mêmes
résultats qu’avec une balance calibrée sans erreur systématique.
Enfin on remarque que si, par exemple, il nous faut déterminer les poids µ1 , . . . , µ4 de
4 objets et que la balance est calibrée, alors dans ce cas au lieu d’utiliser le plan avec la
matrice ° °
° µ1 µ2 µ3 µ4 °
° °
° 1 0 0 0 °
° °
Σ3 = ° ° 0 1 0 0 °,
°
° 0 0 1 0 °
° °
° 0 0 0 1 °
d’après lequel on a
Xi = µ̂i ∼ N(µi , σ2 ),
il est évident qu’il est mieux de choisir le plan avec la matrice
° °
° µ1 µ2 µ3 µ4 °
° °
° 1 1 0 0 °
° °
Σ4 = °
° 1 −1 0 0 °.
°
° 0 0 1 1 °
° °
° 0 0 1 −1 °
47
On remarque que les coefficients ĉi sont choisis de facon que
Si = θti + δi , i = 1, . . . , n;
Eδi = 0, Varδi = ki σ2 = σ2i , i = 1, . . . , n.
Nous supposons que ti et ki sont donnés, mais le paramètre θ et la variance σ2 ne sont
pas connus. Notre but est de montrer que θ̂ est une réalisation du meilleur estimateur (de
variance minimale) sans biais dans la classe ∆θ de tous les estimateurs linéaires sans biais
θ∗n pour θ :
n
∆θ = {θ∗n = θ∗n (S) : θ∗n = ∑ ci Si , Eθ θ∗n = θ}.
i=1
Pour montrer cela nous considérons en plus la classe
n
∆ = {θ∗n = θ∗n (S) : θ∗n = ∑ ci Si }
i=1
de toutes les statistiques linéaires. Il est évident que ∆θ ⊂ ∆.
Soit θ∗n une statistique linéaire, θ∗n ∈ ∆. Puisque
n n n
Eθ θ∗n = ∑ ci ESi = ∑ ci θti = θ ∑ citi ,
i=1 i=1 i=1
Comme on l’a déja remarqué, le choix des coefficiens ĉi a été fait de façon à satisfaire cette
condition, et donc la statistique
n
θ̂n = ∑ ĉi Si
i=1
appartient à notre classe ∆θ des estimateurs linéaires sans biais. Montrons que θ̂n a la va-
riance minimale dans la classe ∆θ :
48
n n
Varθ∗n =∑ c2i VarSi =σ 2
∑ kic2i .
i=1 i=1
à condition que
n
cT t = ∑ citi = 1.
i=1
En utilisant la méthode de Lagrange nous pouvons trouver ce minimum lié. Soit λ un mul-
tiplicateur de Lagrange. Nous voulons minimiser la fonction de Lagrange
gradΦ(c, λ) = 0, 0 ∈ Rr+1 ,
Ces valeurs de ci nous donnent justement l’estimateur θ̂n sans biais, θ̂n ∈ ∆θ, dont la va-
riance est minimale :
n n
ti
θ̂n = ∑ ĉi Si = ∑ Si .
i=1 i=1 αk i
49
Puisque les statistiques Si sont indépendantes, par des calculs directs on trouve que
n n n
Varθ̂n = Var ∑ ĉi Si = ∑ (ĉi )2 VarSi = σ2 ∑ ki (ĉi )2 =
i=1 i=1 i=1
à !−1
n n
t2 ti2 1 2
σ2 α−2 ∑ i = σ2 ∑ ki = σ .
i=1 ki =1 α
où
x = (x1 , ..., xn )T ∈ Kn = [0, 1] × [0, 1] × ... × [0, 1] = [0, 1]n ,
{ fn (·)} est une suite de fonctions données, fn (·) : Kn → R1 , n ∈ N.
Il est connu que le problème d’évaluation d’intégrales de ce type devient compliqué
avec l’augmentation de n.
Supposons que nous pouvons construire un èchantiiilon X1 = (X11 , ..., X1n )T de taille
n, formé des variables aléatoires indépendantes suivant la même loi uniforme U ([0, 1]) sur
[0, 1]. Dans ce cas le vecteur X1 suit une loi uniforme U (Kn ) sur le cube Kn .
Supposons en plus que nous pouvons construire un échantillon X = (X1 , ..., XN )T de
taille N quelque soit N ∈ N des vecteurs aléatoires indépendants, ayant la même loi uni-
forme U (Kn ) sur le cube Kn , c’est-à-dire nous pouvons construire nN variables aléatoires
indépendantes Xi j uniformément distribuées sur [0, 1]. On remarque que de la construction
des variables aléatoires Xi j il suit que
Z
E fn (Xi ) = fn (x)dx = In , (2)
Kn
i.e. la valeur numérique de l’intégrale n’est que la moyenne E fn (Xi ) de la variable aléa-
toire fn (Xi ). Dans ce cas pour estimer la moyenne E fn (Xi ) = In nous avons la possibilité
d’utiliser la loi faible des grands nombres de Bernoulli d’après laquelle
1 N
∑
P
fn (Xi ) → In , N → ∞, (3)
N i=1
1 N
P{| ∑ fn(Xi) − In| > ε} → 0,
N i=1
si N → ∞, (4)
50
ou
1 N
P{| ∑ fn(Xi) − In| ≤ ε} → 1,
N i=1
si N → ∞, (5)
d’où on tire que pour les grandes valeurs de N avec une probabilité proche à 1 on a
1 N
In ≈ ∑ fn (Xi ) (6)
N i=1
De (4) et du Théorème Limite Central on tire que pour les grandes valeurs de N
µ √ ¶
1 N ε N
P{| ∑ fn (Xi ) − In | ≥ ε} ≈ 2Φ − (7)
N i=1 σn
et donc µ √ ¶
1 N ε N
P{| ∑ fn (Xi ) − In | ≤ ε} ≈ 1 − 2Φ −
N i=1 σn
où Z
σ2n 2
= Var fn (Xi ) = E[ fn (Xi ) − In ] = [ fn (x − In ]2 dx (8)
Kn
est la variance de fn (Xi ). (On suppose que Var fn (Xi ) existe). Donc si nous voulons que la
probabilité dans (7) soit proche à 0.997, par exemple, il faut choisir ε de façon que
√
ε N
=3
σn
i.e.
3σn
ε= √ ,
N
d’où on tire que la précision ε d’approximation de In , donnée par (7), est de l’ordre de
N −1/2 . Il est important de noter que la précision de l’approximation ne dépend que de la
variance σ2n de fn (Xi ). Donc pour évaluer l’intégrale In avec la précision √ 3σn
N
il suffit de
modeliser N vecteurs aléatoires Xi et calculer N valeurs fn (Xi ).
Comparons ce résultat avec la méthode classique du calcul des intégrales en utilisant
une approximation par les sommes.
Si n = 1, la méthode de Simpson avec N noeuds d’interpolation donne (pour une fonc-
tion f régulière ) la précision N14 . Mais pour n > 1 l’utilisation de cette méthode pour
chacune des variables même seulement avec 10 noeuds d’interpolation exige 10n calculs
des valeurs de la fonction fn (x) = fn (x1 , ..., xn ). Alors avec augmentation de n le calcul de
l’intégral In par cette méthode devient pratiquement impossible à cause de cumulation des
erreurs de calcul. Méthode de Monte-Carlo dans les mêmes conditions exige nN modelisa-
tions des variables aléatoires Xi j et N calculs des valeurs de la fonction fn (Xi ) au lieu de
10n dans la méthode de Simpson. Il est clair que pour n grand la méthode de Monte-Carlo
est uniquement possible. Mais il est raisonable bien sûr de trouver un estimateur supérieur
de la variance σ2n .
Exercice 1. Soit f une fonction continue périodique de période T = 1 sur R1 :
f (x + T ) = f (x), x ∈ R1 .
51
Considérons une suite des variables aléatoires indépendantes {Xn }, uniformément distri-
buées sur [0, 1], Xi ∼ U([0, 1]). Montrer que
Z 1
1 n
∑
P
f (x + Xk ) → f (x)dx.
n k=1 0
Montrer que
a) limn→∞ Eg(Xn ) = Eg(X) ( la suite du théorème de Lebesgue) ;
b) limn→∞ E |g(Xn − g(X)|r = 0, r > 0.
Exercice 5. Soit f continue sur [0, 1]. Montrer que
Z 1 Z 1
√ 1
lim ··· f ( n x1 ...xn ) dx1 ...dxn = f ( ).
n→∞ 0 0 e
Exercice 6. Soient f et g continues sur [0, 1] et telles que pour tout x ∈]0, 1[
Montrer que
Z 1 Z 1 R1
f (x1 ) + ... + f (xn ) f (x)dx
lim ··· dx1 ...dxn = R01 .
n→∞ 0 0 g(x1 ) + ... + g(xn ) 0 g(x)dx
Exercice 7. Montrer que
Z 1 Z 1 2
x1 + ... + xn2 2
lim ··· dx1 ...dxn = .
n→∞ 0 0 x1 + ... + xn 3
Exercice 8. Soit f telle que f 00 est continue sur [0, 1]. Montrer que
Z 1 Z 1· µ ¶ µ ¶¸ ¡ ¢
x1 + ... + xn 1 f 00 12
lim n ··· f −f dx1 ...dxn = .
n→∞ 0 0 n 2 24
Exercice 9. Montrer que
a) Z Z
lim ... dx1 ...dxn = 0;
n→∞
√
0≤xi ≤1, x12 +...+xn2 ≤ n
52
b) Z Z
lim ... dx1 ...dxn = 0;
n→∞
0≤xi ≤1, x12 +...+xn2 ≤ n4
c) Z Z
lim ... dx1 ...dxn = 1.
n→∞
0≤xi ≤1, x12 +...+xn2 ≤ n2
b) Z Z
lim ... f (x1 )... f (xn )dx1 ...dxn (a < σ2 );
n→∞
{∑nk=1 xk2 ≤an}
c) Z Z
lim ... f (x1 )... f (xn )dx1 ...dxn (a > σ2 );
n→∞
{∑nk=1 xk2 ≤an}
Exercice 11. On dit qu’une suite de nombres {an }, n ∈ N∗ , an ∈ [0, 1] est uniformément
distribuée au sens de H.Weyl sur [0, 1] si pour toute fonction continue f , intégrable sur
[0, 1] au sens de Riemann
Z 1
1 n
lim
n→∞ n
∑ f (ak ) = 0
f (x)dx.
k=1
Soit {Xn } une suite de variables aléatoires indépendantes uniformément distribuées sur
[0, 1]. Montrer que avec probabilité égale à 1 {Xn } est uniformément distribuée au sens
de Weyl sur [0, 1].
53
54
Chapitre 2
ELEMENTS DE LA THEORIE DE
L’ESTIMATION PONCTUELLE.
Définition 4. Un modèle (Rn , Bn , Pθ , θ ∈ Θ) est dit dominé par une mesure σ-finie µ dans
Rn , si la famille P = {Pθ , θ ∈ Θ} est absolumemt continue par rapport à µ :
Pθ ¿ µ, ∀θ ∈ Θ.
Autrement dit, le modèle (Rn , Bn , Pθ , θ ∈ Θ) est dominé par µ, si pour tout θ ∈ Θ il
existe une fonction non négative Bn - mesurable p(x; θ) telle que
Z
Pθ (B) = p(x; θ)dµ(x)
B
55
pour tout B ∈ Bn . La fonction p(x; θ) = pθ (x) est appelée la dérivée de Radon-Nikodym de
la mesure Pθ par rapport à la σ-mesure µ, et on note souvent
dPθ
p(x; θ) = (x) ou dPθ (x) = p(x; θ)dµ(x).
dµ
Considérons le modèle :
H0 : X ∼ p(x; θ), θ ∈ Θ, x ∈ Rn ,
d’après lequel la densité d’un vecteur aléatoire X = X(ω) de dimension n appartient à une
famille des densités
θ̂n = θ̂n (X) = argθ max L(θ), i.e. L(θ̂n ) = max L(θ),
θ∈Θ
Θ
Définition 1. Soit T = T(x) une application de (Rn , Bn ) dans un espace E muni d’une σ-
algèbre borélienne E , T : Rn → E. On dit que T est une application borélienne si pour
tout ensemble borélien B de l’espace (E, E ), B ∈ E , T−1 (B) est un ensemble borélien dans
(Rn , Bn ), i.e.
T : Rn → E.
56
Dans ce cas on dit que T(X) = T(X(ω)) est une statistique et l’application T elle-même
s’appelle une fonction de décision.
En d’autres termes n’importe quelle transformation du vecteur d’observations X ne dé-
pendant pas du paramètre inconnu θ est une statistique.
Définition 3. Soit X(ω) = (X1 (ω), X2 (ω), . . . , Xn (ω))T un vecteur aléatoire. Considérons un
modèle H0 d’après lequel les variables aléatoires X1 , . . . , Xn sont indépendantes et suivent
la même loi. Dans ce cas on dit que X est un échantillon de taille n et on écrit X au lieu de
X.
Remarque 1. Soit X = (X1 , . . . , Xn )T un échantillon de taille n, X : Ω → Rn . Considérons
un modèle paramétrique
H0 : X ∼ p(x; θ), θ ∈ Θ , x ∈ Rn .
Soit f (xi ; θ) la densité de Xi : R1 × Θ → R1 . Dans ce cas pour tout x ∈ Rn
n
p(x; θ) = ∏ f (xi ; θ), θ ∈ Θ ,
i=1
Exemple 1. Statistiques d’ordre. Vecteur des rangs. Soit X = (X1 , ..., Xn )T un échantillon,
X ∈ X ⊂ Rn . A toute réalisation x = (x1 , ..., xn )T ∈ X de X on peut associer le vecteur
x(n) = (x(1) , ..., x(n) )T obtenu en ordonnant les xi par ordre croissant
La statistique correspondante X(n) = (X(1) , ..., X(n) )T est appelée le vecteur des statistiques
d’ordre et X(i) est la i-ème statistique d’ordre dans A ⊂ Rn :
Si de plus on associe à X le vecteur R = (R1 , ..., Rn )T des rangs Ri des Xi (i = 1, ..., n), dans
X(n) , avec
n
Ri = ∑ 1{X j ≤Xi}
j=1
et on suppose que
P{X(1) < X(2) < · · · < X(n) } = 1,
alors dans ce cas la correspondence entre X et la statistique (X(n) , R) est bijective. En gé-
néral, R est à valeurs dans l’ensemble σn des permutations des n premier entiers, avec
répétition car il peut y avoir des ex aequo parmi les composantes de X. Cependant, si la
probabilité pour qu’au moins deux des composants de X soient égales est nulle, R est à
valeurs dans l’ensemble σn des permutations de {1, 2, ..., n}. Cela se produit en particulier
si la loi de X admet une densité p(x) par rapport à la mesure de Lebesgue sur Rn . Parfois,
au lieu de X (n) on utilise le signe X (·) .
57
La statistique Jn = (J1 , ..., Jn )T , oú
n
Jk = ∑ j1{R j =k}, k = 1, 2, ..., h,
j=1
alors la loi de X(r) est absolument continue aussi et sa densité est donnée par la formule
n!
fX(r) (x) = (F(x)r−1 [1 − F(x)]n−r , r = 1, ..., n.
(r − 1)!(n − r)!
1 n 1 n
Fn (x) = Fn (x; x1 , ..., xn ) = ∑ ]−∞,x] i n ∑ 1]−∞,x](x(i)),
n i=1
1 (x ) = x ∈ R1 ,
i=1
58
calculée au point choisi x.
Par construction, la fonction Fn (x), x ∈ R1 , a toutes les propriétés d’une fonction de
répartition, car elle est croissante de 0 à 1 et continue à droite, et pour cette raison nous
pouvons introduire une variable aléatoire discrète, disons X, dont la loi conditionnelle,
conditionnée par X = x, est donnée par la fonction Fn (x), c’est-à-dire
et par conséquent
Fn (x) = P{X ≤ x | X}, x ∈ R1 .
Cette formule détermine la fonction de répartition aléatoire et, par tradition, on l’appelle la
fonction de répartition empirique. Par conséquent, la loi conditionnelle de la variable aléa-
toire X, conditionnée par X, s’appelle la loi empirique. La loi empirique est la loi discrète
de X telle que
1
P{X = Xi | X} =
n
pour tout i = 1, 2, ..., n et Fn (x) est la fonction de répartition de cette loi.
Les statistiques X̄n et s2n représentent la moyenne et la variance de la loi empirique. Par
définition la statistique
x̂P = X([nP]+1)
représente P- quantile de la loi empirique, et par conséquant, x̂0.5 = X([ 2n ]+1) est la médiane
de la loi empirique.
D f : Rn → R1 ,
59
pour tout A, borelien de Rn . C’est la formule de changement de variables dans une intégrale.
et donc
pY (y) = pX ( f −1 (y))|D f −1 (y)| (4)
et vice-versa
pX (x) = pY ( f (x))|D f (x)|. (5)
Théorème 1. Soit X = (X1 , ..., Xn )T . Dans ce cas la densité de X1 est
Z
pX1 (x1 ) = pX (x1 , ..., xn )dx2 · · · dxn .
Rn−1
Y1 = X1 + X2 = f1 (X), Y2 = f2 (X) = X2 ,
i.e.
f (x) = (y1 , y2 ) = ( f1 (x), f2 (x))T ,
f1 (x) = x1 + x2 , f2 (x) = x2 .
Dans ce cas
∂ f1 (x) ∂ f1 (x) ∂ f2 (x) ∂ f2 (x)
= 1, = 1, = 0, =1
∂x1 ∂x2 ∂x1 ∂x2
60
et donc ° °
° 1 1 °
D f (x) = det °
° 0 1
° = 1,
° D f −1 (y) = 1,
x1 = f1−1 (y) = y1 − y2 ,
x2 = f2−1 (y) = y2 ,
et donc
∂ f1−1 (y) ∂ f1−1 (y) ∂ f2−1 (y) ∂ f2−1 (y)
= 1, = −1, = 0, = 1,
∂y1 ∂y2 ∂y1 ∂y2
° −1 °
° ∂ f (y) °
−1 ° j °
D f (y) = det ° ° = 1.
° ∂yi °
D’après (4) on a
où pXi (xi ) est la densité de Xi , dans ce cas les variables aléatoires X1 , X2 , . . . , Xn sont
indépendantes.
Démonstration. Soient Ai1 , Ai2 , ..., Aik des ensembles boréliens dans R1 . Dans ce cas
k Z k
∏ p(xi j ) dxi j = ∏ P{Xi j ∈ Ai j }.
j=1 j=1
Ai j
Remarque 3. Soit X = (X1 , X2 )T un vecteur aléatoire, dont les componentes sont indépen-
dantes. Dans ce cas
pX (x) = pX (x1 , x2 ) = pX1 (x1 )pX2 (x2 ), (8)
et donc la densité de la statistique Y1 = X1 + X2 est donnée par la formule
Z Z
pY1 (y1 ) = pY1 (y1 − y2 )pX2 (y2 )dy2 = pX1 (y2 )pX2 (y1 − y2 )dy2 . (9)
61
En effet, de (7) on trouve que
Z∞ Z∞
pY1 (y1 ) = pX (y1 − y2 , y2 )dy2 = pX1 (y1 − y2 )pX2 (y2 )dy2
−∞ −∞
X ∼ p(x; θ), x ∈ Rn , θ ∈ Θ ⊂ Rm , 1 ≤ m ≤ n.
T : Rn → Θ ⊂ Rm , m ≤ n.
Dans ce cas la statistique T s’appelle un estimateur statistique ponctuel ou, tout simplement,
un estimateur pour θ = (θ1 , . . . , θm )T .
Si la vraie valeur du paramètre θ est inconnue, alors la réalisation
θ∗ = T(x), θ∗ ∈ Θ ⊂ Rn ,
θ∼
= θ∗ = T(x).
On dit que c’est l’estimation ponctuelle de θ.
Remarque 1. Parfois, pour souligner qu’on travaille avec un vecteur d’observations X
d’ordre n, on ecrit θ∗n au lieu de θ∗ .
Définition 2. On appelle biais de l’estimateur T = T(X) de θ, θ ∈ Θ ⊂ Rm , la fonction
b : Θ → Rm ,
b(θ) = Eθ (T − θ), θ ∈ Θ.
Si
b(θ) ≡ 0m , θ∈Θ
on dit que l’estimateur T est sans biais.
Remarque 2. Soient θ∗n et θ̄n deux estimateurs scalaires sans biais pour θ ∈ Θ ⊂ R1 :
Eθ θ∗n = Eθ θ̄n , θ ∈ Θ.
Dans ce cas θ̃n = Eθ (θ∗n |θ̄n ) est aussi un estimateur sans bias pour θ :
Varθ θ∗n = Eθ {Varθ (θ∗n |θ̄n )} + Varθ {Eθ (θ∗n |θ̄n )},
62
et
Eθ {Varθ (θ∗n |θ̄n )} ≥ 0,
on en tire que
Varθ θ̃n = Varθ {Eθ (θ∗n |θ̄n )} ≤ Varθ θ∗n .
Il est évident que par symétrie on obtient également que
Définition 3. {Tn } est une suite d’estimateurs asymptotiquement sans biais pour le para-
mètre θ, θ ∈ Θ , si pour tout θ ∈ Θ
bn (θ) = Eθ (Tn − θ) → 0m ,
lorsque n → ∞.
Définition 4. Soit {θ∗n } une suite d’estimateurs ponctuels pour θ, θ∗n = θ∗n (X). On dit que
{θ∗n } est une suite consistante ou cohérante pour θ, si {θ∗n } converge en probabilité vers θ,
i.e. si pour tout ε > 0
est un estimateur invariant pour σ2 par rapport au paramètre de translation C, parce que
63
2.4 Fonction de perte, fonction de risque.
comme fonction de perte (fonction de perte quadratique). Mais on peut aussi prendre
µ ¶2
T (X)
l(T (X), θ) =| T (X) − θ |, l(T (X), θ) = 1 −
θ
ou µ ¶
T T
l(T (X), θ) = − ln − 1.
θ θ
Il est intéressant aussi d’utiliser des fonctions convexes et de choisir
Cette définition nous permet d’introduire une relation d’ordre partiel sur les estimateurs
de θ. Il est logique d’admettre que l’estimateur T1 est préférable à l’estimateur T2 par rapport
à la fonction de perte l, si
Rl (T1 , θ) ≤ Rl (T2 , θ), θ ∈ Θ.
Remarque 1. Lorsque la fonction de perte choisie est la fonction de perte quadratique,
le risque-associé est appelé risque quadratique. Dans le cas d’un estimateur sans biais, le
risque quadratique correspond à la variance de l’estimateur.
Remarque 2. Dans le cas où le paramètre θ = (θ1 , ..., θm )T est un élément de Θ ⊂ Rm , alors
les produits sont des produits scalaires et les variances sont des matrices de covariance.
64
Plus d’information et des exemples on peut trouver, par exemple, dans Voinov& Nikulin
(1993), (1996).
Considérons le modèle
H0 : X ∼ p(x; θ), θ ∈ Θ ⊂ Rm , x ∈ Rn ,
où la densité du vecteur X = X(ω) de dimension n, X : Ω → Rn , appartient à une famille
des densités
T = T(X), T : Rn → Rk , m ≤ k ≤ n,
{p(x; θ), θ ∈ Θ },
si la loi conditionnelle de X, sachant T,
Pθ {X ≤ x | T = t}
ne dépend pas de θ, i.e.
Pθ {X ≤ x | T = t} = P{X ≤ x | T = t}.
65
où le premier facteur ne dépend que de T et θ, et le second ne dépend que de X.
Démonstration. On va donner la démonstration de ce théorème dans le cas où
X n = X1 × X2 × · · · × Xn = X × X × · · · × X , X n ⊂ Rn ;
i.e.
X ∼ p(x; θ) = Pθ {X = x} > 0, x = (x1 , · · · , xn )T ∈ X n , θ ∈ Θ,
où
n
p(x; θ) = ∏ f (xi ; θ)
i=1
est la densité de X. On suppose aussi que X ne dépend pas de θ.
Tout d’abord on démontre que si T = T (X) est une statistique qui verifie (1), elle est
exhaustive.
Soit T une statistique T : X n → T telle que (1) ait lieu, où T = {t} ⊂ Rk est l’espace des
réalisations de T , i.e.
Pθ {T = t} > 0, t ∈ T .
Notons
Xt = {x = (x1 , . . . , xn )T : T (x) = t, x ∈ X n ⊂ Rn }
l’orbite, correspondant à la valeur t, t ∈ T , de la statistique T . Il est évident que X n =
S
t∈T Xt .
Comme {T (X) = t} = {X ∈ Xt } on a
P {X = x, T (X) = t}
Pθ {X = x|T (X) = t} = θ =
Pθ {T (X) = t}
Pθ {X = x}
, si x ∈ Xt ,
= Pθ {T = t}
0, sinon,
car ½
Pθ {X = x}, si T (X) = t,
Pθ {X = x, T (X) = t} =
0, sinon.
On remarque que d’après (1) on a
½
g(t; θ)W (x), x ∈ Xt ,
Pθ {X = x} = p(x; θ) =
0, sinon.
Pθ {T (X) = t} = ∑ Pθ {X = x} =
x∈Xt
66
= ∑ g(T (x); θ)W (x) = ∑ g(t; θ)W (x) = g(t; θ) ∑ W (x),
x∈Xt x∈Xt x∈Xt
d’où on tire que
W (x)
∑ W (x)
, x ∈ Xt ,
Pθ {X = x|T (X) = t} = x∈Xt
0, sinon.
Comme x est arbitraire, x ∈ X n , et Xt ne dépend pas de θ, donc
V ∼ U,
67
et dans ce sens U est unique (classe d’équivalence).
Remarque 4. Soient T = T (X) une statistique exhaustive,
R = U −1 : J → T ,
telle que
T (X) = R(S) = R(S(X)).
On peut affirmer que S est elle aussi exhaustive ; en effet
T ∼ g(t; θ), θ ∈ Θ , t ∈ Rk .
On dit que la statistique T est complète, si la famille {g(t; θ)} est complète.
Remarque 6. Pour mener à bien les estimations et les tests classiques, paramétriques ou
non paramétriques, on transforme les observations brutes en calculant des statistiques bien
choisies qui doivent avoir les propriétés suivantes :
1) Perdre le moins d’information possible, éventuellement pas du tout (et c’est le cas des
statistiques exhaustives) tout en réduisant au minimum le volume initial des observations.
2) Etre calculables ou avoir une bonne approximation. Par exemple, s’il s’agit d’un
estimateur obtenu par maximum de vraisemblance, il se peut que l’on ne puisse en obtenir
aisément qu’une valeur approchée au premier pas à partir d’un estimateur moins bon.
3) Leurs lois doivent être, soit connues explicitement, soit admettre une bonne approxi-
mation. Bonne voulant dire à la fois simple à calculer et ayant une bonne vitesse de conver-
gence vers la vraie valeur. Ce qui suit donne, grâce à des transformations appropriées des
observations, des statistiques qui ont ces propriétés et aussi de bonnes approximations par
des lois usuelles et permet ainsi de n’utiliser essentiellement que deux tables : celle de la loi
68
normale standard et celle des lois gamma (ou chi-deux). Des exemples illustrent l’applica-
tion de ces méthodes qui donnent des approximations meilleures (de vitesse de convergence
plus rapide) que les approximations usuelles.
Ces techniques sont très utiles pour tous les statisticiens qui travaillent sur des pro-
blèmes concrets, en particulier chez les ingénieurs, mais aussi, dans les domaines de la
médecine et de la biologie.
Il y a plusieurs méthodes d’estimation d’un paramètre θ, par exemple :
10 . La méthode des moments ( basée sur la loi empirique) ;
20 . la méthode des moindres carrés (basée sur la méthode de Gauss) ;
30 . La méthode de minimum du chi-deux ;
40 . La méthode du maximum de vraisemblance, etc.
En général, ces méthodes sont différentes et par conséquant les propriétés des
estimateurs obtenus par ces méthodes sont différentes.
{ f (x; θ) : θ ∈ Θ}, x ∈ R1 , Θ ⊂ R1 .
Xi ∼ f (xi ; θ), θ ∈ Θ ⊂ R1 , xi ∈ R1 .
Alors, la quantité
∂ ln f (X j ; θ)
λ(X j ; θ) = (2)
∂θ
est appelé informant de l’observation X j et la quantité suivante
∂
Λ(X, θ) = ln L(θ) (3)
∂θ
est appelé informant de l’échantillon X ; (L(θ) est la fonction de vraisemblance de X).
69
Puisque
n
ln L(θ) = ∑ ln f (X j ; θ)
j=1
on en tire que
n
Λ(X; θ) = ∑ λ(X j ; θ). (4)
j=1
si elle existe.
Remarque 1. Puisque
Eθ Λ(X; θ) = 0, θ ∈ Θ, (6)
on a
In (θ) = Eθ Λ2 (X, θ). (7)
Remarque 2. Si (1) peut être dérivée deux fois par rapport à θ sous le signe d’intégration,
alors on peut montrer que
∂
In (θ) = −Eθ Λ(X, θ). (8)
∂θ
Remarque 3. Puisque
n
L(θ) = p(X; θ) = ∏ f (Xi , θ),
i=1
on pourra écrire :
In (θ) = ni(θ), (9)
où
i(θ) = Eθ λ2 (X j ; θ) (10)
représente l’information d’une des composantes, par exemple X j , du vecteur X. Nous en
déduisons que le vecteur X contient n fois plus d’information que chacune de ses compo-
santes. On remarque que si (1) peut être dérivée deux fois par rapport à θ, alors
∂
i(θ) = −Eθ λ(X1 , θ). (11)
∂θ
L’inégalité de Rao-Cramer-Fréchet. Si T = T (X) un estimateur sans biais du paramètre
θ, alors sous les conditions i)-iii)
1
Varθ T ≥ , θ ∈ Θ. (12)
In (θ)
Démonstration. Soit τ la classe de tous les estimateurs T = T (X) sans biais pour le para-
mètre θ :
τ = {T : Eθ T ≡ θ}.
Dans ce cas pour tout T ∈ τ on a
Z
Eθ T = T (x)p(x; θ)dx ≡ θ, θ ∈ Θ,
Xn
70
et donc des conditions i)-iii) on tire que
Z Z
∂ ∂
T (x)p(x; θ)dx = T (x) p(x; θ)dx ≡ 1,
∂θ ∂θ
Xn Xn
i.e. on a Z Z · ¸
∂ ∂
1≡ T (x) p(x; θ)dx = T (x) ln p(x; θ) p(x; θ)dx =
∂θ ∂θ
Xn Xn
Z
T (x)Λ(θ)p(x; θ)dx = Eθ {T (X)Λ(θ)}, θ ∈ Θ,
Xn
où Λ(θ) est l’informant du vecteur d’observation X. Comme
Eθ T ≡ θ et Eθ Λ(θ) ≡ 0
[g0 (θ)]2
Varθ T ≥ , θ ∈ Θ. (13)
In (θ)
Par exemple, soit Eθ T = g(θ) = θ + b(θ), i.e. b(θ) est le biais de l’estimateur T . Dans ce
cas de (13) on tire que
[1 + b0 (θ)]2
Varθ T ≥ .
In (θ)
Remarque 5. 1/In (θ) n’est plus la borne inférieure de la variance d’un estimateur avec
biais.
Définition 2. Un estimateur sans biais T = T (X) du paramètre θ sera efficace si
1
Varθ T = . (14)
In (θ)
Un estimateur efficace est donc un estimateur sans biais pour lequel la borne inférieure de
l’inégalité de Rao-Cramer Fréchet est atteinte.
Remarque 6. En reprenant la remarque 4 on dira de la même façon que T est un estimateur
efficace de g(θ) si
[g0 (θ)]2
Varθ T = , θ ∈ Θ. (15)
In (θ)
Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon,
71
i.e. Xi suit une loi de Bernoulli de paramètre p. Dans ce cas la fonction de vraisemblance
est n n
n ∑ Xi n− ∑ Xi
L(p) = ∏ f (Xi ; p) = pi=1 (1 − p) i=1 , p ∈]0, 1[
i=1
et donc
n
µn = ∑ Xi
i=1
est une statistique exhaustive pour p. Il est évident que la statistique µn suit la loi binomiale
B(n, p). On sait que :
p(1 − p)
E p̂n = EX̄n = p et Var p̂n = , p ∈]0, 1[. (16)
n
Pour montrer que p̂n est le meilleur estimateur sans biais pour p, calculons la borne infé-
rieure dans l’inégalité de Rao-Cramer-Fréchet. Comme
ln L(p) = µn ln p + (n − µn ) ln (1 − p),
∂ µn n − µn
Λ(p) = ln L(p) = − , (17)
∂p p 1− p
d’où on tire que
∂ n
In (p) = EΛ2 (p) = −E Λ(p) = , p ∈]0, 1[, (18)
∂p p(1 − p)
E p p∗n (µn ) = p.
Dans ce cas δ(µn ) = p̂n − p∗n est un estimateur sans biais pour 0 :
72
i.e., µ ¶
n
n
∑ δ(m) m
pm (1 − p)n−m = 0, p ∈]0, 1[,
m=0
d’où on tire que δ(m) ≡ 0, m ∈ {0, 1, ..., n}, puisque le système des fonctions {1,t,t 2 , ...,t n , ...}
forme une base complète. Puisque la statistique µn est complète, on en déduit que p̂n est
unique, que c’est et donc le meilleur estimateur sans biais pour p et qu’il est efficace.
Supposons qu’il nous faille estimer p2 . Comme
Eµ2 = np + n2 p2 − np2 ,
et donc
µ2n p
E = + p2 .
n(n − 1) n − 1
Comme Eµn = np, on obtient que la statistique
µn (µn − 1)
(20)
n(n − 1)
est le meilleur estimateur sans biais pour p2 , puisqu’il est exprimé en termes de la statistique
exhaustive complète. De la même façon on peut montrer que
½ ¾
µn (µn − 1) · · · (µn − k + 1)
E = pk
n(n − 1) · · · (n − k + 1)
pour tous les k = 1, 2, ..,n.
Example 2. Soit X = (X1 , . . . , Xn )T un échantillon,
θxi −θ
Xi ∼ f (xi ; θ) = e , xi ∈ X = {0, 1, 2, . . .}, θ > 0,
xi !
i.e. Xi suit une loi de Poisson de paramètre θ.
Comme à !−1
n
n ∑ Xi n
L(θ) = ∏ f (Xi ; θ) = e −nθ i=1
θ ∏ Xi , θ > 0,
i=1 i=1
du critère de factorisation on déduit que la statistique
n
T = ∑ Xi
i=1
est exhaustive pour θ, et comme la famille { f (x; θ)} est complète, on en déduit que T est la
statistique exhaustive minimale.
On remarque que dans ce modèle la statistique
à !−1
n
W (X) = ∏ Xi
i=1
73
est auxiliaire.
Il est facile de démontrer par des calculs directs que
Pθ {X = x|T = t}, x = (x1 , . . . , xn )T ∈ X n ,
ne dépend pas de θ. En effet :
Pθ {X1 = x1 , . . . , Xn = xn , T = t}
Pθ {X = x|T = t} = =
Pθ {T = t}
Pθ {X = x} , si x ∈ X ,
t
= Pθ {T = t}
0, sinon.
Soit x ∈ Xt = {x : ∑ xi = t}. Dans ce cas pour ∀t ∈ X
θx1 −θ
· · · θxn ! e−θ
xn
Pθ {X = x} x1 ! e
Pθ {X = x|T = t} = = (nθ)t −nθ
=
Pθ {T = t}
t! e
µ ¶t
t! 1
= .
x1 !x2 ! · · · xn ! n
Donc, la loi conditionnelle de X, sachant T = t, est la loi multinomiale uniforme, qui ne
n
dépend pas de θ, quelle que soit la valeur observée t de la statistique exhaustive T = ∑ Xi .
i=1
On considère maintenant le problème de l’estimation du paramètre θ. Pour estimer θ on
appliquera la méthode du maximum de vraisemblance. Pour trouver
θ̂n = argθ max L(θ),
il nous faut résoudre l’équation du maximum de vraisemblance Λ(θ) = 0, puisque
∂
Λ(θ) = ln L(θ).
∂θ
Comme
ln L(θ) = −nθ + T ln θ + lnW (X),
on doit résoudre l’équation
T
Λ(θ) = −n + = 0,
θ
dont la solution θ̂n est
1 1 n
θ̂n = T = ∑ Xi = X̄n .
n n i=1
Comme T suit une loi de Poisson de paramètre nθ, on obtient immédiatement que
θ
Eθ θ̂n = θ et Varθ θ̂n = ,
n
i.e. {θ̂n } est une suite consistante d’estimateurs sans biais du paramètre θ. On va montrer
que θ̂n est un estimateur efficace, c’est-à-dire qu’on a l’égalité :
1
Varθ̂n = .
In (θ)
74
En effet,
∂
In (θ) = −Eθ Λ(θ),
∂θ
et comme
∂ T
Λ(θ) = − 2 ,
∂θ θ
on trouve que l’information de Fisher sur θ dans X est égale à
∂ 1 n
In (θ) = −Eθ Λ(θ) = 2 Eθ T = ,
∂θ θ θ
d’où on tire que
1 θ
Varθ̂n = = ,
In (θ) n
et donc θ̂n est un estimateur efficace pour θ. Comme la famille des densités
½ x ¾
θ −θ
e , θ>0
x!
est complète, on en déduit que θ̂n est un estimateur sans biais unique dans la classe des
estimateurs sans biais, exprimés en termes de la statistique exhaustive T et θ̂n est donc le
meilleur estimateur sans biais pour θ.
Remarque 7. Soit X = (X1 , ..., Xn )T un vecteur aléatoire ayant une distribution discrète dans
Rn . Notons X = {x = (x1 , ..., xn )T } l’espace des réalisations de X dans Rn , c’est-à-dire que ;
et
∑ P{X = x} = P{X ∈ X } = 1,
x∈X
où X est fini ou infini dénombrable, puisque X suit une loi discrète.
Soit T = T(X) une statistique arbitraire, T(x) : X → τ, où τ = {t} est l’espace des
réalisations de T,
P{T = t} > 0 pour ∀t ∈ τ.
Pour toute valeur possible t de la statistique T, t ∈ τ, on détermine son orbite Xt dans X :
Xt = {x : T(x) = t, x ∈ X }.
Il est évident que {Xt } est une partition de X :
[ \
Xt = X et Xt Xt0 6= 0, t, t0 ∈ τ, t 6= t0 . (21)
t∈τ
75
puisque ½
P{X = x} = p(x), si x ∈ Xt ,
P{X = x, T = t} =
0, sinon .
La famille des probabilités (22) est finie ou infinie dénombrable, et on choisit t dans (22)
de façon que P{T = t} > 0, i.e. t ∈ τ.
Soit U = U(X) une autre statistique, U(x) : X → U , telle que EU existe. D’après la
définition :
EU = EU(X) = ∑ U(x)p(x). (23)
x∈X
E{U | T = t} = ∑ U(x)p(x | t) =
x∈Xt
∑ U(x)p(x)
x∈Xt
. (24)
∑ p(x)
x∈Xt
Nous pouvons considerer E{U | T = t} comme une réalisation de la variable aléatoire E{U |
T} quand T = t. Il est facile de prouver que
∑ E{U | T = t} ∑ p(x) =
t∈τ x∈Xt
et par conséquent pour calculer EU on peut tout d’abord calculer E{U | T = t} puis E{E{U |
T}}.
Soit X un vecteur aléatoire, X ∈ Rn , X ∼ F, F ∈ F , où F = {F} est une famille de
fonctions de répartitions dans Rn . Soient ψ = ψ(X) et ϕ = ϕ(X) deux statistiques, ψ :
Rn → Rk , ϕ : Rn → Rk , telles que
existent.
Considérons la statistique
Ψ = Ψ (ϕ) = E{ψ|ϕ}, Ψ ∈ Rk .
76
Il est évident que
Ψ = E{E{ψ|ϕ}} = Eψ,
EΨ
ce qui signifie que Ψ est un estimateur sans biais de Eψ.
Théorème 1 (Rao-Blackwell-Kolmogorov)
Pour tout z ∈ Rk
Ψ − Eψ)(Ψ
zT E{(Ψ Ψ − Eψ)T }z ≤ zT E{(ψ − Eψ)(ψ − Eψ)T }z. (26)
Démonstration. Notons
Ψ − Eψ)]T z.
∆ = [ψ − Ψ ]T z = [(ψ − Eψ) − (Ψ
Mais
Ψ − Eψ)T −
∆2 = ∆T ∆ = zT {(ψ − Eψ)(ψ − Eψ)T − (ψ − Eψ)(Ψ
Ψ − Eψ)(ψ − Eψ)T + (Ψ
−(Ψ Ψ − Eψ)(Ψ
Ψ − Eψ)T }z,
et par suite de (27), on peut tirer que
X ∼ p(x; θ), θ ∈ Θ ⊂ Rm .
T = T(X), T : Rn → Rk , m ≤ k ≤ n,
77
dont la densité est g(t; θ), t ∈ Rk . Notons q(x,t; θ) la densité conjointe de X et T, p(x | t)
la densité conditionnelle de X sachant T = t. Dans ce cas pour tout x fixé, x ∈ Rn , p(x|T )
est un estimateur sans biais pour p(x; θ). En effet,
Z Z
Ep(x|T ) = p(x|t)g(t; θ) dt = q(x,t; θ) dt = p(x; θ).
Rk Rk
78
par rapport à θ1 , ..., θs . La solution θ̃n = (θ̃1 , ..., θ̃n )T de cette équation,
θ̃1 = θ̃1 (α1 , ..., αs ),
···
θ̃s = θ̃s (α1 , ..., αs ),
s’appelle l’estimateur par la méthode des moments de θ.
Si les fonctions (1) déterminent une application bijective, leurs dérivées partielles existent
et sont continues et les moments ak (θ) (k = 1, 2, ..., 2s) existent ; donc les estimateurs ob-
tenus par la méthode des moments sont cohérents et de distributions asymptotiquement nor-
males. Des propriétés asymptotiques d’estimateurs, obtenus par la mèthode des moments,
serons considérées dans le chapitre III.
Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon lognormalle LN(µ, σ2 ),
1 − 1 (ln x−µ)2
Xi ∼ p(x; µ, σ2 ) = √ e 2σ2 1]0,∞[ (x), µ ∈ R1 , σ2 > 0.
xσ 2π
Remarqons que ln Xi suit une loi normale N(µ, σ2 ). On peut montrer que
2 /2 2
a1 = EX1 = eµ+σ , a2 = EX12 = e2µ+2σ .
D’après la méthode des moments pour estimer µ et σ2 il faut résoudre le système
( 2
eµ+σ /2 = X̄n = α1 ,
2
e2µ+2σ = n ∑i=1 Xi = α2 ,
1 n 2
79
d’où on obtient l’estimateur r
π
θ̃n = X̄n .
2
Il est claire que Eθ̃n = θ, i.e. θ̃n est un estimateur sans biais pour θ, et comme
µ ¶
θ2 2
Var X̄n = 1− ,
n π
on en tire que
π θ2 ³ π ´
Var θ̃n = Var X̄n = −1 =
2 n 2
θ2 π − 2 π − 2 1
= > ,
n 2 In (θ) In (θ)
où µ ¶
2n ∂2 3 2 1 2n
In (θ) = 2 = −nE 2 ln p(X1 ; θ) = nE 4 X1 − 2 = 2
θ ∂θ θ θ θ
est l’information de Fisher sur θ dans X. De la dernière inégalité on voit bien que l’estima-
teur θ̃n n’est pas éfficace.
Remarque 1. Du théorème limite central il suit que la suite des variables aléatoires
√ q
√ n(X̄n − π2 θ)
n(θ̃n − θ)
q = q , n = 1, 2, ...
π−2
θ 2 θ 1 − 2
π
est asymptotiquement normale N(0, 1), quand n → ∞, i.e. pour les grandes valeurs de n
√n(θ̃ − θ)
P qn ≤ x ≈ Φ(x), x ∈ R1 .
θ π−2
π
80
où x̄α/2 est le quantile supérieur de niveau α/2 pour la loi standard normale, 0 < α < 0.5,
d’où on tire que
( r µ ¶ r )
π−2 θ π−2
P −x̄α/2 ≤ 1− ≤ x̄α/2 ≈ 1−α
2n θ̃n 2n
et donc
( Ã r ! Ã r !)
π−2 π−2
P θ̃n 1 − x̄α/2 ≤ θ ≤ θ̃n 1 + x̄α/2 ≈ 1 − α,
2n 2n
Supposons qu’on cherche à mesurer une constante µ ; pour cela on fait n mesures di-
rectes x1 , x2 , . . . , xn de µ, indépendantes les unes des autres, de même précision, sans erreur
systématique. De chaque résultat d’expérience on tire que
µ∼
= xi , i = 1, 2, . . . , n. (1)
On obtient un système de n équations, qui sont en général incompatibles si les xi ne sont
pas tous égaux. Pour cette raison il est logique de traiter xi − µ comme une erreur, commise
au cours de la i-ème mesure de µ, et x − µ1n comme le vecteur des erreurs que l’on a fait au
cours des n expériences organisées pour déterminer µ ; donc
n
kx − µ1n k2 = (x − µ1n )T (x − µ1n ) = ∑ (xi − µ)2 (2)
i=1
repésente le carré de la longueur du vecteur des erreurs x − µ1n .
Compte tenu du fait que toutes les mesures sont faites dans les mêmes conditions, et que par
suite les n équations ont toutes la même validité pour l’expérimentateur, Legendre a posé le
problème de la détermination d’une valeur µ∗ , µ∗ ∈ R1 , qui est meilleure que chaque résultat
individuel xi et en même temps est en meilleur accord, dans un certain sens avec tous les xi ,
c’est-à-dire, avec le système d’équations (1) qui représente les résultats d’expériences de
mesures du paramètre µ.
Pour déterminer µ∗ , Legendre a proposé le principe des moindres carrés, d’après lequel
la valeur de µ, la plus en accord avec l’expérience est donnée par la valeur µ∗ , qui minimise
kx − µ1n k2 , le carré de la longueur du vecteur des erreurs (x − µ1n ) , i.e.
81
nom de modèle de Gauss. D’après ce modèle le résultat xi de la i-ème mesure représente la
réalisation de la variable aléatoire
Xi = µ + δi , i = 1, . . . , n, (4)
où δi est l’erreur aléatoire de la i-ème mesure,
δi ∈ N(0, σ2 ), (5)
puisque Eδi = 0 par convention (absence d’erreur systématique) et σ2 = Varδi > 0 est une
constante ne dépendant pas de i, car chaque mesure a été faite avec la même précision.
Gauss a proposé de considérer chaque δi comme une variable aléatoire de loi normale ; en
effet selon la théorie des erreurs, développée par Gauss, toute erreur δi représente la somme
d’un grand nombre de petites erreurs , qu’on peut supposer indépendantes ; par suite, on
peut supposer que leur somme est normale, ce qui peut s’expliquer dans le cadre du théo-
rème limite central. De plus on a l’indépendance des mesures, d’où on déduit que dans
le modèle de Gauss on peut supposer que δ1 , . . . , δn sont des variables aléatoires indépen-
dantes, et donc que X = (X1 , . . . , Xn )T est un échantillon normal ; cela signifie que X1 , . . . , Xn
sont des variables aléatoires indépendantes qui suivent la même loi normale de paramètres
µ et σ2 :
Xi ∈ N(µ, σ2 ), i = 1, . . . , n; (6)
donc dans le cadre de ce modèle le résultat de l’expérience x = (x1 , . . . , xn )T est une réa-
lisation d’un vecteur aléatoire X, de loi normale de dimension n et de paramètres µ1n et
σ2 In , X ∼ Nn (µ1n , σ2 In ),
X = µ1n + δ, (8)
d’un terme déterministe, mais inconnu, et d’un terme aléatoire
82
½ ¾
√ −n 1 T
L(µ) = (σ 2π) exp − 2 (X − µ1n ) (X − µ1n ) =
2σ
½ ¾ ½ ¾
√ −n 1 T √ −n 1 2
= (σ 2π) exp − 2 δ δ = (σ 2π) exp − χn , µ ∈ R1 , (11)
2σ 2
car
δT δ = σ2 χ2n . (12)
On remarque ici que maximiser la fonction de vraisemblance L(µ), µ ∈ R1 , revient à
minimiser la fonction (X − µ1n )T (X − µ1n ) qui représente la fonction de la formule (2),
mais en d’autres termes, en termes d’observations. C’est-à-dire que dans ce cas la méthode
de Legendre et la méthode de Gauss sont équivalentes. Donc L(µ), µ ∈ R1 , atteint son
maximum, X étant donné, pour le point µ∗ , qui rend minimum la forme quadratique
(X − µ1n )T (X − µ1n ) = δT δ,
i.e. l’estimateur statistique µ∗ est la solution du problème extrêmal :
n 2
exp{− (X̄n − µ) }W (X);
σ 2
donc X̄n est une statistique exhaustive pour µ. Comme X̄n ∈ R1 et µ ∈ R1 , la statistique
exhaustive X̄n est minimale. De (6) et (7) il suit que X̄n suit la loi normale N(µ, σ2 /n) de
paramètres
σ2
EX̄n = µ et VarX̄n = E(X̄n − µ)2 = . (16)
n
Puisque la famille des loi normale N(µ, σ2 ) est complète, on en tire que X̄n est une statistique
exhaustive minimale et complète. X̄n est un estimateur efficace pour µ.
Souvent la variance σ2 est elle aussi inconnue ; dans ce cas outre l’estimateur X̄n pour µ
il est très important d’obtenir un estimateur statistique pour σ2 . Notons
83
Pour estimer θ on considère la statistique
1 1 n
s2n = XT Dn X = ∑ (Xi − X̄n )2 . (22)
n n i=1
Comme θ = (µ, σ2 )T , il vaut mieux écrire que la fonction de vraisemblance de X est L(θ) =
L(µ, σ2 ). En utilisant (11),(13), (21) et (22), nous pouvons présenter L(µ, σ2 ) en termes des
statistiques s2n et X̄n par la formule suivante
½ ¾
√ −n 1 T
L(X; µ, σ ) = (σ 2π) exp − 2 δ δ =
2
2σ
√ −n n n o
= (σ 2π) exp − 2 [s2n + (X̄n − µ)2 ] , (23)
2σ
¡ ¢T
d’où on tire que la statistique T = X̄n , s2n est exhaustive. On peut montrer que T est
minimale et complète.
Pour étudier les propriétés de T on considère, par exemple, la transformation linéaire
Y = CX de Helmert, déterminée par la matrice orthogonale C,
CT C = CCT = In , CT = C−1 ,
° °
° √1 √−1 0 0 ··· 0 0 °
° 1·2 1·2 °
° √1 √1 √−2 ··· °
° 0 0 0 °
° 2·3 2·3 2·3 °
° .. .. .. ... .. .. .. °
C=° . . . . . . °.
° −(n−1) °
° √ 1 √ 1 √ 1 √ 1
··· √ 1 √ °
° (n−1)n (n−1)n (n−1)n (n−1)n (n−1)n (n−1)n °
° °
° √1 √1 √1 √1 ··· √1 √1 °
n n n n n n
84
D’après cette transformation Y = (Y1 , ...,Yn )T , où
Y1 = √1 (X1 − X2 ),
1·2
Y2 = √1 (X1 + X2 − 2X3 ),
2·3
..
.
Yn−1 = √ 1
(X1 + X2 + ... + Xn−1 − (n − 1)Xn ),
(n−1)n
√
Yn = √1 (X1 + X2 + ... + Xn ) = nX̄n ,
n
σ2 ns2
X̄n ∼ N(µ, ) et 2n = χ2n−1 , (27)
n σ
85
donc que la statistique s2n est distribuée comme σ2 χ2n−1 /n, où χ2f est une variable aléatoire
qui suit la loi du chi-deux à f dégrés de liberté, f > 0, i.e. pour tout x ≥ 0
Zx
2− f /2 f
P{χ2f ≤ x} = ³ ´ t 2 −1 e−t/2 dt.
Γ 2f 0
Comme
Eχ2f = f et Varχ2f = 2 f , (28)
de (27) et (28) on tire que
µ ¶
1 2σ4 (n − 1)
Es2n =σ 2
1− et Vars2n = . (29)
n n2
On peut vérifier que dans notre problème l’estimateur de maximum de vraisemblance
θ̂n pour θ est
θ̂n = T = (X̄n , s2n )T .
En effet, on a
√ n n n
ln L(X; µ, σ2 ) = −n ln 2π − ln σ2 − 2 s2n − 2 (X̄n − µ)2 ,
2 2σ 2σ
∂ln L n ∂ln L n ns2n n
= 2 (X̄n ) − µ) et = − + + 4 (X̄n − µ)2 ,
∂µ σ ∂σ 2 2σ 2 2σ 4 2σ
donc pour trouver µ̂n et σ̂2n , il faut résoudre le système
(
∂ln L
∂µ = 0,
∂ln L
∂σ2
= 0.
De la première équation du système on tire que
µ̂n = X̄n ,
et de la deuxième on tire que
σ̂2n = s2n ,
d’où on obtient que θ̂n = (X̄n , s2n )T est l’estimateur de maximum de vraisemblance pour
θ = (µ, σ2 )T .
D’un autre côté comme de (29) on tire que
n 2 1 n
Sn2 =
n−1
sn = ∑ (Xi − X̄n)2
n − 1 i=1
(30)
Dans ce paragraph nous allons suivre les articles de Bolshev (1965) et de Bagdona-
vičius, Nikoulina & Nikulin (1997).
86
Soit X = (X1 , . . . , Xn )T un échantillon, dont les réalisations x = (x1 , . . . , xn )T appar-
tiennent à X ⊆ Rn , x ∈ X ⊆ Rn ,
Les statistiques bi (X) et bs (X) sont appelées aussi γ1 - limite inférieure et γ2 - limite su-
périeure tout court. Si les coefficients de confiance de bi (X) et bs (X) sont égaux à γ1 et
γ2 respectivement, dans ce cas ]bi (X), bs (X)[ est l’intervalle de confiance du coefficient de
confiance
γ = γ1 − (1 − γ2 ) = γ1 + γ2 − 1
87
pour la vraie valeur de b = b(θ).
Définition 3. Les intervalles
sont appelés intervalles de confiance supérieur et inférieur pour b. Tous les deux sont des
intervalles unilatéraux.
Lemme (Bolshev (1965)) Soit G(t) la fonction de répartition d’une variable aléatoire T .
Dans ce cas pour tout z ∈ [0, 1]
P{G(T ) ≤ z} ≤ z, 0 ≤ z ≤ 1. (2)
Si z = 1, on a P{G(T ) ≤ 1} ≤ 1. Fixons z ∈ [0, 1) et pour cette valeur de z on considère les
situations différentes.
1) Il existe une solution y de l’équation G(y) = z. Notons
2) Il n’existe pas de solution pour l’equation G(y) = z. Mais dans ce cas il existe y tel que
88
z ≤ P{G(T − 0) < z}, 0 ≤ z ≤ 1. (3)
Considérons la satistique −T . Sa fonction de répartition est
T, z, G par − T, 1 − z et G−
respectivement :
P{G− (−T ) ≤ 1 − z} ≤ 1 − z, 0 ≤ z ≤ 1,
d’où on obtient que
P{1 − G(T − 0) ≤ 1 − z} ≤ 1 − z,
P{G(T − 0) ≥ z} ≤ 1 − z,
P{G(T − 0) < z} ≥ z, 0 ≤ z ≤ 1.
Si T est continue, dans ce cas G(t − 0) = G(t), et donc (2) et (3) nous donnent P{G(T ) ≤
z} = z pour tout z ∈ [0, 1].
Le Lemme de Bolshev est démontré.
Théoreme. Supposons que l’on ait une variable aléatoire T = T (X, b), b ∈ B, telle que sa
fonction de répartition
G(t, b) = Pθ {T ≤ t}
ne dépende que de b pour tous t ∈ R et que les fonctions
sinon
bi = bi (X) = inf B
est la limite inférieure de confiance pour b ∈ B0 du coefficient de confiance supérieur où
égal à γ ;
2) la statistique bs (X) est une limite supérieure de confiance pour b ∈ B0 du coefficient de
confiance supérieur où égale à γ :
bs = bs (X) = sup B,
89
3) si x, x ∈ X , est telle que les fonctions I(b, x) et S(b, x) sont strictement décroissantes par
rapport à b, alors bi (x) et bs (x) sont les racines des équations
T (X; θ) = χ22n .
n
−2 ∑ ln F(Xi ; θ) = χ21−γ (2n) (ou χ2γ (2n)).
i=1
∗
Remarque 2. Soit {θn }, n ∈ N∗ , une suite d’estimations, θn∗ : Rn → Θ, du paramètre θ =
(θ1 , . . . , θm )T ∈ Θ ⊂ Rm , telle que
√ L
n(θ∗n − θ) −→ N(0m , Σ ), n → ∞.
90
Soit g une fonction borélienne, g : Rm → R1 , differentiable en θ. Alors
√ L
n[g(θ∗n ) − g(θ)] −→ N(0, gradTθ Σ gradθ g), n → ∞.
En particulier, si m = 1, θ∗n : Rn → Θ ⊂ R1 , et g : R1 → R1 ,
√ L
n[g(θ∗n ) − g(θ)] −→ N(0, σ2 [g0 (θ)]2 ), n → ∞,
alors
√ L
n[g(θ∗n ) − g(θ)] −→ N(0, σ2 [g0 (θ)]2 ), n → ∞.
On emploie très souvent des méthodes asymptotiques pour la construction des inter-
valles de confiance.
Remarque 3. Soit X = (X1 , . . . , Xn )T un échantillon,
Sous des conditions très générales l’estimateur de maximum de vraisemblance θ̂n = (θ̂1 , . . . , θ̂n )
est asymptotiquement efficace et normal avec les parametres θ et I(θ) :
i.e.
(b̂n − b)/σ2b (θ̂n ) ∼ AN(0, 1).
Donc on peut prendre
T (b, X) = (b̂n − b)/σ2b (θ̂n ).
Les fonctions
I(b; X) = S(b; X) = Φ((b̂n − b)/σ2b (θ̂n ))
sont décroissantes en b et d’après le théorème de Bolshev les égalités
implique
b = b̂n − zγ σ2b (θ̂n ); b = b̂n + zγ σ2b (θ̂n ),
où zγ est γ-quantile de la loi normale standard. On peut noter que asymptotiquement (b, b)
est le plus court intervalle de confiance de niveau donné.
91
2.11 Théorème de Fisher.
Dans ce paragraph nous alons résumer les propriétés principales des estimateurs X̄n , Sn2
et s2n .
Théorème de Fisher. Soit X = (X1 , ..., Xn )T un échantillon normal de paramètres µ et σ2 :
Xi ∼ N(µ, σ2 ). Dans ce cas la statistique θ̃n = (X̄n , Sn2 )T est exhaustive minimale et complète,
X̄n et Sn2 sont indépendantes,
µ ¶
σ2 (n − 1) 2
X̄n ∼ N µ, , Sn = χ2n−1 ,
n σ2
et la variable aléatoire
√ X̄n − µ
n = tn−1
Sn
suit la loi de Student à n − 1 degré de liberté. L’estimateur θ̃n est le meilleur estimateur
sans biais pour θ = (µ, σ2 )T .
Exemple 1. Etudions ici quelques propriétés de la statistiques θ̃n = (X̄n , Sn2 )T . On sait que
Eθ̃n = θ = (µ, σ2 )T , où X̄n et Sn2 sont les estimateurs sans biais de µ et σ2 respectivement.
Nous savons aussi que
σ2
X̄n ∼ N(µ, ), (1)
n
par suite
σ2
Eθ X̄n = µ, Var θ X̄n = . (2)
n
D’autre part on a
n−1 2
Sn = χ2n−1 , (3)
σ 2
2σ4
Eθ Sn2 = σ2 , Var θ Sn2 = . (4)
n−1
θ̃n est-il un estimateur efficace pour θ = (µ, σ2 )T ?
La fonction de vraisemblance de X j est :
µ ¶ ½ ¾
1 Xj − µ 1 (X j − µ)2
L j (θ) = ϕ =√ exp − (5)
σ σ 2πσ 2σ2
92
Nous pouvons donc en déduire l’information de Fisher i(θ) sur θ pour une observation X j :
° ° ° °
° 1 ° ° 1 °
° 2 0 ° ° 2 0 °
=° σ
° ° ° σ °
°=° °. (7)
° 3 1 1 ° ° 1 °
° 0 4
− 4+ 4 ° ° 0 °
4σ 2σ 4σ 2σ4
L’information de Fisher I n (θ) sur θ dans X est :
° °
° n °
° 2 0 °
I n (θ) = ni(θ) = ° σ
° °
n ° , (8)
° 0 °
° 2σ4 °
par suite ° 2 °
° σ °
° 0 °
° n °
I −1 (θ) = ° °. (9)
n ° 2σ4 °
° °
° 0 °
n
On doit donc avoir (d’après l’inégalité de Rao-Cramer-Frechet) pour tous les estimateurs
sans biais µ∗ et σ∗ 2 de µ et σ2 :
σ2 2σ4
Var θ µ∗ ≥ et Var θ σ∗ 2 ≥ . (10)
n n
On voit que l’estimateur µ̂n = X̄n est efficace pour µ . Par contre :
2σ4 2σ4
Var θ Sn2 = > , (11)
n−1 n
donc σ∗ 2 = Sn2 n’est pas efficace pour σ2 , donc θ̃n = (µ̂n , Sn2 )T n’est pas un estimateur ef-
ficace du paramètre θ = (µ, σ2 )T . Nous allons cependant montrer que θ̃n = (µ̂n , Sn2 )T est le
meilleur estimateur sans biais pour θ, parce que c’est celui de variance minimum parmi tous
les estimateurs sans biais de θ. Pour le montrer il suffit de montrer qu’il n’y a pas d’aure
estimateur sans biais de σ2 meilleur que Sn2 . Supposons qu’on ait σ̃2 = σ̃2 (X) estimateur
sans biais de σ2 , Eθ σ̃2 ≡ σ2 . Soit δ = σ̃2 − Sn2 . Il est clair que
Eθ δ ≡ 0, (12)
δ = δ(X) est un autre estimateur sans biais de 0. Puisque θ̃n est exhaustive, on peut écrire
l’égalité précédente sous la forme :
Z ½ ¾
1 1 £ ¤
√ δ(X)exp − 2 n(X̄n − µ) + (n − 1)Sn dX1 dX2 · · · dXn ≡ 0.
2 2
(13)
( 2πσ)n n 2σ
R
93
En dérivant (13) par rapport à µ, on a
Z ½ ¾
1 1 £ ¤
√ δ(X)exp − 2 n(X̄n − µ) + (n − 1)Sn ×
2 2
( 2πσ)n 2σ
Rn
n
×
(X̄n − µ) dX1 dX2 · · · dXn ≡ 0,
σ2
puis à nouveau en dérivant par rapport à µ, on obtient :
Z ½ ¾
1 1 £ ¤
√ δ(X)exp − 2 n(X̄n − µ) + (n − 1)Sn ×
2 2
( 2πσ)n n 2σ
R
· ¸
n2 2 n
× 4 (X̄n − µ) − 2 dX1 dX2 · · · dXn ≡ 0,
σ σ
i.e.,
Eθ δ(X)(Xn − µ) ≡ 0, (14)
et donc δ(X) et X̄n − µ ne sont pas correlées. De la même façon on peut montrer que
© ª
Eθ δ(X)Sn2 ≡ 0, (15)
i.e., δ(X) et Sn2 ne sont pas correlées non plus. Mais par ailleurs :
d’oú
Var θ σ̃2 = Var θ δ + Var θ Sn2 ≥ Var θ Sn2 . (17)
Cela signifie que la variance de Sn2 est minimale dans la classe de tous les estimateurs sans
biais de σ2 , et donc Sn2 est le meilleur estimateur de σ2 dans ce sens.
On peut obtenir le même résultat sur la complétude de θ̃n en utilisant le théorème de
Lehmann-Scheffé.
Example 2. Soit Xn = (X1 , ..., Xn )T un échantilon,
µ = EXi et 1 = Var Xi .
Comme X1 , . . . , Xn sont indépendantes, on peut aussi dire que Xn suit la loi normale de
dimension n :
Xn ∼ Nn (µ1n , I n ),
où 1n = (1, . . . , 1)T ∈ Rn , I n est la matrice identité d’ordre n, et
La densité de Xn est
½ ¾
1 1 T
pXn (x; µ) = exp − (x − µ1n ) (x − µ1n ) =
(2π)n/2 2
94
( )
1 1 n
= exp − ∑ (xi − µ)2 , x = (x1 , . . . , xn )T ∈ Rn , (18)
(2π)n/2 2 i=1
et donc la fonction de vraisemblance L(µ) de Xn est
( )
1 1 n
L(µ) = exp − ∑ (Xi − µ)2 , µ ∈ R1 .
(2π) n/2 2 i=1
Considérons la statistique
1 n 1
X̄n = ∑
n i=1
Xi = 1Tn Xn .
n
Comme
√ ( )
n n n o 1 1 n
L(µ) = √ exp − (X̄n − µ)2 √ exp − ∑ (Xi − X̄n )2 , (19)
2π 2 n(2π)(n−1)/2 2 i=1
du critère de factorisation de Neyman-Fisher il suit que X̄n est une statistique exhaustive
minimale pour µ. Il est evident que X̄n ∼ N(µ, 1n ). Soit
T
W n = (X1 − X̄n , X2 − X̄n , . . . , Xn − X̄n ) = Xn − X̄n 1n =
1 1
Xn − 1n X̄n = Xn − 1n 1Tn Xn = (In − 1n 1Tn )Xn = Dn Xn , (20)
n n
où
1
Dn = I n − 1n 1Tn .
n
On note que la matrice Dn est idempotente, c.a.d. :
et que Dn 1n = 0n . La formule (20) montre que la statistique W n est le résultat d’une trans-
formation linéaire de Xn , W n = Dn Xn , et donc on constate que la statistique W n suit une
loi normale dans Rn dont la fonction caractéristique est
1
fW n (t) = exp {− tT Dn t}, t ∈ Rn , (21)
2
puisque µ ¶
1 T
EW n = Dn EXn = I n − 1n 1n µ1n = µ1n − µ1n = 0n
n
et
VarW n = EW nW Tn = E{Dn Xn XTn DTn } = Dn [I n + µ2 1n 1Tn ]DTn =
= Dn I n DTn = Dn DTn = Dn ,
On peut remarquer que la loi de la statistique W n ne dépend pas de paramètre µ. C’est la
raison pour laquelle on dit que W n est une statistique libre, ce qui signifie que W n n’apporte
pas d’information sur µ. Toute information sur µ conserve la statistique exhaustive minimale
X̄n .
95
Nous allons montrer que les statistiques X̄n et W n sont indépendantes. Pour cela il nous
faudra étudier plus attentivement la répartition de W n . Notons
Wi = Xi − X̄n , i = 1, . . . , n.
Il est facile de vérifier que detDn = 0, d’où on déduit que la loi de W n est dégénérée, ce qui
explique la dépendance linéaire entre W1 , ...,Wn :
n
∑ Wi = 0, donc Wn = −(W1 + · · · +Wn−1 ).
i=1
et detB−1= n. De ces résultats il suit que la statistique U n−1 = (W1 , . . . ,Wn−1 )T suit une
n−1
loi normale Nn−1 (0n−1 , Bn−1 ), dont la densité
pU n−1 (u), u = (u1 , . . . , un−1 )T ∈ Rn−1 ,
est donnée par la formule
½ ¾
1 1 T −1
pU n−1 (u) = √ exp − u Bn−1 u =
det Bn−1 (2π)(n−1)/2 2
à !2
√ n−1 n−1
n 1
=
(2π)(n−1)/2
exp −
2 i=1 ∑ iu 2
+ ∑ i , u ∈ Rn−1.
u (22)
i=1
Maintenant, il est facile de montrer que U n−1 et X̄n sont indépendantes. En effet, considé-
rons la statistique
Y = (Y1 ,Y2 , . . . ,Yn−1 ,Yn )T = CXn ,
où ° °
° 1− 1 − 1n − 1n ··· − 1n − 1n °
° n °
° 1 °
° − 1n 1 − 1n − 1n ··· −n −n °
1
° °
° 1 °
° − 1n − 1n 1 − 1n ··· 1
−n −n °
°
C=° °,
.. °
° . °
° °
° −1 − 1n − 1n ··· 1
1 − n −n °1 °
° n
° °
° 1 1 1
··· 1 1 °
n n n n n
96
et donc
Yn = X̄n , et Y j = W j = X j − X̄n , j = 1, . . . , n − 1, (23)
d’où il suit que
° °
° 1 0 0 ... 0 1 °
° °
° 0 1 0 ... 0 1 °
° °
° .. °
X = C−1Y , −1
où C = ° . °
° °
° 0 0 0 ... 1 1 °
° °
° −1 −1 −1 . . . −1 1 °
et donc
Xi = Yi +Yn , i = 1, . . . , n − 1,
et
n−1 n−1
Xn = nYn − ∑ Xi = Yn − ∑ Yi .
i=1 i=1
De (19) et (24) il suit que X̄n et U n−1 = (X1 − X̄n , . . . , Xn−1 − X̄n )T sont indépendantes.
Comme
n
1Tn W n = ∑ (Xi − X̄n ) = 0,
i=1
on tire que
n−1
Xn − X̄n = − ∑ (Xi − X̄n ),
i=1
i.e. Xn − X̄n est une statistique de U n−1 , qui est indépendante de X̄n , et donc X̄n et W n =
(X1 − X̄n , X2 − X̄n , . . . , Xn − X̄n )T sont indépendantes.
On remarque qu’on peut obtenir le même résultat par calcul direct de la fonction carac-
téristique ϕV (t), t ∈ Rn+1 , de la statistique
97
Exemple 3. Soit X = (X1 , ..., Xn )T un échantilon,
1 1 n
L(µ, σ2 ) = p(X; µ, σ2 ) =
σ (2π)
n n/2
exp{−
2σ2 ∑ (Xi − µ)2 } =
i=1
" #
n n
1 1
σn (2π)n/2
exp{−
2σ2 ∑ Xi2 − 2µ ∑ Xi + nµ2 }. (25)
i=1 i=1
pX (x; µ, σ2 )
pX (x | T(X) = t; µ, σ2 ) = R =
pX (x; µ, σ2 )dx
Xt
ct 1
= = const. (26)
ct mesXt mesXt
Considérons la statistique Zn = (Z1 , ..., Zn )T , où
X j − X̄n
Zj = , j = 1, ..., n, (27)
Sn
1 n 1 1 n
X̄n = ∑ Xi , Sn2 = T
X Dn X = ∑ (Xi − X̄n )2 . (28)
n i=1 n−1 n − 1 i=1
Comme les statistiques T et U = (X̄n , Sn2 )T sont équivalentes, on remarque que de (26) et
(28) il suit que si U est fixée, dans ce cas X suit la loi uniforme sur l’intersection de deux
surfaces données par les équations :
1 n 1 n
∑ (Xi − X̄n)2 = n − 1
Sn2 i=1
et ∑ (Xi − X̄n) = 0,
Sn i=1
98
√
ce qui représente la sphère de dimension de n − 1 de rayon n − 1 dans Rn dont la surface
ne dépend pas de U et par conséquent, on obtient que la loi conditionnelle de Zn ne dépend
pas de U = (X̄n , Sn2 ), donc les statistiques Zn et (X̄n , Sn2 ) sont indépendantes. Comme X̄n et
Sn2 sont indépendantes il s’ensuit que les trois statistiques Zn , X̄n et Sn2 sont indépendantes.
Exemple 4. Supposons qu’aux moments t = 0, 1, ..., n nous observons un objet A qui se dé-
place uniformément avec une vitesse constante et inconnue µ, µ > 0. Soit s(t) la distance
parcourue par cet objet A aux moments t = 0, 1, ..., n; n ≥ 1. Si toutes les mesures étaient
correctes on aurait
s(k) = µk, pour tout k = 0, 1, 2, ..., n,
(on suppose que s(0) = 0).
Supposons que l’expérience soit organisée de manière qu’il n’y ait pas d’erreurs systéma-
tiques ; il y a cependant des erreurs de mesure qui sont normales et indépendantes et qui
s’accumulent à chaque moment de mesure.
En supposant que toutes les erreurs de mesure ont la même variance σ2 , trouvons les
meilleurs estimateurs sans biais pour µ et σ2 .
Tout d’abord supposons que
est une réalisation d’un vecteur aléatoire S = (S0 , S1 , ..., Sn )T dont les coordonnées Si selon
le modèle physique sont des variables aléatoires telles que
S0 = δ0 , S1 = µ + δ1 , S2 = 2µ + δ1 + δ2 , ..., Sn = nµ + δ1 + ... + δn ,
où toutes les erreurs de mesures δ0 , δ1 , ..., δn sont indépendantes et suivent la même loi
normale N(0, σ2 ). Dans ce cas la fonction de vraisemblance du vecteur des erreurs δ =
(δ0 , δ1 , ..., δn )T est
( )
n
1
L(δ; µ, σ2 ) = (2π)−(n+1)/2 σ−(n+1) exp − 2 ∑ δ2i .
2σ i=0
Soit
Li−1 = Si − Si−1 (i = 1, 2, ..., n), où S0 = δ0 .
Alors
δi = Li−1 − µ pour i = 1, 2, ..., n,
et la fonction de vraisemblance de la statistique S est
( )
n
1 1
L(S; µ, σ2 ) = (2π)−(n+1)/2 σ−(n+1) exp − 2 δ20 − 2 ∑ (Li−1 − µ)2 =
2σ 2σ i=1
( " #)
n
1
= (2π)−(n+1)/2 σ−(n+1) exp − 2
δ20 + ∑ (Li−1 − L̄n )2 + n(L̄n − µ)2 ,
2σ i=1
où
1 n
L̄n = ∑ Li−1,
n i=1
99
on en tire donc que
à !T
n
U= L̄n , δ20 + ∑ (Li−1 − L̄n )2
i=1
est une statistique exhaustive pour (µ, σ2 )T . Il est évident, que la statistique
n
Tn = δ20 + ∑ (Li−1 − L̄n )2
i=1
f 3 4 6 8 16 52
t 2.3534 2.1318 1.9432 1.8595 2.1199 2.0024
100
Nous pouvons trouver pour chaque α, 0 < α < 0.5, les valeurs t n−1 (α) et t n−1 (α) telles
que ½
P{tn−1 ≤ t n−1 (α)} = Sn−1 (t n−1 (α)) = α,
(1)
P{tn−1 ≤ t n−1 (α)} = Sn−1 (t¯n−1 (α)) = 1 − α,
et donc
P{t n−1 (α) ≤ tn−1 ≤ t n−1 (α)} = 1 − 2α. (2)
t n−1 (α) est souvent appelé α−quantile supérieur où (1 − α)−quantile de la loi de Student
avec f = n − 1 degrées de liberté et t n−1 (α) est appelé α−quantile inférieur de la loi de
Student avec f = n − 1 degrées de liberté. De la symétrie par rapport à zéro de la densité
sn−1 (x) nous avons
t n−1 (α) = −t n−1 (α), (3)
et donc (2) peut être présentée
Les quantiles t f (α) pour différentes valeurs de f et α peuvent être trouvés dans des tables
statistiques.
Maintenent en utilisant (4) et le Theoreme de Fisher nous pouvons construire l’intervalle
de confiance ou l’estimateur par intervalle pour la moyenne µ de la loi normale N(µ, σ2 ).
Nous disons que l’intervalle aléatoire
Les statistiques l(X) et L(X) s’appellent limites de confiance inférieure et supérieure res-
pectivement pour µ.
Fixons α (0 < α < 0.5) et choisissons les quantiles
101
est l’intervalle de confiance de niveau (1 − α) pour µ. La limite inférieure de confiance de
cet intervalle est
Sn
l(X) = X̄n − √ t n−1 (α/2),
n
et la limite supérieure de confiance est
Sn
L(X) = X̄n + √ t n−1 (α/2).
n
Exercice 2. Soit x une réalisation observée de la somme des carrés des erreurs de mesures
dans une expérience. Nous supposons que le nombre de mesures f est inconnu et que l’ex-
périence est organisée de façon que toutes les mesures puissent être considérées comme des
erreurs normales faites dans les même conditions et indépendamment les unes des autres en
l’absence d’erreur systématique.
a) Trouver le meilleur estimateur sans biais fˆ pour f .
b) Supposons que l’expérience donne x=407.41. En utilisant la distribution asympto-
tique de fˆ et l’approximation normale de Fisher construire ≈ 0.9-limites de confiance pour
f.
Solution. Le nombre x peut-être observé comme la réalisation de la variable aléatoire
f
∑ Xi2 = fˆ,
i=1
102
où X = (X1 , ..., X f )T un échantillon de taille f , Xi ∼ N(0, σ2 ). Ici Xi est une erreur de la
i-ème mesure. Il est clair que fˆ suit la loi de chi-deux à f degrées de liberté, i.e.
f
P{ fˆ ≤ x} = P{ ∑ Xi2 ≤ x} = P{χ2f ≤ x} = Q f (x), x ≥ 0.
i=1
Comme Eχ2f = f , la statistique fˆ est l’estimateur sans biais de f. On sait que la variable
aléatoire q q
p p
ˆ
2 f − 2 f − 1 = 2χ2f − 2 f − 1
est asymptotiquement normale (approximation de Fisher), quand f → ∞, i.e. pour tout z
fixé q p
P{ 2 fˆ − 2 f − 1 ≤ z} ≈ Φ(z),
pour les grandes valeurs de f . De cette égalité on déduit
q p
P{−1.28 ≤ 2 fˆ − 2 f − 1 ≤ 1.28} ≈ 0.8,
puisque Φ−1 (0.9) = x̄0.1 = 1.28, et donc on obtient l’intervalle de confiance pour f
µq ¶2 µq ¶2
1 1 1 1
P{ + 2 fˆ − 1.28 ≤ f ≤ + 2 fˆ + 1.28 } ≈ 0.8.
2 2 2 2
p
Comme fˆ = 407.81, 2 fˆ = 28.54, on en tire que
373 ≤ f ≤ 445.
Il est utile de remarquer que pour avoir l’estimateur par intervalle de confiance (9) avec
le coefficient de confiance 1 − α nous devons choisir les quantiles de niveau α/2. Il faut
remarquer encore que la longueur Ln de cette intervalle est une variable aléatoire
Sn
Ln = 2 √ t n−1 (α/2) (10)
n
et puisque r ¡ ¢
2 Γ n2
ESn = ¡ ¢σ,
n − 1 Γ n−1
2
(voir, par exemple, Voinov & Nikulin (1993) ), on en tire que
s ¡ ¢
2 Γ n2
ELn = 2σt n−1 (α/2) ¡ ¢. (11)
n(n − 1) Γ n−1 2
103
uniformément par rapport à x, x ∈ R1 , et donc de (11) il suit que pour grandes valeurs de n
µ ¶
2σ 1
ELn = √ x(α/2) + O 3/2 (12)
n n
où x(α/2) = xα/2 est le quantile supérieur de niveau α/2 de la loi standard normale. Puisque
Sn2 est un estimateur sans biais de σ2 , ESn2 = σ2 , alors de (10) il suit que
4σ2 2
ELn2 = t (α/2),
n n−1
et donc " ¡ ¢ #
4σ 2 2 Γ 2 n
Var Ln = ELn − (ELn )2 = t 2n−1 (α/2) 1 − 2 ¢
¡ n−1 . (13)
n n−1 Γ 2
2
Puisque ¡ ¢ µ ¶
2 Γ2 n2 1 1
1− ¡ n−1 ¢ = +O 2 , (n → ∞)
n−1 Γ2
2
2n n
de (13) il suit que pour les grandes valeurs de n
µ ¶
2σ2 2 1
Var Ln = 2 x (α/2) + O 3 , (14)
n n
et donc on peut dire que Ln est pratiquement constante, Ln ≈ ELn . En pratique cela signifie
que
2σ
Ln = √ x(α/2), (15)
n
quand n est assez grand.
Supposons maintenent que la variance σ2 est connue. Comment cette information change
l’intervalle de confiance pour µ ? Si σ2 est donné, dans ce cas X̄n est une statistique exhaus-
tive pour paramètre µ et, comme il est bien connu, X̄n est le meilleur estimateur sans biais
pour µ et suit la loi normal N(µ, σ2 /n), |µ| < ∞. Donc la variable aléatoire
√ X̄n − µ
Z= n
σ
suit la loi normal standard N(0, 1).
Il s’en suit que lorsqu’on choisit x(α/2), 0 < α < 0.5, comme le quantile supérieur de
niveau α/2 de la loi normale standard, alors on a
P{−x(α/2) ≤ Z ≤ x(α/2)} = 1 − α
104
Par exemple, si
est un meilleur estimateur sans biais de σ2 . Pour chaque α fixé, 0 < α < 0.5 , on peut trouver
des tables statistiques des quantiles
tels que
α α
P{χ2n−1 ≤ χ2n−1 (α/2)} = et P{χ2n−1 ≤ χ̄2n−1 (α/2)} = 1 − , (3)
2 2
c’est-à-dire
P{χ2n−1 (α/2) ≤ χ2n−1 ≤ χ̄2n−1 (α/2)} = 1 − α. (4)
105
De (1) et (4) on a
n−1 2
P{χ2n−1 (α/2) ≤ S ≤ χ̄2n−1 (α/2)} = 1 − α
σ2 n
et donc ( )
(n − 1)Sn2 (n − 1)Sn2
P ≤ σ2
≤ = 1 − α. (5)
χ̄2n−1 (α/2) χ2n−1 (α/2)
Voila pourquoi l’intervalle aléatoire
(n − 1)Sn2 (n − 1)Sn2
≤ σ 2
≤ (6)
χ̄2n−1 (α/2) χ2n−1 (α/2)
Il faut remarquer ici qu’à l’aide de (5) on peut construire l’intervalle de confiance de
niveau (1 − α) pour σ.
Ici nous donnons quelques valeurs de la fonction de répartition Q f (x) de χ2f :
Z x
1 f
Q f (x) = P{χ2f ≤ x} = f ³ ´ y 2 −1 e−y/2 dy, x ≥ 0.
2 2 Γ 2f 0
f 1 1 3 4 4 4 57 57
x 3.844 2.706 7.815 9.488 7.779 0.711 79.572 38.027
106
et donc le plus court intervalle pour µ
2.972 ≤ µ ≤ 3.064.
4S52 4S52
≤ σ 2
≤ .
χ̄24 (0.05) χ24 (0.05)
0.00098 ≤ σ2 ≤ 0.0131.
Supposons maintenant que µ est connu et il nous faut estimer σ2 . Il est évident que dans
ce cas la statistique
1 n
s̃n = ∑ (Xi − µ)2
2
(7)
n i=1
est le meilleur estimateur sans biais de σ2 :
Es̃2n = σ2 , (8)
et comme X1 , ..., Xn sont indépendants et (Xi − µ)/σ suit la loi normale standard N(0, 1), on
trouve que
s̃2
n n2 = χ2n . (9)
σ
Pour chaque fixé α, 0 < α < 0.5, on peut trouver des tables statistiques les quantilles
tels que
α α
P{χ2n ≤ χ2n (α/2)} = et P{χ2n ≤ χ̄2n (α/2)} = 1 − , (10)
2 2
i.e.
P{χ2n (α/2) ≤ χ2n ≤ χ̄2n (α/2)} = 1 − α. (11)
De (9) et (11) nous obtenons
ns̃2n
P{χ2n (α/2) ≤ ≤ χ̄2n (α/2)} = 1 − α. (12)
σ2
et donc ( )
ns̃2n ns̃2n
P ≤ σ2
≤ = 1 − α. (13)
χ̄2n (α/2) χ2n (α/2)
107
C’est pourquoi l’intervalle aléatoire
ns2n ns2n
≤ σ 2
≤ (14)
χ̄2n (α/2) χ2n (α/2)
P{0.8σ2 ≤ S201
2
≤ 1.2σ2 }.
et donc ½ ¾
40 χ2200 − 200 40
P{160 < χ2200< 240} = P − < < =
20 20 20
½ ¾
χ2200 − 200
P −2 < < 2 ≈ 2Φ(2) − 1 = 2 · 0.9772 − 1 = 0.9544,
20
c’est-à-dire
P{0.8σ2 ≤ S201
2
≤ 1.2σ2 } ≈ 0.9544.
2 ≤ 1.2σ2 } peut être obtenue à partir de l’ap-
Meilleure approximation pour P{0.8σ2 ≤ S201
proximation normale de Fisher, d’après laquelle pour chaque x ∈ R1
q p
P{ 2χ2f − 2 f − 1 < x} → Φ(x), quand f → ∞.
108
√ q √ √
P{8 5 − 20 < 2χ2200 − 400 < 4 30 − 20}
q √
= P{−2.112 < 2χ2200 − 400 < 1.908}
≈ Φ(1.908) + Φ(−2.112) = 0.9718 + 0.9827 − 1 = 0.9545.
Il faut remarquer ici que la valeur exacte (avec 5 chiffres décimaux) est
P{0.8σ2 ≤ S201
2
≤ 1.2σ2 } = P{160 < χ2200 < 240}
√ X̄n − µ
tn−1 = n
Sn
suit la loi de Student avec f = n − 1 = 15 degrées de liberté et donc nous avons
Z 3
3
P{|X̄n − µ| < √ Sn } = P{|t15 | < 3} = s15 (x)dx
n −3
Z 3
=2 s15 (x)dx = 2S15 (3) − 1 = 0.991,
0
où s15 (x) est la densité de la loi de Student à 15 degrée de liberté et S15 (x) sa fonction de
répartition. On peut remarquer que si l’on utilise l’approximation normale pour l’estimation
de la même probabilité, on aura
3
P{|X̄n − µ| < √ Sn } ≈ 0.9973 > 0.991
n
pour chaque n.
Exemple 4. Soit X = (X1 , ..., Xn )T un échantillon, dont Xi ∼ N(µ, σ2 ). On va chercher,
en utilisant l’approximation normale, la plus petite valeur de n = n(ε) pour lequel
½ 2 ¾
|Sn − σ2 |
P < ε ≥ 0.9,
σ2
109
© ª
P (n − 1)(1 − ε) < χ2n−1 < (n − 1)(1 + ε) .
Du Théorème limite central il suit que χ2f est asymptotiquement normale pour les grandes
valeurs de f et donc en utilisant l’approximation normale on obtient
½ 2 ¾
|Sn − σ2 | © ª
P < ε = P (n − 1)(1 − ε) < χ2
< (n − 1)(1 + ε) =
σ2 n−1
( r r )
n−1 χ2 − (n − 1) n−1
P −ε < n−1
p <ε ≈
2 2(n − 1) 2
à r ! à r ! à r !
n−1 n−1 n−1
Φ ε − Φ −ε = 2Φ ε − 1,
2 2 2
d’où il suit que à r !
n−1
2Φ ε − 1 ≥ 0.9,
2
si à r !
n−1
Φ ε ≥ 0.95,
2
et comme Φ est croissante, la dernière inégalité est équivalante à la suivante :
r
n−1
ε ≥ Φ−1 (0.95) = 1.645,
2
d’où on tire que la plus petite valeur de n = n(ε) vérifie la relation suivante :
r
n−1
ε ≈ 1.6,
2
i.e.
n ≈ 1 + 5.2/ε2 .
Par exemple, si ε = 0.5, alors n ≈ 21, et par calculs directs on obtient que
mais pour n = 22 on a
et donc pour ε = 0.5 la plus petite valeur de n = n(0.5) = 22. Dans le cas ε = 0.05 nous
pouvons résoudre le problème asymptotiquement et nous aurons
2.6 2.6
n ≈ 1+2 = 1+2 = 2080.
ε 2 0.0025
Exemple 5. Soit X = (X1 , ..., Xn )T un échantillon, Xi ∼ N(µ, σ2 ), où µ et σ2 sont incon-
nus. Notre but est de construire un intervalle de prédiction pour une nouvelle observation
Xn+1 , Xn+1 ∼ N(µ, σ2 ), qui est indépendante de X.
110
Comme X est un échantillon normale N(µ, σ2 ), nous pouvons travailler avec la statis-
tique exhaustive minimale
U = (X̄n , Sn2 )T ,
où
1 n 1 n
X̄n = ∑ Xi et Sn2 = ∑ (Xi − X̄n )2
n i=1 n − 1 i=1
σ2 n−1 2
X̄n ∼ N(µ, ), S = χ2n−1 ,
n σ2 n
X̄n et Sn2 sont indépendantes. Puisque Xn+1 et X sont indépendants, alors Xn+1 est indépen-
dante de X̄n et Sn2 , et donc
µ ¶
n+1 2
Xn+1 − X̄n ∼ N 0, σ ,
n
suit la loi normale standard, Z ∼ N(0, 1). Il est évident que Z est indépendante de Sn2 et donc
la statistique
Z Xn+1 − X̄n
τ= p = q
Sn /σ
2 2
Sn 1 + n1
suit la loi de Student avec n − 1 degrés de liberté. c’est-à-dire
Par conséquent
³ α ´ X − X̄ ³ α ´
n+1 n
P −t¯n−1 ≤ q ≤ t¯n−1 = 1−α
2 1
Sn 1 + n 2
L’intervalle
r ³α´ r ³α´
1 1
X̄n − Sn 1 + t¯n−1 ≤ Xn+1 ≤ X̄n + Sn 1 + t¯n−1
n 2 n 2
est connu sous le nom du plus court intervalle de prédiction de niveau de confiance 1 − α
pour une seule nouvelle observation Xn+1 , Xn+1 ∼ N(µ, σ2 ).
111
Par exemple, supposons que n = 5, et
−2.125 ≤ X6 ≤ 1.701.
Xn+1 − X̄n
Z= q
1 + 1n
où x̄(α/2) est α/2−quantille supérieur de la loi normale standard. Par exemple, si α = 0.05,
alors pour les données de l’exemple 4 nous avons
ou
−2.36 < X6 < 1.94.
112
Supposons que X et Y sont indépendants. Notre but est d’estimer µX − µY . D’abord on
étudie le cas quand σY2 et σ2X sont connues. Dans notre problème la statistique T = (X̄m , Ȳn )T
est exhaustive pour µ = (µX , µY )T , où
1 m 1 n
X̄m = ∑ Xi,
m i=1
Ȳn =
n ∑ Yj (1)
j=1
sont les meilleurs estimateurs sans biais pour µX , et µY , et comme on le sais déjà bien
µ ¶ µ ¶
σ2X σY2
X̄m ∼ N µX , et Ȳn ∼ N µY , . (2)
m m
Par conséqent, la statistique X̄m − Ȳn est le meilleur estimateur sans biais pour µX − µY et
µ ¶
σ2X σY2
X̄m − Ȳn ∼ µX − µY , + . (3)
m m
Il suit de (3) que la variable aléatoire
X̄m − Ȳn − (µX − µY )
Z= q (4)
σ2X σY2
m + n
σY2 = σ2X = σ2 ,
113
est une statistique exhaustive pour θ = (µX , µY , σ2 )T , où
1 m σ2 1 n
σ2
X̄m = ∑ i
m i=1
X ∼ N(µ X ,
m
), Ȳn =
n ∑ Y j ∼ N(µY , n
), (3)
j=1
(m − 1)SX2 (n − 1)SY2
= χ 2
et = χ2n−1 (4)
σ 2 m−1
σ 2
sont des variables aléatoires indépendantes. La statistique T n’est pas une statistique mini-
male exhaustive pour θ = (µX , µY , σ2 )T . Dans ce problème la statistique minimale exhaus-
tive est
U = (X̄m , Ȳn , S2 )T , (5)
où S2 est l’estimateur de σ2 appellé l’estimateur unifié sans biais :
m−1 2 n−1 2
S2 = SX + S . (6)
n+m−2 n+m−2 Y
De (4) et (6) il suit que
n+m−2 2
S = χ2m+n−2 , (7)
σ2
et donc
2σ4
ES2 = σ2 et Var S2 = . (8)
m+n−2
Il est clair que des composantes X̄m , Ȳn , S2 de la statistique minimale exhaustive U sont des
variables aléatoires indépendantes. L’estimateur unifié S2 est une moyenne pondérée de SX2
et SY2 . On peut voir que le poids plus grand sera donné à celui des estimateurs de σ2 qui
correspond au échantillon de taille max (m, n). Si n = m alors S2 est une moyenne ordinaire
de SX2 et SY2 . Il faut remarquer que de (6), (7) et (8) il suit que
(
4 2σ4
2 2σ Var SX2 = m−1 ,
Var S = < 4 (9)
n+m−2 2σ
Var SY2 = n−1 ,
suit la loi normale standard. Comme la statistique S, donnée par (6) est indépendante de
X̄m − Ȳn , et grace à la relation (7), du Théorème de Fisher il résulte que la variable aléatoire
114
suit la loi de Student avec m + n − 2 degrés de liberté, et donc
( )
³α´ r 1 1
P |(µX − µY ) − (X̄m − Ȳn )| ≤ t¯m+n−2 S + = 1 − α, (13)
2 m n
c’est-à-dire
³α´ r 1 1
X̄m − Ȳn − t¯m+n−2 S + ≤ µX − µY ≤
2 m n
³α´ r 1 1
X̄m − Ȳn + t¯m+n−2 S + (14)
2 m n
est le plus court intervalle de confiance de niveau (1 − α) pour la différence µX − µY de deux
moyennes des lois normales possédant la même variance inconnue.
Remarque 1. Supposons que σ2X et σY2 sont inconnues, mais leur quotient σ2X /σY2 est
donné, par exemple,
σ2X /σY2 = k, k > 0, (15)
et il faut construire le plus court intervalle de confiance de niveau 1 − α pour la différence
µX − µY , où µX et µY sont aussi inconnues. Le cas k = 1 vient d’être considéré. So l’on note
σY2 = σ2 , alors σ2X = kσ2 et au lieu de (3) et (4) nous aurons
µ ¶ µ ¶
kσ2 σ2
X̄m ∼ M µX , et Ȳn ∼ N µY , , (16)
m n
(m − 1)SX2 (n − 1)SY2
= χ2m−1 et = χ2n−1 , (17)
kσ2 σ2
et au lieu de (10) on a µ ¶
kσ2 σ2
X̄m − Ȳn ∼ N µX − µY , + , (18)
m n
d’où il vient que la variable aléatoire
X̄m − Ȳn − (µX − µY )
Z= q (19)
σ mk + 1n
115
suit la loi de Student avec m + n − 2 degrés de liberté, et donc
( )
³α´ r k 1
P |(µX − µY ) − (X̄m − Ȳn )| ≤ t¯m+n−2 S + = 1 − α, (24)
2 m n
c’est-à-dire
³α´ r k 1
X̄m − Ȳn − t¯m+n−2 S + ≤ µX − µY ≤
2 m n
³α´ r k 1
X̄m − Ȳn + t¯m+n−2 S + (25)
2 m n
est le plus court intervalle de confiance de niveau (1 − α) pour la différence µX − µY de
deux moyennes des lois normales possédant le qoutient donné k = σ2X /σY2 des variances
inconnues σ2X et σY2 .
Exemple 1. Pour mesurer un angle A il étaient effectuées deux expériments indépen-
dants. Dans le premier étaient reçues deux valeurs
210 .64, 210 .54, 220 .32, 200 .56, 210 .43, 210 .07. (27)
Nous supposons que toutes les erreurs de mesures sont des réalisatios des variables aléa-
toires normales indépendantes, et dans le deuxième expériment on utilise un instrument
de mesure dont la précision est 4 fois meilleur que celui du premier expériment. Il faut
construire le plus court intervalle de confiance de niveau (1 − α) pour la différence bX − bY
des erreurs systématiques bX et bY des instruments utilisés dans le premier et second expé-
riments (α = 0.01).
Solution. Suivant la théorie des erreurs de Gauss nous pouvons supposer que les données
(26) représentent la réalisation d’un échantillon normale
avec
X̄m = X̄2 = 21.37, Ȳn = Ȳ6 = 21.42, SX2 = 0.3042, SY2 = 0.3445. (30)
De (21) il suit que l’estimateur unifié pour σ2 est
½ ¾ ½ ¾
2 1 m−1 2 2 1 1 2 2
S = Sx + (n − 1)SY = S + 5SY . (31)
m+n−2 k 6 4 X
Puisque r r
k 1 13
+ = et t¯6 (0.05) = 1.943, (32)
m n 6
116
et comme
µX − µY = bX − bY ,
de (25) on a
( r )
1 1
P |(bX − bY ) − (X̄m − Ȳn )| ≤ t¯6 (0.05)S + = 1 − α, (33)
m n
(m − 1)SX2 (n − 1)SY2
= χ2m−1 et = χ2n−1 (1)
σ2X σY2
où
1 m 1 n
SX2 = ∑ (Xi − X̄m)2
m − 1 i=1
et SY2 = ∑ (Y j − Ȳn)2
n − 1 i=1
(2)
1 m 1 n
X̄m = ∑ Xi et Ȳn = ∑ Yi (3)
m i=1 n i=1
sont des meilleurs estimateurs sans biais pour µX et µY . Puisque les échantillons X et Y sont
indépendantes , les statistiques SX2 et SY2 sont indépendantes aussi, et donc nous obtenons
Théorème 1. La variable aléatoire
SX2 /σ2X
F= = Fm−1,n−1 (4)
SY2 /σY2
117
Nous allons utiliser ce théorème pour construire l’intervalle de confiance pour le quo-
tient σY2 /σ2X . En utilisant (4) et la table de F-répartition on peut trouver deux quantilles
1
F m−1,n−1 (α/2) = et F̄m−1,n−1 (α/2)
F̄n−1,m−1 (α/2)
tels que
P{F m−1,n−1 (α/2) ≤ Fm−1,n−1 ≤ F̄m−1,n−1 (α/2)} = 1 − α. (5)
Dans ce cas de (4)et (5) nous avons
½ ¾
σY2 SX2
P F m−1,n−1 (α/2) ≤ 2 2 ≤ F̄m−1,n−1 (α/2) = 1 − α (6)
σX SY
ou ½ ¾
SY2 σY2 SY2
P F m−1,n−1 (α/2) 2 ≤ 2 ≤ 2 F̄m−1,n−1 (α/2) = 1 − α. (7)
SX σX SX
Puisque
1
F̄m−1,n−1 (α/2) = , (8)
F n−1,m−1 (α/2)
nous obtenons l’intervalle de confiance de niveau (1 − α) pour le quotient σY2 /σ2X :
½ ¾
1 SY2 σY2 SY2
P ≤ 2 ≤ 2 F̄m−1,n−1 (α/2) = 1 − α. (9)
F̄n−1,m−1 (α/2) SX2 σX SX
De (9) il suit immédiatement que l’intervalle de confiance de niveau (1−α) pour le quotient
σ2X /σY2 est
½ ¾
1 SX2 σ2X SX2
P ≤ 2 ≤ 2 F̄n−1,m−1 (α/2) = 1 − α. (10)
F̄m−1,n−1 (α/2) SY2 σY SY
Par conséquent, (9) et (10) nous donnent deux intervalles de confiance de niveau (1 − α)
pour σY2 /σ2X et σ2X /σY2 respectivement.
Exemple 1. Soient X = (X1 , ..., Xm )T et Y = (Y1 , ...,Yn )T deux échantillons indépen-
dantes,
Xi ∼ N(µX , σ2X ) et Y j ∼ N(µY , σY )T .
Nous supposons que un experiment pour m = 25 et n = 14 on a obtenu
SX2 = 74 · 10−6 et SY2 = 20 · 10−6 .
En utilisant (10) nous construisons l’intervallle de confiance de niveau (1 − α) pour le
quotient des variances σ2X /σY2 . Prenons α = 0.1. Puisque SX2 /SY2 = 3.70,
³α´
F̄n−1,m−1 = F̄13,24 (0.05) = 2.13
2
et ³α´ 1
1/F̄m−1,n−1 = ¡ ¢ = 1/2.35 = 0.426,
2 F̄24,13 α2
on a que
σ2
1.58 < X2 < 7.88,
σY
avec le coefficient de confiance 0.9.
118
2.16 La loi de Thompson.
1 n 1 n
X̄n = ∑ Xi,
n i=1
s2n = ∑ (Xi − X̄n)2.
n i=1
Dans ce cas pour tout j la statistique η j suit la loi de Thompson à n − 2 degrées de liberté,
¡ n−1 ¢ Zx µ ¶ n−4
© ª Γ t2 2
P η j ≤ x = Tn−2 (x) = p 2
¡ n−2 ¢ 1− dt, (2.2)
π(n − 1)Γ 2 √ n−1
− n−1
√
pour |x| < n − 1.
Soit τm une variable aléatoire qui suit la loi de Thompson à m degrés de liberté,
P{τm ≤ x} = Tm (x).
P{tm ≤ x} = Sm (x).
119
ce qui est équivalent à
½ √ ¾ ³m m´
x+ m+1
P{τm ≤ x} = P β 2 , 2 ≤
m m √ = I x+√ m+1
√
, , (2.8)
2 m+1 2 m+1 2 2
oùβα,β est une variable aléatoire qui suit la loi béta de paramètres α et β.
Remarque 1. (Coefficient de correlation d’un échantillon normale dans R2 ).
Soit µ ¶ µ ¶ µ ¶
X1 X2 Xn
, ,...,
Y1 Y2 Yn
un échantillon d’une loi normale de dimension 2, i.e. pour tout (x, y) ∈ R2
x−µx y−µy
Zσx Zσy ½ ¾
1 1 2 2
P{Xi ≤ x,Yi ≤ y} = p exp − (u − 2ρuv + v ) du dv,
2π 1 − ρ2 2(1 − ρ2 )
−∞ −∞
où
µx = EXi , µy = EYi , σ2x = Var Xi , σ2y = VarYi ,
1
ρ= E(Xi − µx )(Yi − µy ).
σx σy
On peut montrer que les statistiques
1 n 1 n 1 n
X̄n = ∑ Xi , Ȳn = ∑ Yi , s2x = ∑ (Xi − X̄n )2 ,
n i=1 n i=1 n i=1
1 n sxy
s2y = ∑ (Yi − Ȳn)2,
n i=1
ρ̂n =
sx sy
sont les estimateurs de maximum de vraisemblance pour les paramètres µx , µy , σ2x , σ2y et ρ
respectivement, où
1 n
sxy = ∑ (Xi − X̄n )(Yi − Ȳn ).
n i=1
On peut montrer sous l’hypothèse H0 : ρ = 0 la densité pn (r), n ≥ 3, de la statistique ρ̂n est
donnée par la formule :
¡ ¢
1 Γ n−1 n−4
pn (r) = √ ¡ n−22 ¢(1
− r2 ) 2 , |r| < 1, (2.9)
πΓ 2
120
2.17 Méthode du maximum de vraisemblance.
X ∼ Pθ , θ = (θ1 , . . . , θm )T ∈ Θ ⊂ Rm
et que Pθ est absolument continue par rapport à une mesure σ-finie µ. Notons par f (x; θ) la
densité de X.
Soit
L(θ) = L(X, θ) = f (X; θ), θ ∈ Θ ⊂ Rm ,
la fonction de vraisemblance de X.
On appelle L(X, θ) ainsi car, sachant une réalisation x du vecteur aléatoire X, la va-
leur L(x, θ) = f (x, θ) de L(X, θ) nous permet de trouver les plus vraisemblables valeurs du
paramètre θ.
En effet, soit V (x) un voisinage infiniment petit de x. Alors
(dans le cas discret on a une égalité). Les valeurs de θ plus vraisemblables sont telles qui
maximisent la probabilité que X prend la valeur observée x (ou prend la valeur dans un
infiniment petit voisinage de x, si telles probabilités sont égales à zero), donc d’ après (1)
maximisent la realisation L(x, θ) = f (x, θ) de la fonction de vraisemblance L(X, θ) par
rapport à θ.
Définition 1. Une statistique θ̂n = θ̂n (X) est appellée estimateur de maximum de vrai-
semblance (EMV) du paramètre θ, si µ-p.s.
Si g : Θ → Rk est une fonction mésurable, k ≤ m, alors ĝn = g(θ̂n ) est appellé estimateur
de maximum de vraisemblance de g = g(θ).
Rémarque 1. Si T = T (X) est une statistique exhaustive, alors le critère de factorisation
L(X, θ) = g(T (X), θ)h(X) implique que l’EMV est une fonction de T .
Générallement on cherche l’EMV en maximisant la fonction ln L(X, θ) par rapport à θ,
car cette fonction atteint le maximum dans le même point que L et dans la plupart des cas
concrets est plus simple.
Si la fonction ln L(X, θ) est dérivable par rapport à θ, alors l’EMV vérifie le système
d’équations de vraisemblance
U(θ) = 0,
où µ ¶T µ ¶T
∂ ln L(X, θ) ∂ ln L(X, θ) ∂ ln L(X, θ)
U(θ) = = ,..., (3)
∂θ ∂θ1 ∂θm
est la fonction score.
La forme de la fonction de vraisemblance dépend de la structure de l’échantillon.
121
Exemple 1. Si X = (X1 , . . . , Xn )T est un échantillon simple, Xi ∼ p(x, θ), θ ∈ Θ ⊂ Rm ,
alors
n n
L(X, θ) = ∏ p(Xi , θ), ln L(X, θ) = ∑ ln p(Xi , θ),
i=1 i=1
and à !T
n
∂ ln p(Xi , θ)
U(θ) = ∑ ∂θ . (4)
i=1
1
= lim P{t1 < T(1) ≤ t1 + h1 , . . . ,td < T(d) ≤ td + hd , D(t) = d}
h1 ,...,hd ↓0 h1 . . . hd
1
= lim P{D(t1 ) = 0, D(t1 + h1 ) − D(t1 ) = 1, . . . , D(td + hd ) − D(td ) = 1,
h1 ,...,hd ↓0 h1 . . . hd
si D(t) = 1, 2, . . ., et
L(θ) = [1 − F(t, θ]n , (6)
si D(t) = 0.
La même fonction de vraisemblance (avec une constante près) peut être obtenu diffé-
rament. Posons
Xi = min(Ti ,t), δi = 1{Ti ≤t} .
Sachant les paires
(X1 , δ1 ), . . . , (Xn , δn ),
122
on peut trouver T(1) , . . . , T(D(t)) : il faut ordonner les Xi , qui corresponent à δi = 1. Les
vecteurs aléatoirs (Xi , δi ) sont i.i.d., donc cherchons la loi de (X1 , δ1 ). On a
Alors Z x
FX1 ,δ1 (x, k; θ) = pk (u, θ)[1 − F(t, θ)]1−k µ(du, k),
0
et donc la densité de (Xi , δi ) par rapport à µ est
Notons que cette fonction est ǵale à la fonction donnèe par (5) et (6) à la constante près :
D(t)
L(X1 , δ1 , . . . , Xn , δn ; θ) = ∏ p(T(i), θ)[1 − F(t, θ)]n−D(t), si D(t) > 0
i=1
ou
L(X1 , δ1 , . . . , Xn , δn ; θ) = [1 − F(t, θ)]n ,
si D(t) = 0.
Des censures de plusieurs types sont considérée dans les chapitres suivants.
Exemple 3. (Données groupés) Soit Z n = (Zn1 , . . . , ZnN ) vecteur aléatoire qui suit la loi
multinomiale MN (n, p(θ)), où p(θ) = (p1 (θ), . . . , pN (θ))T , θ ∈ Θ ⊂ Rm .
Par exemple, si la région X des valeurs des v.a. i.i.d. Xi ∼ F(x, θ), θ ∈ Θ ⊂ Rm (i =
1, . . . , n) est divisé en N intervalles I1 , . . . , IN , alors Zn j peut être interpreté comme le nombre
aléatoire des Xi , qui appartiennent à I j :
n
Zn j = ∑ 1{Xi ∈I j } et pi (θ) = Pθ (Xi ∈ I j ).
i=1
Donc
Pθ (Z n = zn ) = P {Zn1 = k1 , . . . , ZnN = kN } =
n!
pk1 (θ)pk22 (θ) . . . pkNN (θ).
k1 ! . . . kN ! 1
123
Supposons que n’observe que les v.a. Zn j . Alors la fonction de vraisemblance est
n!
L(Z n , θ) = pZ1 n1 (θ)pZ2 n2 (θ) . . . pZNnN (θ).
Zn1 ! . . . ZnN !
19. Propriétés asymptotiques des estimateurs de maximum de vraisemblance
On va démontrer que sous conditions générales des estimateurs de maximum de vrai-
semblance sont consistants et asymptotiquement efficaces.
Soit
X = (X 1 , . . . , X n ),
un échantillon, où X 1 , . . . , X n sont des vecteurs aléatoires indépendants,
X i ∼ pi (xi , θ), θ ∈ Θ ⊂ Rm ,
où pi (xi , θ) est la densité du vecteur ri -dimensionnel X i par rapport à une mesure σ-fini µ.
La fonction de vraisemblance a la forme
n
L(X, θ) = ∏ pi (X i , θ).
i=1
∂2
I n (θ) = Eθ Î n (X, θ), où Î n (X, θ) = − ln L(X, θ).
∂θ2
Si X 1 , . . . , X n sont des vecteurs aléatoires i.i.d. de la même dimension r (en cas r = 1 on a
un échantillon simple), alors pi = p, I n (θ) = nI 1 (θ), où
∂2
I 1 (θ) = Eθ Î 1 (X 1 , θ), Î 1 (X 1 , θ) = p(X 1 , θ).
∂θ2
|| Î1 (y, θ) − Î1 (y, θ0 ) ||≤ h(y) b(θ), Eθ0 {h(X 1 )} < ∞, b(θ0 ) = 0,
124
Alors il existe une suite des estimateurs {θ̂n } telle que
P
P(U(X, θ̂n ) = 0) → 1, θ̂n → θ0 , (1)
et √ d
n(θ̂n − θ0 ) → Nm (0, I −1
1 (θ0 )). (2)
1
ln L(θ) − ln L(θ0 ) = U T (θ0 )(θ − θ0 ) − (θ − θ0 )T Î n (θ∗ )(θ − θ0 ), (5)
2
où θ∗ = θ∗ (X) est un point sur la ligne entre θ et θ0 .
On va montrer d’abord que
1 1
Î n (θ∗ ) = I n (θ0 ) + oP (1). (6)
n n
La condition 5) implique que
1
Eθ0 || (Î n (θ∗ ) − Î n (θ0 )) ||≤ Eθ0 || Î 1 (θ∗ ) − Î 1 (θ0 )) ||≤
n
sup b(θ) Eθ0 h(X 1 ) → 0.
θ∈Bnc
Cette convergence implique que
1 1 L 1 1 P
Î n (θ∗ ) − Î n (θ0 ) →1 0 =⇒ Î n (θ∗ ) − Î n (θ0 ) → 0. (7)
n n n n
La loi de grands nombres implique que
1 1 n ∂2
Î n (θ0 ) = − ∑ 2 ln p(X i , θ0 ) → I 1 (θ0 ),
P
(8)
n n i=1 ∂θ
125
car Î n (θ0 ) est la somme de vecteurs aléatoires i.i.d. de l’espérance 0 et de la variance I 1 (θ0 ).
Donc on a
1 1 1
Î n (θ∗ ) = Î n (θ0 ) + oP (1) = I 1 (θ0 ) + oP (1) = I n (θ0 ) + oP (1). (9)
n n n
Cette égalité, l’égalité (5) et la définition de ∂Bnc (voir (3)) impliquent que uniformément
sur ∂Bnc
1
ln L(θ) − ln L(θ0 ) = U T (θ0 )(θ − θ0 ) − (θ − θ0 )T I n (θ0 )(θ − θ0 ) + oP (1)
2
c2
= U T (θ0 )(θ − θ0 ) − + oP (1). (10)
2
Donc à !
Pθ0 sup ln L(θ) − ln L(θ0 ) < 0 ≥
θ∈∂Bnc
à !
c 2
Pθ0 sup U T (θ0 )(θ − θ0 ) + sup | oP (1) |<
θ∈∂Bnc θ∈∂Bnc 2
à !
c 2 c 2
≥ Pθ0 sup U T (θ0 )(θ − θ0 ) < , | oP (1) |< ≥
θ∈∂Bnc 4 4
à ! µ ¶
c 2 c2
1 − Pθ0 sup U (θ0 )(θ − θ0 ) ≥
T
− Pθ0 | oP (1) |≥ . (11)
θ∈∂Bn 4 4
c
−1/2
c/4) ≤ (4/c)2 Eθ0 (|| U T (θ0 )I n (θ0 ) ||2 )
= (4/c)2 Eθ0 U(θ0 )I −1 2
n (θ0 )U(θ0 ) = (4/c) m. (13)
Pour tout δ > 0 on peut trouver c > 0 tel que (4/c)2 ≤ δ/2. Fixons un tel c. Alors
à !
c 2
Pθ0 sup U T (θ0 )(θ − θ0 ) ≥ < δ/2. (14)
θ∈∂Bn 4
c
126
L’inégalités (11)-(15) impliquent la convergence (4).
La fonction ln L(θ) est continument dérivable sur Vρ ⊃ Bnc , donc cette convergence im-
plique qu’il existe une suite d’estimateurs {θ̂n } telle que
¡ ¢
Pθ0 U(θ̂n ) = 0, (θ̂n − θ0 )T I n (θ0 )(θ̂n − θ0 ) ≤ c2 → 1,
implique la suivante
¡ ¢ P
Pθ0 U(θ̂n ) = 0 → 1, θ̂n → θ0 .
Démontrons la normalité asymptotique des estimateurs θ̂n . En intégrant la gauche et la
droite de l’égalité
∂
U{θ0 + t(θ̂n − θ0 )} =
∂t
∂
U({θ0 + t(θ̂n − θ0 )}(θ̂n − θ0 ) =
∂θ
−Î n {θ0 + t(θ̂n − θ0 )}(θ̂n − θ0 )
par rapport à t, on obtient
Z 1
−U(θ0 ) = U(θ̂n ) −U(θ0 ) = − Î n (θ0 + t(θ̂n − θ0 ))dt (θ̂n − θ0 ). (15)
0
Le premier facteur à la droite est la moyenne de v.a. i.i.d. de l’espérance fini, donc la loi de
grands nombres implique que
1 n
∑
P
h(X i ) → Eθ0 h(X 1 ). (18)
n i=1
Donc µZ 1
¶
Pθ0 b(θ0 + t(θ̂n − θ0 ))dt ≥ ε ≤ Pθ0 (|| θ̂n − θ0 ||≥ ∆) → 0. (19)
0
127
Les convergences (18) et (19) et l’inégalité (16) impliquent
Z 1
1 1 1
Î n (θ0 + t(θ̂n − θ0 ))dt = Î n (θ0 ) + oP (1) = I n (θ0 ) + oP (1). (20)
n 0 n n
L’égalités (16) et (20) impliquent
µ ¶
1 1 √
√ U(θ0 ) = Î n (θ0 ) + o p (1) n(θ̂n − θ0 ) =
n n
√
(I 1 (θ0 ) + o p (1)) n(θ̂n − θ0 ) (21)
La v.a. U(θ0 ) est une somme de vecteurs aléatoires i.i.d. de l’espérance 0 et de la matrice
de covariance I 1 (θ0 ). Le théorème limite centrale implique que
1 d
√ U(θ0 ) → Nm (0, I 1 (θ0 )). (22)
n
Cette convergence, l’égalité (21) et le théorème de Slutsky impliquent que
√ d
n(θ̂n − θ0 ) → Nm (0, I −1 −1 −1
1 (θ0 )I 1 (θ0 ))I 1 (θ0 )) = Nm (0, I 1 (θ0 )).
et
−1 d
U T (θ0 )Î n (θ̂n )U(θ0 ) → χ2m . (26)
128
où g0 est la vraie valeur de g et
· ¸
∂gi (θ0 )
G(θ0 ) = .
∂θ j k×m
Généralisons le théorème pour le cas, quand les vecteurs X i ne sont pas nécéssairement
identiquement distribués.
Théorème. Supposons que
1) Θ est ouvert ;
2) presque pour tout xi ∈ Rri (ri ≤ r) la densité pi (xi , θ) est deux fois continument
dérivable par rapport à θ dans un voisinage Vρ = {θ :|| θ − θ0 ||≤ ρ} ;
3) on peut dériver deux fois par rapport à θ sous le signe des intégrales :
Z Z
∂ ∂
p(xi , θ)dxi = p(xi , θ0 )dxi = 0,
Rri ∂θ ∂θ Rri
Z Z
∂2 ∂ ∂
p(x i , θ 0 )dx i = p(xi , θ0 )dxi = 0;
Rri ∂θ2 ∂θ Rri ∂θ
4) la matrice limn→∞ 1n I n (θ0 ) = I n (θ0 ) est définie positive.
5) existent des fonctions non-negatives hi et b, telles que pour presque tous xi ∈ Rri et
tous θ ∈ Vρ
∂2 ∂2
|| 2 ln pi (xi , θ) − 2 ln pi (xi , θ0 ) ||≤ hi (xi ) b(θ),
∂θ ∂θ
129
Eθ0 {sup h(X i )} < ∞, b(θ0 ) = 0,
i
la fonction b est continue en θ0 .
6) il existe un nombre positif δ > 0, tel que
1 n
∂2
lim
n→∞ n1+δ
∑ Eθ0 || ∂θ2 ln pi(X i, θ0) ||1+δ= 0.
i=1
Alors √ d
n(θ̂n − θ0 ) → Nm (0, I −1 (θ0 )). (31)
Démonstration. Soit Bnc un voisinage de θ0 défini par (3). De même que dans le théorème
précedant la condition 4) implique que Bnc → θ0 et que Bnc ⊂ Vρ , si n est grand.
Pour tout θ ∈ ∂Bnc écrivons le development (5). La condition 5) implique
1
Eθ0 || (Î n (θ∗ ) − Î n (θ0 )) ||≤
n
∂2 ∂2
Eθ0 || 2 ln pi (X i , θ∗ ) − 2 ln pi (X i , θ0 ) ||≤
∂θ ∂θ
Eθ0 sup hi (X i ) sup b(θ) → 0,
i θ∈Bnc
donc la convergence (7) a lieu.
La condition 6) et la loi de grands nombres impliquent
1
(Î n (X, θ0 ) − I n (θ0 )) =
n
½ 2 µ 2 ¶¾
1 n ∂ ∂
− ∑
P
ln pi (X i , θ0 ) − Eθ0 ln pi (X i , θ0 ) → 0.
n i=1 ∂θ2 ∂θ 2
130
Z 1
P
sup hi (X i ) b(θ0 + t(θ̂n − θ0 ))dt → 0.
i 0
Donc µ ¶
1 1 √
√ U(θ0 ) = I n (θ0 ) + o p (1) n(θ̂n − θ0 ).
n n
Notons
∂
Yi = ln pi (X i , θ0 ).
∂θ
Soit a ∈ Rm \0. Alors
n
aT U(θ0 ) = ∑ aT Y i , E(aT Y i ) = 0,
i=1
implique que
∑ni=1 E | aT Y i |2+δ
≤
(aT I n (θ0 )a)1+δ/2
|| a ||2+δ
n−δ 1
E sup || Y i ||2+δ → 0,
(a n I n (θ0 )a)
T 1+δ/2 i
car l’espérance à la droite est finie d’après la condition 7), la matrice I(θ0 ) est définie
positive et donc
1
aT I n (θ0 )a → aT I(θ0 )a > 0,
n
m
d’où on tire que pour tout a ∈ R \0
1 d
√ aT U(θ0 ) → Nm (0, aT I(θ0 )a)
n
et donc
1 d
√ I −1 (θ0 )U(θ0 ) → N(0, I −1 (θ0 )),
n
µ ¶−1
1 1 d
√ I n (θ0 ) U(θ0 ) → N(0, I −1 (θ0 )),
n n
d’où on tire que √
n(θ̂n − θ0 ) =
131
µ ¶−1
1 1 d
√ I n (θ0 ) + oP (1) U(θ0 ) → Nm (0, I −1 (θ0 )).
n n
2.18 Propriétés asymptotiques du rapport de vraisemblance
Théorème. Sous les conditions du théorème on a
L(X, θ0 ) d 2
−2 ln → χ (m).
L(X, θ̂n )
Démonstration. D’apré la formule de Taylor
Soit
φ = (φ1 , φ2 ) : Θ → G = G1 × G2 ⊂ Rk × Rm−k
une bijection continument dérivable. Notons par ψ : G1 × G2 → Θ la fonction inverse.
Soient g10 un point dans G1 et Θ 0 un sous-ensemble de Θ , défini par
Exemple 1. Soit
132
des projection de
θ = (θ1 , . . . , θm ), θ1 ∈ Θ 1 , θ2 ∈ Θ 2 , Θ = Θ1 × Θ2.
Θ 0 = {θ : θ1 = θ10 } = {θ : θ = (θ10 , θ2 ), θ2 ∈ Θ 2 },
Alors
φ(θ) = (ln θ1 , θ2 ), ψ(g1 , θ2 ) = (eg1 , θ2 )
et
Θ 0 = {θ : ln θ1 = g10 } = {θ : θ = (eg10 , θ2 ), θ2 ∈ Θ 2 }.
Exemple 3. Soit k = 1,
φ1 (θ) = θ1 − θ2 , φ2 (θ) = θ2 .
Alors
φ(θ) = (θ1 − θ2 , θ2 ), ψ(g1 , θ2 ) = (g1 + θ2 , θ2 )
et
Θ 0 = {θ : θ1 − θ2 = g10 } = {θ : θ = (g10 + θ2 , θ2 ), θ2 ∈ Θ 2 }.
Exemple 4. Soit k = 1,
Alors
φ(θ) = (θ1 /θ2 , θ2 ), ψ(g1 , θ2 ) = (g1 θ2 , θ2 )
et
Θ0 = {θ : θ1 /θ2 = g10 } = {θ : θ = (g10 θ2 , θ2 ), θ2 ∈ Θ2 }.
Théorème Supposons que les conditions du Théorème précédent sont vérifiés et Θ 0 est
l’ensemble défini par (2). Si θ0 ∈ Θ 0 alors
sup L(X, θ)
θ∈ΘΘ0
R(X, g10 ) = −2 ln
sup L(X, θ)
θ∈ΘΘ
sup L(X, θ)
θ:φ1 (θ)=g10 d
= −2 ln → χ2 (k),
L(X, θ̂n )
i.e. pour tout x ∈ R
Pθ0 (R(X, g10 ) ≤ x) → Fχ2 (x).
k
133
Démonstration. On a
où L∗ (g2 ) = L(ψ(g10 , g2 )). La v.a. L∗ (X, g2 ) est la fonction de vraisemblance pour le mo-
dèle statistique
X ∼ f ∗ (x, g2 ), g2 ∈ G2 ,
où f ∗ (x, g2 ) = f (x, ψ(g10 , g2 )).
La consistance de θ̂n implique que
√ 1
I 1 (θ0 ) n(θ̂n − θ0 ) = √ U(θ0 ) + oP (1), (3)
n
donc
√ 1
n(θ̂n − θ0 ) = I −1
1 (θ0 ) √n U(θ0 ) + oP (1). (4)
1 1
= √ U T (θ0 )I −1
1 (θ0 )I 1 (θ0 )I −1
1 (θ0 ) √ U(θ0 ) + oP (1)
n n
1 1
= √ U T (θ0 )I −1
1 (θ0 ) √ U(θ0 ) + oP (1). (5)
n n
De même, notant
g˜2 n = g˜2 n (g10 , X)
l’EMV de g2 sous notre modèle, on a
1 1
= √ (U ∗ )T (g20 )(I ∗1 )−1 (g20 ) √ U ∗ (g20 ) + oP (1). (6)
n n
La fonction score est
∗ ∂ ln L∗ (g2 )
U (g2 ) = =
g2
∂ ln L(ψ(g10 , g2 )) ∂ψ(g10 , g2 )
= U(ψ(g10 , g2 )) =
∂g2 ∂g2
A(g0 )U(ψ(g10 , g2 )), (7)
où
∂ψ(g10 , g2 )
A(g10 , g2 ) = .
∂g2
En particulier,
U ∗ (g20 ) = A(g0 )U(θ0 ), (8)
134
La matrice d’information de Fisher en g20 est
La v.a. limite est une forme quadratique des v.a. normales. On va utiliser le résultat (voir)
qui dit que si
Y ∼ N(0, Σ)etBΣB = B, tr(BΣ) = k,
alors Y T BY ∼ χ2k . Dans notre cas
(I −1 T ∗ −1 −1 T ∗ −1
1 − A (I 1 ) A)I 1 (I 1 − A (I 1 ) A) =
I −1 T ∗ −1 T ∗ −1
1 − A (I 1 ) A − A (I 1 ) A
135
L’égalité U ∗ (g̃2n ) = 0, les égalités (15) et (16) impliquent
−1
U T (ψ(g10 , g̃2n ))Î n (ψ(g10 , g̃2n ))U(ψ(g10 , g̃2n ))
1 1
= √ U T (ψ(g10 , g̃2n ))I −1 1 (ψ(g10 , g̃2n )) √ U(ψ(g10 , g̃2n ))−
n n
1 1
√ U ∗ T (g̃2n )(I ∗1 )−1 (g̃2n ) √ U ∗ (g̃2n ) + oP (1) =
n n
1
√ U T (ψ(g10 , g̃2n )){I −1 1 (ψ(g10 , g̃2n ))−
n
1
AT (g̃2n )(I ∗1 )−1 (g̃2n )A(g̃2n )} √ U(ψ(g10 , g̃2n )) + oP (1) =
n
1 1 d
√ U T (θ0 ){I −1
1 (θ0 ) − AT (g0 )(I ∗1 )−1 (g20 )A(g0 )} √ U(θ0 ) + oP (1) → χ2k .
n n
Le cas particulier important est, quand
1 ≤ l1 ≤ . . . ≤ lk ≤ m, 1 ≤ s1 ≤ . . . ≤ sm−k ≤ m.
. Dans ce cas · ¸
∂θ
A= = [ai j ](m−k)×m ,
∂θ(2)
où ½
1, si (i, j) = (l, sl ) (l = 1, . . . , m − k),
ai j =
0, sinon.
(1) (2)
Notons que les s1 , . . . , sm−k composantes de U(θ0 , θ̃n ) sont égales à zero, car
(2) (1) (2) (1) (2) (1) (2)
0 = U ∗ (θ̃n ) = AU(θ0 , θ̃n ) = (Us1 (θ0 , θ̃n ), . . . ,Usm−k (θ0 , θ̃n ))T .
Posons
(1) (2) (1) (2) (1) (2)
U l1 ,...,lk (θ0 , θ̃n ) = (Ul1 (θ0 , θ̃n ), . . . ,Ulk (θ0 , θ̃n ))T
(1) (2)
et Ai1 ...ik (θ0 , θ̃n ) la sous-matrice de
−1 (1) (2)
Î n (θ0 , θ̃n )
136
Remarqons que ln Xi suit une loi normale N(µ, σ2 ). On peut montrer que
2 /2 2
a1 = EX1 = eµ+σ , a2 = EX12 = e2µ+2σ .
137
où µ ¶
2n ∂2 3 2 1 2n
In (θ) = 2 = −nE 2 ln p(X1 ; θ) = nE 4 X1 − 2 = 2
θ ∂θ θ θ θ
est l’information de Fisher sur θ dans X. De la dernière inégalité on voit bien que l’estima-
teur θ̃n n’est pas éfficace.
Remarque 1. Du théorème limite central il suit que la suite des variables aléatoires
√ q
√ n(X̄n − π2 θ)
n(θ̃n − θ)
q = q , n = 1, 2, ...
π−2
θ 2 θ 1 − 2
π
est asymptotiquement normale N(0, 1), quand n → ∞, i.e. pour les grandes valeurs de n
√n(θ̃ − θ)
P qn ≤ x ≈ Φ(x), x ∈ R1 .
θ π−2
π
où x̄α/2 est le quantile supérieur de niveau α/2 pour la loi standard normale, 0 < α < 0.5,
d’où on tire que
( r µ ¶ r )
π−2 θ π−2
P −x̄α/2 ≤ 1− ≤ x̄α/2 ≈ 1−α
2n θ̃n 2n
et donc
( Ã r ! Ã r !)
π−2 π−2
P θ̃n 1 − x̄α/2 ≤ θ ≤ θ̃n 1 + x̄α/2 ≈ 1 − α,
2n 2n
138
i.e. Xi suit la loi uniforme sur [0, θ]. Dans ce cas la fonction de vraisemblance est
n
1 1
L(θ) = L(X; θ) = ∏ 1[0,θ] (X j ) = n 1[0,θ] (X(n) ),
j=1 θ θ
puisque P{0 ≤ X(1) ≤ X(n) ≤ θ} = 1, d’où on tire que X(n) est une statistique exhaustive
minimale. Il est évident que θ̂n = X(n) .
Donc, pour estimer θ, nous pouvons utiliser la statistique θ̂n = X(n) comme estimateur
ponctuel.
Par ailleurs, comme EXi = θ/2 on en déduit que la statistique
2 n
θ∗n = 2X̄n = ∑ Xi
n i=1
Eθ θ∗n = θ.
On va comparer les deux estimateurs θ̂n et θ∗n . Comme VarXi = θ2 /12, il s’ensuit que
à ! µ ¶
2 n
4 n θ2 1
∗
Varθn = Var ∑
n i=1
Xi = 2 ∑ VarXi =
n i=1 3n
=O
n
→ 0, (n → ∞),
et donc du critère de consistance on tire que {θ∗n } converge en probabilité vers θ, i.e. {θ∗n }
est une suite consistante d’estimateurs sans biais de θ. De plus d’après le théorème central
limite on obtient que pour tout x ∈ R1
( ) (√ )
θ∗n − Eθ∗n 3n(θ∗n − θ)
Pθ p ≤ x = Pθ ≤ x → Φ(x), n → ∞, (1)
Varθ∗n θ
√
i.e. {θ∗n } est une suite d’estimateurs asymptotiquement normale de paramètres θ et θ/ 3n.
Étudions maintenant la statistique θ̂n = X(n) , qui est l’estimateur de maximum de vrai-
semblance de θ. Tout d’abord, on remarque que
Pθ {0 ≤ X(n) ≤ θ} = 1, θ > 0.
n ³ t ´n−1
g(t; θ) = G0 (t; θ) = 1[0,θ] (t),
θ θ
d’où on tire que
Zθ ³ ´n−1
n t n
Eθ X(n) = Eθ θ̂n = t dt = θ,
θ θ n+1
0
139
Zθ ³ t ´n−1
n n 2
2
Eθ X(n) = t2 dt = θ ,
θ θ n+2
0
donc
n 2 n2
Varθ X(n) = θ − θ2 =
n+2 (n + 1)2
µ ¶
n 1
θ = O 2 → 0, n → ∞.
2
(n + 2)(n + 1)2 n
On remarque que {θ̂n } est une suite consistante d’estimateurs asymptotiquement sans biais
du paramètre θ, car pour tout n ∈ N∗ le biais bn (θ) de l’estimateur θ̂n est
n θ
bn (θ) = Eθ (θ̂n − θ) = θ−θ = − →0 (n → ∞).
n+1 n+1
Le risque quadratique R(θ̂n , θ) de θ̂n est égal à
2θ2
R(θ̂n , θ) = Varθ̂n + bn (θ)2 = .
(n + 1)(n + 2)
Soit
n+1
θ∗∗
n = θ̂n , n ∈ N.
n
Comme
µ ¶
(n + 1)2 θ2 1
Eθ θ∗∗
n = θ et Varθ θ∗∗
n = Var θ θ̂n = = O ,
n2 n(n + 2) n2
140
et ³ yα ´−1
θ̂n ≤ θ ≤ θ̂n 1 −
n
de longueurs √
ln∗ = l(θ∗n ) ≈ 2θ∗n x̄ α2 / 3n et lˆn = l(θ̂n ) ≈ θ̂n yα /n
respectivement, d’où on tire que
ln∗ √ 2x̄ α2
≈ n√ (n → ∞),
lˆn 3yα
car θ∗n /θ̂n est très proche de 1 avec une grande probabilité. Par exemple, si α = 0.05, soit
P = 0.95, on a x̄ α2 = 1.96, yα = 2.99 et dans ce cas
ln∗ √
≈ 0.76 n.
lˆn
Remarque 2. On voit que
θ2 2θ2
R(θ∗n , θ) = Varθ∗n = , R(θ̂n , θ) = ,
3n (n + 1)(n + 2)
θ2
R(θ∗∗ ∗∗
n , θ) = Varθn = ,
n(n + 2)
d’où on tire que θ∗n et θ̂n sont des estimateurs inadmissibles pour θ par rapport à la fonction
de perte quadratique, puisque
R(θ∗∗ ∗
n , θ) < R(θn , θ), θ ∈ Θ,
et pour tout n ≥ 2
R(θ∗∗
n , θ) < R(θ̂n , θ), θ ∈ Θ.
Exemple 4. Changeons un peu le problème. Supposons que dans les conditions de l’exemple
1 on ait :
1
f (x; θ) = 1]0,θ[ (x), θ > 0,
θ
i.e. Xi suit la loi uniforme sur ]0, θ[. Alors,
n
1 1
L(θ) = ∏ 1]0,θ[ (X j ) = n 1]0,θ[ (X(n) ), θ ∈ Θ =]0, ∞[.
j=1 θ θ
n
Donc, X(n) est une statistique exhaustive, mais L(θ) n’a pas de maximum et donc, il n’existe
pas de l’estimateur du maximum de vraisemblance pour θ.
On sait d’après la définition d’un estimateur, θ∗n : Rn → Θ, qu’il faut qu’il prenne ces
valeurs dans Θ, mais ici X(n) n’appartient pas à Θ (X(n) est toujour plus petit que θ) ; par
conséquent dans cet exemple l’estimateur de maximum de vraisemblance n’existe pas. On
peut choisir θ très proche de X(n) , mais pas égal à X(n) .
Exemple 5. Donnons maintenant un exemple de non unicité de l’estimateur de maximum
de vraisemblance lié avec une loi uniforme.
141
Soit X = (X1 , ..., Xn )T ,
et donc T = (X(1) , X(n) )T est une statistique exhaustive minimale. On remarque que T ∈ R2 ,
tandis que θ ∈ Θ = R1 . N’importe quel θ dans l’intervalle [X(n) − 1, X(1) ] ⊂ Θ peut-être
considéré comme estimateur de maximum de vraisemblance ; en particulier
On note que ni θ̂1 ni θ̂2 ne sont des statistiques exhaustives, mais ce sont des statistiques
nécessaires.
On remarque que c’est justement en ces deux points
que L(θ) a des ruptures (des sauts). Pour construire estimateur sans biais pour θ on peut
prendre, par exemple, la statistique
1 X(1) + X(n) − 1
θ∗n = (θ̂1 + θ̂2 ) = , Eθ∗n = θ. (4)
2 2
On peut montrer que
1
Varθ∗n = .
2(n + 1)(n + 2)
Remarque 3. En présence d’une statistique exhaustive T pour θ l’estimateur de maximum
de vraisemblance θ̂n = θ̂n (T ) est donc une statistique nécessaire.
Remarque 4. Soit X = (X1 , X2 , . . . , Xn )T un échantillon, dont la réalisation observée est
x = (x1 , x2 , . . . , xn )T . Notre problème est de construire une loi empirique, en utilisant le
vecteur des données x et le principe du maximum de vraisemblance. Comme les éléments
Xi de l’échantillon X sont indépendants, on peut écrire que
n
\
{X1 = x1 , X2 = x2 , . . . , Xn = xn } = {Xi = xi },
i=1
donc
" #
n
\ n
P{X1 = x1 , X2 = x2 , . . . , Xn = xn } = P {Xi = xi } = ∏ P{Xi = xi }.
i=1 i=1
pi = P{Xi = xi } ≥ 0, i = 1, 2, . . . , n,
telles que
p1 + p2 + . . . + pn = 1, pi ≥ 0.
142
Le principe du maximum de vraisemlance nous dit qu’il faut choisir les pi de façon que le
produit
n
∏ pi
i=1
soit maximal. Comme
à !1/n
n
1 n n
∏ pi ≤ ∑
n i=1
pi et ∑ pi ≤ 1,
i=1 i=1
on en déduit que
à !1/n
n
1
∏ pi ≤ ,
n
i=1
et donc
n µ ¶n
1
∏ pi ≤ n ,
i=1
d’où on trouve que notre solution est
1
p1 = p2 = . . . = pn = ,
n
et c’est donc la loi empirique classique qui donne la meilleure solution au sens du principe
de maximum de vraisemblance.
ĝ = g(θ̂n ) (5)
Θ g = {θ : θ ∈ Θ , g(θ) = g}, g ∈ G,
143
i.e. Θ g est l’orbite de l’application g(θ), correspondant à une valeur g de g(θ). Il est évident
que {Θ Θg } est une partition de Θ ,
[
Θg = Θ, /
Θ g0 ∩ Θ g = 0.
g∈G
Soit
Lg = sup L(θ), g ∈ G.
θ∈ΘΘg
Choisissons
ĝ = g(θ̂n ), ĝ ∈ G,
et considérons l’orbite Θ ĝ , θ̂n ∈ Θ ĝ .
Comme pour tout g ∈ G
sup Lg ≥ Lg
g∈G
et, en particulier,
sup Lg ≥ Lĝ = sup L(θ) = L(θ̂n ),
g∈G θ∈ΘΘĝ
Supposons que nous voulions estimer g(θ) = 1/θ. Kolmogorov a montré que parmi les
fonctions de θ, seuls les polynômes
m
um (θ) = ∑ ak θk , θ ∈ Θ =]0, 1[, 1 ≤ m ≤ n,
k=1
144
et donc µ ¶
1 1−θ
Tn ∼ AN , ,
θ nθ3
i.e. pour tout x ∈ R1 s
nθ3 µ n 1 ¶
Pθ − ≤ x → Φ(x).
1 − θ µn θ
θ = EXi = Var Xi .
( )
1 1 n 2 n nθ
exp − ∑ Xi + ∑ Xi − =
(2πθ)n/2 2θ i=1 i=1 2
( )
1 1 n 2 nθ n
(2πθ)n/2
exp − ∑ i 2
2θ i=1
X − exp { ∑ Xi},
i=1
n’est pas une statistique exhaustive dans notre problème ! Puisque L(θ) > 0 pour tout θ ∈ Θ
et
lim L(θ) = lim L(θ) = 0,
θ↓0 θ→∞
∂ n Tn n
Λ(θ) = ln L(θ) = − + 2 − .
∂θ 2θ 2θ 2
1
θ2 + θ − Tn = 0,
n
145
i.e. r
1 1 1
θ̂n = − + + Tn .
2 4 n
P
Il est facile de vérifier que {θ̂n } → θ. En effet, d’après la loi des grands nombres
1 P
Tn → Eθ X12 = Var θ X1 + (Eθ X1 )2 = θ + θ2 ,
n
d’où, en utilisant le théorème de Slutsky, on tire que
r
P 1 1 1 1
θ̂n → − + + θ + θ2 = − + + θ = θ.
2 4 2 2
ce qui nous permet d’estimer θ (trouver l’estimateur θ∗n par la méthode des moments de
façon unique de l’équation T n = a(θ) dans les termes de la statistique exhaustive Un ).
De l’autre coté les conditions 1)–3) sont suffisantes (voir, par exemple, Zacks, 1971) pour
l’existence de l’estimateur du maximum de vraisemblance θ̂n :
n
L(θ̂) = sup L(θ), où L(θ) = ∏ f (Xi , θ),
θ∈Θ i=1
146
et pour la famille (6) l’estimateur θ̂n est la racine unique de la même équation T n = a(θ),
et donc de ce fait on tire que pour la famille exponentielle (6) la méthode du maximum
de vraisemblance et la méthode des moments donnent le même estimateur θ∗n = θ̂n pour le
paramètre θ.
Exemple 7. Soit X = (X1 , . . . , Xn )T un échantillon, Xi suit la loi normale N(µ, σ2 ), θ =
(µ, σ2 )T . Dans ce cas la statistique
¡ ¢T
θ̂n = X̄n , s2n
θk −θ
Pθ {Xi = k} = e , k = 0, 1, 2, . . . .
k!
n
Dans ce cas la statistique ∑ Xi est exhaustive pour le paramètre θ et donc la moyenne X̄n
i=1
de la loi empirique est le meilleur estimateur sans biais pour θ et en même temps X̄n est
l’estimateur du maximum de vraisemblance pour θ.
Exemple 9. On a n expériences indépendantes de Bernoulli avec trois états possibles
S S T
E1 , E2 , E3 , E1 E2 E3 = Ω, Ei E j = 0, / dont les probabilités sont
P(E1 ) = p1 (θ) = θ,
P(E2 ) = p2 (θ) = 2θ,
P(E3 ) = p3 (θ) = 1 − 3θ,
147
dont la racine θ̂n est
ν1 + ν2
θ̂n = .
3n
On a trouvé l’estimateur du maximum de vraisemblance θ̂ et donc
p̂1 = p1 (θ̂n ) = θ̂n ,
p̂ = p2 (θ̂n ) = 2θ̂n ,
2
p̂3 = p3 (θ̂n ) = 1 − 3θ̂n ,
Pour trouver une bonne aproximation de la racine θ̂n de l’équation (9), nous pouvons appli-
quer la procédure suivante (the scoring method of Fisher). Soit
νi
p̂i = , i = 1, 2, 3, (10)
n
les estimateurs de maximum de vraisemblance pour des probabilités pi (θ). Parmi ces trois
équations pi (θ) = p̂i (par rapport à θ) on choisit la plus simple d’où l’on tire la solution
θ̂0n , que l’on peut prendre comme approximation initiale pour l’estimateur du maximum de
vraisemblance θ̂n . Comme dans notre cas l’information de Fisher
½ 2 ¾
d
In (θ) = −E ln L(θ)
dθ2
est égale à " ¡ 0 ¢2 #
(p01 (θ))2 (p02 (θ))2 p3 (θ)
In (θ) = n + + ,
p1 (θ) p2 (θ) p3 (θ)
on trouve une nouvelle approximation θ̂1n , qui est donnée par la formule suivante :
¯
1 d ln L(θ) ¯¯
θ̂1n = θ̂0n + . (11)
In (θ̂0n ) dθ ¯θ=θ̂0n
148
On peut montrer que l’estimateur θ̂1n est asymptotiquement équivalent à l’estimateur du
maximum de vraisemblance θ̂n , c’est-à-dire si n → ∞, alors
p ¡ ¢
In (θ) θ̂1n − θ
Il est clair que 0 ≤ θ ≤ 1/8. Comme la fonction de vraisemblance L(θ) est égale à
n!
L(θ) = pν1 pν2 pν3 pν4 =
ν1 !ν2 !ν3 !ν4 ! 1 2 3 4
n!
(2θ)ν1 (0.5 − 4θ)ν2 (0.5 + θ)ν3 θν4 =
ν1 !ν2 !ν3 !ν4 !
n!2ν1
θν1 +ν4 (0.5 − 4θ)ν2 (0.5 + θ)ν3
ν1 !ν2 !ν3 !ν4 !
et donc on trouve que la statistique T = (ν1 + ν4 , ν2 , ν3 )T est exaustive pour le paramètre
θ. Supposons que n = 1000 et que l’on ait observé
Notons
q1 = p1 + p4 , q2 = p2 , q3 = p3 et µ1 = ν1 + ν4 , µ2 = ν2 , µ3 = ν3 .
Avec ces notations la fonction de vraisemblance L(θ) peut s’écrire de la manière suivante :
d ln L(θ) µ1 4µ2 µ3
= − +
dθ θ 0.5 − 4θ 0.5 + θ
et donc on obtient l’équation du maximum de vraisemblance
160θ2 + 15θ − 3 = 0,
149
dont les solutions θ1 et θ2 sont données par les formules suivantes :
√ √
−15 + 225 + 160 ∗ 12 −15 − 225 + 160 ∗ 12
θ1 = et θ1 = .
320 320
Comme 0 < θ < 1/8, on en déduit que l’estimateur du maximum de vraisemblance θ̂n est
égale à θ1 et donc on obtient que
−15 + 46.31 ∼
θ̂n = θ1 = = 0.0978.
320
Comme
d2 µ1 16µ2 µ3
ln L(θ) = − 2 − − ,
dθ2 θ (0.5 − 4θ)2 (0.5 + θ)2
et Eµi = nqi , on trouve que
½ 2 ¾ · ¸
d 3θ 16 1
In (θ) = −E ln L(θ) = n 2 + + =
dθ2 θ 0.5 − 4θ 0.5 + θ
· ¸
3 32 2
n + + .
θ 1 − 8θ 1 + 2θ
Comme on l’a déjà noté la variable aléatoire
θ̂ − θ p
qn = In (θ)(θ̂n − θ)
1
In (θ)
suit à la limite quand n → ∞ la loi normale N(0, 1). Du théorème de Cramer on déduit que
q
θ̂ − θ
qn = In (θ̂n )(θ̂n − θ)
1
In (θ̂n )
on trouve que
· ¸
6 440 590
θ̂1n = 0.1 + 300 − + = 0.1 − 0.0022 = 0.0978 = θ̂n .
1150000 0.1 0.6
Admettons que quelqu’un suppose θ = 0.11. Avec quelle certitude peut-on affirmer
d’après les données observées que θ = 0.11 ?
150
Comme nous le savons
½q q ¾ · µ q ¶¸
P ∼
In (θ̂n )|θ̂n − θ| > 0.0121 In (θ̂n ) = 2 1 − Φ 0.0121 In (θ̂n ) =
2 [1 − Φ(5.297)] = 5 · 10−7 ,
ce qui nous permet d’affirmer l’invraisemblance que θ = 0.11.
Supposons que les résultas d’une expérience soient présentés par la matrice
Les valeurs observées ai j nous pouvons considérer comme les valeurs a(i, j) d’une
fonction a(·, ·), déterminée sur l’ensemble I ? J. On peut poser une question : est ce que
la fonction a(·, ·) est constante,
ou peut-être c’est une fonction d’une variable, par exemple i,et qui prend les valeurs ai. :
où
αi. = ai. − a.. , (3)
ou peut-être c’est une fonction présentée comme la somme de deux fonctions d’une variable
chacune
a(i, j) = ai j = ai. + a. j − a.. = a.. + αi. + α. j ,
avec α. j = (a. j − a.. ), ou peut-être c’est une fonction de deux variables avec une interaction
entre les arguments i et j :
où
αi j = ai j − ai. − a. j + a.. . (5)
Toutes ces questions sont importantes si nous voulons construire une approximation pour la
fonction a(·, ·) et suivant l’information que nous avons nous pouvons proposer la meilleur
approximation dans un certain sense.
Nous pouvons toujours compter que nous avons une fonction qui est présentée par la
formule (’) et donc il nous faut faire le meilleur choix des constantes, en utilisant des don-
nées.
Si nous avons la fonction de deux variables, alors il se peut qu’il soit intéressant de
l’approximer par une fonction d’une variable ou par la somme de deux fonctions d’une
151
variable chacune, avec ou sans interactions. On cherchera l’approximation dans le sens de
moindres carrés :
I J
∑ ∑ (ai j − α)2 → min . (6)
i=1 j=1
Le premier à avoir considéré ce problème en statistique est Sir R.Fisher qui a proposé de
choisir les constantes suivantes :
J
1 1 I
ai. =
J ∑ ai j , a. j = ∑ ai j ,
I i=1
(7)
j=1
1 I J 1 J
1 I
a.. = ∑ ∑ ai j = ∑ a. j = I ∑ ai.. (8)
IJ i=1 j=1 J j=1 i=1
Donc dans le cas où nous cherchons la meilleure approximation par la fonction d’une va-
riable, par exemple qui ne dépend que de i, d’après Fisher il faut choisir α = ai. . Si nous
cherchons une approximation par la somme de deux fonction d’une variable chacune sans
leurs interactions, alors il nous faut choisir
etc. On fait ce problème de la même façon dans le cas continue. Par exemple, on peut
introduire
ZI ZJ ZJ
1 1
a.. = a(i, j)did j, ai. = a(i, j)d j, (10)
IJ I
0 0 0
[ai j ] = [a..] + [ai j − a.. ], where [ai j − a.. ] = [ai j ] − [a.. ]. (12)
Soit L1 est le sousespace linéaire engendré par le vecteur [a.. ], L1 ⊂ RIJ . Par les calcules
directes on peut montrer, en utilisant les formules (6) et (7), que les vecteurs [a.. ] et [ai j −a.. ]
sont orthogonaux, c’est-à-dire
[a.. ]T [ai j − a.. ] = 0, (13)
et donc le vecteur [ai j − a.. ] ∈ LIJ−1 et le sousespace
LIJ−1 = RIJ ª L1
est ortogonale à L1 ,
RIJ = L1 ⊕ LIJ−1 , (14)
152
et de cette façon on a montré que la fonction a.. donne la meilleure (dans le sens (6))
approximation de notre fonction a(i, j) par la constante.
Maintenant on considère le second problème : quelle fonction d’une variable, par exemple
i, donne la meilleure approximation pour [ai j − a.. ] ∈ LIJ−1 . On a l’identité
d’où on déduit que si nous voulons construire une approximation qui ne dépend que de j,
par exemple, alors on revient de nouveau au problème précédent, car les vecteurs
sont orthogonaux :
[ai. − a.. ]T [ai j − ai. ] = 0. (17)
On note que
[ai. ] = (a1. , ..., a1. , a2. , ..., a2. , ..., aI. , ..., aI. )T ∈ RIJ
and
[a. j ] = (a.1 , ..., a.1 , a.2 , ..., a.2 , ..., a.J , ..., a.J )T ∈ RIJ .
On remarque que
I J
∑ (ai. − a..) = 0, ∑ (a. j − a..) = 0.
i=1 j=1
où
J
1
ai. =
J ∑ ai j ,
j=1
on en déduit que
et que
L1 ⊕ LI−1 ⊕ LI(J−1) = RIJ (21)
Si nous avançons plus loin de la même façon on obtient sur le pas suivant l‘identité
où
[a. j − a.. ] ∈ LJ−1 (23)
et
[a. j − a.. ]T [ai j − ai. − a. j + a.. ] = 0. (24)
153
Mais comme
[ai j − ai. − a. j + a.. ] ∈ LIJ−I−J+1 = L(I−1)(J−1) , (25)
de (6), (9), (14)-(17) et (19) on déduit que
k[ai j ]k2 = k[a.. ]k2 + k[ai. − a.. ]k2 + k[a. j − a.. ]k2 + k[ai j − ai. − a. j + a.. ]k2 ,
Yi jk = µ + αi + β j + γi j + δi jk ,
δi jk ∼ N(0, σ2 ).
On note
1 I 1 J
α. = ∑ αi,
I i=1
β. =
J ∑ β j,
j=1
154
J
1 1 I
γi. =
J ∑ γi j , ( j = 1, 2, ..., J); γ. j = ∑ γi j ,
I i=1
( j = 1, 2, ..., J);
j=1
J I
1
γ.. =
IJ ∑ ∑ γi j .
j=1 i=1
On suppose sans perdre la gènèralitè que
1 K
Xi j = Yi j. = ∑ Yi jk = (1T 1)−1 1T Yi j ,
K k=1
où
Yi j = (Yi j1 , ...,Yi jK )T , 1 = 1K = (1, 1, ..., 1)T ∈ RK .
Notons
X = (X11 , ..., XIJ )T , X ∈ RIJ ,
où Xi j = Yi j. , (i = 1, 2, ..., I; j = 1, 2, ..., J). Il est claire que sous H0
σ2
Xi j = µ + αi + β j + γi j + δi j. , δi j. ∼ N(0, ),
K
parce que
EYi jk = µ + αi + β j + γi j , k = 1, 2, ..., K,
et donc sous H0 pour tout k fixè la fonction de vraisemblance pk (µ, α, β, γ, σ2 ) du vector
(Y11k , ...,YIJk )T est donnée par la formule suivante :
( )
J I (Y − µ − α − β − γ )2
1
exp − ∑ ∑
i jk i j i j
pk (µ, α, β, γ, σ2 ) = .
(2πσ2 )IJ/2 j=1 i=1 2σ2
Puisque sous H0 les variables δi jk sont indèpendantes et suivent la même loi normale
N(0, σ2 ) on en tire que la fonction de vraisemblance du vector d’observations Y est
( )
J I K (Y − µ − α − β − γ )2
1
exp − ∑ ∑ ∑
i jk i j i j
L(µ, α, β, γ, σ2 ) = =
(2πσ2 )IJK/2 j=1 i=1 k=1 2σ2
½ ¾ ( )
J I
1 −SCint −K
(2πσ )
2 IJK/2
exp
2σ2
exp
2σ2 ∑ ∑ (Xi j − µ − αi − β j − γi j )2 ,
j=1 i=1
où
J I K J I K
SCint = ∑ ∑ ∑ (Yi jk − Xi j )2 = ∑ ∑ ∑ (Yi jk −Yi j.)2.
j=1 i=1 k=1 j=1 i=1 k=1
On voit que la statistique (SCint , X)T est exhaustive pour (µ, α, β, γ, σ2 )T , et que SCint et
X = (X11 , ..., XIJ )T sont indèpendantes. Il est èvident que sous HO
SCint σ2
= χ2(K−1)IJ et Xi j ∼ N(µ + αi + β j + γi j ; ).
σ 2 K
155
En utilisant la dècomposition orthogonale de Fisher on a
et
kXk2 = k[Xi j ]k2 = k[X.. ]k2 + k[Xi. − X.. ]k2 + k[X. j − X.. ]k2 + k[Xi j − Xi. − X. j + X.. ]k2 ,
d’où on obtient les meilleurs estimateurs sans biais (au sens du minimum de risk quadra-
tique) pour µ, αi , β j , γi j :
Comme nous avons dit nous avons construit MVUE’s (voir, Voinov and Nikulin (1996))
puisque
Eµ̂ = EX.. = µ, Eα̂i = αi , Eβ̂ j = β j ,
Eγ̂i j = γi j , Eσ̂2 = σ2 .
On considère ici les sommes de carrés suivantes :
I J
SCentα = KJ ∑ (Xi. − X.. )2 , SCentβ = KI ∑ (X. j − X.. )2 ,
i=1 j=1
I J
SCinter = K ∑ ∑ (Xi j − Xi. − X. j + X..)2.
i=1 j=1
156
On note aussi
J I K J I K
SCtot = ∑∑ ∑ (Yi jk −Y...)2 = ∑ ∑ ∑ (Yi jk − X..)2,
j=1 i=1 k=1 j=1 i=1 k=1
où
J I K
1
Y... = X.. =
IJK ∑ ∑ ∑ Yi jk .
j=1 i=1 k=1
On remarque que les statistiques SCint , SCentα , SCentβ , SCinter sont indépendantes.
On considère les trois hypoths̀es suivantes :
H0α : α1 = α2 = ... = αI = 0,
H0β : β1 = β2 = ... = βJ = 0,
H0γ : γ1 = γ2 = ... = γIJ = 0.
On remarque que
IJ(K − 1)SCentα
= FI−1,IJ(K−1) .
(I − 1)SCint
IJ(K − 1)SCentβ
= FJ−1,IJ(K−1) .
(J − 1)SCint
IJ(K − 1)SCinter
= F(I−1)(J−1),IJ(K−1) .
(I − 1)(J − 1)SCint
157
1) les 5 valeurs (inconnues) des diamètres de ces 5 billes sont des réalisations de 5
variables aléatoires qui sont indépendantes et suivent la même loi normale N(a, σ2o ).
2) toutes les mesures sont indépendantes, de même précision et sans biais.
3) les erreurs aléatoires de ces mesures suivent la même loi normale N(0, σ2 ), dont la
variance σ2 est inconnue.
La Table nous donne les résultats suivants pour des mesures (en mm). On note xi j la
j-ème mesure de la bille avec le numéro i, et xi. la valeur moyenne des mesures pour ce
sujet.
Numéro SUJETS
des mesures 1 2 3 4 5
1 12.093 11.996 12.017 12.023 11.900
2 12.097 11.995 12.012 12.026 11.893
3 12.096 11.990 12.014 12.028 11.896
4 12.094 11.991 12.017 12.028 11.899
5 12.100 11.998 12.010 12.021 11.898
Table 1
Il nous faut trouver les meilleurs estimateurs sans biais des valeurs inconnues des dia-
mètres des billes, de a, σ2o et σ2 , et aussi des surfaces des sections de ces 5 billes.
Tout d’abord il faut construire la fonction de vraisemblance. Il est clair, que nous pou-
vons considérer le résultat xi j de la j-ème mesure de la bille i comme la réalisation d’une
variable aléatoire Xi j , où
Xi j = a + δi + δi j , i = 1, 2, . . . , I; j = 1, 2, . . . , J. (1)
Les éléments δ1 , δ2 , . . . , δI du vecteur δ = (δ1 , δ2 , . . . , δI )T et δi j de la matrice ∆ = kδi j k
sont indépendants, δi suit la loi normale N(0, σ2o ), δi j suit la loi normale N(0, σ2 ), les
paramètres a, σ2o et σ2 sont inconnus.
Notons
1 J 1 I J 1 I
Xi. = ∑ Xi j , X.. = ∑ ∑ Xi j = ∑ Xi. , (2)
J j=1 IJ i=1 j=1 I i=1
On remarque que dans notre cas
X1. = 12.0960, X2. = 11.9920, X3. = 12.0140,
X4. = 12.0252, X5. = 11.8972, X.. = 12.00488.
De plus notons
J I J I
1 1 1
δi. =
J ∑ δi j , δ.. = IJ ∑ ∑ δi j , δ. = I ∑ δi. (3)
j=1 i=1 j=1 i=1
Dans ce cas, l’observation Xi j peut-être représentée comme
Xi j = X.. + (Xi. − X.. ) + (Xi j − Xi. ) (4)
et nous pouvons remarquer que
Xi. = a + δi + δi. ,
X.. = a + δ. + δ.. ,
158
et que
Xi j − Xi. = δi j − δi. ,
Xi. − X.. = (δi − δ. ) + (δi. + δ.. ), (5)
X.. − a = δ. + δ.. .
Comme toutes les variables δ1 , δ2 , . . . , δI , δ11 , . . . , δIJ sont indépendantes et normales, on a
(δi − δ. ), δ. , δi j sont indépendantes,
(δi − δ. ), δ. , (δi j − δi. ), δi. sont indépendantes, (6)
(δi − δ. ), δ. , (δi j − δi. ), (δi. − δ.. ), δ.. sont indépendantes
et de plus la variable aléatoire
σ2o σ2
δ. + δ.. suit la loi normale N(0, + ). (7)
I IJ
La variable aléatoire
I I
∑ [(δi − δ.) + (δi. − δ..)]2 = ∑ [(δi + δi.) − (δ. + δ..)]2
i=1 i=1
159
Z∞
" (
J J
1 1 1 2yi
σo (2π)(J+1)/2 σJ
exp −
2 σ2 ∑ (xi j − a)2 − σ2 ∑ (xi j − a)+
−∞ j=1 j=1
µ ¶ ¸¾ ) (
J
1 J 1 1
+ y2 dyi = exp − 2 ∑ (xi j − a)2 ×
σ2o σ2 i σo (2π)J/2 σJ ( σ12 + σJ2 )1/2 2σ j=1
o
Z∞
( " # µ ¶ · µ ¶ ¸)
yi J 1 1 J 1/2 1 J
exp 2 ∑ (xi j − a) √ + 2 exp −1/2 + 2 y2i dyi . (11)
σ j=1 2π σ 2
o σ σ 2
o σ
−∞
De l’autre côtè on sait que si une variable aléatoire ζ suit la loi normale N(Eζ, Varζ) de
paramètres Eζ et Varζ, alors
t2
Eeitζ = exp{itEζ − Varζ}. (12)
2
représente la fonction caractéristique de ζ. Dans notre cas
ζ = δ. + δ.. = X.. − a,
J
1 1
Eζ = 0, Varζ = 1 J
+ σ2
, it = 2
σ ∑ (xi j − a)2, (13)
σ2 o
j=1
et donc
1
L(a, σ2o , σ2 ) = ³ ´I/2 ×
(2π)IJ/2 σIJ σIo 1
σ2o
+ J
σ2
" #2
1 I J 1 I J
exp − 2 ∑ ∑ (Xi j − a) + σ4
2
∑ ∑ (Xi j − a) , (15)
2σ i=1 j=1 2( 2 + Jσ2 ) i=1 j=1 σo
d’où l’on tire que
1 I J
ln L(a, σ2o , σ2 ) = ln(const) − 2 ∑ ∑
2σ i=1 j=1
(Xi j − a)2 +
" #2
I J
1
³ ´∑ ∑ (Xi j − a)2 . (16)
σ4
2 σ2o
+ Jσ2 i=1 j=1
160
" #2
I J I
∑ ∑ (Xi j − a) = IJ 2 (X.. − a)2 + J 2 ∑ (Xi. − X.. )2 , (17)
i=1 j=1 i=1
IJ J I
−2 ln L(a, σ2o , σ2 ) = −2 ln(const) +
σ2
(X.. − a)2
+ ∑ (Xi. − X..)2+
σ2 i=1
1 I J IJ 2 J2 I
∑ ∑
σ i=1 j=1
2
(Xi j − Xi. )2 − σ4
+ σ2 J
(X.. − a)2 − σ4
+ σ2 J
∑ (Xi. − X..)2 =
σ2o σ2o i=1
I I J
∑ (Xi. − X.. )2 ∑ ∑ (Xi j − X.. )2
(X.. − a)2 i=1 i=1 j=1
−2 ln (const) + + + =
1 2 σ2
σ2o + σJ
2
σ2
I (σo + J )
est une statistique exhaustive. Il est évident que les meilleurs estimateurs sans biases pour
a, σ2 et σ2o + σ2 /J sont
I J
1
â = X.. , σˆ2 = ∑ ∑
I(J − 1) i=1 j=1
(Xi j − Xi. )2 , (20)
σˆ2 1 I
ˆ
σo +
2
J
= ∑
I − 1 i=1
(Xi. − X.. )2 , (21)
161
on a
√ q
|X.. − a|
P Is ≤ F1,I−1 (P) = P, (24)
I
1
I−1 ∑ (Xi. − X.. )2
i−1
i
J
1
4 ∑ (Xi j − Xi. )2 75 ∗ 10−7 115 ∗ 10−7 95 ∗ 10−7 97 ∗ 10−7 77 ∗ 10−7
i=1
Table 2.
De plus, on a
I
1
∑ (Xi. − X..)2 = 0.020559808, ∑ I(Xi. − X..)2 = 0.005139952,
4 i=2
i=1
s
1 I I J
∑ i. ..
4 i=1
(X − X )2 = 0.071693458557946,
∑ ∑ (Xi j − Xi.)2 = 0.0001836,
i=1 j=1
v
u
1 I J u1 I J
∑ ∑
20 i=1 j=1
(Xi j − Xi. )2 = 0.00000918, t ∑ ∑ (Xi j − Xi. )2 = 0.003029851481508,
20 i=1 j=1
1 I 1 I J
∑
4 i=1
2
(Xi. − X.. ) − ∑ ∑
100 i=1 j=1
(Xi j − Xi. )2 = 0.005138116,
v
u I
u1 I J
t ∑ (Xi. − X.. )2 − 1 ∑ ∑ (Xi j − Xi. )2 = 0.071680652898814,
4 i=1 100 i=1 j=1
I
1
4 ∑ (Xi. − X.. )2
i=1
I J
= 559.9076252723311.
1
20 ∑ ∑ (Xi j − Xi. )2
i=1 j=1
162
La surface de section de la bille de numéro i est égale à
π
(a + δi )2 ,
4
et l’espérance de la section de n’importe quelle bille est égale à
π π π
E(a + δi )2 = (a2 + Eδ2i ) = (a2 + σ2o ),
4 4 4
car Eδi = 0 et Varδi = Eδ2i . Mais comme
σ2o σ2
EX..2 = VarX.. + (EX.. )2 = + + a2 ,
I IJ
on obtient l’estimateur sans biais de π4 (a2 + σ2o ) :
à !
π σˆ2o σˆ2
X.. − − − σˆ2o =
2
4 I IJ
π 0.00514
[(12.00488)2 + 0.00514 − ] = 113.1926.
4 5
Par ailleur, on a
a + δi ∼
= Xi. , E{Xi. |δi } = a + δi
et donc
σ2
Var{Xi. |δi } = , E{Xi.2 |δi } = Var{Xi. |δi } + (a + δi )2 ,
J
et donc l’estimateur sans biais pour la surface de la section de la bille de numéro i est
à !
π σ ˆ2 π¡ 2 ¢
Xi.2 − = Xi. − 0.0000018 .
4 J 4
Les valeurs numériques de ces estimateurs pour les billes de numéros 1,2,3,4,5 sont
respectivement (la moyenne arithmétique est égale à 113.06920). Enfin, on remarque que
163
où µ ¶
1 exp − x − µ , x ≥ µ,
f (x; θ) = σ σ
0, sinon.
Il est évident que µ ¶
1 x−µ
f (x; θ) = exp − H(x − µ), (2.1)
σ σ
½
1, si x ≥ 0,
H(x) =
0, si x < 0.
On sait que
EXi = µ + σ et Var Xi = σ2 . (2.2)
Notons X (n) = (X(1) , X(2) , . . . , X(n) )T le vecteur des statistiques d’ordre associé au vecteur
de observation X,
P{X(1) < X(2) < · · · < X(n) } = 1. (2.3)
Il est facile de montrer que T = (X(1) , S)T est une statistique exhaustive pour le paramètre
θ, où
n
X(1) = min(X1 , X2 , . . . , Xn ) et S = ∑ (X(i) − X(1) ). (2.4)
i=2
En effet, la fonction de vraisemblance de X est
( )
n
1 1 n
L(X; θ) = ∏ f (Xi ; θ) = n exp − ∑ (Xi − µ) H(X(1) − µ) =
i=1 σ σ i=1
( )
n
1 1
=
σn
exp − ∑ (X(i) − µ) H(X(1) − µ).
σ i=1
(2.5)
Comme
n n n n
∑ Xi = ∑ X(i) = ∑ (X(i) − X(1)) + nX(1) = ∑ (X(i) − X(1)) + nX(1),
i=1 i=1 i=2 i=2
on en tire que la statistique T = (X(1) , S)T est exhaustive minimale pour θ = (µ, σ)T . Il est
connu que X (n) est une statistique exhaustive pour θ, mais X (n) n’est pas intéressante parce
qu’elle a la même dimension n que le vecteur X, c’est-à-dire que X (n) ne réduit pas des
données. Le vecteur
n
U = (X(1) , ∑ X(i) )T
i=2
est aussi une statistique exhaustive minimale pour θ. Il est facile de montrer que la densité
de X(1) est donnée par la formule
n n n o
exp − (x(1) − µ) H(x(1) − µ), (2.6)
σ σ
i.e., X(1) suit une loi exponentielle E (µ, σ/n),
σ σ2
EX(1) = µ + et Var X(1) = . (2.7)
n n2
164
Nous pouvons donc dire que la statistique nX(1) ∼ E (nµ, σ), et de (2) et (7) on obtient que
Maintenant nous alons montrer que X(1) et S sont indépendantes. Tout d’abord on remarque
que la densité de X(·) est
( )
n n
n! 1
g(x(·) ; θ) = n! ∏ f (x(i) ; θ) = n exp − ∑ (x(i) − µ) H(x(1) − µ) =
i=1 σ σ i=1
n n n o (n − 1)!
= exp − (x(1) − µ) H(x(1) − µ) n−1 ×
σ σ σ
( )
1 n
× exp − ∑ (x(i) − x(1) ) H(x(2) − x(1) ), (2.9)
σ i=2
où
x(·) = (x(1) , . . . , x(n) )T ∈ Bµ = {x ∈ Rn : µ ≤ x1 ≤ x2 ≤ · · · ≤ xn }, (2.10)
d’où on tire que
( )
(n − 1)! 1 n
exp − ∑ (x(i) − x(1) ) , x(1) ≤ x(2) ≤ · · · ≤ x(n) , (2.11)
σn−1 σ i=2
On constate que cette loi conditionnelle ne dépend pas de µ. En plus de (4) et (9) on dé-
duit que si la valeur x(1) de la statistique X(1) est fixée, X(1) = x(1) , alors la statistique
(X(2) , X(3) , . . . , X(n) )T représente le vecteur des statistiques d’ordre obtenu à partir d’un
échantillon de dimension n − 1, dont les éléments suivent la loi exponentielle
½ ¾
1 x − x(1)
exp − H(x − x(1) ).
σ σ
Maintenant on va chercher la densité conjointe q(y; θ),
y = (y1 , . . . , yn )T ∈ Bµ = {x ∈ Rn : µ ≤ y1 , 0 ≤ y2 ≤ · · · ≤ yn },
des statistiques
X(1) et (X(2) − X(1) , . . . , X(n) − X(1) )T ,
c’est-à-dire la densité de la statistique
où
Y1 = X(1) , Y j = X( j) − X(1) , j = 2, . . . , n. (2.12)
On constate que la statistique Y est le résultat d’une transformation linéaire la statistique
X (n) :
Y = BX (n) ,
165
où ° °
° 1 0 0 ... 0 °
° °
° −1 1 0 ... 0 °
° °
° ... 0 °
B = ° −1 0 1 °,
° .. °
° . °
° °
° −1 0 0 ... 1 °
et donc
X (n) = B−1Y ,
où ° °
° 1 0 0 ... 0 °
° °
° 1 1 0 ... 0 °
° °
° 1 0 1 ... 0 °
B−1 = ° °.
° .. °
° . °
° °
° 1 0 0 ... 1 °
Comme det B = 1, de (9) on tire
d’où on tire que la densité conjointe de X(1) et (X(2) − X(1) , . . . , X(n) − X(1) )T est le produit
de deux densités et donc les statistiques X(1) et (X(2) − X(1) , . . . , X(n) − X(1) )T sont indépen-
n
dantes, d’où on tire que X(1) et ∑ (X(i) − X(1) ) sont indépendantes.
i=2
En plus de (13) il suit que
n
∑ (X(i) − X(1))
i=2
suit une loi gamma dont la densité est
1
yn−2 e−y/σ H(y),
σn−1 Γ(n − 1)
parce que
(n − 1)! 1 n
σn−1
exp{− ∑ yi},
σ i=2
0 ≤ y2 ≤ y3 ≤ . . . yn ,
i.e. avec une loi exponentielle E (0, σ), et donc la variable aléatoire
1 n 1 n
∑ i σ ∑ (X(i) − X(1)) = γn−1
σ i=2
Y =
i=2
166
est distribuée comme la somme de (n − 1) variables aléatoires indépendantes, qui forment
un échantillon de volume (n − 1) d’une loi exponentielle E (0, 1), i.e., S suit une loi gamma
avec (n − 1) degrés de liberté et de paramètre d’échelle σ.
n n
S = ∑ Yi = ∑ (X(i) − X(1) ) = σγn−1 , (2.14)
i=2 i=2
et donc
ES = E{σγn−1 } = (n − 1)σ, Var S = Var {σγn−1 } = σ2 (n − 1). (2.15)
Dans ce cas la statistique
1 n n
σ̄n = ∑
n − 1 i=2
(X(i) − X(1) ) =
n−1
(X̄n − X(1) ) (2.16)
σ2
Var σ̄n = . (2.17)
n−1
Enfin, en utilisant (7) et (16) nous pouvons construire le meilleur estimateur sans biais µ̄n
pour µ :
σ̄n 1 n
1
µ̄n = X(1) −
n
= X(1) − ∑
n(n − 1) i=2
(X(i) − X(1) ) = X(1) −
n−1
(X̄n − X(1) ). (2.18)
Comme les statistique X(1) et S sont indépendantes, les statistiques X(1) et σ̄n sont aussi
indépendantes et par conséquent
1 σ2 σ2 σ2
Var µ̄n = Var X(1) + Var σ̄n = + = . (2.19)
n2 n2 (n − 1)n2 n(n − 1)
Corollaire 1. Comme
n n n
∑ (X(i) − X(1)) = ∑ Yi = ∑ (n − i − 1)[X(i) − X(i−1)], (2.20)
i=2 i=2 i=2
sont indépendantes et
167
Remarque 1. (Méthode des moments). Comme
EXi = µ + σ et Var Xi = σ2
pour estimer θ = (µ, σ)T nous pouvons utiliser la méthode des moments. D’après cette
méthode en qualité d’estimateurs µ̃n et σ̃n de µ et σ il faut choisir la solution du système
(
µ + σ = X̄n ,
σ2 = s2n ,
puisque X̄n et s2n sont l’espérance et la variance de le loi empirique correspondant à l’échan-
tillon X = (X1 , . . . , Xn )T , d’où on obtient que
où s
1 n
µ̃n = X̄n − sn = X̄n − ∑ (Xi − X̄n)2,
n i=1
s
1 n
σ̃n = sn = ∑ (Xi − X̄n)2.
n i=1
Remarque 2. (Méthode du maximum de vraisemblance). De (5) on a
( )
n
1 1
L(X; θ) = L(X; µ, σ) = n exp − ∑ (Xi − µ) H(X(1) − µ),
σ σ i=1
n 1 n
− + 2 ∑ (Xi − X̄n ) = 0,
σ σ i=1
i.e.,
1 n
σ̂n = ∑ (Xi − X̄n) = X̄n − X(1),
n i=1
et donc
θ̂n = (µ̂n , σ̂n )T .
On remarque que les meilleurs estimateurs sans biais pour µ et σ sont
µ ¶
n 1 n−1
µ̄n = µ̂n − X̄n et σ̄n = σ̂n .
n−1 n n
168
Chapitre 3
ELEMENTS DE LA STATISTIQUE
NON PARAMETRIQUE.
Z+∞
a2k = EX12k = x2k dF(x). (3.2)
−∞
On sait que dans ce cas tous les moments a j , 1 ≤ j ≤ 2k, existent ainsi que les moments
centraux m j ,
1 n
Fn (x) = Fn (x; x1 , . . . , xn ) = ∑ 1(−∞,x] (xi ), x ∈ R1 , (3.5)
n i=1
169
1 n
Fn (x) = Fn (x; X1 , . . . , Xn ) = ∑ 1(−∞,x] (Xi ), (3.6)
n i=1
calculée au point choisi x.
Par construction, la fonction Fn (x), x ∈ R1 , a toutes les propriétés d’une fonction de
répartition, car elle est croissante de 0 à 1 et continue à droite, et pour cette raison nous
pouvons introduire une vaiable aleatoire, disons X, dont la loi conditionnelle, conditionnée
par X = x, est donnée par la fonction Fn (x), c’est-à-dire
1
P{X = Xi |X} = pour tout i = 1, 2, . . . , n, (3.9)
n
c’est-à-dire que la loi empirique affecte le même poids 1/n à chaque élément Xi de l’échan-
tillon X = (X1 , X2 , . . . , Xn )T , et Fn (x) est la fonction de répartition de cette loi. Soit αm le
moment d’ordre m de la loi empirique. Alors de (6), (8) et (9) on déduit
1 n m
αm = E{X m |X} = ∑ Xi ,
n i=1
(3.10)
1 n
α1 = E{X|X} = ∑ Xi = X̄n.
n i=1
(3.11)
1 n
E{(X − α1 )2 |X} = E{(X − X̄n )2 |X} = α2 − α21 = ∑ (Xi − X̄n)2 = s2n.
n i=1
(3.12)
La loi empirique (9) et sa fonction de répartition Fn (x), x ∈ R1 , jouent un rôle très important
dans la statistique mathématique ; c’est pour cela que nous allons parler un peu plus en détail
de ses propriétés et qualités.
Premièrement, on remarque que pour tout x fixé, x ∈ R1 ,
170
Var 1]−∞,x] (Xi ) = F(x)[1 − F(x)], (3.14)
car pour tout x fixé la statistique 1]−∞,x] (Xi ) représente la variable aléatoire de Bernoulli de
paramétre p = F(x), puisque
(
P{1]−∞,x] (Xi ) = 1} = P{Xi ≤ x} = F(x) = p,
(3.15)
P{1]−∞,x] (Xi ) = 0} = P{Xi > x} = 1 − F(x) = 1 − p = q.
D’autre part nous avons
1 n 1
Fn (x) = ∑
n i=1
1]−∞,x] (Xi ) = νn (x),
n
(3.16)
où
n
νn (x) = ∑ 1]−∞,x] (Xi ). (3.17)
i=1
Comme les variables aléatoires X1 , X2 , . . . , Xn sont indépendantes et suivent la même loi
F(x), i.e. P{Xi ≤ x} = F(x), de (13)-(17) il s’ensuit que pour tout x fixé
Remarque 1. Le théorème 1 nous dit que {Fn (x)}n∈N est une suite cohérente d’es-
timateurs sans biais de F(x) pour tout x fixé, x ∈ R1 . Cela signifie que si la taille n de
171
l’échantillon X = (X1 , . . . , Xn )T est grande, alors la valeur de la fonction Fn (x) en un point x
la réalisation de la fonction de répartition empirique Fn (x) en ce point, peut-être considérée
comme une bonne approximation de la valeur F(x). Cela veut dire que si F est inconnue,
on pourra supposer que
Fn (x) ∼
= F(x) (3.23)
pour tout x et cette approximation est d’autant meilleure que le nombre n des observations,
c’est-à-dire notre information sur F, est plus grand.
c’est-à-dire que la loi déconditionnée de la variable aléatoire X est la même que celle de Xi ,
élément de l’échantillon X,
Théorème 2. (Glivenko-Cantelli)
n o
P lim Dn = 0 = 1. (3.25)
n→∞
Le théorème de Glivenko-Cantelli nous dit que la suite {Fn (x)} des fonctions de répar-
tition empiriques converge presque sûrement vers F(x) uniformément par rapport à x quand
n → ∞. La réalisation
Dn = sup |Fn (x) − F(x)|
|x|<∞
172
Théorème 4. Si F(x) est continue, alors
Ãr !
2n
P{lim sup sup | Fn (x) − F(x) | = 1} = 1.
n→∞ ln ln n x
Remarque 3. Pour avoir une idée de la conduite de F(x) on construit souvent le graphe
de la fonction Fn (x), réalisation de la fonction de répartition empirique Fn (x). Pour construire
le graphe de Fn (x) on utilise le vecteur
des statistiques d’ordre, construit à partir de l’échantillon X. Soit x(·) = (x(1) , ..., x(n) )T ,
la réalisation de la statistique X (·) . Comme on le sait le vecteur x(·) s’obtient à partir de
x = (x1 , . . . , xn )T en ordonnant les xi par ordre croissant, c’est-à-dire que l’on a
les différentes valeurs prises par les xi . Le nombre k des différentes valeurs
173
prises par x1 , x2 , . . . , xn , peut être strictement inférieur à n s’il y a des ex-aequo. Notons ν j
la fréquence de la valeur e j , j = 1, 2, . . . , k. Il est évident que
ν1 + ν2 + . . . + νk = n.
on voit que le moment αm de la loi empirique est un estimateur sans biais de am . On re-
marque ici que tous les moments αm , m = 1, 2, . . ., de la loi empirique (9) existent, tandis
que la loi F n’a d’après notre hypothèse (2), que les moments a1 , . . . , a2k . Si nous prenons
m ≤ k, alors nous pouvons calculer la variance de la statistique αm , car
( )
n
1 1
Var αm = Var ∑
n i=1
Xim = Var X1m =
n
1 © 2m ª 1
=EX1 − (EX1m )2 = (a2m − a2m ). (3.34)
n n
De cette formule on déduit que la variance, Var αm , de l’estimateur αm existe si m ≤ k.
De plus on en déduit que Var αm → 0 quand n → ∞, et par conséquent de l’inégalité de
Tchebyschev il résulte que pour tout ε > 0
Var αm a2m − a2m
P {|αm − am | > ε} = P {|αm − Eαm | > ε} ≤ = → 0, (3.35)
ε2 nε2
quand n → ∞. Ainsi de (33) et (35) il résulte que {αm } est une suite consistante (cohérente)
d’estimateurs sans biais de am (m = 1, 2, . . . , k). On peut remarquer que pour estimer la
174
précision de l’estimateur αm du moment am on a eu besoin d’utiliser le moment α2m d’ordre
2m.
Exemple 1. Soient a = EX1 et σ2 = Var X1 et supposons que nous voulions estimer a.
Comme nous l’avons dit, nous pouvons prendre la moyenne
1 n
α1 = ∑ Xi = X̄n
n i=1
a2 − a2 σ2 n − 1 2
= a2 − a2 − = σ2 − = σ ,
n n n
i.e. s2n est un estimateur de σ2 qui a un biais bn ,
σ2
bn = E(s2n − σ2 ) = − . (3.39)
n
Si nous prenons la statistique
1 n n 2
Sn2 = ∑
n − 1 i=1
(Xi − X̄n )2 = s
n−1 n
(3.40)
comme estimateur de σ2 , alors on aura un estimateur sans biais de σ2 , car de (40) on déduit :
µ ¶
n 2 n
2
ESn = E sn = Es2 = σ2 . (3.41)
n−1 n−1 n
175
Pour calculer la variance Var s2n de la statistique s2n ,
µ ¶
n − 12 4
Var s2n = E(s2n )2 − (Es2n )2 = E(s2n )2 − σ , (3.42)
n
il nous faut savoir calculer E(s2n )2 . Pour faire cela on remarque que la statistique (Xi − X̄n )2
est invariante par rapport à la moyenne a = EX1 de la loi F. Cela veut dire que si nous
posons Yi = Xi − c (i = 1, 2, . . . , n), où c est un nombre arbitraire et si
1 n
Ȳn = ∑ Yi ,
n i=1
n−1 n 2 2
= 2 ∑ Xi − ∑ Xi X j , (3.44)
n i=1 n i< j
d’où, comme EX1 = 0 par hypothèse et de l’indépendence de Xi et X j , on déduit
( )
(n − 1)2 4
E(s2n )2 = E
n4 ∑ Xi2 X j2 + 4 ∑ Xi2 X j2 =
n i< j
i< j
(n − 1)2 (n − 1)2 + 2
= m 4 + (n − 1)σ4 . (3.45)
n3 n3
De (42) et (45) il résulte que
µ ¶
(n − 1)2 n−3 4
Var Sn2 = m4 − σ , (3.46)
n3 n−1
et par conséquent, on en déduit que
De (46) il est facile de déduire la variance Var Sn2 de la statistique Sn2 , qui est le meilleur
estimateur sans biais de σ2 (41). On a
µ ¶ µ ¶
n 2 n2 1 n−3 4
2
Var Sn = Var s = 2
Var sn = m4 − σ , (3.47)
n−1 n (n − 1)2 n n−1
et on voit que Var Sn2 tend aussi vers 0 quand n → ∞. Comme pour tout ε > 0
©¯ ¯ ª ©¯ ¯ ª Var Sn2
P ¯Sn2 − σ2 ¯ ≥ ε = P ¯Sn2 − ESn2 ¯ ≥ ε ≤ → 0, (3.48)
ε2
176
quand n → ∞, nous pouvons dire que {Sn2 } est une suite cohérente d’estimateurs sans biais
de la variance σ2 de la loi F(x). On remarque ici, que de (47) on déduit
i.e. le risque quadratique de s2n est plus petit de celui de Sn2 , mais l’estimateur s2n a le biais
bn = −σ2 /n.
Nous avons montré (35) que le moment
1 n m
αm = ∑ Xi
n i=1
1
Eαm = am et Var αm = (a2m − a2m ) → 0, quand n → ∞.
n
Que pouvons nous dire de plus ? La statistique
1 n m
αm = ∑ Xi , m = 1, . . . , k,
n i=1
est la somme des variables indépendantes X1m , ..., Xnm , puisque les variables aléatoires X1 , . . . , Xn
sont indépendantes et que de plus elles suivent la même loi. En outre, nous savons que la
variance
Var Xim = a2m − a2m
existe pour tout m = 1, 2, . . . , k. Par conséquent du théorème central limite il résulte que
½ ¾ ( )
αm − am √ αm − am
P √ =P np < x → Φ(x) quand n → ∞, (3.49)
Var αm a2m − a2m
c’est-à-dire que la suite {αm }m∈N∗ est asymptotiquement normalement distribuée de para-
mètres am et (a2m − a2m )/n, ce que nous écrivons de la manière suivante :
µ ¶
a2m − a2m
αm est AN am , , (3.50)
n
ou la suivante :
√ αm − am
np est AN(0, 1). (3.51)
a2m − a2m
D’après (35) nous savons que si n → ∞ alors pour tout ε > 0
P {|αm − am | ≥ ε} → 0. (3.52)
177
En utilisant l’approximation normale (49) nous pouvons estimer la probabilité de l’événe-
ment {|αm − am | ≥ ε}. On a
½ ¾
|αm − am | ε
P {|αm − am | ≥ ε} = P √ ≥√ . (3.53)
Var αm Var αm
Si n est assez grand alors de (49) et (53) il résulte que
( √ )
ε n
P {|αm − am | ≥ ε} ≈ 2Φ − p , (3.54)
a2m − a2m
où
Zx
1 2 /2
Φ(x) = √ e−y dy
2π
−∞
est la fonction de répartition de la loi normale N(0, 1), qui satisfait l’identité suivante :
Φ(x) + Φ(−x) ≡ 1, |x| < ∞. (3.55)
Notons ici, que si Z est une variable aléatoire qui suit la loi normale N(0, 1),
P{Z ≤ x} = Φ(x), x ∈ R1 ,
alors de (55) il résulte que
P{|Z| ≤ x} = 2Φ(x) − 1, (3.56)
ce qui a déjà été utilisé pour obtenir (54) à partir de (49). Ainsi, de (53)-(56) il résulte que
( √ ) ( √ )
ε n ε n
P {|αm − am | ≤ ε} ≈ 1 − 2Φ − p = 2Φ p − 1, (3.57)
a2m − a2m a2m − a2m
i.e. pour tout ε > 0 on a
( √ )
ε n
P {αm − ε ≤ am ≤ αm + ε} ≈ 2Φ p − 1, (3.58)
a2m − a2m
quand n est assez grand.
Nous devons constater que nous ne pouvons pas utiliser (58) directement pour savoir
avec quelle probabilité l’intervalle
[αm − ε; αm + ε] (3.59)
"couvre" la valeur inconnue de am , ou, comme on dit, avec quelle probabilité am appartient
à l’intervalle [αm − ε; αm + ε], que l’on appelle un intervalle de confiance. Pour avoir la
possibilité d’utiliser (58) pour estimer
P {am ∈ [αm − ε; αm + ε]}
nous devons substituer aux paramètres inconus a2m et a2m dans la partie droite de (58) leurs
estimateurs α2m et α2m et de cette manière nous aurons pour n assez grand la relation sui-
vante : ( √ )
ε n
P {αm − ε ≤ am ≤ αm + ε} ≈ 2Φ p (3.60)
α2m − α2m
178
Maintenant nous allons utiliser l’approximation (60) pour construire l’intervalle de confiance
(59) tel que
P {am ∈ [αm − ε; αm + ε]} ≈ P = 1 − α, (3.61)
où la probabilité P = 1 − α, appelée le coefficient de confiance, est choisie d’avance, 0.5 <
P < 1, 0 < α < 0.5. Ayant choisi un coefficient de confiance P = 1 − α, il nous faut résoudre
l’équation ( )
√
ε n
2Φ p −1 = P = 1−α (3.62)
α2m − α2m
pour trouver ε qui satisfait à (61).
Soit α une probabilité telle que 0 < α < 0.5. Notons z+ α et zα les quantiles de seuils α
−
Φ(z−
α ) = α et Φ(z+
α ) = 1 − α, 0 < α < 0.5.
Nous voyons qu’en utilisant les moments α2m et αm de la loi empirique, et le fait qu’ils
sont asymptotiquement normalement distribués, nous sommes parvenus à construire pour
le moment am un intervalle de confiance (αm −ε; αm +ε) dont le coefficient de confiance est
approximativement égal à P = 1 − α. Dans la table 1 ci-dessous nous donnons les valeurs
+
de P = 1 − α les plus répandues dans la pratique et les valeurs xα/2 correspondantes, ce qui
permet facilement de calculer ε en utilisant la formule (65).
P = 1−α 0.90 0.95 0.99 0.995
+
xα/2 1.644854 1.959964 2.575829 2.807034 (3.67)
Table 1.
Exemple 3. Soit m = 1, c’est-à-dire que nous estimons la moyenne a = EX1 de la loi F(x).
Nous savons, d’après l’exemple 1, que α1 = X̄n , moyenne de la loi empirique, est un esti-
mateur sans biais de a, en outre, nous savons d’après (36) que
P {|X̄n − a| ≥ ε} → 0. (3.68)
179
Maintenant, en utilisant (57), nous obtenons que
à ! µ √ ¶
ε ε n
P {|X̄n − a| ≤ ε} ≈ 2Φ p − 1 = 2Φ − 1, (3.69)
Var X̄n σ
car
σ2
Var X̄n = , où σ2 = Var X1 = a2 − a21 = a2 − a2 .
n
√
Dans (69) nous pouvons,p en utilisant l’exemple 2, estimer le paramètre inconnu σ = σ2
par la statistique Sn = Sn2 , sachant que ESn = σ . Dans ce cas, de (69) il résulte que
2 2
µ √ ¶
ε n
P {|X̄n − a| ≤ ε} ≈ 2Φ −1 (3.70)
Sn
et par conséquent on obtient un analogue de (66)
½ ¾
+ Sn + Sn
P X̄n − xα/2 √ ≤ a ≤ X̄n + xα/2 √ ≈ P = 1 − α, (3.71)
n n
+
en choisissant dans (67) le coefficient de confiance P = 1 − α et le quantile xα/2 de la loi
normale N(0, 1). Il est évident que dans (71) on aurait pu utiliser la statistique sn comme
estimateur de σ au lieu de Sn , où s2n est la variance de la loi empirique.
Notons X (·) = (X(1) , . . . , X(n) )T le vecteur des statistiques d’ordre associé au vecteur X. Par
définition, la médiane de la loi empirique est la statistique
½
X¡ , ¢ si n = 2k + 1,
µn = 1 (k+1)
2 X(k) + X(k+1) , si n = 2k.
et on obtient
"µ ¶s #
1 2k + 2
P {µ2k+1 < x} = S2k+2 F(x) − , (3.2)
2 F(x)[1 − F(x)]
180
compliquée. On remarque que d’habituellement, dans la pratique, lorsque n est assez grand,
on utilise le fait que µ ¶
¡√ ¢ 1
L n(µn − µ) → N 0, 2 , (3.3)
4 f (µ)
ou plus précisément :
µ ¶
© √ ª 1
P 2 n f (µ)(µn − µ) < y = Φ(y) + O √ ,
n
où µ est la médiane de la loi F(x), F(µ) = 0.5, et f (x) est la densité de cette loi, c’est-à-dire
que f (x) = F 0 (x). La précision de cette approximation normale n’est pas très bonne quand
n n’est pas assez grand. Par ailleurs, il est très naturel de s’attendre à ce que la distribution
de la statistique µ2k+1 soit plus proche de la distribution de la statistique µ2k , et justement
Bolshev (1963) a utilisé ce fait pour construire une approximation qui est meilleure que
l’approximation normale (3).
Soit n √ o
Fn (x) = P µn < x 2πt , (3.4)
où t = 1/(8[n/2] + 5). Bolshev (1963) a démontré que
et
3x − (2π − 6)x3
F2k+1 (x) = Φ(x) + ϕ(x) t + O(t 2 ), (3.6)
6
d’où l’on peut déduire que la statistique
" Ã µ ¶2 !#
µn 1 µn
Yn = √ 1+ 3 − (2π − 6) √
2πt σ 2πt
donc
µ2k (P) ∼
= µ∗2k (P), (3.7)
où
µ∗2k (P) = µ2k+1 (P)[1 + 8(π − 2)t 2 ].
La formule (7) donne une bonne approximation, même pour les petites valeurs de n. Par
exemple si k = 1, alors la différence
181
prend les valeurs suivantes
Dans ce cas, si µ = µ(F) est la médiane de la distribution, dont la fonction de répartition est
F(x), alors
µ(F)
Z
f (x) dx = F(µ(F)) = 0.5,
−∞
i.e.
P {Xi < µ(F)} = P {Xi ≥ µ(F)} = 0.5.
Notre but est de construire un intervalle de confiance pour µ(F).
Soit X (·) = (X(1) , . . . , X(n) )T le vecteur des statistiques d’ordre, construit en utilisant
l’échantillon X. Dans ce cas avec la probabilité 1
(X(i) , X( j) ), i < j.
Il est très naturel de choisir cet intervalle symétrique en posant j = n − i − 1, puisque nous
nous sommes intéressés à l’obtention de conclusions statistiques qui sont indépendantes de
la distribution inconnue F. De la définition des statistiques d’ordre X(1) , ..., X(n) il s’ensuit
que © ª
P X(i) < µ(F) < X( j) |F =
© ª © ª
= 1 − P X(i) ≥ µ(F)|F − P X( j) ≤ µ(F)|F =
© ª © ª
= 1 − P F(X(i) ) ≥ F(µ(F))|F − P F(X( j) ) ≤ F(µ(F))|F =
= 1 − P(U(i) ≥ 0.5) − P(U( j) ≤ 0.5) =
i−1 µ ¶ µ ¶n n µ ¶ µ ¶n
n 1 n 1
= 1− ∑ −∑ ,
m=0
m 2 m= j
m 2
et on voit bien que cette probabilité ne dépend pas de F, c’est-à-dire qu’on a obtenu une
statistique "libre" comme on l’avait voulu. On note ici que comme d’habitude
182
représente le vecteur des statistiques d’ordre associé à l’échantillon U = (U1 , ...,Un )T de la
loi uniforme sur (0,1).
Maintenant, considérons l’intervalle de confiance "symétrique", i.e. j = n − i + 1. Dans
ce cas on a
© ª i−1 µ ¶ µ ¶n
n 1
P X(i) < µ(F) < X(n−i+1) |F = 1 − 2 ∑ ,
m=0
m 2
car µ ¶ µ ¶n µ ¶ µ ¶n i−1 µ ¶ µ ¶n
n n
n 1 n 1 n 1
∑ m 2
= ∑
m 2
= ∑
m 2
.
m= j m=n−i+1 m=0
par rapport à i (on remarque que 0.5 < P < 1), d’où l’on obtient
µ ¶
n + 1 − 2i 1+P
√ =Ψ ,
n 2
©√ ª +∞
n→∞
lim P nDn ≤ z = K(z) = ∑ (−1) j exp(−2 j2 z2 ). (3.1)
j=−∞
On dit que K(z) est la fonction de répartition de Kolmogorov. Il y a des tables sta-
tistique (voir, par exemple, Smirnov (1939), Birnbaum (1952), Bolshev et Smirnov (1968),
Conover (1980)) des valeurs de la fonction de Kolmogorov K(z), mais en pratique pour
183
faire des calculs approximatifs, quand z > 2.5, on utilise souvent une simple approximation
évidente :
K(z) ∼
2
= 1 − 2e−2z .
Soit P un nombre fixé, 0.5 < P < 1, et soit zP le quantile de niveau P de la fonction de la
répartition de Kolmogorov, c’est-à-dire zP est la racine de l’équation K(z) = P :
K(zP ) = P.
et que
P{U ≤ u} = 1 pour tout u ≥ 1.
Soit u un nombre réel quelconque, 0 < u < 1. Dans ce cas comme F(x) est continue et
croissante on obtient
© ª © ª
P{U ≤ u} = P F −1 (U) ≤ F −1 (u) = P X ≤ F −1 (u) =
184
Il est évident que si X est une variable aléatoire continue
F(x) = F− (x).
Colloraire 2. Soit U une variable aléatoire qui suit la loi uniforme sur [0,1] et qui est
indépendante de X. Dans ce cas la statistique
De plus, soient U1 ,U2 , . . . ,Un des variables aléatoires indépendantes, qui suivent la même
loi uniforme sur [0,1] et qui sont indépendantes de X1 , X2 , . . . , Xn . Dans ce cas, d’après de
colloraire 2, les statistiques Z1 , Z2 , . . . , Zn , où
Applications statistiques.
Soient X1 , X2 , . . . , Xm des variables aléatoires indépendantes et nous avons à tester l’hy-
pothèse H0 selon laquelle
ni !
P {Xi = k} = pk (1 − pi )ni −k , i = 1, 2, . . . , m,
(ni − k)!k! i
où tout les pi et n1 , n2 , . . . , nm sont connus, 0 < pi < 1 ; k = 0, 1, . . . , ni . C’est-à-dire que, si
H0 est vrai, alors Xi suit une loi binomiale B(ni , pi ( de paramètres ni et pi , et donc
et
Fi− (x) = P{Xi < x} = P{Xi ≤ x − 1} = I1−pi (ni − x + 1, x),
185
où Ix (a, b) définie ci-dessous est la fonction béta-incomplète d’Euler, et par conséquent pour
appliquer le test de Kolmogorov, par exemple, pour tester H0 il ne reste qu’à construire
d’après le colloraire 3 les statistiques
i = 1, 2, . . . , m.
Plus de détails on peut trouver dans Nikulin (1992), Huber et Nikulin (1993), Green-
wood et Nikulin (1996).
Récemment M.Hocine a fait les études intéressantes sur le comportement de ce test et
du test de type de omega-carré basées sur cette transformation de Smirnov.
D+
n = sup (Fn (x) − F(x)) et Dn− = − inf (Fn (x) − F(x)) ,
|x|<∞ |x|<∞
et
H1− : − inf (EFn (x) − F(x))
|x|<∞
186
respectivement.
Il est clair que Dn = max(D+ −
n , Dn ). En utilisant la transformation de Smirnov, on peut
montrer que
³m ´ µ ¶
+ − m−1
Dn = max − F(X(m) ) et Dn = max F(X(m) ) − . (3.1)
1≤m≤n n 1≤m≤n n
Il est clair aussi, que si H0 est vraie, alors
© ª © − ª
P D+ n ≤ x|H0 = P Dn ≤ x|H0 , (3.2)
c’est-à-dire que, D+ −
n et Dn suivent la même loi, quand H0 est vraie.
Comme a montré Smirnov (1944), pour tout x ∈ (0, 1)
µ ¶ µ ¶ µ ¶
© + ª [n(1−x)] n k k−1 k n−k
P Dn ≥ x|H0 = ∑ x x+ 1−x− , (3.3)
k=0
k n n
alors
½ ¾ µ ¶
(6nD+n + 1)
2 ¡ −x
¢ 2x2 − 4x − 1 −x 1
P < x|H0 = 1−e + e +O √ , (3.4)
18n 18n n n
et ½ ¾
(6nDn + 1)2
P < x|H0 =
18n
µr ¶ µ ¶
x 1 ∞ £ ¤ 1
=K
2
− ∑ (−1) e
18 k=−∞
k −k2 x 4 2
Pk (x) + 2k x − k + O √ ,
n n
(3.5)
où · ¸
2 1 − (−1)k
Pk (x) = k − (1 − 2k2 x) + 2k2 x(k2 x − 3) =
2
£ ¤ (−1)k − 1
= k2 2k2 x2 − 2x(k2 + 3) + 1 + (1 − 2k2 x).
2
Comme χ22m = 2γm et
9n
est approximativement distribuée comme χ22 et que
½ ¾ µr ¶
(6nDn + 1)2 x
P <x ≈K .
18n 2
187
Ces deux approximations sont déja bonnes pour n ≥ 20, les erreurs de ces approximations
diminuent comme n1 .
Soit α le niveau du test de Kolmogorov (0 < α < 0.5), basé sur la statistique Dn , et
soient xα+ et xα , les valeurs critiques des tests basés sur D+
n et Dn , i.e.
© + ª
P Dn ≥ xα+ = α et P {Dn ≥ xα } = α.
On peut montrer que cette erreur diminue très vite quand α diminue. Par exemple, si α ≤ 0.1
, alors
+
|xα − xα/2 | ≤ 0.00005.
+
Si n ≥ 10 et 0.01 ≤ α ≤ 0.2, pour calculer xα et xα/2 il est recommandé d’utiliser les
approximations de Bolshev (1963) :
s µ ¶
1 2y 2 − 4y − 1 α
xα ∼
= y− , y = − ln
2n 18n 2
s µ ¶
+∼ 1 2y2 − 4y − 1
xα = y− , y = − ln α.
2n 18n
On peut remarquer que si n est assez grand, alors
s µ ¶ r
1 2y2 − 4y − 1 ∼ y
y− = .
2n 18n 2n
Dans la pratique ces formules donnent déjà de bons résultats dans le cas α > 0.001 pour
n ≥ 20.
Enfin, si
0.2 ≤ α ≤ 0.3 et 10 ≤ n ≤ 50,
alors en prenant pour y la racine de l’équation
µr ¶
y
K = 1 − α,
2
on obtient encore une approximation de Bolshev (1963)
s ½ ¾
1 1 1
xα ∼
= y− [(2y2 − 4y − 1) − α3 (3y2 − y + 0.5)] − .
2n 18n 6n
188
Dans le cas n ≥ 100 toutes ces approximations sont très bonnes pour calculer xα et xα+ pour
tout α tel que 0.0001 ≤ α ≤ 0.5.
H0 : F(x) ≡ G(x), x ∈ R1 ,
ou
H1− : − inf (EGm (x) − EFn (x)) > 0
|x|<∞
D+
m,n = sup (Gm (x) − Fn (x)) et D−
m,n = − inf (Gm (x) − Fn (x)) . (3.2)
|x|<∞ |x|<∞
Smirnov a montré (1939) que si l’hypothèse H0 est vraie, alors les statistiques D+ +
m,n , Dn,m ,
− −
Dm,n , Dn,m suivent la même loi. En pratique les valeurs des statistiques (1) et (2) sont cal-
culées d’après les formules suivantes :
³r ´ µ ¶
+ s−1
Dm,n = max − Fn (Y(r) ) = max Gm (X(s) ) − ,
1≤r≤m m 1≤s≤n n
189
µ ¶ ³s ´
r−1
D−
m,n = max Fn (Y(r) ) − = max − Gm (X(s) ) ,
1≤r≤m m 1≤s≤n n
Dm,n = max(D+ −
m,n , Dm,n ),
où X(i) et Y( j) sont les statistiques d’ordre, correspondant aux échantillons. On peut obtenir
ces formules en utilisant la transformation de Smirnov et les propriétés des statistiques
d’ordre de la loi uniforme sur [0, 1]. Smirnov (1939) a montré, que si min(m, n) → ∞, alors
pour tout y positif ½r ¾
mn + 2
lim P Dm,n < y|H0 = 1 − e−2y ,
m+n
½r ¾
mn
lim P Dm,n < y|H0 = K(y),
m+n
où K(z) est la fonction de Kolmogorov.
contre l’alternative
H1 : sup |EFn (x) − F(x)| > 0,
|x|<∞
La statistique ω2 est aussi très intéressante à cause de ses liaisons avec d’autres statistiques,
bien connues en statistique, par exemple, avec la statistique Ln de Lehmann, la statistique
G de Gini, la statistique "σ" de Downton, la statistique Mn de Moran et Greenwood (pour
plus de détails voir, par exemple, Kendall et Stewart, Cramer, Mises). Pour démontrer ces
propriétés de la statistique ω2 , on peut l’écrire sous une autre forme, beaucoup plus pratique
dans les applications :
n · ¸
2i − 1 2 1
ω = ∑ F(X(i) ) −
2
+ ,
i=1 2n 12n
où X(·) = (X(1) , X(2) , . . . , X(n) )T est le vecteur des statistiques d’ordre, associé à l’échantillon
X.
190
En fait, on a
X(i+1)· ¸2
Z∞ n Z
i
ω2n =n [Fn (x) − F(x)] dF(x) = n ∑
2
− F(x) dF(x) =
i=0 X n
−∞ (i)
X(i+1)
Z · ¸ · ¸ · ¸
n n i 3 n n i 3 i 3
= ∑ d F(x) − = ∑ F(X(i+1) ) − − F(X(i) ) − .
3 i=0 n 3 i=0 n n
X(i)
On suppose que :
© ª © ª
P F(X(n+1) ) = 1 = 1 et P F(X(0) ) = 0 = 0.
Comme
i i+1 1
F(x) − = F(x) − +
n n n
alors · ¸ · ¸ · ¸
i 3 i+1 3 3 i+1 2
F(X(i+1) ) − = F(X(i+1) ) − + F(X(i+1) ) − +
n n n n
· ¸
3 i+1 1
+ 2 F(X(i+1) ) − + 3,
n n n
on en déduit que
(
n+1 · ¸3 · ¸
n i 3 n+1 i 2
ω2n =
3 ∑ F(X(i) ) −
n
+ ∑ F(X(i) ) −
n i=1 n
+
i=1
· ¸ · ¸ )
3 n+1 i n+1 n i 3
+ 2 ∑ F(X(i) ) − + 3 ∑ F(X(i) ) − =
n i=1 n n i=1 n
(µ ¶ · ¸ µ ¶
n n+1 3 3 n i 2 3 n+1 2
= 1− + ∑ F(X(i) ) − + 1− +
3 n n i=1 n n n
· ¸ µ ¶ )
3 n i 2 3 n+1 n+1
+ ∑ F(X(i) ) − + 2 1− + 3 =
n i=1 n n n n
( (· ¸ · ¸ ) )
n 1 3 n i 2 1 i 1 1
= + ∑ F(X(i) ) − + F(X(i) ) − + 2 − 2 =
3 n2 n i=1 n n n 4n 4n
( · ¸ )
n 3 n 2i − 1 2 1
=
3 n i=1∑ F(X(i) ) −
2n
+ 2 =
4n
n · ¸
2i − 1 2 1
= ∑ F(X(i) ) − + .
i=1 2n 12n
Donc si les éléments Xi de l’échantillon X sont des variables continues, des propriétés de la
transformation de Smirnov il suit que la statistique U = (U1 , . . . ,Un )T , Ui = F(Xi ), repré-
sente un échantillon, où Ui suit la loi uniforme sur [0, 1]. Si nous notons U(·) = (U(1) ,U(2) , . . . ,U(n) )T
191
le vecteur des statistiques d’ordre, associé à la statistique U, alors en fonction de U(·) la sta-
tistique ω2 peut être présentée de façon suivante :
n · ¸
2i − 1 2 1
ω = ∑ U(i) −
2
+ .
i=1 2n 12n
où
i(n − j − 1)
µ ¶µ ¶ (n + 1)2 (n + 2) , si i ≤ j,
i j
σi j = σ ji = E U(i) − U( j) − =
n+1 n+1
j(n − i + 1)
, si i ≥ j,
(n + 1)2 (n + 2)
192
et qu’on a la représentation suivante pour la statistique ω2 :
1
ω2 = Ln + Ψn + ,
6(n + 1)
où µ ¶2
n
i ³ ´T ³ ´
Ln = ∑ U(i) − = U − EU(·) (·)
U − EU (·)
(·)
i=1 n+1
est la statistique de Lehmann (1973), Ψn étant une combinaison linéaire des statistiques
d’ordre : µ ¶
n
n − 2i + 1 i
Ψn = ∑ U(i) − .
i=1 n(n + 1) n+1
Par des calculs directs, on peut montrer (voir, par exemple, Nikulin et Osidze (1985)), que
n n2
ELn = , VarLn = ,
6(n + 1) 45(n + 1)2
(n − 1)(n + 3)
EΨn = 0, VarΨn = ,
180n(n + 1)3
s
n−1 n−1
Cov(Ln , Ψn ) = , Corr(Ln , Ψn ) = .
90(n + 1)2 n(n + 3)
De plus on peut facilement vérifier que Ψn est liée par la relation suivante
n−1 n−1
Ψn = G+
2(n + 1) 6(n + 1)
à la statistique G de Gini :
1 ¯ ¯
G= ∑
n(n − 1) i, j
¯U(i) −U( j) ¯ ,
193
Notons Ω2n la statistique omega-deux généralisée
h iT h i
Ω2n = U(·) − EU(·) Σ −1 U(·) − EU(·) ,
où
n £ ¤2
Mn = ∑ U(i+1) −U(i)
i=1
est la statistique de Moran-Greenwood (voir, par exemple, Moran (1947)). La liaison di-
recte entre les statistique Mn et Ω2n et leurs propriétés nous permet d’affirmer que
(sµ ¶µ ¶ 2 )
3 3 Ωn − n
lim P 1+ 1+ √ < x|H0 = Φ(x), x ∈ R1 .
n→∞ n n+1 2 n+1
où
Di = U(i) −U(i−1) . (3.4)
On sait que
· ¸n+1
1
Esn = 1 − (3.5)
n+1
194
et · ¸
2nn+2 + n(n − 1)n+2 1 2(n+1)
Varsn = − 1− . (3.6)
(n + 2)(n + 1)n+2 n+1
En utilisant ces propriétés de la statistique sn , on déduit que
1 e−1
Esn → et Varsn → , n → ∞.
e e2
D’apres le théorème limite centrale, si n est assez grand,
½ ¾ µ ¶
esn − 1 1
P √ ≤ x = Φ(x) + O √ ,
e−1 n
ce qui signifie que la statistique de Sherman est asymptotiquement normale N(0, 1), et donc
la statistique
(esn − 1)2
X2 =
e−1
suit à la limite (n → ∞) la loi du chi-deux à un degré de liberté, et on peut utiliser ce résultat
pour tester l’hypothèse H0 selon laquelle Ui suit une loi uniforme sur [0, 1].
Soit U = (U1 ,U2 , . . . ,Un )T un échantillon, Ui suit une loi uniforme sur [0, 1],
Notons U(·) = (U(1) , ...,U(n) )T le vecteur des statistiques d’ordre, associé à la statistique U :
1 n
Fn (x) = ∑ 1[Ui≤x],
n i=1
x ∈ [0, 1]. (3.3)
Il est facile de montrer (voir, par exemple §10) que pour tout x donné, x ∈ [0, 1], la statistique
nFn (x) suit la loi binomiale B(n, x) de paramètres n et x et par conséquent on a :
195
où r(n) ≥ 1. Posons x0 = 0, xr+1 = 1,
x j = p1 + p2 + . . . + p j , j = 1, . . . , r.
Soit ν = (ν1 , ..., νr , νr+1 )T le vecteur des fréquences obtenues en regroupant U1 , ...,Un dans
les classes (6). Nous déterminons la fonction de répartition empirique Gn (x) associée au
vecteur ν par la formule :
½
0, x = x0 = 0,
Gn (x) = ν1 +ν2 +...+νi (3.7)
n , xi−1 < x ≤ xi , i = 1, 2, 3, . . . , r + 1.
Nous pouvons maintenant construire la statistique de Gihman
Zn = (Zn1 , . . . , Znr )T ,
où · ¸
√ √ ν1 + . . . + νi
Zni = n [Gn (xi ) − xi ] = n − (p1 + . . . + pi ) . (3.8)
n
Il est clair que
EZn = (0, . . . , 0)T = 0r et EZn ZTn = Σ , (3.9)
où ° ° ° °
° x1 x1 x1 · · · x1 ° ° x1 °
° ° ° °
° x1 x2 x2 · · · x2 ° ° °
° ° ° x2 °
° ° °
x3 · · · x3 ° − ° x3 °
Σ=° x1 x2 ° kx1 , x2 , . . . , xr k. (3.10)
° .. .. .. .. ° ° .. °
° . . . . ° ° °
° ° ° . °
° x1 x2 x3 · · · xr ° ° xr °
Nous allons étudier les propriétés asymptotiques de la statistique Zn quand n → ∞.
a) Supposons tout d’abord que
de façon que la longueur maximale des intervalles (6) de groupement des données aille vers
zéro assez vite, i.e., que
max npi → 0 si n → ∞. (3.12)
1≤i≤r+1
Notons √
D∗n = max |Zn,i | et Dn = sup n|Fn (x) − x|.
1≤i≤r 0≤x≤1
Théorème (Gihman, 1961). Si r → ∞ et que (12) est vérifiée quand n → ∞, alors les
statistiques Dn et D∗n sont asymptotiquement equivalentes :
196
De ce théorème il suit que sous la condition (12) nous pouvons utiliser la statistique Zn
quand n est assez grand pour construire des tests bien connus comme ω2 de Smirnov, Wn2
de Anderson et Darling (1952) ou de Sherman (1950) etc.
b) Maintenant nous supposons que les intervalles (6) sont fixés, r + 1 ≥ 2. Dans ce cas de
(3), (4), (8) et du théorème limite central multidimensionnel on déduit que la loi limite de
{Zn } quand n → ∞ est la loi normale N(0r , Σ ) de paramètres donnés par (9). Comme le
rang de la matrice de covariance Σ est égale à r, on en déduit qu’il existe une matrice
Σ−1 = kσi j k
dont les éléments σi j sont donnés par la formule suivante :
ij
σ = 0, |i − j| ≥ 2,
σ
i,i+1 = − 1 1
xi+1 −xi = − pi+1 , i = 1, . . . , r − 1,
(3.14)
σi,i−1 = − xi −x1 i−1 = − p1i , i = 1, . . . , r,
ii
σ = −(σi,i−1 + σi,i+1 ) = 1
xi+1 −xi + xi −x1 i−1 , i = j.
197
et supposons que nous voulions tester l’hypothèse H0 : µ = µ0 , où µ0 est un nombre donné,
contre l’une des trois hypothèses suivantes :
νn = Y1 +Y2 + . . . +Yn ,
où ½
1, si Xi > µ0 ,
Yi =
0, si Xi ≤ µ0 .
Il est évident que
P {Yi = 1|H0 } = F(µ0 ) = 1 − F(µ0 ) = 0.5,
i.e. sous l’hypothèse H0 la statistique Yi suit une loi de Bernoulli de paramètre de succès
p = 0.5, et par conséquent la statistique νn sous l’hypothèse H0 suit une loi binomiale de
paramètres n et p = 0.5 :
m µ ¶
n
P{νn ≤ m|H0 } = W (m, n) = ∑ (0.5)n =
i=0
i
νn ≥ K(α, n) (3.4)
198
une diminution de l’intensité d’arrivée des impulsions ? Pour répondre à cette question on
choisit le modèle statistique d’après lequel les nombres d’impulsions observées sont des
réalisations de deux variables indépendantes X et Y où X suit la loi de Poisson de paramètre
λ (λ > 0) et Y suit la loi de Poisson de paramètre µ (µ > 0). Dans ce modèle il est bien
naturel de considérer comme hypothèse H0 : λ = µ, et comme alternative H1 : λ > µ. Pour
tester H0 contre H1 on peut utiliser le test des signes.
Si notre modèle est bon, alors pour tout x, y ∈ {0, 1, 2, . . . ...}
λx −λ µy −y
P {X = x,Y = y} = e e =
x! y!
µ ¶x µ ¶y
(λ + µ)x+y −(λ+µ) (x + y)! λ λ
= e 1− ,
(x + y)! x!y! λ+µ λ+µ
et donc la loi conditionnelle de X, conditionnée par la somme X +Y = n, est binomiale de
paramètres n et p = λ/(λ + µ), et par conséquent on en tire que l’hypothèse H0 : λ = µ est
vraie si et seulement si la loi conditionnelle de X est binomiale de paramètres n et p = 0.5 :
µ ¶
n
P {X = x|X +Y = n, H0 } = (0.5)n ,
x
et il nous faut tester l’hypothèse H0 : p = 0.5 contre une alternative H1 : p > 0.5. On peut
montrer que c’est le test des signes qui est le plus puissant dans ce problème. D’après ce test
on doit rejeter H0 , si X ≥ K = K(α, n), où n = 20021 + 19580 = 39601. La valeur critique
K est déterminée comme étant la solution du système
½
P {X ≥ K|X +Y = 39601, p = 0.5} ≤ α,
P {X ≥ K − 1|X +Y = 39601, p = 0.5} > α.
199
Exemple 2. Soit Z = (Z1 , . . . , Zn )T un échantillon, Zi = (Xi ,Yi )T est un vecteur aléatoire
à deux dimensions dont la densité p(x, y) est inconnue. Supposons que pour tout i, Xi et Yi
soient indépendantes et qu’il faille tester l’hypothèse
Comme les Xi sont indépendantes de Yi , la condition (6) signifie que Xi et Yi sont distribuées
d’après la même loi (inconnue), et par conséquent pour tester H0 on peut construire le test
des signes. En fait, soit
1, si Xi −Yi > 0,
Vi = i = 1, 2, . . . , n. (3.7)
0, si Xi −Yi < 0,
où
R1 < R2 < R3 < · · · < Rm
sont les rangs des observations Y1 , . . . ,Ym dans l’échantillon unifié
200
de taille n + m. Pour construire le vecteur RY = (R1 , R2 , . . . , Rm )T des rangs des observa-
tions Y j , il faut construire le vecteur Z(·) des statistiques d’ordre, associé à l’échantillon Z,
et déterminer les numéros des positions des variables aléatoires Y j . Si, par exemple, l’hypo-
thèse H− est vraie, on dit que les variables aléatoires Y j sont stochastiquement plus grandes
que les variables aléatoires Xi , ce qui signifie en pratique que les variables aléatoires Y j
ont tendance (sous l’hypothèse H− ) à prendre des positions à l’extrémité droite du vecteur
des statistiques d’ordre Z et par conséquent leurs rangs Ri ont tendance à avoir de grandes
valeurs, et par suite la statistique de Wilcoxon a tendance à prendre de grandes valeurs, ce
que l’on utilise pour tester H0 contre H− , en rejetant H0 en faveur de H− quand W > cα , où
cα est la valeur critique du test de Wilcoxon. On peut montrer que
n(n + 1)
W =U + ,
2
où
n m
U = Um,n = ∑ ∑ Vi j , (3.1)
i=1 j=1
Par des calcul directs (mais pas simples !) on peut montrer que
m(N + 1) mn(N + 1)
E {W |H0 } = et Var {W |H0 } = ,
2 12
où N = n + m. Les valeurs critiques cα de niveau α (0 < α < 0.5) de la statistique W sont
des nombres entiers, qui satisfont aux inégalités
Pour les calculer on utilise, par exemple, les tables statistiques de Verdooren (1963) pour
Comme la distribution de la statisique W est symétrique par rapport à son espérance ma-
thématique EW , pour calculer une valeur critique c1−α , 0 < α < 0.5, on utilise la relation
suivante :
c1−α = EW − cα .
Il est évident que le couple (cα , c1−α ) nous donne les valeurs critiques du test bilatéral de
Wilcoxon de niveau 2α, que l’on utilise pour tester H0 contre H+ et H− à la fois.
Si l’un des deux nombres n ou m est supérieur à 25, pour calculer les valeurs critiques du
test de Wilcoxon, on utilise l’approximation normale de Mann et Whitney (1947), d’après
laquelle ½ ¾
W − EW
P √ < w|H0 → Φ(w),
VarW
quand min(m, n) → ∞, |w| < ∞.
201
Fix et Hodges (1955) ont donné une autre approximation, qui donne déjà de bons résul-
tats quand min(m, n) ≥ 5. D’après cette approximation
N + N − mn 2
P {W ≤ w|H0 } ∼
= Φ(x) + ϕ(x)(x3 − 3x) ,
20mn(N + 1)
où
w − EW + 0.5
N = m+n et√ x= .
VarW
Ce résultat permet d’obtenir assez facilement des approximations normales pour des valeurs
critiques cα : Ã r !
m(N + 1) − 1 mn(N + 1)
cα ∼
= − Ψ(1 − α) ,
2 12
où [x] dénote la partie entière du nombre x. On remarque ici que tous ces résultats, liés
avec des approximations, sont valables si parmi les Xi et Y j il n’y a pas d’ex aequo. En
principe, on ne devrait
© pas enªavoir, puisque Xi et Y j sont des variables aléatoires continues
et par conséquent P Xi = Y j = 0. Mais à cause des erreurs d’arrondis, on obtient souvent
des observations égales. Dans ce cas on attribue aux observations qui sont des ex aequo,
un rang égal à la moyenne arithmétique des rangs que ces observations auraient eu avant
la procédure d’arrondissement. Notons W ∗ = Wn,m ∗ la statistique de Wilcoxon dans ce cas.
où ti est le nombre d’ex aequo dans le groupe numéro i et M est le nombre des groupes d’ex
aequo.
Demonstration.
Soient X1 , X2 , . . . , Xn ,Y1 ,Y2 , . . . ,Ym des variables aléatoires continues, Xi suit une loi dont
la fonction de répartition est F(x) et Y j suit une loi dont la fonction de répartition est G(x)
avec, par exemple, G(x) = F(x − θ). Supposons que l’on teste l’hypothèse H0 , contre l’hy-
pothèse H− . Donc si H0 est vraie, alors les variables aléatoires
forment un échantillon
Z = (X1 , X2 , . . . , Xn ,Y1 ,Y2 , . . . ,Ym )T
de taille N = n + m. On remarque que
© ª
P Xi = Y j = 0,
car Xi et Y j sont continues, mais à cause des erreurs d’arrondi on a des ex aequo.
Tout d’abord, on remarque que comme
n(n + 1)
W = Wn,m = Un,m + ,
2
202
alors VarW = VarUn,m .
Supposons que le vecteur Z(·) des statistiques d’ordre ait au moins un groupe de statistiques
d’ordre qui soient égales et que les rangs de ces ex aequo dans ce groupe soient
k + 1, k + 2, . . . , k + t.
Soit µ le nombre des Xi de ce groupe, alors t − µ est le nombre des Y j parmi ces t ex-aequo.
Il est clair que µ suit la loi hypergéométrique :
µ ¶µ ¶
n m
x t −x
P {µ = x} = µ ¶ .
N
t
où
1, si Xi > Y j ,
Vi∗j = 0.5, si Xi = Y j , (3.4)
0, si Xi < Y j .
De (1) – (4) il résulte qu’en cas de présence d’un seul groupe d’ex aequo, on a l’identité par
rapport à µ :
∗ µ(t − µ)
Un,m (µ) +Uµ,t−µ − ≡ Wn,m . (3.5)
2
En cas de présence de M groupes d’ex aequo, la dernière identité peut être généralisée de
la façon suivante :
M µ ¶
µi (ti − µi )
Un,m (µ1 , µ2 , . . . , µM ) + ∑ Uµi ,ti −µi −
∗
≡ Un,m , (3.6)
i=1 2
où ti est le nombre d’ex aequo dans le groupe de numéro i, µi le nombre des Xi dans ce
groupe. De (5) il suit que
© ∗ ª nm
E Un,m (µ1 , µ2 , . . . , µM )|µ1 , µ2 , . . . , µM = . (3.7)
2
Comme la partie droite de (7) ne dépend pas de µi , on en tire que
∗ nm
EUn,m = .
2
De la même façon, comme
nm nm(N + 1)
VarUn,m = (n + m + 1) = ,
2 2
on obtient que
© ∗ ª M 1
Var Un,m (µ1 , µ2 , . . . , µM )|µ1 , µ2 , . . . , µM + ∑ µi (ti − µi )(ti + 1) =
i=1 12
203
nm
= (n + m + 1).
12
Comme © © ∗ ªª nm
Var E Un,m (µ1 , µ2 , . . . , µM )|µ1 , µ2 , . . . , µM = Var = 0,
12
on en tire que © © ∗ ªª
∗
VarUn,m = E Var Un,m |µ1 , µ2 , . . . , µM ,
donc on en déduit que
© ∗ ª M ti + 1 nm
Var Un,m (µ1 , µ2 , . . . , µM ) + ∑ E {µi (ti − µi )} = (n + m + 1).
i=1 12 12
Mais µ ¶µ ¶
n m
j ti − j ti (ti − 1)nm
E {µi (ti − µi )} = ∑ µ ¶ j(ti − j) = ,
j N N(N − 1)
tj
donc
M
∑ ti (ti2 − 1)
nm
∗ i=1 = VarW ∗ ,
VarU = (N + 1) 1 −
12 N(N 2 − 1)
où N = n + m.
Le problème, que l’on désigne souvent par estimation non paramétrique de la densité,
est le suivant :
étant donné un échantillon X = (X1 , ..., Xn )T , issu d’une distribution continue et dont la
densité f est inconnue, construire un bon estimateur de f .
Soit {hn } une suite de nombres positives (tailles de fenêtre ) telle que hn > 0, hn ↓ 0,
nhn → 0, quand n → ∞. Pour tout n fixé nous pouvons construire une partition de R1
[
R1 = ]khn , (k + 1)hn ],
k∈Z
1
h i hn correspondante. Pour tout x ∈ R il existe un intervalle
en utilisant la taille de fenêtre
]khn , (k + 1)hn ], avec k = hxn , tel que x ∈]khn , (k + 1)hn ] et donc nous pouvons déterminer
une application aléatoire fn : R1 → R1+ par la formule :
n
1
fn (x) =
nhn ∑ 1]khn,(k+1)hn](X j ), x ∈ R1 . (3.1)
j=1
204
Définition 1. Nous disons que fn (x), x ∈ R1 , est la densité empirique, basée sur l’échan-
tillon X = (X1 , ..., Xn )T . Le graphe de fn (x) s’appelle histogramme.
De (1) il suit que pour tout x ∈]khn , (k + 1)hn ], k ∈ Z, on a
1 νk
fn (x) = [Fn ((k + 1)hn ) − Fn (khn )] = , (3.2)
nhn nhn
où Fn (x) est la fonction empirique, basée sur X = (X1 , ..., Xn )T , νk est le nombre de X j dans
l’intervalle ]khn , (k + 1)hn ]. Souvent on dit que fn (x) est un estimateur non paramétrique
classique de la densité f (x).
En 1956 M. Rosenblatt a proposé un estimateur de type noyau
µ ¶
1 n x − Xj
fn (x) = ∑ K hn ,
nhn j=1
(3.3)
Le choix du noyau K dépend en général des propriétés de la densité f que l’on désire avoir.
Par exemple, Parzen (1962) a proposé de choisir le noyau
1
K(x) = 0.51[−1,1] (x), avec k= . (3.4)
2
Il est clair que si on choisit le noyau de Parzen, alors de (1), (2) et (4) on obtient l’estimateur
fn (x), appelé l’estimateur naïf de f(x) :
νk
fn (x) = ,
2nhn
où νk est le nombre de X j dans l’intervalle ]x − hn , x + hn ].
Souvent on utilise le noyau de Epanechnikov (1969)
2
K(x) = 0.72(1 − x2 )1[−1,1] (x), avec k = ,
3
voir aussi Bartlett (1963).
On donne ici encore quelques d’autres exemples :
le noyau de Gauss :
1 2 1
K(x) = √ e−x , avec k = √ ,
2π 2π
le noyau de Laplace :
1 1
K(x) = e−|x| , avec k = ,
2 2
le noyau de Cauchy :
1 1
K(x) = , avec k = ,
π(1 + x2 ) π
205
le noyau de Fejer :
µ ¶
1 sin 2x 1
K(x) = x , avec k= ,
2π 2 3π
le noyau de Tukey
15
K(x) = (1 − x2 )2 1[−1,1] (x).
16
Dans certains cas l’expression de K peut être plus compliquée. Les propriétées asympto-
tiques de fn ont été bien étudiées, voir par exemple, Deheuvels (1973, 1974), Devroye et
Györfi (1985), Watson et Leadbether (1963), Silverman (1986), Nikulin & Solev (2002),
etc.
Il est facile de montrer que pour l’estimateur classique (1) on a
où
ω f (h) = sup | f (x) − f (y)|,
|x−y|≤h
est le module de continuité de f , d’où on tire que si x est un point de continuité de f , alors
206
Chapitre 4
TESTS STATISTIQUES.
Θ =] − ∞, θ0 ], Θ0 = {θ0 }, et Θ1 =] − ∞, θ0 [,
l’alternative H1 : θ < θ0 est composée. Dans ces deux cas les alternatives H1 : θ > θ0 ou
H1 : θ < θ0 sont unilatérales.
Exemple 2. Soit Θ =]θ1 , θ2 [⊂ R1 , Θ0 = {θ0 }, θ1 < θ0 < θ2 et
[
Θ1 = Θ \ Θ0 =]θ1 , θ0 [ ]θ0 , θ2 [.
207
sinon on dit que le modèle (Rn , Bn , P ) est non paramétrique.
Exemple 3. Soit X un vecteur aléatoire et soit H0 l’hypothèse selon laquelle la fonction de
répartition de X est continue. Dans ce cas le modèle est non paramétrique.
Exemple 4. Soit X = (X1 , ..., Xn )T un échantillon, Xi suit une loi normale N(µ, σ2 ), i.e.
θ = (µ, σ2 )T ∈ Θ, Θ = {θ :| µ |< ∞, σ2 > 0}. Comme Θ ⊂ R2 , on a l’exemple d’un modèle
paramétrique.
et donc βϕ (θ) nous donne la probabilité avec laquelle X tombe dans la région critique K si
la vraie valeur de paramètre est θ.
Donc dans le cas d’un test pur le risque de première espèce est la probabilité de rejeter à
tort l’hypothèse H0 quand θ ∈ Θ0 , lorsque l’hypothèse H0 est vraie. Le risque de deuxième
208
espèce est la probabilité d’accepter l’hypothèse H0 quand θ ∈ Θ1 , lorsque l’hypothèse H0
est fausse.
Le test ϕ est bon, si les erreurs sont petites. On ne peut pas les rendre simultanément
aussi petites que l’on veut, parce que, en augmentant K, l’erreur de 2-ème espèce diminue
mais l’erreur de 1-ère espèce augmente et vice versa, en diminuant K l’erreur de 1-ère
espèce diminue mais celle de 2-ème espèce augmente.
Soit H0 : θ ∈ Θ0 .
Le nombre
α = sup βϕ (θ), 0 < α < 1,
θ∈Θ0
est appelé le niveau ou le seuil de signification du test ϕ, ce qui signifie que la probabilité
de rejeter H0 à tort ne devra pas dépasser α.
Le test ϕ de niveau α est sans biais, si sa puissance est supérieure ou égale à α, i.e. si
βϕ (θ) ≥ α pour ∀θ ∈ Θ1 .
Le test ϕ est uniformément le plus puissant (UPP) de seuil α, si pour tout autre test ψ
on a
βϕ (θ) ≤ βψ (θ) ≤ α ∀θ ∈ Θ0 ,
βϕ (θ) ≥ βψ (θ) ∀θ ∈ Θ1 .
Considérons le cas de l’hypothèse H0 et de l’alternative H1 simples :
H0 : θ = θ0 , H1 : θ = θ1 .
Dans ce cas la puissance d’un test statistique non randomisé, destiné à tester H0 contre H1 ,
est la probabilité de rejeter H0 quand l’alternative H1 est vraie :
π = Pθ1 {X ∈ K} = βϕ (θ1 ),
et le niveau de signification est la probabilité de rejeter H0 à tort :
α = Pθ0 {X ∈ K} = βϕ (θ0 ).
C’est la probabilité d’erreur de première espèce. La probabilité β = 1 − π s’appelle la pro-
babilité d’erreur de deuxième espèce.
Supposons que P = {Pθ0 , Pθ1 } est dominée par une mesure σ-finie µ et notons f0 et f1
les densités de Pθ0 et Pθ1 par rapport à µ.
Lemme de Neyman-Pearson. Pour tout α ∈]0, 1[ il existe des constantes cα > 0 et γα ∈
[0, 1] telles, que le test, basé sur la fonction critique
1, si p1 (x) > cα p0 (x),
ϕ(x) = γα , si p1 (x) = cα p0 (x),
0, sinon ,
209
a le niveau α et est le plus puissant parmi tous les tests ψ tels que Eθ0 ψ(X) ≤ α.
Démonstration.
1) On cherche des constantes cα et γα telles que Eθ0 ϕ(X) = α :
Eθ0 ϕ(X) = Pθ0 {p1 (X) > cα p0 (X)} + γα Pθ0 {p1 (X) = cα p0 (X)} = α. (1)
Posons ½ ¾
p1 (X)
F(c) = Pθ0 ≤c , c ≥ 0.
p0 (X)
F a un sens, puisque p0 (X) > 0 p.s., si X ∼ p0 (x).
Avec cette notation l’égalité (1) peut être écrite sous la forme
On obtient
F(c) − (1 − α)
γ = [α − 1 + F(c)]/[F(c) − F(c − 0)] = .
F(c) − F(c − 0)
Des inégalités (3) on tire
210
La dernière inégalité peut s’écrire :
C’est pourquoi Eθ1 ϕ(X) ≥ Eθ1 ψ(X), et le test ϕ est plus puissant que ψ.
µn = X1 + ... + Xn .
211
Supposons que n = 10, θ0 = 0.25 = 1/4. Si l’on choisit K = K5 = {5, 6, 7, 8, 9, 10}, dans ce
cas on a
10 µ ¶
10
Pθ0 {µn ∈ K5 } = ∑ θx0 (1 − θ0 )10−x =
x=5
x
10 µ ¶ µ ¶x µ ¶10−x
10 1 3
∑ x 4 4
= 0.0781 > α = 0.05.
x=5
Pθ0 {µn ∈ K5 } = Pθ0 {µn ≥ 5} = 0.0781 et Pθ0 {µn ∈ K6 } = Pθ0 {µn ≥ 6} = 0.0197,
On voit que
Eθ0 ϕ(µn ) = 1 · Pθ0 {µn ∈ K6 } + γ( 0.05)Pθ0 {µn = 5} =
= 0.0197 + 0.519 · 0.0584 = 0.050 = α.
La puissance de ce test randomisé quand θ = θ1 = 1
2 est égale à
10 µ ¶ µ ¶x µ ¶10−x µ ¶ µ ¶5 µ ¶5
10 1 1 10 1 1
∑ x 2 2
+ 0.519
5 2 2
=
x=6
= 0.3770 + 0.519 · 0.2461 = 0.5047.
Enfin on remarque que le risque de deuxième espèce β = 0.4953.
Exemple 2. Soit X = (X1 , . . . , X5 )T un échantillon. Trouver le plus puissant test de ni-
veau α = 0.1 vérifiant l’hypothèse H0 : U(−0.5; 0.5) contre l’alternative H1 : N(0; 0.009).
Vérifier l’hypothèse H0 si des réalisations de X sont
212
Solution. On cherche le test de Neyman-Pearson pur :
½
1, si L1 (X) > cL0 (X) ;
ϕ(X) =
0, sinon,
où
L0 (X) = 1{−0.5 ≤ X(1) ≤ X(5) ≤ 0.5},
½ ¾
1 1 5 2
L1 (X) = 5 exp − 2 ∑ Xi , σ2 = 0.009.
σ (2π)5/2 2σ i=1
L’inégalité L1 (X) > cL0 (X) est vraie si et seulement si
½ 5 ¾ ½ ¾ ½ ¾
∑ Xi2 < k ∪ X(1) < −0.5 ∪ X(5) < 0.5 .
i=1
On cherche k de condition
(½ ¾ ½ ¾ ½ ¾) ½5 ¾
5
P0 ∑ Xi < k ∪ X(1) < −0.5 ∪ X(5) < 0.5 = P0 ∑ Xi < k = α,
2 2
i=1 i=1
où Z Z
... dx1 · · · dx5 = 0.1, (4.1)
5
∑ Xi2 <R2
i=1
−0.5<Xi <0.5
où k = R2 .
Si R ≤ 0.5, cette intégrale est égale à l’intégrale
Z Z
I= ... dx1 · · · dx5 . (4.2)
5
∑ Xi2 <R2
i=1
x1 = r cos ϕ1
x2 = r sin ϕ1 cos ϕ2
x3 = r sin ϕ1 sin ϕ2 cos ϕ3
x4 = r sin ϕ1 sin ϕ2 sin ϕ3 cos ϕ4
x5 = r sin ϕ1 sin ϕ2 sin ϕ3 sin ϕ4 .
Le Jacobien
J = r4 sin3 ϕ1 sin2 ϕ2 sin ϕ3 .
ZR Zπ Zπ Zπ Z2π
8π2 R5
I= r4 dr sin3 ϕ1 dϕ1 sin2 ϕ2 dϕ2 sin ϕ3 dϕ3 dϕ4 = .
15
0 0 0 0 0
Si R = 0.5,
π2 9 3
I= > = > 0.1,
60 60 20
213
donc (1) peut être vraie, si R < 0.5.
R satisfait l’équation
8π2 R5
= 0.1,
15
donc
3
R5 = .
16π2
On rejette l’hypothèse H0 si
5 µ ¶5/2
3
∑ Xi2 <
16π2
où X(1) < −0.5 ou X(5) > 0.5.
i=1
5
Dans notre cas ∑ Xi2 = 0.399, X(1) = −0.325, X(5) = 0.196. On a
i=1
µ ¶5/2
3
0.399 >
16π2
Loi multinomiale.
Considérons une suite de n épreuves indépendantes et supposons que dans chaque
épreuve il ne puisse se passer qu’un seul événement parmi k possibles E1 , E2 , . . . , Ek , dont
les probabilités,
n1 + n2 + . . . + nk = n. (1)
Le vecteur ν suit la loi multinomiale de paramètres n et p :
n!
P {ν1 = n1 , . . . , νk = nk } = pn1 pn2 . . . pnk k , (2)
n1 ! . . . nk ! 1 2
pour tout n1 , . . . , nk entiers, satisfaisant aux conditions (1).
Par des calculs directs, on peut établir que le vecteur des espérances, Eν, et la matrice
de covariance,
214
du vecteur ν sont égaux à
pT 1k = 1, νT 1k = k.
Notons
p̃ = (p1 , . . . , pk−1 )T , ν̃ = (ν1 , . . . , νk−1 )T , 1̃ = 1k−1 ,
P̃ est la matrice que l’on obtient à partir de la matrice P, en enlevant la dernière ligne
et la dernière colonne, c’est-à-dire que P̃ est la matrice diagonale dont les éléments de la
diagonale principale sont p1 , .., pk−1 . De la même façon on obtient la matrice
¡ ¢T
Σ̃ = n P̃ − p̃p̃ .
Il est facile de vérifier que p̃T 1̃ = 1 − pk , rang(Σ̃) = k − 1 et que la matrice inverse Σ̃−1 de
Σ̃ est
µ ¶
−1 1 −1 1 T
Σ̃ = P̃ + 1̃1̃ , (4)
n pk
où P̃−1 est la matrice inverse de P̃.
Soit p0 = (p01 , p02 , . . . , p0k )T un vecteur arbitraire qui satisfait la condition
pT0 1 = 1,
tel que tous les p0i sont positifs, et supposons que le vecteur ν suive la loi multinomiale
(2) de paramètres n et p. Dans ce cas si n → ∞, alors d’après le théorème limite central
à plusieurs dimensions le vecteur √1n (ν̃ − p̃0 ) est asymptotiquement distribué selon la loi
normale à (k − 1) dimensions de paramètres
1
(p̃ − p̃0 ) et P̃ − p̃p̃T = Σ̃.
n
Par conséquent la forme quadratique de Pearson
µ ¶
1 −1 1 T
Xn = (ν̃ − np̃0 ) P̃ + 1̃1̃ (ν̃ − np̃0 )
2 T
(5)
n pk
est distribuée approximativement (quand n tend vers l’infini) comme la variable aléatoire
χ2k−1 (λn ), où
µ ¶
−1 1 T
λn = n (p̃ − p̃0 ) P̃ + 1̃1̃ (p̃ − p̃0 ) .
T
(6)
pk
Comme
k
(νi − np0i )2
(ν̃ − np̃0 )T P̃−1 (ν̃ − np̃0 ) = ∑ (7)
i=1 npi
215
et
1̃T (ν̃ − np̃0 ) = −(νk − np0k ), (8)
la statistique de Pearson Xn2 peut s’écrire :
k
(νi − np0i )2
Xn2 = ∑ . (9)
i=1 npi
Théorème 1. Soit {pn } une suite de vecteurs pn = (pn1 , pn2 , . . . , pnk )T tels que pTn 1 = 1 et
tous les pni soient positifs. Supposons que
k
(pni − p0i )2
λ̂n = n ∑ → λ, (λ > 0) (10)
i=1 p0i
suit à la limite, quand n → ∞, la même loi que la variable aléatoire χ2k−1 (λ).
Supposons que nous ayons à tester l’hypothèse H0 : p = p0 . Soit x(α, k − 1), le quantile
supérieur de niveau α de la distribution du chi-deux à (k − 1) degrés de liberté , c’est-à-dire
que © ª
P χ2k−1 ≥ x(α, k − 1) = α. (12)
D’après le test du chi-deux de Pearson, fondé sur la statistique de Pearson Xn2 , on rejette
l’hypothèse H0 si
Par ailleurs si l’hypothèse H1n : p = pn est vraie, alors du Théorème 1 il résulte que
© ª © ª
P Xn2 ≥ x(α, k − 1) | H1n = P χ2k−1 (λ) ≥ x(α, k − 1) + o(1), (15)
si
k
(pni − p0i )2
n∑ → λ, quand n → ∞. (16)
i=1 p0i
Par exemple, si
δi
pni = p0i + √ , (17)
n
où
δ1 + δ2 + . . . + δk = 0,
δ2i
k
λn = λ = ∑ . (18)
i=1 p 0i
216
La probabilité
© ª © ª
βn = P Xn2 ≥ x(α, k − 1) | H1n ∼= P χ2k−1 (λn ) ≥ x(α, k − 1) (19)
nous donne la probabilité d’erreur de seconde espèce que l’on commet en prenant H0 à tort
parce que l’on a observé l’événement {Xn2 ≤ x(α, k − 1)}, tandis qu’en fait c’est l’hypothèse
H1n qui est vraie. On remarque ici que plus la puissance βn est grande, plus petite est la
probabilité de commettre l’erreur de prendre H0 à tort. Enfin, on note que pour calculer
1 − βn on peut utiliser l’approximation normale de la loi du chi-deux non centrale, d’après
laquelle
( )
© 2 ª x(α, k − 1) − (k − 1 + λn )
1 − βn = P Xn ≤ x(α, k − 1) | H1n ∼ =Φ p , (21)
2(k − 1 + 2λn )
pourvu que k + λn soit assez grand, c’est-à-dire, en pratique, supérieur où égal à 30.
Supposons maintenant, que H1n soit telle que pn 6≡ p0 et
k
(pni − p0i )2
λn = n ∑ → ∞, (23)
i=1 p0i
217
De (25) et (26) il résulte que si nous voulons utiliser le test du chi-deux de Pearson, fondé
sur la statistique Xn2 du niveau de signification ∼
= α, nous devons rejeter H0 quand
( ) ( )
ν1 + 0.5 − np01 α ν1 − 0.5 − np01 α
Φ p ≤ où Φ − p ≤ . (27)
np01 (1 − p01 ) 2 np01 (1 − p01 ) 2
218
4
(νi − npi )2
Xn2 = ∑ ,
i=1 npi
dont la distribution (sous l’hypothèse H0 ) est proche de la distribution du chi-deux à f =
4 − 1 = 3 degrés de liberté. Choisissons α = 0.05. Dans ce cas la valeur critique cα =
χ23 (α) = 7.81. Comme pour les données de Mendel
Parents RJ Rv rJ rv
RJ RJ RJ RJ RJ
Rv RJ Rv RJ Rv
rJ RJ RJ rJ rJ
rv RJ Rv rJ rv
219
4.4 Théorème de Fisher.
et
Zxi Zxi
pi (θ) = P{X1 ∈ (xi−1 , xi ] | H0 } = dF(x, θ) = f (x, θ)dx,
xi−1 xi−1
où f (x, θ) est la densité de F(x, θ), si elle existe. Supposons que les conditions suivantes de
Cramer soient satisfaites :
1) il existe un nombre positif c (c > 0) tel que pour tout i = 1, . . . , k
pi (θ) > c, θ ∈ Θ;
∂2 pi (θ)
2) les fonctions ∂θ2j
sont continues sur Θ ;
3) le rang de la matrice d’information de Fisher J(θ) = B(θ)T B(θ),
° °
° 1 ∂pi (θ) °
B=° °
° √ pi ∂θ j ° ,
est égal à s.
Comme le paramètre θ est inconnu, Fisher a proposé de choisir pour estimateur de θ le θ̃n
qui rend minimum la variable aléatoire
k
[νi − npi (θ)]2
X (θ) = ∑
2
i=1 npi (θ)
i.e.
220
© ª
lim P X 2 (θ̃n ) ≤ x = P{χ2k−s−1 ≤ x}.
n→∞
Cramer a démontré plus tard (1946) que le résultat de Fisher reste valable si au lieu de
θ̃n on choisit l’estimateur de maximum de vraisemblance θ∗n = θ∗n (ν1 , ν2 , . . . , νk ), qui rend
maximum la fonction de vraisemblance :
Exemple 1. Il a été établi qu’au cours d’une épidémie de grippe, parmi les 2000 individus
contrôlés, 181 personnes sont tombées malades une seule fois et seulement 9 personnes
ont eu cette maladie deux fois. L’hypothèse H0 selon laquelle le nombre de fois où une
personne tombe malade est une variable aléatoire qui suit une loi binomiale de paramètres
p et n = 2 (0 < p < 1) est-t-elle vraisemlable ?
Soit X une variable aléatoire de loi binomiale B(2, p), c’est-à-dire que
µ ¶
2
P{X = i} = pi (1 − p)2−i , i = 0, 1, 2, 0 < p < 1.
i
Et soit ν = (ν0 , ν1 , ν2 )T le vecteur des fréquences observées, où νi est le nombre des indi-
vidus qui sont tombés malades i fois,
n! n!2ν1
l(p) = [ (1 − p)2 ]ν0 [ 2p(1 − p) ]ν1 ( p2 )ν2 = (1 − p)2ν0 +ν1 p2ν2 +ν1 .
ν0 !ν1 !ν2 ! ν0 !ν1 !ν2 !
Il est facile de voir que les meilleurs estimateurs sans biais pour les probabilités
p0 = p2 , p1 = p(1 − p) et p2 = (1 − p)2
sont
(ν1 + 2ν2 )(ν1 + 2ν2 − 1) (ν1 + 2ν2 )(ν1 + 2ν0 )
p̃0 = , p̃1 = ,
2n(2n − 1) 2n(2n − 1)
(ν1 + 2ν0 )(ν1 + 2ν0 − 1)
p̃2 =
2n(2n − 1)
221
respectivement, dont les réalisations observées sont
199 · 198 4.9 199 · 3801 94.6
p̃0 = = , p̃1 = = ,
4000 · 3999 2000 4000 · 3999 200
3801 · 3800 1805.9
p̃2 = = ,
4000 · 3999 2000
d’où l’on tire que
2
(νi − n p̃i )2
X2 = ∑ =
i=0 n p̃ i
222
Comme on le sait, les meilleurs estimateurs sans biais pour les probabilités
p0 = p2 , p1 = p(1 − p) et p2 = (1 − p)2
sont
(ν1 + 2ν2 )(ν1 + 2ν2 − 1) (ν1 + 2ν2 )(ν1 + 2ν0 )
p̃0 = , p̃1 = ,
2n(2n − 1) 2n(2n − 1)
(ν1 + 2ν0 )(ν1 + 2ν0 − 1)
p̃2 =
2n(2n − 1)
respectivement, dont les réalisations observées sont
2077 · 2076 2077 · 1963 1963 · 1962
p̃0 = , p̃1 = , p̃2 =
4040 · 4039 4040 · 4039 4040 · 4039
d’où l’on tire que
n p̃0 ∼
= 533.8; 2n p̃1 = 1009.4; n p̃3 = 476.8.
Pour tester H0 on va utiliser le test du chi-deux, fondé sur la statistique de Pearson X 2 qui
dans notre cas est distribuée approximativement (sous l’hypothèse H0 ) comme une variable
aléatoire χ2f à f = 3 − 1 − 1 = 1 degrés de liberté. On a
2
(νi − n p̃i )2
X2 = ∑ =
i=0 n p̃i
223
4.5 Théorème de Chernoff-Lehmann.
qui sont choisis d’avance. Si l’hypothèse H0 est vraie, alors le vecteur ν suit la loi multino-
miale de paramètres n et p, où
pour l’observation Xi , où
µ ¶T
∂ ln (Xi , θ) ∂ ln (Xi , θ) ∂ ln (Xi , θ)
Λi (θ) = , ,..., ,
∂θ1 ∂θ2 ∂θs
et que les conditions de Cramer 1)-3) du paragraphe précédent sont satisfaites. Dans ce
cas, il existe un estimateur θ̂n de maximum de vraisemblance basé sur les données initiales,
θ̂n =θ̂n (X1 , . . . , Xn ), qui maximise la fonction de vrasemblance
√ 1 n
n(θ̂n − θ) = √ ∑ I−1 (θ)Λi (θ) + op (1s ),
n i=1
√
d’où on obtient immédiatement que le vecteur n(θ̂n − θ) a une distribution asymptotique-
ment normale N(0s , I−1 (θ)), quand n → ∞.
Théorème de Lehmann et Chernoff.
En utilisant ces propriétés de l’estimateur de maximum de vraisemblance θ̂n , Lehmann
et Chernoff ont montré (1954), que sous l’hypothèse H0
224
© ª © ª
lim P X 2 (θ) ≤ x = P χ2k−s−1 + λ1 (θ)ξ21 + . . . + λs (θ)ξ2s ≤ x ,
n→∞
par exemple, Nikulin (1973), Nikulin et Greenwood (1990), Huber (1991)), que rangΣ =
k − 1. Notons Σ− (θ) la matrice inverse généralisée de Σ(θ) et soit
1¡ ¢T ¡ ¢
Yn2 = ν − np(θ̂n ) Σ− (θ̂n ) ν − np(θ̂n ) .
n
Par des calculs directs on peut vérifier que la statistique Yn2 est indépendante du choix de la
matrice Σ− . On peut utiliser la statistique Yn2 pour tester la validité de l’hypothèse H0 selon
laquelle la distribution des éléments Xi de l’échantillon X suit la loi F(x, θ). On a en effet
(voir, par exemple, Nikulin (1973), Greenwood et Nikulin (1996)) :
© ª © ª
lim P Yn2 ≤ x | H0 = P χ2k−1 ≤ x .
n→∞
Pour plus de détails sur la construction des tests du chi-deux, fondés sur la statistique Yn2 , on
se reportera aux articles de Nikulin (1973), (1979), (1990), (1991), Dzhaparidze et Nikulin
(1974), Nikulin et Voinov (1989), Greenwood et Nikulin (1996), Nikulin et Seddik-Ameur
(1991). On remarque enfin, que dans les cas de l’ existence de statistiques exhausives, on
peut utiliser aussi les meilleurs estimateurs sans biais pour construire un test du chi-deux
fondé sur la statistique Yn2 et en utilisant la technique exposée dans les articles que l’on vient
de mentionner.
La loi "logistique", qui a reçu son nom de Berkson et Reed (1929) est souvent utilisée.
(Entre autres, par Pearl et Reed (1920) pour le développement des levures, par Oliver (1964)
comme modèle de données agricoles et Grizzle (1961) dans le domaine de la santé Publique,
etc.)
Cette loi a une fonction de répartition dépendant de deux paramètres µ et σ > 0 :
1
F(x) = G ( x−µ
σ )= ¡ ¢ , x ∈ R. (1)
1 + exp{− √π3 x−µ
σ }
Un livre vient d’être publié par Balakrishnan (1992) sur la théorie, méthodologie et appli-
cations de cette loi. Ici nous allons suivre l’article de Aguirre et Nikulin (1994).
225
Soit X = (X1 , X2 , . . . , Xn )T - un échantillon et supposons que nous voulions tester l’hy-
pothèse H0 selon laquelle
Z+∞h i2
1 g0 (x) π2
I = 2 kIi j ki, j=1,2 , I11 = g(x)dx =
σ g(x) 9
−∞
Z+∞ h i2
g0 (x)
I12 = I21 = x g(x)
g(x)dx = 0,
−∞
Z+∞ h i2
2 g0 (x) π2 + 3
I22 = x g(x)
g(x)dx − 1 = .
9
−∞
I12 = 0 car g est symétrique, et une integration par parties permet d’obtenir I11 et I22 .
3. Choix des intervalles sur lesquels on va comparer les fréquences observées et les
fréquences théoriques :
Supposons que l’on ait choisi un vecteur p = (p1 , p2 , . . . , pk )T de probabilités positives,
par exemple :
√
1 −1 i 3 k
p1 = . . . = pk = , yi = G ( )=− ln( − 1), i = 1, . . . , k − 1,
k k π i
et notons ν = (ν1 , . . . , νk )T le vecteur des effectifs que nous obtenons en regroupant les
variables aléatoires X1 , . . . , Xn sur les intervalles
226
· ¸
1 k−i+1 k−i
bi = yi g(yi ) − yi−1 g(yi−1 ) = 2 (i − 1)(k − i + 1) ln − i(k − i) ln ,
k i−1 i
" #
k
π k
α(ν) = k ∑ ai νi = √ (k + 1)n − 2 ∑ iνi ,
i=1 3k i=1
k
1 k−1 k−i
β(ν) = k ∑ bi νi = ∑ (νi+1 − νi )i(k − i) ln ,
i=1 k i=1 i
k
π2 k
λ1 = I11 − k ∑ a2i = 2, λ2 = I22 − k ∑ b2i .
i=1 9k i=1
Comme g est symétrique on remarque que
k k
∑ ai = ∑ bi = 0.
i=1 i=1
Notons B = D − pT p − WT I−1 W, où D est la matrice diagonale avec les éléments 1/k sur
la diagonale principale ( rangB = k − 1). Notons ˜ les matrices précédentes dans lesquelles
on supprime la dernière ligne pour W, p et ν et les dernières ligne et colonne de D et B.
1 λ1 β2 (ν) + λ2 α2 (ν )
Yn2 = (ν̃ − np̃)T B̃−1 (ν̃ − np̃) = X 2 + ,
n nλ1 λ2
∂ ∂
G(x, y) = g(x, y) et g(x, η) |η=0 = Ψ(x),
∂x ∂η
∂2 g(x,η)
où g(x, 0) = g(x) = G0 (x). Dans ce cas si ∂η2
existe et est continue pour tout x au
voisinage de η = 0, alors
Zyi
où ci = Ψ(x)dx, i = 1, ..., k,
yi−1
227
et donc
lim P{Y 2 ≥ x | Hη } = P{χ2k−1 (λ) ≥ x},
n→∞
k
c2i λ2 α2 (c) + λ1 β2 (c)
λ= ∑ + , c = (c1 , c2 , ..., ck )T .
i=1 p i λ 1 λ2
Plus de détails on peut trouver dans Aquirre (1993), Aquirre et Nikulin (1994).
228
diag(x1 , . . . , xn ) est la matrice diagonale ayant les éléments x1 , . . . , xn sur la diagonale prin-
cipale et E est la matrice d’ordre (k − 1) × (k − 1), dont tous les éléments sont égaux à 1.
Nous remarquons que la matrice Σ est non singulière et
à !−1
k
Σ−1 = diag(σ−2 −2 −2
1 , σ2 , . . . , σk−1 ) − ∑ σ−2
i kbi j k,
i=1
où
1
bi j = ; i, j = 1, . . . , k − 1.
σ2i σ2j
Du fait que le vecteur η a une distribution asymptotique normale, il s’ensuit que la forme
quadratique
Y2 = (η − ∆)T Σ−1 (η − ∆)
a à la limite, lorsque min(n1 , . . . , nk ) → ∞, une distribution du chi-deux à k − 1 degrés de
liberté.
Cette même forme quadratique peut être représentée sous une forme plus explicite :
à !−1 " #2
k−1 µ ¶2
ηi − ∆i 1 k k−1
ηi − ∆i
Y2 = ∑ σi
− ∑ 2 ∑ σi . (1)
i=1 i=1 σi i=1
D’après la théorie générale des tests du chi-deux (voir,par exemple, Greenwood et Nikulin
(1996), Nikulin (1991)) , la distribution limite de la forme quadratique Y2 sera la même si
tous les paramètres inconnus σ2i sont remplacés par leurs meilleurs estimateurs sans biais
(1 − ξi )
σ̂2i = ξi , i = 1, . . . , k.
(ni − 1)
Soit P un coefficient de confiance donné , 0.5 < P < 1, et soit x p le quantile de niveau© 2 P de ª
la distribution du chi-deux à k − 1 degrés de liberté. Dans ce cas, la probabilité P Y ≤ x p
est approximativement égale à P et toutes les valeurs du vecteur (∆1 , . . . , ∆k−1 )T , satisfaisant
l’inégalité Y 2 ≤ x p , donnent un intervalle de confiance dont le coefficient de confiance est
proche de P. Ceci peut être utilisé dans la solution du problème proposé.
Inférences statistiques.
On considère un ensemble d’hypothèses
a une intersection non vide avec l’intérieur de l’ellipsoïde défini par l’inégalité Y 2 ≤ x p .
Le but final est de choisir un sous-ensemble d’hypothèses qui ne sont pas contradictoires
avec les données de l’expérience ; puisque certaines hypothèses sont des conséquences des
229
autres nous ne nous intéresserons dans ce sous-ensemble qu’aux éléments dont l’indice r
est maximal.
Considérons l’hypothèse Hr (1 ≤ r ≤ k − 1), et, sans restriction de généralité, supposons
que i1 = k − r, i2 = k − r + 1, . . . , ir = k − 1. Alors la statistique Y 2 aura la forme
" #
k−r−1 µ ¶2 µ ¶2
ηi − ∆i k−1
ηi k−r−1 k−1
Y2 = ∑ σi
+ ∑ σi
− ∑ c j (η j − ∆ j ) + ∑ c jη j , (2)
i=1 i=k−r j=1 j=k−r
où Ã !−1/2
k
c j = σ−2
j ∑ σ−2
i , j = 1, . . . , k − 1.
i=1
Il est facile de voir que la plus petite valeur de la statistique Y 2 est obtenue au point
à !−1
k−r−1 k−1
∆i = ∆∗i = ηi − ci σ̂2i 1− ∑ c2j σ2j ∑ c j η j , i = 1, . . . , k − 1,
j=1 j=k−r
et sa valeur minimale est
µ ¶2
k−1
µ ¶2 ∑ ci ηi
k−1
ηi
∑
i=k−r
Y∗2 = − µ ¶ (3)
σ̂i k−r−1
i=k−r 1 + ∑ ci σ̂i
2 2
i=1
(si r = k − 1, alors le dénominateur de la fraction sera supposé à 1). Il est clair que l’hypo-
thèse Hr (i1 , . . . , ir ) doit être rejetée si Y 2 ≥ x p .
Exemple. Soit
k = 4 et n1 = n2 = n3 = n3 = 100, où µ1 = 20, µ2 = 50, µ3 = 60 et µ4 = 40.
Alors
ξ1 = 0.2, ξ2 = 0.5, ξ3 = 0.6, ξ4 = 0.4, η1 = −0.2, η2 = 0.1, η3 = 0.2.
Si on utilise le meilleur estimateur sans biais σ̂2i = ξi (1 − ξi )/ni pour estimer le paramètre
inconnu σ2i , i = 1, . . . , 4, on obtient
230
A. Test de l’hypothèse H3 (1, 2, 3). En utilisant (3), nous avons
0.04 0.01 0.04
Y∗2 = + + −
0.0016 0.0025 0.0024
à r r r !2
3 3 250 3
− −125 × 0.2 + 80 × 0.1 + × 0.2 = 45.665,
223 223 3 223
© ¢
et comme P χ23 > 45.665 < 10−7 , l’hypothèse H3 (1, 2, 3) doit être rejetée par tous les
tests du chi-deux dont le niveau de signification n’est pas inférieur à 10−7 .
B1 .Test de l’hypothèse H2 (2, 3).Dans ce cas
0.01 0.04
Y∗2 = + −
0.0025 0.0024
à r r !2 µ ¶
3 250 3 125 × 125 × 3 16 −1
− 80 × 0.1 + × 0.2 1+ × =
223 3 223 223 10.00
= 14.541.
© 2 ª
Comme P χ3 > 14.541 = 0.00225, l’hypothèse H2 (2, 3) doit être rejetée par tous les tests
du chi-deux dont le niveau de signification n’est pas inférieur à 0.00225.
B2 .Test de l’hypothèse H2 (1, 3). Comme
0.04 0.04
Y∗2 = + −
0.0016 0.0024
à r r !2 µ ¶−1
3 250 3 80 × 80 × 3 25
− −125 × 0.2 + × 0.2 1+ × =
223 3 223 223 10.000
= 40.898,
l’hypothèse H2 (1, 3) doit être rejetée
© par tousª les tests du chi-deux dont le niveau de signi-
fication n’est pas inférieur à P χ23 > 40.898 < 10−7 .
B3 . Test de l’hypothèse H2 (1, 2). Dans ce cas
0.04 0.01
Y∗2 = + −
0.0016 0.0025
à r r !2 µ ¶−1
3 3 250 × 250 × 3 24
− −125 × 0.2 + 80 × 0.1 1+ × =
223 223 3 × 3 × 223 10.000
= 25.824.
Puisque la valeur minimale Y∗2 de la statistique Y 2 dépasse la valeur critique x0.95 = 7.815,
l’hypothèse H2 (1, 2) doit ausi être rejetée.
C1 . Test de l’hypothèse H1 (1). Comme
à r !2 µ ¶
2 0.04 3 48 50 −1
Y∗ = − −125 × 0.2 1+ + == 19.159 > 7.815,
0.0016 223 223 223
231
C2 . Test de l’hypothése H1 (2). Ici la plus petite valeur de la statistique Y 2 est égale à
à r !2 µ ¶−1
0.01 3 75 50
Y∗2 = − 80 × 0.1 1+ + = 3.448,
0.0025 223 223 223
ce qui est sensiblement plus petit que la valeurs critique choisie x0.95 , c’est pourquoi l’hy-
pothèse H1 (2) n’est pas rejetée ; nous obtenons les estimateurs nouveaux
r r µ ¶
3 3 75 50 −1
∆∗1 = −0.2 − 80 × 0.1 × 125 × 0.0016 1 − − =
223 223 223 223
= −0.249,
et
r r µ ¶
3 250 3 75 50 −1
∆∗3 = −0.2 − 80 × 0.1 × × 0.0024 1 − − =
223 3 223 223 223
= 0.151.
C3 . Test de l’hypothése H1 (3). Puisque
à r !2 µ ¶−1
0.04 250 3 75 48
Y∗2 = − × 0.2 1+ + = 14.258,
0.0024 3 223 223 223
alors la plus petite valeur dépasse la valeur critique et l’hypothése H1 (3) est rejetée.
Conclusion : seule l’hypothèse H1 (2) peut-être acceptée d’après les résultats de l’expé-
rience, d’où il s’ensuit que ∆2 = p2 − p4 = 0, i.e. p2 = p4 . Si cette hypothèse est vraie , il est
raisonnable de prendre comme estimateur de p4 la valeur de la statistique (µ2 + µ4 )/(n2 +
n4 ) ; dans l’exemple présent cette quantité est égale à (ξ2 + ξ4 )/2 = 0.45. Puisque
hypothèses. Dans la pratique pourtant il suffit de tester k − 1 hypothèses. Pour cela, il est
nécessaire de calculer les relations
η21 η2k−1
, . . . ,
σ̂21 σ̂2k−1
232
(les numéros peuvent être donnés après le rangement). Alors on teste successivement les
hypothèses Hr = Hr (k − r, k − r + 1, . . . , k − 1) avec r = k − 1, k − 2, . . . . Si, en agissant de
cette façon, on trouve que
µ ¶2 µ ¶ µ ¶ µ ¶
ηm ηm+1 2 ηm+t 2 ηm+t+1 2
> = ... = >
σm σm+1 σm+t σm+t+1
et qui l’hypothèse Hk−m est rejetée, alors il faut tester ensuite l’hypothèse Hk−m−t et non
Hk−m−1 .
On remarque enfin que Bolshev et Nikulin (1975) ont considéré la solution d’un pro-
blème de homogénéité plus général pour des distributions dépendant de paramètres de trans-
lation et d’échelle.
µi ∼ Mr (ni , pi ), (1)
où n1 , n2 , . . . , nI sont des entiers positifs, pi = (pi1 , . . . , pir )T ∈ Rr ,
pi1 + pi2 + . . . + pir = 1, i = 1, 2, . . . , I. (2)
Puisque les vecteurs µ1 , . . . , µI sont indépendants, alors, sous l’hypothèse H, la fonction de
vraisemblance L(p1 , . . . , pI ) est
n1 !n2 ! · · · nI ! µ µ µ µ µ µ
L(p1 , . . . , pI ) = p1111 · · · p1r1r p2121 · · · p2r2r · · · pI1I1 · · · pIrIr . (3)
µ11 ! · · · µ1r !µ21 ! · · · µIr !
Si nous supposons que toutes les probabilités pi j sont connues, alors, d’après le théorème
de Pearson, la statistique
2
(µi j − ni pi j )
I r
X =∑∑
2
(4)
i=1 j=1 ni pi j
233
où N = n1 + n2 + . . . + nI . Supposons qu’on fasse l’hypothèse H0 :
p1 = p2 = . . . = pI = p, (5)
cela signifie que, sous cette hypothèse H0 toutes les distributions multinomiales (2) des
vecteurs aléatoires µi ont le même vecteur de probabilités p = (p1 , . . . , pr )T qu’on a besoin
d’estimer, si nous voulons faire de l’inférence statistique . Il est évident que sous l’hypo-
thèse H0 , on a seulement besoin d’estimer r − 1 paramètres p1 , p2 , . . . , pr−1 , puisque
p1 + p2 + . . . + pr = 1.
Pour tester H0 on peut construire le test d’homogeneité du χ2 bien connu, basé sur la
variable aléatoire de Pearson (le paramète p est inconnu !), qui sous H0 peut s’écrire :
I r
(µi j − ni p j )2
X2 = ∑ ∑ ni p j . (6)
i=1 j=1
ν = (ν1 , . . . , νr )T = µ1 + . . . + µI , (7)
où
I
ν j = ∑ µi j , j = 1, 2, . . . , r and ν1 + ν2 + . . . + νr = N, (8)
i=1
on obtient d’après (3), (5) et (8) que
N!
L(p) = pν1 pν2 · · · pνr r . (9)
ν1 !ν2 ! . . . νr ! 1 2
Pour trouver l’estimateur de maximum de vraissemblance p̂ de p sous H0 , on considère :
r
ln L(p) = ln (const) + ∑ νi ln pi , (10)
i=1
∂ ν j νr
L(p) = − = 0, j = 1, 2, . . . , r − 1, (11)
∂p j p j pr
pour lequel la solution est p̂ = ( p̂1 , p̂2 , . . . , p̂r )T , p̂r = 1 − p̂1 − p̂2 − . . . − p̂r−1 , où
νj
p̂ j = , j = 1, 2, . . . , r. (12)
N
Par suite, de (12) on obtient :
pr ν j = νr p j , j = 1, 2, . . . , r, (13)
ce qui implique
234
r r
pr ∑ ν j = νr ∑ p j , (14)
j=1 j=1
d’où
νr
p̂r = . (15)
N
En substituant (15) dans (13) on obtient (12).
Nous pouvons maintenant, pour tester H0 , utiliser la statistique de Pearson :
à !
I r (µ − n p̂ )2 I r µ2
X 2 (p̂) = ∑ ∑ =N ∑ ∑
ij i j ij
−1 . (16)
i=1 j=1 n i p̂ j i=1 j=1 n i ν j
298 152 78 72
p̂1 = , p̂2 = , p̂3 = , p̂4 = , (20)
600 600 600 600
puisque dans l’exemple :
235
et p̂i = νi /N. Pour tester H0 on peut construire un test du χ2 , basé sur la statistique (16).
D’après nos données nous avons :
(¡ ¢2 ¡ ¢ ¡ ¢2 ¡ ¢ )
72 78 2 298 2
33 − 300 600 43 − 300 600 80 − 300 152 144 − 300
X 2 (p̂) = 2 + + 600
+ 600
=
36 39 76 149
µ ¶ µ ¶
9 16 16 25 1 1 1 1
=2 + + + <2 + + + = 2.4 < χ23 (0.05) = 7.815.
36 39 76 149 4 2 4 5
Puisque
Supposons que les données sont telles que chacune des n observations peut être clas-
sée dans une des K = I · J, (nombre fini) de catégories possibles suivant deux attributs
Ai , B j (i = 1, 2, . . . , I; j = 1, 2, . . . , J). Dans ce cas les données peuvent être présentées dans
un tableau de contingence à I lignes et J colonnes. On notera pi j la probabilité pour une
observation d’être classée à la i-ème ligne et j-ème colonne du tableau, ce qui signifie que
cette observation possède les attributs Ai et B j . Notons νi j le nombre des observations pla-
cées à la i-ème ligne et j-ème colonne. On a alors
I J I J
∑ ∑ νi j = n and ∑ ∑ pi j = 1. (1)
i=1 j=1 i=1 j=1
Soit pi· la probabilité marginale que l’observation soit à la i-ème ligne et soit p· j la proba-
bilité marginale que l’observation soit à la j-ème colonne du tableau. Il est clair que
J I
pi· = ∑ pi j and p· j = ∑ pi j . (2)
j=1 i=1
I J
∑ pi· = ∑ p· j = 1. (3)
i=1 j=1
236
On peut présenter le modèle avec les deux tableaux :
B1 ··· Bj ··· BJ
A1 p11 ··· p1 j ··· p1J p1·
Ai pi1 ··· pi j ··· piJ pi·
AI pI1 ··· pI j ··· pIJ pI·
p·1 ··· p· j ··· p·J 1
Tab. 1
B1 ··· Bj ··· BJ
A1 ν11 ··· ν1 j ··· ν1J ν1·
Ai νi1 ··· νi j ··· νiJ νi·
AI νI1 ··· νI j ··· νIJ νI·
ν·1 ··· ν· j ··· ν·J n
Tab. 2
Si on connait les véritables probabilités pi j , alors la statistique
2
(νi j − ni pi j )
I J
X =∑∑
2
(4)
i=1 j=1 ni pi j
a pour distribution limite lorsque min ni → ∞ une distribution du χ2 avec f degrés de liberté,
f = K − 1 = I · J − 1, (5)
où
à !à !
I J I J
n! ν ν
=
ν11 ! · · · νIJ ! ∏∏ pi·i j ∏∏ p· ji j
i=1 j=1 i=1 j=1
237
à !à !
I J
n! ν
=
ν11 ! · · · νIJ ! ∏ pνi·i· ∏ p· j· j , (9)
i=1 j=1
où
J I
νi· = ∑ νi j and ν· j = ∑ νi j , (10)
j=1 i=1
Pour trouver le vecteur informant Λ(p) nous dérivons ln L(p) par rapport à pi· et p· j :
µ ¶T
∂ ∂ ln L(p) ∂ ln L(p) ∂ ln L(p) ∂ ln L(p)
Λ(p) = ln L(p) = ,..., , ,..., , (12)
∂p ∂p1· ∂pI· p·1 ∂p·J
où
f = IJ − (I − 1) − (J − 1) − 1 = (I − 1)(J − 1)
et donc
238
On peut utiliser ce résultat pour construire un test du χ2 pour l’hypothèse H0 au seuil de
signification α. D’après ce test on doit rejeter H0 si
B1 B2
A1 pP qP P
A2 pQ qQ Q
p q
Tab. 4
où
Exemple 1. Considérons un groupe de 300 étudiants qui ont passé un examen partiel en
mathématiques. Parmi eux, 97 ont obtenu une très bonne note : A et les 203 autres une note
inférieure : B. A la fin de l’année, ces étudiants passent l’examen final de mathématiques
et cette fois-ci 48 d’entre eux obtiennent une très bonne note A et parmi eux 18 seulement
ont obtenu une très bonne note au partiel. Cela signifie que 18 étudiants ont obtenu une très
bonne note à la fois à l’examen partiel et à l’examen terminal.
En utilisant ces données nous pouvons construire un test du χ2 au niveau de signification
α = 0.1, pour tester l’hypothesis H0 de l’indépendance d’obtention d’une très bonne note à
chacun des 2 examens.
Tout d’abord, présentons les données dans le tableau 2 × 2 suivant :
239
exam partiel Total
A B
exam A 18 30 48
f inal B 79 173 252
Tab. 5
Total p q 1
Tab. 6
ν·1 97 ν1. 48
p̂ = = et P̂ = = .
n 300 n 300
La valeur de la statistique de Pearson X 2 donnée par (17), peut être évaluée en utilisant la
formule (19) selon laquelle
¡ ¢2 ¡ ¢2 ¡ ¢2 ¡ ¢2
2 18 − 48·97
300 30 − 48·203
300 79 − 252·97
300 173 − 252·203
300
X = 48·97
+ 48·203
+ 252·97
+ 252·203
=
300 300 300 300
200 93 31
= · · < 1.
203 97 42
240
4.10 Test du Chauvenet pour la détection des observa-
tions aberrantes.
Le test de Chauvenet est une règle ancienne destinée à détecter au moins une valeur
aberrante dans une série de mesures et à l’éliminer. Cette règle est basée sur unr propriété
simple de l’espérance mathématique. Ici nous allons suivre l’idée de L.Bolshev (1961) sur
la présentation du test de Chauvenet (voir aussi Voinov et Nikulin (1996)).
Considérons n variables aléatoires indépendantes Y1 , ...,Yn , n ≥ 3, de même loi et soit y
un nombre réel donné.
Soit
n
N= ∑ 1[y,+∞[(Y j )
j=1
où p = P{Y1 ≥ y}. Pour avoir l’égalité E(N) = α, α > 0, il faut choisir y = y(α) comme la
solution de l’équation
α
P {Y1 > y} = . (1)
n
Dans ce cas il est facile de vérifier que
½ ¾
β = P max Yi > y(α) = 1 − {1 − P{Y1 ≥ y(α)}}n =
1≤i≤n
³ α ´n
1− 1− = 1 − e−α + o(1) (n → ∞),
n
et donc si α est suffisamment petit,
½ ¾
P max Yi > y(α) ' α.
1≤i≤n
241
242
Chapitre 5
REGRESSION
Notons
x = (x0 , x1 , ..., xm )T , x0 = 1, M(x) = E(Y |x).
La fonction M(x) est appelée la fonction de régression. On suppose que M(x) est une com-
binaison linéaire des covariables xi :
243
Yi = β0 + β1 xi1 + ... + βm xim + ei ,
où e1 , ..., en sont des variables aléatoires i.i.d.,
Donc on a
Yi = M(x(i) ) + ei , i = 1, ..., n,
où M(x) est donné par la formule (1). Si m = 1, on a le modèle de régression linéaire simple,
et si m > 1, on a le modèle de régression linéaire multiple.
Notons
1 x11 · · · x1m
X = ··· ··· ··· ··· , e = (e1 , ..., en )T , Y = (Y1 , ...,Yn )T .
1 xn1 · · · xnm n×(m+1)
On note que
k j −1
∑ β jiz ji = βTj z j
i=1
où βTj = (β j1 , ..., β j,k j −1 ). Si, par exemple, x j est la couleur qui prend 3 valeurs (noir, bleu,
blanc), on considère le vecteur z j = (z j1 , z j2 ) qui prend les valeurs
(0) (1) (2)
z j = (0, 0) - (noir), z j = (1, 0) - (bleu), z j = (0, 1) - (blanc).
Si x j est le sexe (masculin, féminin), on considère la variable z j qui prend les valeurs
(0) (1)
z j = 0 (masculin) et z j = 1 (féminin).
244
5.1.3 Interprétation des coefficients β.
(1) (2)
Notons que lorsqu’on prend deux valeurs x j et x j de x j dans (1), alors
Donc
(2) (1)
β j (x j − x j )
(2) (1)
(soit β j , si x j − x j = 1) représente le changement de la valeur moyenne de la variable
(1) (2)
expliquée Y quand x j passe de x j à x j tandis que toutes les autres covariables restent les
mêmes.
Il faut souligner que dans le modèle (1) le changement de la moyenne de Y est le même
pour n’importe quelles valeurs fixées des autres covariables xl (l 6= j), c’est à dire qu’ il n’y
a pas d’interaction entre les covariables.
Si x j est discrète et mesurée sur une échelle nominale, alors
(i) (0)
β ji = M(x1 , ..., z j , ..., xm ) − M(x1 , ..., z j , ..., xm ).
M(x) = β0 + β1 x1 + β2 x2 + β3 x1 x2 , (4)
M(x) = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x1 x2 + β5 x1 x3 + β6 x2 x3 + β7 x1 x2 x3 . (5)
245
Si, par exemple, Y est le prix (en Frs.), x1 est l’âge (en années), x2 est la puissance (
en cm3 ), d’une voiture d’une certaine marque et s’il y a une interaction entre l’âge et la
puissance, il est évident que la valeur de la voiture diminue annuellement mais cette baisse
du prix est différente pour des voitures de différentes puissances. Pour la voiture ayant la
puissance x2 cm3 la baisse du prix annuelle est de β1 + β3 x2 (Euros.). Voir aussi la section
Décomposition orthogonale de Fisher.
β̂ = (X T X)−1 X T Y . (7)
Si x = (1, x1 , ..., xm )T est un vecteur de covariables donné,
M(x) = E(Y |x) = βT x,
alors on obtient
L’estimateur de l’espérance M(x) = E(Y |x) est :
T
M̂(x) = β̂ x = β̂0 + β̂1 x1 + ... + β̂m xm .
Notons
1 n
∑ Yi.
T
Ŷi = M̂(x(i) ) = β̂ x(i) , Ŷ = (Ŷ1 , ..., Ŷn )T , ê = (ê1 , ..., ên )T , Ȳ =
n i=1
Les variables aléatoires Ŷi et Yi sont appelées respectivement les valeurs prédites et
observées des Yi ,et les êi = Yi − Ŷi sont les résidus estimés @ù des erreurs apparentes . On
a
Ŷ = X β̂, ê = Y − Ŷ = Y − X β̂ = e + X(β − β̂). (8)
246
5.1.6 Propriétés des estimateurs
.
Notons
Alors
β̂ = BY , ê = HY . (9)
Il faut remarquer que
T
a) X T H = 0m×n , X T e = 0m+1 , Ŷ e = 0, (11)
T
b) Y T Y = Ŷ Ŷ + êT ê, ⇔ kY k2 = kŶ k2 + kêk2 , (12)
Démonstration.
a) On a
X T H = X T − X T X(X T X)−1 X T = 0n×n ,
donc
T T
X T ê = X T HY = 0m+1 , Ŷ ê = β̂ X T ê = 0.
b) D’après (11)
T T T
Y T Y = (Ŷ + ê)T (Ŷ + ê) = Ŷ Ŷ + Ŷ ê + êT Y + êT ê = Ŷ Ŷ + êT ê.
∑ Y j2 = ∑ Ŷ j2 + ∑(Y j − Ŷ j )2.
Alors
n n n
∑ Y j2 − nȲ 2 = ∑ Ŷ j2 − nȲ 2 + ∑ (Y j − Ȳ j )2
j=1 j=1 j=1
247
et donc
n n n
∑ (Y j − Ȳ ) 2
= ∑ (Ŷ j − Ȳ ) 2
+ ∑ (Y j − Ŷ j )2 .
j=1 j=1 j=1
d) La première ligne de X T est 1n = (1, ..., 1)T , donc l’égalité X T ê = 0m+1 , démontrée dans
a), implique
n n n
1Tn ê = ∑ êi = 0 et donc ∑ Yi = ∑ Ŷi.
i=1 i=1 i=1
e) D’après (2) et (11) on a
eT e = (Y − Xβ)T (Y − Xβ) =
(Y − Ŷ + Ŷ − Xβ)T (Y − Ŷ + Ŷ − Xβ) =
(ê + Ŷ − Xβ)T (ê + Ŷ − Xβ) =
êT ê + 2êT (Ŷ − Xβ) + (Ŷ − Xβ)T (Ŷ − Xβ) =
êT ê + (Ŷ − Xβ)T (Ŷ − Xβ).
Le lemme est démontré.
248
On a
n n
E(e e) = ∑
T
Ee2i = ∑ Var ei = nσ2 .
i=1 i=1
L’égalité (15) implique que
E(êT ê) = (n − m − 1)σ2 .
Le théorème 1 est démontré.
Corollaire.
SSR
β̂ et σ̂2 =
n−m−1
des estimateurs sans biais de β et de σ2 respectivement, et
On a déjà vu que les paramètres qu’il est le plus important d’estimer et qui sont en
même temps ceux dont l’interprétation est la plus évidente sont :
a) la moyenne M(x) de la variable expliquée Y sous n’importe quelle valeur de la cova-
riable x ;
b) chacun des paramètres β j , qui caractérise le changement de la moyenne de Y corres-
pondant au changement de la covariable x j (modèle sans interaction) ;
c) les combinaisons linéaires des paramètres β j , qui caractérisent le changement de la
moyenne de Y correspondant au changement d’une covariable sous des valeurs spécifiées
des autres covariables (le modèle avec interactions). Par exemple, dans le modèle (4 ) la
combinaison linéaire β1 + β3 x2 caractérise le changement de la moyenne de Y correspon-
dant au changement de la covariable x1 sous des valeurs spécifiées de x2 .
Donc dans tous les cas l’estimation des combinaisons linéaires du type lT β, où l =
(l0 , ..., lm )T , est importante.
cT Y , c = (c1 , ..., cn )T .
i.e. pour le modèle de type (2) avec n’importe quel β ∈ Rm+1 , l’espérance de cT Y est égale
à la vraie valeur de lT β.
Notons Gl la classe des estimateurs linéaires sans biais de lT β.
Démonstration. Si cT Y ∈ Gl , alors
249
donc
(cT X − lT )β = 0 pour tout β ∈ Rm+1
et
cT X − lT = 0Tm+1 . (16).
On a
Var (cT Y ) = Var (cT Y − lT β̂ + lT β̂) =
Var (cT Y − lT β̂) + Var (lT β̂) + 2Cov (cT Y − lT β̂, lT β̂).
L’égalité (16) et le Lemme 1 impliquent que
(cT − lT B)σ2 In BT l =
σ2 (cT X(X T X)−1 − lT (X T X)−1 X T X(X T X)−1 )l =
σ2 (cT X − lT )(X T X)−1 l = 0,
donc
Var (cT Y ) = Var (lT β̂) + Var (cT − lT B)Y =
Var (lT β̂) + σ2 (cT − lT B)(cT − lT B)T .
On a Var (cT Y ) ≥ Var (lT β̂) et l’égalité est vérifiée si et seulement si cT = lT B.
Il s’ensuit par exemple que l’estimateur β̂1 + β̂3 x2 de β1 +β3 x2 est le meilleur estimateur
dans la classe des estimateurs linéaires sans biais de β1 + β3 x2 (modèle (4)).
250
est appelée la somme des carrés expliquée par régression. La somme
n
SST = ∑ (Yi − Ȳ )2
i=1
La somme SST mesure la variabilié des valeurs de Y , la somme SSE mesure la partie de
cette variabilité expliquée par la régression. Si le modèle de régression linéaire donne une
bonne prédiction, c’est à dire si les Ŷi sont proches des Yi , la somme SSE est proche de
SST . Donc SSE explique une grande part de la variabilité des valeurs Yi autour de Ȳ . Si la
prédiction est mauvaise, la somme SSE est petite par rapport à SST et SSE n’explique pas
beaucoup la variabilité des valeurs de Yi autour de Ȳ . La somme des carrés résiduelle SSR
est ce qui reste de la variabilité totale après la soustraction de SSE . D’où le nom de SSR .
Lemme 2.
1 n n T ( j)
E(SST ) = (n − 1)σ2 + ∑ ∑ [β (x − x(i))]2.
n2 i=1
(17)
j=1
n n n
E( ∑ (Yi − Mi ) ) − 2E( ∑ (Yi − Mi )(Ȳ − Mi )) + E( ∑ (Ȳ − Mi )2 ) =
2
i=1 i=1 i=1
n n n n
2 1
nσ2 − E( ∑ ∑ (Yi − Mi )(Y j − Mi )) + 2 ∑ E( ∑ (Y j − Mi ))2 =
n i=1 j=1 n i=1 j=1
1 n n
(n − 2)σ2 + ∑ ∑ E(Y j − Mi)2 =
n2 i=1 j=1
1 n n £ ¤2
(n − 2)σ2 + ∑ ∑
n2 i=1 j=1
E (Y j − M j + M j − Mi ) =
1 n n £ 2 ¤
(n − 2)σ + 2 ∑ ∑ E σ + (M j − Mi )2 =
2
n i=1 j=1
1 n n
(n − 2)σ + σ + 2 ∑ ∑ (M j − Mi )2 =
2 2
n i=1 j=1
1 n n h T ( j) i2
(n − 1)σ + 2 ∑ ∑ β (x − x ) .
2 (i)
n i=1 j=1
Le lemme 2 est démontré.
D’après le théorème 1 et le lemme 2 on a
E(SSR ) = (n − m − 1)σ2 ,
251
1 n n h T ( j) i2
E(SST ) = (n − 1)σ2 + ∑∑
n2 i=1
β (x − x (i)
) , (18)
j=1
E(SSE ) = E(SST ) − E(SSR ).
Corollaire.
E(SSR ) = E(SST ) et E(SSE ) = 0,
si l’hypothèse H0 : β1 = ... = βm = 0 est vérifiée, c’est-à-dire sous le modèle sans régression
Yi = β0 + ei , i = 1, ..., n.
E(SSE ) = E(SST ) et E(SSR ) = 0,
si σ2 = 0, c’est-à-dire le modèle de régression linéaire prédit sans erreur les valeurs de Y .
La variable aléatoire
SSR SSE
R2 = 1 − = (19)
SST SST
est appelée le coefficient de détermination.
R2 prend ses valeurs dans le segment [0, 1]. Il représente la proportion de la variabilité
des Yi expliquée par la régression.
Si la prédiction est idéale, i.e. Ŷi = Yi , alors SSR = 0 et R2 = 1. S’il n’y a pas de régres-
sion, i.e. pour tous les x(i) la prédiction de la moyenne M(x(i) ) est la même : Ŷi = Ȳ , alors
SSR = SST et R2 = 0. Donc R2 caractérise la qualité de la prédiction.
La variable aléatoire √
RY (12...m) = R2
est appelée le coefficient de corrélation empirique multiple.
n n
∑ (Ŷi − Ŷ¯ )ei = ∑ Ŷiei = Ŷ
T
e = 0,
i=1 i=1
n n n
¯ )(Y − Ȳ ) = (Y − Ȳ¯ˆ )(e + Ŷ − Ŷ¯ ) = (Ŷ − Ŷ¯ )2
∑ i
(Ŷ − Ŷ i ∑ i i i ∑ i
i=1 i=1 i=1
et s s
∑ni=1 (Ŷi − Ŷ¯ )2 ∑ni=1 (Ŷi − Ȳ )2
rY Ŷ = = = RY (12...m) .
∑ni=1 (Yi − Ȳ )2 ∑ni=1 (Yi − Ȳ )2
La proposition est démontrée.
252
5.1.9 Régression linéaire simple
n n
β0 ∑ xi + β1 ∑ xi2 = ∑ xiYi ,
i=1 i=1
donc
∑ni=1 (xi − x̄)(Yi − Ȳ )
β̂1 = , β̂0 = Ȳ − β̂1 x̄.
∑ni=1 (xi − x̄)2
Si on note
∑n (xi − x̄)(Yi − Ȳ )
rxY = p n i=1
∑i=1 (xi − x̄)2 ∑ni=1 (Yi − Ȳ )2
le coefficient empirique de corrélation de x et Y et
1 n 1 n
s2x = ∑ (xi − x̄)2,
n i=1
sY2 = ∑ (Yi − Ȳ )2
n i=1
253
E(β̂) = β,
µ ¶
Var (β̂0 ) Cov (β̂0 , β̂1 )
Var (β̂) = =
Cov (β̂0 , β̂1 ) Var (β̂1 )
µ n 2 ¶
−1 σ2 ∑i=1 xi − ∑ni=1 xi
σ (X X) =
2 T
,
n ∑ni=1 (xi − x̄)2 − ∑ni=1 xi n
l’estimateur sans biais de σ2 est
SSR ∑n (Yi − Ŷi )2
σ̂2 = = i=1
n−2 n−2
et
Cov (β̂, σ̂2 ) = 0.
D’après le théorème de Gauss-Markov les estimateurs
sont de variance minimale dans la classes des estimateurs linéaires sans biais de M(x) =
E(Y |x), β0 et β1 respectivement,
E(M̂(x)) = M(x), Var (M̂(x)) = Var (β̂0 ) + 2xCov (β̂0 , β̂1 ) + x2 Var (β̂1 ).
Si x passe de x(1) à x(2) , alors le changement de la moyenne de Y est estimé par β̂1 (x(2) −
x(1) ).
Notons que dans le cas de la régression linéaire simple
et donc
[∑ni=1 (Ŷi − Ŷ¯ )(Yi − Ȳ )]2
R2 = =
∑n (Ŷ − Ŷ¯ )2 ∑n (Y − Ȳ )2
i=1 i i=1 i
254
On suppose par la suite dans ce chapitre que la loi des Yi est normale, donc
Y = Xβ + e, e ∼ N(0, σ2 In ). (24)
Certains cas où la loi de Y est différente de la loi normale sont considérés dans le chapitre
sur la “régression log-linéaire”.
1 1 n
L(β, σ2 ) =
(2πσ2 )n/2
exp{− ∑ (Yi − βT X (i))2}.
2σ2 i=1
255
2. Les variables aléatoires SSR et SS − SSR sont indépendantes ;
3. β̂ ∼ N(β, σ2 (X T X)−1 ), SSR
σ2
∼ χ2n−m−1 , SS−SSR
σ2
∼ χ2m .
On a Y = Xβ + e, donc
β̂ − β = (X T X)−1 XY − β = β + (X T X)−1 Xe − β =
(X T X)−1 Xe = Be,
où ẽ = e/σ ∼ N(0, In ). D’après (10) BH = 0. Donc le lemme 1 (annexe) implique que les
variables aléatoires SSR et β̂ − β sont indépendantes. D’après l’égalité (15) la différence
est une fonction de β̂. Donc les variables aléatoires SSR et SS − SSR sont aussi indépen-
dantes.
Le vecteur β̂ est une fonction linéaire du vecteur normal Y . Donc
β̂ ∼ N(β, σ2 (X T X)−1 ).
Le vecteur (β̂ − β)/σ ∼ N(0, (X T X)−1 ). De plus, rang(X T X) = m donc d’après le théo-
rème 1 (annexe)
SS − SSR 1
= 2 (β̂ − β)T X T X(β̂ − β)
σ 2 σ
suit la loi χ2m .
On a obtenu
SSR = ẽT H ẽ, ẽ ∼ N(0, In ).
256
5.1.13 Test de l’hypothèse H0 : βk+1 = ... = βm = 0
ou
Y = Xβ + e, (25)
où
1 x11 · · · x1m
X = ··· ··· ··· ··· , β = (β1 , ..., βm )T , e = (e1 , ..., en )T .
1 xn1 · · · xnm
Considérons le problème de la vérification de l’hypothèse
Hk : βk+1 = ... = βm = 0,
où k est un nombre fixé, k = 0, ..., m − 1. Sous Hk les covariables xk+1 , ..., xm n’améliorent
pas la prédiction de la variable expliquée. Donc si Hk est vérifiée, on peut exclure ces
covariables du modèle. Dans le cas k = 0 on a l’hypothèse
H0 : β1 = ... = βm = 0.
On n’a pas de régression. La connaissance des valeurs des covariables ne dit rien sur les
valeurs de Y .
Considérons le modèle réduit
ou
Y = X (k) β(k) + e, (26)
où
1 x11 · · · x1k
X (k) = · · · · · · · · · · · · , β(k) = (β1 , ..., βk )T .
1 xn1 · · · xnk
Notons
(k) (k) (k)
SSR = ê(k)T ê(k) = (Y − X (k) β̂ )T (Y − X (k) β̂ ),
(n)
SSR = êT ê = (Y − X β̂)T (Y − X β̂)
les sommes résiduelles des carrés pour le modèle (25) et (26).
257
Démonstration. Notons que
(m) (k)
SSR = eT He, SSR = eT H (1) e,
où
H = In − X(X T X)−1 X T , H (1) = In − X (1) (X (1)T X (1) )−1 X (1)T .
Notons X 0 , ..., X m les colonnes de la matrice X. Considérons la suite des vecteurs orthonor-
maux d’ordre n
V 0 = Xl0 , ...,V m = Xlm
qui sont des combinaisons linéaires des X 0 , ..., X m et sont obtenus par la méthode d’ortho-
gonalisation de Gram-Schmidt ; ici
l0 = (l00 , 0, ..., 0)T , l1 = (l10 , l11 , 0, ..., 0)T , ..., lk = (lk0 , ..., lkk , 0, ..., 0)T ,
HV i = V i − X(X T X)−1 X T V i =
donc
n−1 n−1
∑ ∑
(m)
SSR = eT He = eT V iV Ti e = z2i ,
i=m+1 i=m+1
258
Notons que pour i = 0, ..., k on a V i = Xli = X (k) l∗i , où l∗i = (li0 , ..., lii , 0, ..., 0) est le
vecteur d’ordre k + 1, et donc
H (k)V i = H (k) Xli = H (k) X (k) l∗i = 0.
Pour i = k + 1, ..., n − 1 on a X (k)T V i = 0, donc
H (k)V i = V i − X (k) (X (k)T X (k) )−1 X (k)T V i = V i .
Par conséquent, V 0 , ...,V k ,V k+1 , ...,V n−1 sont des vecteurs propres de H (k) de valeurs propres
respectives 0, ..., 0, 1, ..., 1 .
La décomposition spectrale de H (k) est
n−1
H (k)
= ∑ V iV Ti ,
i=k+1
donc
n−1
∑
(k)
SSR = eT V iV Ti ei ∼ σ2 χ2 (n − k − 1),
i=k+1
m
∑
(k)
SSR − SSR = eT V iV Ti ei ∼ σ2 χ2 (m − k)
i=k+1
(k)
et les vecteurs SSR et SSR − SSR sont indépendants.
259
L’hypothèse est rejettée avec le niveau de signification α, si
(m)
où SST et SSE sont la somme des carrés totalle et la somme des carrés expliquée par la
régression , respectivement, dans le modèle (25). La statistique de test pour H0 est
SSE /m
F= ∼ Fm,n−m−1 .
SSR /(n − m − 1)
Donc l’hypothèse H0 sur l’absence de la régression est rejettée avec le niveau de significa-
tion α, si
F > F1−α (m, n − m − 1).
Dans le cas du modèle linéaire simple cette hypothèse est équivalente à l’hypothèse
H0 : β1 = 0
et la statistique de test
SSE
F= ∼ F1,n−2 .
SSR /(n − 2)
L’hypothèse est rejettée avec le niveau de signification α, si
Considérons la statistique
(k) (m) (m) (k)
SSR − SSR SSE − SSE
RY2 (Xk+1 ...Xm )(1...k) = (k)
= (k)
.
SSR SST − SSE
(m) (k)
La somme des carrés SSE et SSE mesurent les parties de variabilité des valeurs Yi expli-
quées par la régression dans les modèles (25) et (26), respectivement, donc la statistique
(m) (k)
SSE − SSE
260
mesure la partie de variabilité des valeurs de Yi , expliqué par l’inclusion des covariables
xk+1 , ..., xm complémentaires à x1 , ..., xk .
La statistique
(k) (k)
SSR = SST − SSE
mesure la variabilité résiduelle des Yi , i.e. la variabilité qui n’est pas expliquée par le modèle
(26). Donc R2 est la proportion de la variabilité résiduelle du modèle (26) expliquée par
introduction des nouvelles covariables xk+1 , ..., xm .
Notons que
(m) (k)
SSR = SST (1 − RY2 (1...m) ), SSR = SST (1 − RY2 (1...k) ),
donc
RY2 (1...m) − RY2 (1...k)
RY2 (Xk+1 ...Xm )(1...k) = .
1 − RY2 (1...k)
La statistique q
RY (Xk+1 ...Xm )(1...k) = RY2 (X
k+1 ...Xm )(1...k)
La statistique q
RY Xm (1...m−1) = RY2 Xm (1...m−1)
est appelée le coefficient empirique de correlation partielle de Y et Xm . Il mesure la cor-
relation entre Y et Xm après l’élimination de leur dépendance de X1 ...Xm−1 . L’égalité (27)
implique ³ ´³ ´
1 − RY2 (1...m) = 1 − RY2 Xm (1...m−1) 1 − RY2 (1...m−1) .
β̂i − βi SSR
∼ N(0, 1), ∼ χ2 (n − m − 1)
σsii σ2
261
et donc
β̂i − βi
t=q ∼ St(n − m − 1),
Var (β̂i )
ˆ
où
ˆ (β̂i ) = sii σ̂2 = sii MSR .
Var
Le γ = 1 − α intervalle de confiance pour βi est
p
β̂i ± sii MSRt1−α/2 (n − m − 1),
et
ĉ − c
t=p ∼ St(n − m − 1).
lT (X T X)−1 lMSR
Le (1 − α) intervalle de confiance pour c est
q
ĉ ± lT (X T X)−1 lMSRt1−α/2 (n − m − 1).(28)
de la fonction de régression.
La formule (28) implique que (1 − α) intervalle de confiance pour m(x0 ) est
q
x0 β̂ ± xT0 (X T X)−1 x0 MSRt1−α/2 (n − m − 1).
T
262
5.1.17 Prédiction de la nouvelle observation
Supposons que x0 = (1, x01 , ..., x0m )T est un vecteur des covariables fixé et Yn+1 (x0 ) est
la (n + 1) observation de la variable dépendante.
Intervalle aléatoire (U1 ,U2 ) tel que
donc
Yn+1 (x0 ) − xT0 β̂ ∼ N(0, σ2 (1 + xT0 (X T X)−1 xT0 ).
La statistique
Yn+1 (x0 ) − xT0 β̂
t=q ∼ St(n − m − 1),
MSR (1 + xT0 (X T X)−1 x0 )
donc le (1 − α) intervalle de prédiction pour Yn+1 (x0 ) est
q
x0 β̂ ± MSR (1 + xT0 (X T X)−1 x0 )F1−α/2 (n − m − 1).
T
Il est plus large que l’intervalle de confiance pour la moyenne m(x0 ) = xT0 β.
Prédiction de la nouvelle observation Yn+1 (x0 ) est plus incertaine que la prédiction de
la moyenne de Y (x0 ).
Le chapitre n’est pas achevé. Les problèmes de diagnostique, step by step régression,
liaison avec ANOVA, etc, sont à ajouter.
Avant de faire inférences il est necessaire de vérifier si le modèle est bien ajusté aux
données réeles. Les suppositions principales du modèle de régression linéaire sont :
a). l’égalité des variances des variables aléatoires ei = Yi − βT x ;
b). l’indépendance des ei ;
c). la linéarité de la fonction de régression M(x) = E(Y (x)) ;
d). la normalité des variables aléatoires ei (si l’on construit les intervalles de confiance
ou vérifie des hypothèses).
Considérons des méthodes non formels de vérification des suppositions du modèle.
Dans le cas du modèle de régression linéaire simple des nuages des points (xi ,Yi )
peuvent être considérés. Si ces points sont dispersés autour d’une certaine courbe, qui n’est
pas une droite, on peut supposer que le modèle n’est pas bien choisi.
Dans le cas m > 1 des résidus êi peuvent être considérés. Notons que
263
où
H = I n − X(X T X)−1 X T = (hi j ),
et donc µ ¶
ê
Var √i = 1.
σ hii
La variance est estimée par
Yi = β0 + β1 xi + β2 xi2 + ei
264
Par exemple, si Yi ∼ LN(β0 +β1 ln xi , σ2 ), alors lnYi = β0 +β1 ln xi +ei , où ei ∼ N(0, σ2 ).
Si on fait des transformations Yi0 = lnYi , xi0 = ln xi , alors on a le modèle linéaire simple
Yi0 = β0 + β1 xi0 + ei . Notons que dans ce cas les variances
ne sont pas constants, mais les variances Var (lnYi ) = σ2 sont constantes.
Considérons plusieurs exemples des transformations pour les modèles de régression à
une covariable. Notons y = M(x). On a
1. si y = αxβ , alors y0 = ln y, x0 = ln x et y0 = ln α + βx0 ;
2. si y = αeβx , alors y0 = ln y et y0 = ln α + βx ;
3. si y = x
αx−β , alors y0 = 1/y, x0 = 1/x et y0 = α − βx0 ;
4. si y = α + β ln x, alors x0 = ln x et y = α + βx0 ;
5. si y = eα+βx /(1 + eα+βx ), alors y0 = ln 1−y
y
et y0 = α + βx.
√
Si Y compte le nombre de certains événements, la transformation Y 0 = Y stabilise
souvent la variance.
Considérons les méthodes non formels de vérification de la normalité des résidus. Si
ei ∼ N(0, σ2 ), alors ê = HY ∼ N(0, σ2 H) et ẽi ∼ N(0, 1). Souvent les correlations entre ẽi
sont petites et on considère ẽ1 , ..., ẽn comme i.i.d. N(0, 1).
Pour tester la normalité grossièrement on peut faire l’hystogramme des ẽi . On peut aussi
faire des plots suivants :
soient ẽ(1) ≤ ... ≤ ẽ(n) les statistiques d’ordre de ẽ1 , ..., ẽn . Si Z( j) est la j-ème statistique
d’ordre de la loi N(0, 1), ( j = 1, ..., n), alors notons m( j) = E(Z(i j) ). Les espérances m( j)
ne dépendent pas des paramètres inconnus. Si ẽ(i) sont des statistiques d’ordre de la loi
N(0, 1), alors les points (ẽ(i) , m(i) ) doivent être dispersés autour de la droite e = m dans le
plan (0em).
On peut utiliser une autre méthode : mettre sur le plan (0eq) les points (ẽ(i) , q(i) ), où
³ ´ ³ ´
q(i) = Φ −1 i−1/2
n sont des i−1/2
n -quantiles de la loi N(0, 1). Alors ces points doivent
être dispersés autour de la droite e = q.
Indépendance des variables aléatoires ei peut être vérifiée en utilisant le test de Durbin-
Watson.
Considérons la statistique
appelée la première autocorrelation des (ê1 , ê2 ), (ê2 , ê3 ), ... , (ên−1 , ên ) ; ici ê¯ = ∑ni=1 êi . Elle
est très proche au coefficient de correlation empirique linéaire de ces pairs. Alors la statis-
tique
∑ni=2 (êi − êi−1 )2
d= ≈ 2(1 − r1 )
∑ni=1 ê2i
est appelée la statistique de Durbin-Watson. r1 est proche à zéro, si les variables aléatoires
êi sont indépendantes. Alors la statistique d est proche à 2 dans ce cas. La loi de d ne dépend
pas des paramètres inconnus et les valeurs critiques di et ds de d sont tabulées. On rejette
l’hypothèse d’indépendance, si d < di ou d > ds .
265
Même si le modèle est bien choisi, l’estimation peut être mauvaise, si parmi les points
(xi ,Yi ) il y a des valeurs aberrantes, i.e. les points avec grands résidus êi = Yi − Ŷi . La va-
leur aberrante est influente si son retrait change beaucoup la valeur de l’estimateur de β.
L’influence de (xi ,Yi ) peut être mesurée à l’aide de la distance de Cook. Pour calculer cette
distance, on calcule la valeur prédite ajustée Ŷia qui est déterminée comme Ŷi , utilisant
seulement les points
(x1 ,Y1 ), ..., (xi−1 ,Yi−1 ), (xi+1 ,Yi+1 ), ..., (xn ,Yn ).
5.2 Annexe
Lemme .
a) Si bT A = 0, alors X T AX et bT X sont indépendantes ;
b) Si AB = 0, alors les formes quadratiques X T AX et X T BX sont indépendantes.
Démonstration. a). On suppose que rang(A) = r. Comme A est une matrice symétrique,
on peut écrire sa décomposition spectrale :
r
A = ∑ λi hi hTi , (28)
i=1
où λi , ..., λr et h1 , ..., hr sont les valeurs propres positives et les vecteurs propres, respecti-
vement, de la matrice A, hTi h j = 0 (i 6= j), hTi hi = 1. On a
r p p p p
X T AX = ∑ λi (hTi X)2 = ( λ1 hT1 X, ..., λr hTr X)( λ1 hT1 X, ..., λr hTr X)T .
i=1
L’égalité bT X = 0 implique
266
b) On écrit la décomposition spectrale des matrices A et B :
r p
A= ∑ λi hi hTi , B= ∑ µ j l j lTj .
i=1 j=1
On a
r p
X AX = ∑
T
λi (hTi X)2 , T
X BX = ∑ µ j (b2j X)2, Cov (hTi X, lTj X) = hTi l j = 0,
i=1 j=1
donc hTi X et lTj X et par conséquent X T AX et X T BX sont indépendantes. Le lemme est dé-
montré.
Lemme . Soit A une matrice idempotente, i.e. A2 = A, telle que rang(A) = r ≤ n. Alors
r = TrA et X T AX ∼ χ2 (r).
Σ) 6= 0, alors
Théorème. Si X ∼ N(µ, Σ ), det (Σ
(X − µ)T Σ −1 (X − µ) ∼ χ2 (n).
Y = D−1/2 H T (X − µ).
On a
Var (Y ) = D−1/2 H T Σ HD−1/2 = In ,
donc
(X − µ)T Σ −1 (X − µ) = Y T D1/2 H T Σ −1 HD1/2Y = Y T Y ∼ χ2n .
Le théorème est démontré.
Théorème. Soit X = (X1 , ..., Xn ) un échantillon, Xi ∼ N(µ, σ2 ). Alors les moments em-
piriques
1 n 1 n
X̄ = ∑ Xi et SX2 = ∑ (Xi − X̄)2
n i=1 n i=1
267
sont indépendants et
√
n(X̄ − µ)/σ ∼ N(0, 1), nSX2 /σ2 ∼ χ2 (n − 1).
Démonstration. Notons Yi = (Xi − µ)/σ ∼ N(0, 1), Y = (Y1 , ...,Yn )T , Ȳ = (X̄ − µ)/σ,
SY2 = SX2 /σ2 .
Il suffit de démontrer que les variables aléatoires Ȳ et SY2 sont indépendantes.
Considérons le vecteur b = (1/n, ..., 1/n)T et la matriceB = (1/n)n×n . On a
(In − B)2 = In − 2B + B2 = In − B
et
bT (In − B) = bT − bT B = bT − bT = 0.
D’après le lemme, les variables aléatoires Ȳ et SY2 sont indépendantes. On a
∂L 1 n1
= 2 ∑ (Xi − µ1 ) = 0,
∂µ1 σ1 i=1
∂L 1 n2
= 2 ∑ (Yi − µ2 ) = 0,
∂µ2 σ2 i=1
268
∂L n1 1 n1
∂σ1
2
= − 2
+ 4 ∑
2σ1 2σ1 i=1
(Xi − µ1 )2 = 0,
∂L n2 1 n2
∂σ2
2
= − 2
+ 4 ∑
2σ2 2σ2 i=1
(Yi − µ2 )2 = 0.
n1 n2 n1 n2
Donc µ̂1 = X̄ = n11 ∑ Xi , µ̂2 = Ȳ = n12 ∑ Yi , σ̂21 = s21 = n11 ∑ (Xi − X̄)2 , σ̂22 = s22 = n12 ∑ (Yi −
i=1 i=1 i=1 i=1
Ȳ )2 .
Notons n = n1 + n2 . Sous H0 la fonction de vraisemblance pour (µ1 , µ2 , σ2 ) est
( " #)
n1 n2
1 1
L1 (µ1 , µ2 , σ2 ) = exp − 2 ∑ (Xi − µ1 )2 + ∑ (Yi − µ2 )2 .
(2πσ )
2 n/2 2σ i=1 i=1
∂L1 1 n1
= 2 ∑ (Xi − µ1 ) = 0,
∂µ1 σ i=1
∂L1 1 n2
= ∑ (Yi − µ2) = 0,
∂µ2 σ2 i=1
( )
∂L n 1 n1 n2
= − 2 + 4 ∑ (Xi − µ1 )2 + ∑ (Yi − µ2 )2 = 0.
∂σ2 2σ 2σ i=1 i=1
Donc µ̂1 = X̄, µ̂2 = Ȳ , σ̂2 = 1n (n1 s21 + n2 s22 ). Les maximums des fonctions L et L1 sont
1
L̂ = L(µ̂1 , µ̂2 , σ̂21 , σ̂22 ) = e−n/2
(2π)n/2 sn11 sn22
et
1 −n/2
L̂1 = L1 (µ̂1 , µ̂2 , σ̂2 ) = n1 2 n2 2 n/2 e .
(2π) ( n s1 + n s2 )
n/2
269
Donc la région critique est défini par l’inégalité
µ ¶ µ ¶
n1 n2 s22 n1 s21 n2
n1 ln + + n2 ln + > C.
n n s21 n s22 n
n2 x2 + (n1 − n2 )x − n1 = 0
sont x1 = 1 et x2 = − nn12 . Donc g0 (x) < 0 si x ∈]0, 1[, g0 (x) > 0 si x ∈]1, +∞[. La fonction g
est décroissante sur l’intervalle ]0, 1[, croissante sur ]1, +∞[ et le minimum est atteint dans
le point 1. L’inégalité g(x) > C est vérifiée si et seulement si x < c1 ou x > c2 . Donc la
région critique pour H0 est déterminée par les égalités
s22 s22
< c1 ou > c2 .
s21 s21
s22 s22
P{ < c1 | H0 } = α/2, P{ > c2 | H0 } = α/2.
s21 s21
où la densité
fXi ,Yi (x, y) =
½ · ¸¾
1 1 (x − a1 )2 2ρ(x − a1 )(y − a2 ) (y − a2 )2
p exp − − +
2πσ1 σ2 1 − ρ2 2(1 − ρ2 ) σ21 σ1 σ2 σ22
pour tout (x, y) ∈ R2 .
Construire le test de rapport de vraisemblance pour tester l’hypothèse H0 : ρ = 0 qui est
equivalente à l’hypothèse que les variables aléatoires xI et Yi sont indépendantes.
Notons que (µ1 , µ2 , σ21 , σ22 , ρ) ∈ Θ = R × R × R+ × R+ × [−1, 1] et
(µ1 , µ2 , σ2 ) ∈ Θ0 = R × R × R+ ⊂ Θ
270
La fonction de vraisemblance pour (µ1 , µ2 , σ21 , σ22 , ρ) est
n n n
ln L = −n ln(2π) − ln σ21 − ln σ22 − ln(1 − ρ2 )
2 2 2
n · ¸
1 (Xi − a1 )2 2ρ(Xi − a1 )(Yi − a2 ) (Yi − a2 )2
− ∑
2(1 − ρ2 ) i=1 σ21
−
σ1 σ2
+
σ22
,
donc
n · ¸
∂L 1 2(Xi − a1 ) 2ρ(Yi − a2 )
∂a1
=− ∑ − σ2 + σ1σ2 = 0,
2(1 − ρ2 ) i=1 1
n · ¸
∂L 1 2(Yi − a2 ) 2ρ(Xi − a1 )
∂a2
=− ∑ − σ2 + σ1σ2
2(1 − ρ2 ) i=1
= 0.
2
Ces équations impliquent
n n
σ2
∑ (Yi − a2) = ∑ (Xi − a1) σ1 ρ
,
i=1 i=1
n n
ρσ2
∑ (Yi − a2) = ∑ (Xi − a1) σ1
,
i=1 i=1
donc µ ¶
n
σ2 ρσ2
∑ (Xi − a1) σ1ρ − σ1 = 0,
i=1
n · ¸
∂L n 1 (Yi − a2 )2 ρ(Xi − a1 )(Yi − a2 )
∂σ22
=− 2+ ∑
2σ2 2(1 − ρ2 ) i=1 σ42
−
σ1 σ32
= 0.
Notons
n
∑ (Xi − X̄)(Yi − Ȳ )
i=1
r=
s1 s2
le coefficient empirique de correlation. Alors les dernières equations on s‘écrivent (on rem-
place ai par âi ) :
s2 s1 s2
(1 − ρ2 ) − 12 + ρr = 0,
σ1 σ1 σ2
s22 s1 s2
(1 − ρ2 ) − + ρr = 0,
σ22 σ1 σ2
271
qui impliquent s1 /σ1 = s2 /σ2 = (1 − ρ2 )/(1 − ρr). La dernière dérivé est
n · ¸
∂L nρ ρ (Xi − a1 )2 2ρ(Xi − a1 )(Yi − a2 ) (Yi − a2 )2
= −
∂ρ 1 − ρ2 (1 − ρ2 )2 i=1 ∑ σ21
−
σ1 σ2
+
σ22
n
1 (Xi − a1 )(Yi − a2 )
+ ∑
1 − ρ i=1
2 σ1 σ2
= 0,
donc µ ¶
ρ s21 s1 s2 s22 s1 s2
ρ− − 2ρr + +r = 0.
1 − ρ2 σ21 σ1 σ2 σ22 σ1 σ2
Remplaçant s2i /σ2i par (1−ρ2 )/(1−ρr) dans la dernière équation, on a ρ̂ = r. Donc s2i /σ̂2i =
1, qui donne σ̂2i = s2i .
Nous avons obtenu les estimateurs â1 = X̄, â2 = Ȳ , σ̂2i = s2i , ρ̂ = r.
Sous H0 les estimateurs sont obtenus dans le problème 1.
Les maximums des fonctions L et L1 sont
1
L̂ = L(â1 , â2 , σ̂21 , σ̂22 , ρ̂) = e−n ,
(2π)n sn1 sn2 (1 − r2 )n/2
1
L̂1 = L1 (â1 , â2 , σ̂21 , σ̂22 ) = n n e−n
(2π) s1 s2
n
et
r2 (n − 2)
F= .
1 − r2
On a r2 > C si et seulement si F > C1 . On rejette H0 si F > F1−α (1, n − 2). Le niveau de
signification est α.
Exercice 1. Il est donné que entre x et y(x), deux variables en étude, il y a une dépen-
dance polynomiale
y(x) = a0 + a1 x + ...am xm . (30)
272
On suppose que les ai et m sont inconnus et que pour tout xi la quantité yi = y(xi ) est
mesurée avec une erreur ei . On observe donc
Yi = yi + ei , i = 1, ..., n. (31)
On suppose aussi que le nombre de mesures n > m, e = (e1 , ..., en )T est un échantillon
normale, c’est-à-dire ei ∼ N1 (0, σ2 ) et donc e ∼ Nn (0, σ2 In ).
Dans l’expériance on a recu pour
det (A + kxxT )
= 1 + kxT A−1 x.
det A
Exercice 3. Soit A une matrice nondégénérée, A = kai j kn×n , X = kxi j kn×p , k ∈ R1 ,
telles que
I p + kXT A−1 X
est nondégénérée. Montrer que
273
Exercice 6. Soit A une matrice symmétrique, λ1 ≥ λ2 ≥ ... ≥ λn - les valeurs propres
de An .
Montrer que
n n
TrAn = ∑ λi , det An = ∏ λi .
i=1 i=1
mais après estimation des paramètres β = (β0 , ..., βm ) on peut obtenir un estimateur de
π(x) qui n’appartienne pas à l’intervalle [0, 1]. En règle générale la loi des estimateurs de
maximum de vraisemblance des paramètres inconnus approche la loi normale quand n est
grand, mais la vitesse de convergence vers la loi normale est plus grande quand la région
des valeurs du paramètre est R. C’est le deuxième argument défavorable à l’utilisation du
modèle (1). Toutes ces restrictions peuvent être éliminées en considérant le modèle
π(x)
g(x) = ln = β0 + β1 x1 + ... + βm xm = βT x. (2)
1 − π(x)
Alors
eβ x
T
eβ0 +β1 x1 +...+βm xm
π(x) = = T .
1 + eβ0 +β1 x1 +...+βm xm β
1+e x
274
Le domaine de variation de la fonction-logit g(x) est R et pour n’importe quelle valeur de
β la fonction π(x) prend ses valeurs dans ]0, 1[. Donc on a
Le modèle de régression logistique :
π(x)
Yi ∼ B(1, π(x(i) )), où ln = β0 + β1 x1 + ... + βm xm
1 − π(x)
et Y1 , ...,Yn sont des variables aléatoires indépendantes.
Si la j-ème variable explicative x j est dicrète avec une échelle nominale, par exemple,
la couleur, l’ethnie, etc., et prend k j valeurs différentes, on peut utiliser au lieu de x j le
vecteur (z j,1 , ..., z j,k j −1 ) des codes qui prend k j valeurs différentes : (0, ..., 0), (1, 0, ..., 0),
(0, 1, 0, ..., 0),....,(0, ...., 0, 1) et le modèle (2) est modifié :
k j −1
g(x) = β0 + β1 x1 + ... + ∑ β jiz ji + ... + βmxm. (3)
i=1
Si, par exemple, x j est la couleur qui prend 3 valeurs (noir, bleu, blanc), alors on considère
le vecteur (z j1 , z j2 ) qui prend les valeurs (0,0)- (noir), (1,0)- (bleu), (0,1)- (blanc). Si x j est
le sexe (masculin, féminin), alors on considère la variable codée z j1 qui prend les valeurs 0
(masculin) et 1 (féminin). Parfois le codage est différent : (-1,...,-1), (1,0,...,0),...,(0,0,...,1),
etc.
(1) (2)
Notons que si on prend deux valeurs x j et x j de x j dans (2), alors
(2) (1) (2) (1)
g(x1 , ..., x j , ..., xm ) − g(x1 , ..., x j , ..., xm ) = β j (x j − x j )
et donc
(2) (2) (2) (2)
π j /(1 − π j ) π(x1 , ..., x j , ..., xm )/(1 − π(x1 , ..., x j , ..., xm ) (2) (1)
(1) (1)
= (1) (1)
= eβ j (x j −x j )
. (4)
π j /(1 − π j ) π(x1 , ..., x j , ..., xm )/(1 − π(x1 , ..., x j , ..., xm ))
(2) (1)
Le rapport des cotes est donc égal à eβ j (x j −x j ) et si x j − x j = 1, alors il vaut eβ j . La
(2) (1)
cote est le rapport des probabilités de succès et d’échec pour l’évènement A. Le rapport des
(1) (2)
cotes montre comment varie la cote quand x j passe de x j à x j , toutes les autres cova-
(i)
riables restant les mêmes. Si les probabilités π j sont petites, alors le rapport des cotes est
(2) (1)
proche à π j /π j , i.e. au risque relatif. Dans ce cas eβ j (x j
(2) (1) −x j )
montre comment change
(1) (2)
la probabilité de succès quand x j change sa valeur de à xj
et toutes les autres cova-xj
riables ne changent pas. Il faut souligner que dans le modèle (2) le rapport des cotes est le
même pour n’importe quelles valeurs fixées des autres covariables xl (l 6= j), i.e. il n’y a
pas d’interactions.
(i) (i)
Si x j est discrète avec une échelle nominale et (z j1 , ..., z j,k j −1 ) = (0, ..., 1, ..., 0), où 1
(0) (0)
est dans la i-ème place, (z j1 , ..., z j,k j −1 ) = (0, ..., 0), alors
(i) (i) (0) (0)
g(x1 , ..., z j1 , ..., z j,k j −1 , ..., xm ) − g(x1 , ..., z j1 , ..., z j,k j −1 , ..., xm ) = β ji
et alors
(i) (i)
π j /(1 − π j )
(0) (0)
= eβ ji , (5)
π j /(1 − π j )
275
(l) (l) (l)
où π j = π(x1 , ..., z j1 , ..., z j,k j −1 , ..., xm ) (l = 0, i).
eβ ji est le rapport des cotes qui correspond au changement de valeur de la variable x j de
la première à la (i + 1)-ème quand toutes les autres variables restent fixes . Par exemple, si
x j est la couleur (noire, blanche, bleue), eβ j2 exprime le rapport des cotes qui correspond au
changement de x j de la couleur noire à la couleur blanche (i = 1).
Si l’effet de changement de la valeur de la covariable x j est différent pour des valeurs
différentes des autres covariables, on a une interaction entre x j et ces covariables. Alors le
modèle (2) peut être modifié pour tenir compte de l’effet d’interaction. Par exemple, dans
le cas de deux covariables on a le modèle
g(x) = β0 + β1 x1 + β2 x2 + β3 x1 x2 ,
g(x) = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x1 x2 + β5 x1 x3 + β6 x2 x3 + β7 x1 x2 x3 . (6)
et
(2) (2)
(2)
(β1 +β3 x2 )(x1 −x1 )
(1) π(x1 , x2 )/(1 − π(x1 , x2 ))
e = (1) (1)
, (7)
π(x1 , x2 )/(1 − π(x1 , x2 ))
(2) (1)
donc le rapport des cotes dépend non seulement de la différence x1 − x1 mais aussi de la
valeur de la deuxième covariable x2 .
5.3.1 Estimation
On a un échantillon (Y1 , x(1) ), ..., (Yn , x(n) ), où x(i) = (xi0 , ..., xim )T , xi0 = 1. La variable
aléatoire Yi suit la loi de Bernoulli :
La fonction de vraisemblance
n
L(β) = ∏[π(x(i) )]Yi [1 − π(x(i) )]1−Yi
i=1
et
n
ln L(β) = ∑ Yi ln π(x(i) ) + (1 −Yi ) ln (1 − π(x(i) )) =
i=1
n
π(x(i) )
∑ Yi ln 1 − π(x(i)) + ln (1 − π(x(i))) =
i=1
n
∑ Yi(β0 + β1xi1 + ... + βmxim) − ln (1 + eβ0+β1xi1+...+βmxim ).
i=1
276
Les fonctions score
∂ ln L(β) n
Ul (β) = = ∑ xil [Yi − π(x(i) )] (l = 0, ..., m).
∂βl i=1
T
les valeurs prédites des π(x(i) ). Dans le cas de la régression linéaire Ŷi = β̂ x(i) . La prédic-
tion est bonne si les valeurs observées Yi et les valeurs prédites Ŷi sont proches. Dans le cas
de la régression linéaire la différence entre Yi et Ŷi était déterminé par SSR = ∑(Yi − Ŷi )2 .
Dans le cas normal SSR /σ2 suit la loi du chi-deux à n − m − 1 degrés de liberté..
Si la fonction π(x) est complètement inconnue et si
on estime n paramètres inconnus p1 , ..., pn . On a le modèle saturé, parce que le nombre des
paramètres à estimer est le même que la taille de l’échantillon.
La fonction de vraisemblance
n
L0 (p) = L0 (p1 , ..., pn ) = ∏ pYi i (1 − pi )1−Yi
i=1
est
n
L(β̂) = ∏ ŶiYi (1 − Ŷi )1−Yi ≤ L0 ( p̂).
i=1
277
Si Ŷi et Yi sont proches, i.e. la prédiction est bonne, alors L0 ( p̂) et L(β̂) sont proches,
donc le rapport des vraisemblances L(β̂)/L0 ( p̂) est proche de 1 et
L(β̂)
DR = −2 ln = −2 ln L(β̂)
L0 ( p̂)
est proche de zero. Si n est grand et le modèle de régression logistique est vérifié, la loi de
DR est approchée par la loi du chi-deux à n − m − 1 degrés de liberté. Donc un équivalent
de la somme des carrés de régression SSR dans la régression logistique est DR .
Le nombre minimal de paramètres à estimer est égal à 1. On est dans ce cas, si
(i) e β0
β1 = ... = βm = 0 et π(x ) = = π = const.
1 + e β0
Alors la fonction de vraisemblance
n
L1 (π) = ∏ πYi (1 − π)1−Yi
i=1
DT = DE + DR .
278
Cette hypothèse signifie qu’il n’y a pas de régression et la connaissance de la valeur de x
n’améliore pas la prédiction de π(x). L’hypothèse H0 peut être écrite comme H0 : π(x) =
π = const. Sous l’hypothèse H0 la loi de DE est approchée par la loi du chi-deux à m degrés
de liberté. L’hypothèse H0 est rejetée avec le niveau de signification α, si DE > χ21−α (m).
Considérons l’hypothèse
En particulier ce test peut être appliqué pour tester l’hypothèse d’absence d’interactions
entre des covariables. Par exemple, dans le modèle (6) cette hypothèse est équivalente à
l’hypothèse
H0 : β4 = β5 = β6 = β7 = 0.
(7) (3)
La statistique de test DE − DE suit la loi de chi-deux de k = 4 degrés de liberté.
L’hypothèse
H0 : β j = 0 ( j = 1, ..., m)
peut aussi être testée en utilisant la matrice d’information de Fisher estimée.
On cherche la matrice d’information de Fisher I(β) = (Ils (β)). On a
∂2 ln L(β) n
Ils (β) = −E = ∑ xil xis π(x(i) )(1 − π(x(i) )) (l, s = 0, ..., m).
∂βl ∂βs i=1
Si n est grand, la matrice de covariance de β̂ est approchée par I−1 (β) ou I−1 (β̂) = (σ̂ls ). Si
x = (x0 , ..., xm ), alors la variance de π̂(x) est approchée par
µ ¶T µ ¶T
∂π̂(x) −1 ∂π̂(x)
σ̂ (π̂(x)) =
2
I (β̂) =
∂βs 1×(m+1) ∂βs (m+1)×1
m m
π̂2 (x)(1 − π̂(x))2 ∑ ∑ xl xsσ̂ls. (8)
l=0 s=0
Notons
σ̂ll = σ̂2 (β̂l ), σ̂ls = Cov
ˆ (β̂l , β̂s ).
Si n est grand alors la loi de β̂ est approchée par la loi normale N(β, I−1 (β)) et I−1 (β) est
estimée par I−1 (β̂).
279
La loi de la statistique
β̂ j
Wj =
σ̂(β̂ j )
est approchée par la loi N(0, 1), quand n est grand. On rejette l’hypothèse H0 : β j = 0 avec
le niveau de signification α, si |W j | > w1−α/2 .
La loi de (π̂(x) − π(x))/σ̂(π̂(x)) est approchée par la loi normale standard, donc l’inter-
valle de confiance de niveau de confiance γ = 1 − α pour la probabilité π(x) est approché
par
π̂(x) ± z1−α/2 σ̂(π̂(x)),
où σ̂(π̂(x)) est donnée par la formule (8).
La relation entre les coefficients β j et les rapports des cotes donne la possibilité de
construire des intervalles de confiance pour les rapports de cotes.
L’intervalle de confiance de niveau de confiance γ = 1 − α pour le coefficient β j est
donné par la formule β̂ j ± z1−α/2 σ̂(β̂ j ) parce que la loi de (β̂ j − β j )/σ̂(β̂ j ) est approchée
par la loi normale standard réduite. Donc les intervalles de confiance pour les rapports des
cotes (4), (5) et (7) sont
(2) (1)
exp{(x j − x j )(β̂ j ± z1−α/2 σ̂(β̂ j ))},
280
Chapitre 6
Dans ce chapitre nous allons étudier les notions principales et les modèles de base de
l’analyse de survie et de la fiabilité et seulement quelques nouveaux modèles proposés
et étudiés par Bagdonaviçius et Nikulin en 1994-2000. Les modèles plus générals et plus
récents et leurs analyses statistiques on peut trouver, par exemple, dans Bagdonaviçius &
Nikulin (1994, 1995, 1996, 1997,1998,1999, 2000), Droesbeke & Fichet et Tassi (1989),
Bagdonaviçius, Gerville-Réache, Nikoulina & Nikulin (2000), Charlambidis, Koutras and
Balakrishnan (2000), Meeker and Escobar (1998), Limnios and Nikulin (2000), Ionescu
and Limnios (1999) etc.
Dans ce paragraphe, nous allons définir les fonctions permettant de décrire une distri-
bution de survie et présenter quelques modèles paramétriques.
Admettons qu’à la date t = 0 un élément (un sujet ou un système) commence à fonc-
tionner (à vivre) et qu’à la date t il se produise une panne (la mort, le décès).
La variable durée de vie X, délai entre la date d’origine et la date du décès (panne) est
une variable aléatoire non négative, X ∈ [0, ∞[.
Soit
F(t) = P{X ≤ t}, t ∈ R1+ . (1)
Nous ne considérons ici que le cas où X est continue, c’est-à-dire que la probabilité de
décès (de panne) à chaque instant est infiniment petite.
Dans ce cas la fonction de répartition F(t) de la variable X est donnée par l’intégrale
Zt
F(t) = f (x) dx,
0
281
où f (t) est la densité de probabilité de X
P{t ≤ X ≤ t + h}
f (t) = F 0 (t) = lim , h > 0. (2)
h→0 h
Donc, F(t) est la probabilité de décéder entre 0 et t, ou la probabilité de défaillance (de
panne) au cours de l’intervalle [0,t].
Définition 1. La fonction
On remarque que S(t) = F̄(t) est la probabilité de bon fonctionnement continu durant
[0,t] :
S(t) = F̄(t) = P{X > t} = P{X ≥ t}, t ∈ R1+ , (3)
ou la probabilité du fonctionnement sans défaillance de l’élément au cours du temps t. La
fonction S(t) est monotone décroissante :
où 0 = t0 < t1 < ... < tk , et Ŝ(ti ) est un estimateur statistique de S(ti ). Considérons un
exemple dans lequel nous soumettons à l’essai ni éléments identiques dans les même condi-
tions au cours du temps ti . Si à l’instant ti , où les essais se terminent, νi éléments fonc-
tionnent encore, alors la statistique νi /ni peut-être considérée comme un estimateur de S(ti ),
puisque d’après la loi de grands nombres
νi
P{ → S(ti ), ni → ∞} = 1.
ni
282
Dans ce cas
νi
S(ti ) ≈ = Ŝ(ti )
ni
et donc
1 k νi
EX ≈ ∑ ni (ti+1 − ti−1).
2 i=1
(7)
Souvent, s’il n’y a pas de censure, pour estimer EX on utilise aussi la moyenne arithmétique
n n
1 1
X̄n =
n ∑ Xj = n ∑ X( j),
j=1 j=1
où X(1) ≤ X(2) ≤ ... ≤ X(n) sont les statistiques d’ordre, associées avec les durées de survies
X1 , X2 , ..., Xn .
Remarque 1. Soit Fn (t) la fonction empirique,
Dans ce cas Sn (t) = 1 − Fn (t) est l’estimateur empirique de la fonction de survie S(t),
1
ESn (t) = S(t), Var Sn (t) = Var Fn (t) = F(t)S(t).
n
Puisque
Var Sn (t) F(t)
Var {ln Sn (t)} ≈ = ,
S (t)
2 nS(t)
nous pouvons dire que l’estimateur Sn (t) n’est pas fiable quand S(t) est trop petite.
D’autres caractéristiques empiriques qui donnent des informations intéressantes sur la loi
F sont :
la fonction empirique
1 n
Fn (x) = ∑ 1]−∞,x] (X j ),
n j=1
la variance empirique
1 n
s2n = ∑ (Xi − X̄n)2,
n i=1
la moyenne harmonique
n
X̄nH = ,
∑nj=1 X1j
la moyenne géométrique √
X̄nG = n
X1 X2 ...Xn ,
l’étendu
R = X(n) − X(1) ,
le coefficient de variation
sn
v= .
X̄n
Définition 2. Soient X et Y deux durées de survie,
283
Nous disons que X est stochastiquement plus grande que Y et notons X º Y si
Le fait que X est stochastiquement plus grande que Y nous pouvons exprimer aussi en disant
que Y est stochastiquement plus petite que X et en notant Y ¹ X. Il est claire que si Y ¹ X,
alors
FY (t) = P{Y ≤ t} ≥ FX (t) = P{X ≤ t}, t ∈ R1+ , (9)
i.e.,
S(t) ≤ H(t) pour tout t ∈ R1+ .
Théorème 1. Si X º Y , alors
EX ≥ EY.
En effet, puisque S(t) ≥ H(t) on a
Z ∞ Z ∞
EX = S(t)dt ≥ H(t)dt = EY.
0 0
Considérons tout d’abord le problème suivant : supposons que l’élément ait fonctionné
sans défaillance jusqu’à l’intant u, u > 0. Quelle est la probabilité pour qu’il ne tombe pas
en panne dans l’intervalle ]u, u + t], t > 0 ? Donc, on s’intéresse à la probabilité
où
4t pt = P{X > t + 4t|X > t}.
C’est une notation utilisée en démographie. De (1) et (2) il suit que la probabilité de panne
(de décès) au cours de (t,t + 4t], sachant que X > t est
284
De la définition 1 il suit que
tandis que
P{t < X ≤ t + 4t} = f (t)4t + o(4t), 4t → 0.
Donc α(t)4t est approximativement égale (pour de petites valeurs de 4t ) à la probabilité
de tomber en panne au cours de (t,t + 4t] à condition que l’élément ait fonctionné sans
défaillance jusqu’à la date t. On voit que α(t) est une caractéristique locale de fiabilité dé-
terminant la fiabilité de l’élément à chaque instant de temps, d’où le nom de taux instantané
de défaillance. Puisque
f (t)dt = S(t)α(t)dt
il est clair que
α(t) ≈ f (t)
pour les petites valeurs de t.
d ln S(t)
α(t) = − , S(0) = 1,
dt
d’où on tire que
Zt
ln S(t) = − α(s) ds, t > 0,
0
et donc
Zt
S(t) = exp − α(s) ds . (6.9)
0
285
On voit que le taux de défaillance détermine la distribution F(t) = 1 − F̄(t) = 1 − S(t).
Définition 2. On définit A(t), fonction de risque cumulée de α(s) entre 0 et t :
Zt
A(t) = α(s) ds, t ≥ 0. (6.10)
0
Remarque 4. La fonction α(t) peut-être déterminée d’après les résultats des essais. Si
N = N(0) éléments sont soumis aux essais au moment t = 0 et N(t) désigne le nombre
d’éléments qui fonctionnent encore au moment t, t > 0, alors (N → ∞)
286
i.e.,
dans ce cas le taux de défaillance empirique α̂N (t) est doné par la formule :
µk µk
α̂N (t) = = , (k − 1)h ≤ t ≤ kh. (17)
(N − µ1 − µ2 − · · · − µk−1 )h hN(tk−1 )
Remarque 5. Soit X la durée de vie avec la fonction de répartition F(t) et la densité fX (t) =
F 0 (t). Considérons la transformation Y = σX + µ, σ > 0. Dans ce cas
µ ¶ µ ¶
t −µ 1 t −µ
P{Y ≤ t} = F et fY (t) = fX ,
σ σ σ
puisque
y−µ dy
y = σx + µ ⇐⇒ x = , dx = ,
σ σ
d’où on tire que ¡ t−µ ¢
1 µ ¶
fY (t) σ fX σ 1 t −µ
αY (t) = ¡ t−µ ¢ = ¡ ¢ = αX .
S σ S t−µ
σ
σ σ
Remarque 6. Dans le cas où X est une variable aléatoire discrète,
les fonctions de répartition F(k), de survie S(k) et de risque de défaillance α(k) de X sont
données par les formules suivantes :
∞
S(k) = P{X > k} = P{X ≥ k + 1} = ∑ pm , (19)
m=k+1
puisque
k−1
pk = α(k)S(k − 1) = α(k) ∏ [1 − α(m)], k ∈ N,
m=1
287
en posant p1 = α(1).
Enfin on remarque que
∞ ∞ j ∞ ∞
EX = ∑ jp j = ∑∑ pk = ∑ ∑ pj =
j=1 j=1 k=1 k=1 j=k
∞ ∞ ∞
∑ P{X ≥ k} = ∑ P{X > k − 1} = ∑ S(k − 1). (21)
k=1 k=1 k=1
Exemple 1. Soit X est uniforme sur X = {1, ..., N},
1
pk = P{X = k} = , k ∈ X.
N
Dans ce cas
k
k
F(k) = P{X ≤ k} = ∑ pm = N , k ∈ X,
m=1
k N −k
S(k) = P{X > k} = P{X ≥ k + 1} = 1 − = ,
n N
pk 1
α(k) = = , k ∈ X.
S(k − 1) N − k + 1
On remarque que
1
= p1 = α(1) < α(2) < ... < α(N) = 1.
N
Exemple 2. Soit X suit la loi géométrique de paramètre p, p ∈]0, 1[. Dans ce cas
pm = P{X = m} = pqm−1 , m ∈ N,
k
F(k) = P{X ≤ k} = p ∑ qm−1 = 1 − qk ,
m=1
∞
S(k) = P{X > k} = p ∑ qm−1 = qk
m=k+1
pk pqk−1
α(k) = = k−1 = p, k ∈ N,
S(k − 1) q
d’où on tire que α(k) = const.
Il est facile de démontrer que α(k) = const si et seulement si la variable aléatoire discrète
X suit une loi géométrique.
288
6.3 Modèles paramétriques de survie.
Modèle exponentiel. Le modèle de base est celui pour lequel la fonction de risque d’une
variable aléatoire continue X est constante :
Dans ce modèle λ(t) est constante au cours du temps. On l’appelle modèle exponentiel de
paramètre λ parce que la fonction de survie est exponentielle :
Zt
S(t) = S(t; λ) = exp − α(s) ds = exp {−λt} = e−λt , (1)
0
donc
F(t) = F(t; λ) = P{X ≤ t} = 1 − S(t) = 1 − e−λt , t ≥ 0. (2)
Ce modèle ne dépend que du paramétre λ et on a
1 1
EX = et Var X = . (3)
λ λ2
Définition 1. On dit que la variable de durée de survie X vérifie la proprièté d’indépendance
temporelle (lack-of-memory) si et seulement si
où λ = const, λ > 0.
Théorème 1. Il y a indépendance temporelle si et seulement si la loi de la durée de survie
X est exponentielle.
Remarque 1. La loi exponentielle est donc la seule loi continue à taux de défaillance
constant.
Théorème 2. Il y a indépendance temporelle si et seulement si l’une des conditions sui-
vantes est vérifiée :
1. les fonctions de survie conditionnelles {Su (t), u > 0, } sont exponentielles de même
paramètre λ (λ > 0) :
S(u + t)
Su (t) = = e−λt , t ∈ R1+
S(u)
Su (t) = P{X > t + u|X > u} = P{X > t}, t ≥ 0, u > 0. (5)
289
De l’autre côté on voit
Z t Z t −λu
P{t ≥ X ≥ u} e − e−λt 1 te−λt
E{X | X ≤ t} = du = du = − . (7)
0 P{t ≥ X} 0 1 − e−λt λ 1 − e−λt
Remarque 3. Si h est petit (h → 0), alors
P{X ≤ h} = λh + o(h).
λh + o(h),
d’où on tire que la distribution de Weibull devient de plus en plus concentrée autour de EX,
quand α devient de plus en plus grand. Il est évident que
f (t)
α(t) = = αλt α−1 . (11)
S(t)
Si α > 1, le risque de panne α(t) croit de façon monotonne, à partir de 0, et on dit qu’il y
a usure. Si α < 1, le risque de panne α(t) décroit de façon monotonne et il n’est pas borné
pour t = 0, dans ce cas on dit qu’il y a rodage. Si α = 1, on obtient une loi exponentielle de
290
paramètre λ.
Remarque 4. Soit X = (X1 , . . . , Xn )T un échantillon tel que
G(x; α, λ)
lim = 1, G(x; α, λ) = 0, x ≤ 0,
x↓0 λxα
L
n1/α X(n1) → W (α, λ), quand n → ∞.
et · µ ¶¸n
x
P{n 1/α
X(n1) > x} = 1 − G 1/α ; α, λ ,
n
d’où on déduit que si n → ∞, alors
· µ ¶¸
x
ln P{n X(n1) > x} = n ln 1 − G 1/α ; α, λ =
1/α
n
· µ ¶ µ ¶¸
x α 1
= n −λ 1/α +o = −λxα + o(1),
n n
d’où on tire que pour tout x > 0
α
lim P{n1/α X(n1) > x} = e−λx = S(x; α, λ), (13)
n→∞
λ p p−1 −λt
f (t) = f (t; λ, p) = t e 1]0,∞[ (t), λ > 0, p > 0, t ∈ R1 . (15)
Γ(p)
291
Alors
p p
EX = , Var X = ,
λ λ2
et
f (t) t p−1 e−λt
α(t) = = R∞ . (16)
S(t) p−1 −λx
x e dx
t
On peut montrer que si p > 1, alors α(t) est croissante et
lim α(t) = λ.
t→∞
lim α(t) = λ.
t→∞
En effet,
R∞ p−1 −λx
x e dx Z∞ ³ ´ p−1
1 x
= t
= e−λ(x−t) dx, t > 0.
α(t) t p−1 e−λt t
t
Après avoir fait le changement de variable dans l’intégrale :
on obtient que
Z∞ ³
1 u ´ p−1 −λu
= 1+ e du, t > 0.
α(t) t
0
Posons ³ u ´ p−1
gu (t) = 1 + , t > 0,
t
pour tout u > 0.
Comme
dgu (t) u³ u ´ p−2
= −(p − 1) 2 1 + ,
dt t t
on en tire que pour tout u (u > 0)
dgu (t)
> 0, si 0 < p < 1,
dt
dgu (t)
< 0, si p > 1,
dt
dgu (t)
= 0, si p = 1,
dt
d’où on déduit que pour tout u > 0
gu (t) est croissante, si 0 < p < 1,
gu (t) = 1, si p = 1,
gu (t) est décroissante, si p > 1,
et par conséquent on obtient que
292
α(t) est dćroissante, si 0 < p < 1,
α(t) = λ, si p = 1, et donc on a la loi exponentielle de paramètre λ,
α(t) est croissante, si p > 1.
Enfin, on remarque que pour tout p > 0
1 1
lim = et donc lim α(t) = λ.
t→∞ α(t) λ t→∞
Modèle de Rayleigh.
Dans ce modèle la fonction de survie d’une durée de survie X est
½ ¾
ct 2
S(t) = S(t; c) = exp {−A(t)} = exp − 1[0,∞[ (t), c > 0, (17)
2
½ ¾
0 ct 2
f (t) = f (t; c) = −S (t) = ct exp − 1[0,∞[ (t), (18)
2
Zt Zt
ct 2
A(t) = α(u) du = cu du = , t ≥ 0,
2
0 0
et par conséquent α(t) = A0 (t) = ct, et donc dans ce modèle α(t) est une fonction linéaire.
On peut montrer, que r
π 4−π
EX = , Var X = .
2c 2c
Il est claire que le modéle de Rayleigh représente le cas particulier du modéle de Weibull
avec α = 2 et λ = c/2.
Modèle de Pareto.
Dans ce modèle la fonction de survie est
µ ¶α
θ
S(t) = S(t; α, θ) = 1[θ,+∞[ (t), t ∈ R1 , θ > 0, α > 0, (19)
t
1
f (t) = f (t; α, θ) = −S0 (t) = αθα 1 (t), t ∈ R1 , (20)
t α+1 [θ,+∞[
par conséquent
α
α(t) =1 (t). (21)
t [θ,+∞[
Il est évident que α(t) est décroissante. On emploie ce modèle lorqu’on est assuré que la
survie dure au moins jusqu’à un instant θ > 0.
293
Dans ce cas la densité de T est
βt −1]/β
f (t) = f (t; α, β) = αeβt e−α[e (23)
Soit T une durée de survie, dont la fonction de survie appartient à cette classe de Lehmann :
oú F(t) = 1 − S(t) et f (t) = F 0 (t). De (26) et (28) on trouve que le taux de défaillance
instantanné de T est
f (t)
α(t; θ) = θ = θα(t), (29)
S(t)
où α(t) = f (t)/S(t) est le taux de défaillance de base, correspondant à θ = 1. Grâce à (29)
ce modèle est connu sous le nom de modéle à hasard proportionnel.
Remarque 6. Il est clair que le modèle exponentiel entre dans une classe d’alternatives
de Lehmann. En effet, en choisissant
294
comme la fonction de survie de base, on obtient le modèle paramétrique exponentiel dont
la fonction de survie est
S(t; θ) = e−θt 1[0,∞[ (t), θ > 0.
Comme le taux de défaillance de base α(t) = 1, on en tire que le taux de défaillence de
modèle exponentiel est α(t; θ) ≡ θ.
estimés des variables exogènes Z1 , ..., Z p sur T , alors en introduisant les paramètres
θ = r(Z) = ez β
T
et α(t) = α(t | Z = 0 p ), (30)
où z est une réalisation obsevée de Z, on obtient le modèle (29) dans la forme suivante :
connu, au cas r(Z) = eβ Z , sous le nom de modèle de regression de Cox avec des cova-
T
riables constantes en temps. Dans ce modèle pour tout t ∈ R1+ le logarithme du taux de
hasard
p
ln α(t | Z = z) = ln α(t) + ln r(Z) = ln α(t) + ∑ z j β j
j=1
est donné par une régression linéaire sur des variables explicatives Z1 , ..., Z p .
Souvent Z ne dépend pas de temps, mais en principe le modèle de Cox générale l’admet.
Le modèle (31), comportant un paramètre β ∈ R p et un paramètre fonctionel α(t), est
appelé semiparamétrique.
On remarque que
∂
βk = ln α(t | Z = z), k = 1, ..., p, (32)
∂zk
et donc nous pouvons dire que le paramètre βk fournit une bonne approximation de la
modification du taux de hasard correspondant à une modification d’une unitè de la variable
explicative Zk . En effet, si, par exemple, une seule variable Zk est égale à 1, toutes les autres
étant nulles, on obtient que
i.e.
α(t | Z1 = ... = zk−1 = Zk+1 = ... = Z p = 0, Zk = 1)
e βk = , (33)
α(t)
d’où on tire que
α(t | Z1 = ... = Zk−1 = Zk+1 = ... = Z p = 0, Zk = 1)
βk = ln . (34)
α(t)
C’est intéressant de remarquer que les rapports dans (33) et (34) ne dépendent pas du taux
de défaillance de base α(t). C’est pour cette raison qu’on utilise le vecteur b pour évaluer
295
les effets des variables explicatives (de contrôle) Z1 , ..., Z p sur T .
a sa densité
f (t; θ) = θ f (θt), t ∈ R1+ , (41)
d’où on tire que le risque instantané de T est
f (t; θ) θ f (θt)
α(t; θ) = = . (42)
S(t; θ) S(θt)
Si T est une durée de survie qui suit la loi de base F(t), alors il est claire que la durée de
survie T /θ suit la loi F(t; θ) = F(θt), puisque
T
Pθ { ≤ t} = Pθ {T ≤ θt} = F(θt) = F(t; θ), (43)
θ
d’où on voit clairement le rôle multiplicatif du paramètre θ (de paramètre d’échelle) dans
le modèle de la vie accélérée : si une durée de survie T suit une loi F(t), considérée comme
la loi de base, alors la loi de T /θ est
296
coinsident si et seulement si le risque instantané de base est
i.e. si la fonction de survie de base S(t) appartient à une famille de Weibull W (α, λ), donnée
par la formule (11) avec α = 1 + β et λ = γ/(1 + β).
Enfin on remarque qu’ici nous pouvons nous mettre dans la situation du modèle de Cox, en
introduisant le paramètre β et le vecteur covariable Z telles que
θ = r(Z) = eZ β ,
T
z ∈ R p, β ∈ R p,
Modèle log-logistique.
Soit X une variable aléatoire qui suit la loi logistique standard L(0, 1), dont la densité
est
ex e−x
gX (x) = = , x ∈ R1 . (44)
[1 + ex ]2 (1 + e−x )2
La fonction de répartition de X est
1 ex
G(x) = P{X ≤ x} = = .
1 + e−x 1 + ex
En utilisant X, on construit une durée de survie T telle que
1
ln T = − ln µ + X, (45)
λ
i.e.
1
T = exp{ X − ln µ} (46)
λ
pour tout λ > 0 et µ > 0. Par calcul direct on trouve que la densité de T est
λµ(µt)λ−1
f (t; θ) = 1[0,∞[ (t), (47)
[1 + (µt)λ ]2
où θ = (µ, λ)T , µ > 0, λ > 0. On dit que T suit une loi log-logistique LL(µ, λ) de paramètre
θ = (µ, λ). De (47) on trouve
(µt)λ
F(t; θ) = Pθ {T ≤ t} = , t ∈ R1+
1 + (µt)λ
et donc la fonction de survie de T est
1
Pθ {T > t} = S(t; θ) = , t ∈ R1+ . (48)
1 + (µt)λ
De (47) et (48) on tire que le risque instantanné de T est
λµ(µt)λ−1 λ λ
α(t; θ) = λ
= [1 − S(t; θ)] = F(t; θ). (49)
1 + (µt) t t
297
De (49) il suit que α(t; θ) est décroissante, si 0 < λ < 1, i.e., dans ce cas T appartient à la
classe DFR. Par contre, si λ > 1, alors α(t; θ) a un maximum
Définition 1 (La classe de Polya d’ordre 2 ( PF2 )). On dit que T ∼ PF2 , si pour tout s ∈ R1+
la fonction
f (t)
gs (t) =
F(t + s) − F(t)
est croissant en t.
Théorème 1. T ∼ PF2 si et seulement si pour tout s ∈ R1+ la fonction
f (t − s)
f (t)
est croissant en t.
On remarque que T ∼ PF2 si et seulement si
f (t + s)
f (t)
298
est décroissante en t, ce qui est équivalent au théorème 1.
Définition 2 (IFR). On dit qu’un élément, dont la durée de survie est T , est vieillissant si
son taux de panne α(t) est croissant ( décroissant), i.e.
Démostration.
R
Puisque T ∼ IRF, on en tire que la fonction α(t) est croissante. Comme
A(t) = 0t α(s)ds, alors A00 (t) = α0 (t) > 0 et donc la fonction A(t) est convexe, d’où on tire
que
A(ET )
A(t) ≤ t, 0 ≤ t ≤ ET.
ET
Puisque A(ET ) < 1, alors on a
ET 2 ≥ 2(ET )2 .
299
Définition 3 (IFRA). Si RM(t) est croissant (décroissant), alors on dit que T a une dis-
tribution à taux de défaillance moyen croissant (décroissant) en temps et on note T ∼
IFRA (DFRA).
IFRA (DFRA) vient de Increasing (Decreasing) Failure Rate Average.
Théorème 7. Soit F(t) = P{T ≤ t} la fonction de répartition de T , S(t) = 1 − F(t) la
fonction de survie de T . Alors T ∼ IFRA si et seulement si pour tout θ ∈]0, 1[ on a
Autrement dit, si pour tout θ ∈]0, 1[ la durée de survie du modèle de la vie accélérée corres-
pondante à ce θ donné est stochastiquement plus grande que la durée de survie correspon-
dante de la classe de Lehmann (au modèle de Cox).
Théorème 8. Si T ∼ IFR, alors T ∼ IFRA, i.e. IFR ⊂ IFRA.
Démonstration. En effet, comme T ∼ IFR, on a
Z t
A(t) = α(s)ds ≤ tα(t), t ∈ R!+ ,
0
Définition 4 (NBU). On dit que T ∼ NBU ( New Better then Used où Neuf meilleur
Usagé) si pour tout u > 0
Su (t) ≤ S(t), t ∈ R1+ .
Ici Su (t) = 1 − Fu (t) = P{T > u + t | T > u}.
De cette définition on tire que T ∼ NBU si et seulement si
300
En posant θt = u et (1 − θ)t = v, on obtient que
et donc T ∼ NBU.
A(t)
On remarque que IFR 6= IFRA, i.e. on peut construire une durée de survie T telle que t
est croissante en t, t ∈ R1+ , mais α(t) n’est pas croissante. En effet, soit
t, si 0 < t ≤ 1,
√
α(t) = 2 − t,
√ si 1 < √
t ≤ 2,
2 − 2, si t > 2.
Dans ce cas t
1
Z
1 t 2, si 0 < t ≤ 1,
√
A(t) = α(s)ds = 2−√t 1
2− t, si 1 < √
t ≤ 2,
t t 0
2 − 2, si t > 2.
On voit que
µ ¶0
1
A(t) ≥ 0, t ∈ R1+ ,
t
i.e. T ∼ IFRA, mais la fonction α(t) n’est pas croissante, et donc la distribution de T n’ap-
partient pas à IFR.
Définition 5. La variable aléatoire Rs est appelée la durée de vie restante où résiduelle (the
residual life) de la durée de survie T qui a atteint l’âge s.
Donc, pour tout s fixé, s ∈ R1+ , Rs est la durée de vie restante de T , sachant que T > s, et sa
loi est une loi conditionnelle avec la fonction de survie
F(s + t) − F(s)
SR(s) (t) = Ss (t) = 1 − Fs (t) = 1 − =
S(s)
301
S(s) − [1 − S(s + t)] − [1 − S(s)] S(s + t)
= , t ∈ R1+ . (3)
S(s) S(s)
Donc Ss (t) est la probabilité de survie au cours de la périod ]s, s + t] sachant que le sujet
a été vivant jusqu’à s, s ∈ R1+ . Il faut remarquer ici que de la construction de Ss (t) il suit
que la famille {Ss (t), s ∈ R1+ } de fonctions de survie conditionnelle caractérise la loi de T .
Du théorème 2 il suit que Fs (t) = F(t) si et seulement si X suoit une loi exponentielle (on
suppose que F est continue).
Si T a la densité f (t) = F 0 (t), alors la densité de Rs existe et s’exprime par la formule
f (s + t)
fRs (t) = fs (t) = , t ∈ R1+ . (4)
S(s)
f (s)
fs (0) = lim Fs (t) = = α(s), (5)
t→0 S(s)
∂
Ss (t) = [α(s) − α(s + t)]Ss (t). (8)
∂s
Puisque Ss (t) > 0, on tire de (8) que Ss (t) est décroissante (croissante) en s si et seulement
si le risque de défaillance α(t) est croissant (décroissant). Mais si Ss (t) est décroissante en
s, alors
Su (t) ≥ Sv (t) pour tout u < v, (9)
302
ce qui signifie que Ru est stochastiquement plus grande que Rv , u < v. Le théorème est
démontré.
Définition 6. L’espérance mathématique r(s) = ERs , s ∈ R1+ , est appelée la durée moyenne
de la vie restante Rs .
De cette définition on trouve que
et en particulier r(0) = ET .
Théorème 11. La durée moyenne r(s), s ∈ R1+ , de la vie restante Rs caractérise la loi de la
durée de survie T .
Pour démontrer ce théorème il suffit de montrer que r(s) s’exprime en terme de S(s), par
exemple, ce qui n’est pas difficile, puisque de la définition de r(s) il suit que
Z ∞
1
r(s) = S(u)du, s ∈ R1+ , (11)
S(s) s
et réciproquement Z t
r(0) 1
S(t) = exp{− dx}, t ∈ R1+ .
r(t) 0 r(x)
Définition 7 (NBUE). On dit que T ∼ NBUE (New is Better than Used in Expectation) si
pour tout s ∈ R1+
ET ≥ E{T − s | T > s} = ERs .
Théorème 12. Si T ∼ NBU, alors T ∼ NBUE, i.e. NBU ⊂ NBUE.
Démonstration. En effet, pour tout s > 0 on a
Définition 8 (DMRL). On dit que T ∼ DMRL (Decreasing Mean Residual Life), si pour
tout 0 ≤ s < t < ∞
E{T − s | T > s} ≥ E{T − t | T > t}.
On dit aussi que T a la durée de vie moyenne restante décroissante.
Théorème 13. Si T ∼ DMRL, alors T ∼ NBUE, i.e. DMRL ⊂ NBUE.
Définition 9 (HNBUE). On dit que T ∼ HNBUE (Harmonic New Better than Used in
Expectation) si Z ∞
1
S(t)dt ≤ e−s/ET pour tout s ∈ R1+ .
ET s
Exemple 2. Soit P{T ≥ t} = S(t), où
1, 0 ≤ t < 1,
S(t) = 0.25, 1 ≤ t < 3,
0, t ≥ 3.
303
Il est facile de vérifier que T ∼ HNBUE.
Enfin on introduit encore une classe qui est assez naturelle.
Définition 10. (IDMRL) On dit que T ∼ IDMRL (Increasing and Decreasing Mean Resi-
dual Life), si la vie moyenne restante r(s) de T est unimodale i.e., s’il existe s0 > 0 tel que
r(s) est croissante sur [0, s0 [ et décroissante sur [s0 , ∞[.
De façon analogue à l’introduction de la classe DFR on peut introduire les classes sui-
vantes :
DFRA - Decreasing Failure Rate on Average,
NWU - New Worse than Used,
NWUE - New Worse than Used in Expectation,
IMRL - Increasing Mean Residual Life,
HNWUE - Harmonic New Worse than Used in Expectation.
où ½
1, si Xi ≤ C,
Ti = Xi ∧C = min(Xi ,C), Di = 1{Ti =Xi } = (6.1)
0, si Xi > C.
Il est clair que
Ti = Xi 1{Xi ≤C} +C1{Xi >C} .
Donc, en realité on observe la défaillance (le décès) du sujet i si Xi ≤ C, et la variable
indicatrice Di de l’état aux dernières nouvelles vaut 1 dans ce cas. Dans le cas contraire,
Xi > C et donc l’observation est censurée et l’état aux dernières nouvelles Di du sujet i vaut
0. Lorsqu’on ordonne les valeurs de Ti par ordre croissant, obtenant les statistiques d’ordre
Xi ∼ f (xi ; θ), θ ∈ Θ, xi ≥ 0,
304
et
S(xi ; θ) = 1 − F(xi ; θ) = Pθ {Xi > xi }
sa fonction de survie, Xi est un élément de l’échantillon X. Dans ce cas la densité de la
statistique (Ti , Di ) est donnée par la formule
par rapport à la mesure dλ×dµ, où λ est la mesure de Lebesgues sur [0, ∞[, et µ la mesure de
comptage sur {0, 1}. Parce que la statistique Di , représente la partie discrète de la statistique
(Ti , Di ), on a
Pθ {Ti , Di = 0} = Pθ {C ≤, Xi > C} = S(C; θ),
½ Z ti
S(C; θ) si C ≤ ti ,
= = S(C; θ)1v>C dv,
0 sinon, 0
et donc
g(ti , 0; θ) = S(C; θ)1ti >C .
De l’autre côté on a
Pθ {Ti ≤ ti , Di = 1} = Pθ {Xi ≤ ti , Xi ≤ C}
½ Z ti
S(C; θ) si ti ≤ C,
= = f (v; θ)1v≤C dv,
0 sinon, 0
et donc
g(ti , 1; θ) = f (ti ; θ)1ti ≤C .
Donc la fonction de vraisemblance, correspondant aux observations (T1 , D1 ), ..., (Tn , Dn ),
est
n
L(θ) = ∏[ f (Ti ; θ)]Di [S(C; θ)]1−Di . (6.2)
i=1
On remarque que cette distribution est continue par rapport à Ti , et discrète par rapport à
Di .
Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon,
i.e., la durée de survie du sujet i suit une loi exponentielle de paramètre θ. On remarque que
dans ce modèle
1 1
EXi = et VarXi = 2 .
θ θ
Supposons que la durée C de l’étude est fixée à l’avance.
- t
0 T(1) T(2) T(R) C
Soient T = (T1 , ..., Tn )T , où Ti = min (Xi ,C), et T(·) = (T(1) , ..., T(R) ,C, ...,C)T le vecteur
des statistiques d’ordre associé à T,
305
La statistique
R = D1 + D2 + · · · + Dn = D(1) + D(2) + ... + D(n) ,
nous indique le nombre de décès observés, R ∈ {0, 1, ..., n}. Ici D(i) dénote la statistique Di
associée à T(i) . De (2) il suit que la fonction de vraisemblance L(θ), correspondante à la
statistique T(·) , est donnée par la formule
( )
n ³ ´Di ³ ´1−Di n
L(θ) = ∏ θe−θTi e−θTi = θR exp −θ ∑ Ti , (6.3)
i=1 i=1
où
T = T1 + T2 + · · · + Tn = T(1) + T(2) + · · · + T(n) .
On note encore une fois que la loi marginale de R est discrète, ici elle est binomiale B(n, p),
d’où " #
∂ R R
Λ(θ) =
∂θ
ln L(θ) = −
θ ∑ T(i) + (n − R)C , (6.9)
i=1
306
On remarque que si R > 10 et n assez grand pour que R/n < 0.1, alors on peut estimer en
s’appuyant sur la loi des grands nombres que
R
1 R C
∑ T(i) = R · ∑
R i=1
T(i) ≈ R · .
2
i=1
est le temps global de survie (de fonctionnement) des sujets (des éléments) au cours des
essais.
Remarque 2. Calculons M(θ) = Eθ Ti et D(θ) = Var θ Ti . On a
ZC
M(θ) = Eθ Ti = tθe−θt dt +CP{Xi > C} =
0
1h i 1³ ´
= 1 − e−θC − θCe−θC +Ce−θC = 1 − e−θC .
θ θ
D(θ) = Var θ Ti = ETi2 − (ETi )2 =
2 h −θC −θC
i 1 ³
−θC −2θC
´
= 2 1−e − θCe − 2 1 − 2e +e =
θ θ
1 h i
= 2 1 − 2θCe−θC − e−2θC .
θ
Supposons θC ¿ 1, c’est-à-dire que les éléments sont relativement sûrs. En décomposant
l’exponentielle en série, on obtient
(θC)2 (θC)3
e−θC ≈ 1 − θC + − ,
2 6
4
e−2θC ≈ 1 − 2θC + 2(θC)2 − (θC)3 ,
3
d’où, puisque θC ¿ 1,
· ¸
θC2 θ2C3 θC (θC)2
M(θ) = Eθ Ti ≈ C − + =C 1− + ,
2 6 2 6
· ¸
1 2 4 3 2 3 (θC)4
D(θ) = Var θ Ti ≈ 2 2θC − 2(θC) + (θC) − 2θC + 2(θC) − (θC) + =
θ 3 3
θC3 θC3
= [1 − θC] ≈ .
3 3
307
Si on utilise le théorème limite central, on trouve que si n → ∞, alors le temps global de
fonctionnement
n R
T = ∑ Ti = ∑ T(i) + (n − R)C
i=1 i=1
est asymptotiquement normal de paramètres nM(θ) et nD(θ) :
( )
T − nM(θ)
lim P p ≤ x = Φ(x),
n→∞ nD(θ)
d’où on tire que pour les grandes valeurs de n la variable aléatoire
h i 2
(θC)2
T − nC 1 − θC 2 + 6
q
n θC3
3
est distribuée approximativement comme χ21 , autrement dit pour de grands n on peut ad-
mettre que
" #2
T − nM(θ)
p = χ21 .
nD(θ)
On peut utiliser ce résultat pour estimer θ par intervalle.
308
Si
Xi ∼ f (xi ; θ) et S(xi ; θ) = Pθ {Xi > xi }, xi > 0, θ ∈ Θ,
alors la fonction de vraisemblance associée aux statistiques
(T1 , D1 ), (T2 , D2 ), . . . , (Tn , Dn )
est
n
n!
L(θ) = ∏
(n − r)! i=1
f (T(i) ; θ)D(i) S(T(i) ; θ)1−D(i) =
r
n!
(n − r)! ∏
= f (X(i) ; θ)S(X(r) ; θ)n−r , (6.13)
i=1
n
puisque ∑ Di = r, où r est donné.
i=1
Exemple 2. Soit
Xi ∼ f (xi ; θ) = θe−θxi , xi > 0, θ ∈ Θ =]0, +∞[,
i.e. Xi suit une loi exponentielle de paramètre θ, θ > 0. Dans ce cas la fonction de vraisem-
blance, associée aux données censurées (censure du type II) est
à !
n! r ³ ´n−r
(n − r)! ∏
−θX(i) −θX(r)
L(θ) = θe e =
i=1
r
n!
= θr exp {−θ ∑ X(i) } exp {−θX(r) (n − r)} =
(n − r)! i=1
( " #)
r
n!
= θr exp −θ ∑ X(i) + (n − r)X(r) =
(n − r)! i=1
( " #)
r
n!
= θr exp −θ ∑ T(i) + (n − r)T(r) .
(n − r)! i=1
On voit que dans ce cas la statistique scalaire
r n n
T = ∑ T(i) + (n − r)T(r) = ∑ T(i) = ∑ Ti
i=1 i=1 i=1
est exhaustive. Elle représente le temps global de survie (de fonctionnement). Il est évident
que l’estimateur de maximum de vraisemblance θ̂n est
n
∑ Di
r
θ̂n = i=1
n = r .
∑ Ti ∑ T(i) + (n − r)T(r)
i=1 i=1
309
= P{χ22r ≤ 2θx},
i.e.
χ22r
T= .
2θ
En effet,
Z Z
( " #)
r
n!
P{T ≤ x} =
(n − r)!
θr ... exp −θ ∑ ti + (n − r)tr dt1 · · · dtr =
i=1
0<t1 <···<tr
r
∑ ti +(n−r)tr ≤x
i=1
Z Z
( " #)
r−1
n!
=
(n − r)!
θr ... exp −θ ∑ ti + (n − r + 1)tr dt1 · · · dtr .
i=1
0<t1 <···<tr
r−1
∑ ti +(n−r+1)tr ≤x
i=1
où ui > 0 et u ≤ x, on a
Z Z
n! 1
P{T ≤ x} = θr ... e−θu du1 · · · dur−1 du ,
(n − r)! n−r+1
u1 >0,...,ur−1 >0
r−1
∑ (n−r+1)ui <u≤x
i=1
puisque ° °
° D(t1 , . . . ,tr ) ° 1
det ° °
° D(u1 , . . . , ur−1 , u) ° = n − r + 1 .
En faisant un nouveau changement des variables :
(n − i + 1)ui = vi , i = 1, . . . , r − 1, u = v,
on trouve que
Z Z r+1
n! 1
P{T ≤ x} =
(n − r + 1)!
θr ... ∏ n − i + 1 e−θv dv1 · · · dvr−1dv =
i=1
v1 >0,...,vr−1 >0
r−1
∑ vi <v≤x
i=1
Zx Z Z
−θv
=θ r
e dv ... dv1 · · · dvr−1 =
0 v1 >0,...,vr−1 >0
r−1
∑ vi <v
i=1
310
Zx Z θx
1
=θr
vr−1 e−θv dv = yr−1 e−y dy = P{γr ≤ θx} = P{χ22r ≤ 2θx}.
Γ(r) 0
0
et donc
r−1
θ∗n = r
∑ T(i) + (n − r)T(r)
i=1
est ici le meilleur estimateur sans biais (MVUE) pour θ. On note que
θ2
Varθ∗n = , r > 2.
r−2
Enfin, on remarque qu’en l’absence de censure, l’estimateur de maximum de vraisemblance
θ̂n , obtenu avec toutes les données X1 , ..., Xn , est
n 1
θ̂n = n = .
X̄n
∑ Xi
i=1
c) Vérifier l’hypothèse que la durée de survie des téléviseurs suit une loi exponentielle
de paramètre θ. Utiliser les résultats de a), b) et le critère de Kolmogorov.
311
indépendant de X, tel que au lieu d’observer X1 , ..., Xn on observe les statistiques
où
Ti = Xi ∧Ci , Di = 1{Ti =Xi } .
Donc en cas de censure aléatoire, on associe à chaque sujet i (i = 1, 2, ..., n) une statistique
de dimension 2 : (Xi ,Ci ) ∈ R2+ , dont seulement la plus petite composante est observée :
½
Xi est la survie ,
Ci est la censure .
On remarque que ce résultat suit immédiatement du fait que T1 , T2 , ..., Tn forment aussi un
échantillon, où Ti suit la même loi H(t; θ) = 1 − S(t; θ)Q(t) :
1 − Pθ {Xi > t,Ci > t} = 1 − Pθ {Xi > t}P{Ci > t} = 1 − S(t; θ)Q(t).
312
6.6 Troncature.
Supposons que T ait pour densité f (t) = F 0 (t), et qu’il y ait troncature gauche et droite
simultanées : pour cette raison T est observable seulement sur l’intervalle ]c,C]. Donc, on
a une distribution tronquée dont la fonction de répartition est
0, si t ≤ c,
F(t)−F(c)
F(t|c < T ≤ C) = F(C)−F(c) , si c < t ≤ C,
1, si t > C.
313
On remarque que le risque de panne ne dépend que de C. Donc, s’il n’y a que la troncature
à gauche (c > 0,C = ∞), on a S(C) = 0 et
i.e. la troncature à gauche ne change pas le risque de panne, tandis que la troncature à droite
augmente ce risque.
Notons Tc,C la variable aléatoire, dont la fonction de répartition conditionnelle est
Par exemple, si F(t) est la fonction de répartition de la loi uniforme sur [a, d], i.e.
0, t ≤ a,
t−a
F(t) = , a < t ≤ d,
d−a
1, t > d,
et
[c,C] ⊂]a, d[,
alors
0, si t ≤ c,
F(t)−F(c)
F(t|c < T ≤ C) = F(C)−F(c) , si c < t ≤ C,
1, si t > C,
0, si t ≤ c,
t−c
=
C−c , si c < t ≤ C,
1, si t > C,
et la distribution tronquée est de nouveau uniforme, mais sur l’intervalle ]c,C].
(Voir Woodroofe (1985), Huber (1989).)
Exemple 2. Modèle de la loi normale tronquée. Soit T une durée de survie dont la fonc-
tion de répartition est
¡ ¢ ¡ µ¢
Φ t−µ
σ −¡Φ − σ
F(t; µ, σ ) = Pµ,σ2 {T ≤ t} =
2
µ¢ 1[0,∞[ (t), t ∈ R1 ,
1 − Φ −σ
où Φ(·) est la fonction de répartition de la loi normale standard N(0, 1), |µ| < ∞, σ2 > 0.
On dit que la durée de survie T suit la loi normale, tronquée au zéro. La fonction de survie
de T est ¡ ¢
1 − Φ t−µ
S(t; µ, σ ) = 1 − F(t; µ, σ ) =
2 2 ¡ µ ¢σ 1[0,∞[ (t), t ∈ R1 ,
Φ σ
314
et la densité de T est
µ ¶
1 t −µ
f (t; µ, σ ) =
2 ¡ ¢ϕ 1[0,∞[ (t), t ∈ R1 ,
σΦ σµ σ
· Z µ/σ ¸
σ µ ³ mu ´
¡ ¢ Φ − uϕ(u)du =
Φ σµ σ σ −∞
Z µ/σ ¡ ¢
σ 0 σϕ σµ
µ+ ¡µ¢ ϕ (u)du = µ + ¡ µ ¢ > µ.
Φ σ −∞ Φ σ
Pour étudier le comportement de α(t) on remarque que
µ ¶ µ ¶
4 1
ϕ(x) 1 − 2 < ϕ(x) < ϕ(x) 1 + 2 , x > 0, (1)
x x
puisque µ¶
Z ∞
1 1
ϕ(x) = ϕ(u) 1 + 2 du
x 0 u
et µ ¶ Z ∞ µ ¶
1 1 4
− ϕ(x) = ϕ(u) 1 − 2 du.
x x3 x u
Comme ¡ t−µ ¢
ϕ
α(t) = ¡ σµ−t ¢1[0,∞[ (t), t ∈ R1 ,
σΦ σ
de (2) on tire que
1 1 1 1
− 3< < ,
t t α(t) t
d’où on obtient que
α(t)
lim = 1.
t→∞ t
315
6.7 Estimateur de Kaplan-Meier.
Si l’on ne peut pas supposer a priori que la loi de la durée de survie X obéit à un modèle
paramétrique, on peut estimer la fonction de survie S(t) grâce à plusieurs méthodes non-
paramétriques dont la plus intéressante est celle de Kaplan-Meier, (1958).
Cet estimateur est aussi appelé P-L estimateur car il s’obtient comme un produit : la
probabilité de survivre au delà de l’instant t(n) est égale au produit suivant :
S(t(n) ) = P{X > t(n) } = P(X > t(n) |X > t(n−1) ) · S(t(n−1) ) = ∆n pt(n−1) S(t(n−1) ),
∆1 ∆2 ∆3 ∆n
- t
0 t(1) t(2) t(3) t(n−1) t(n)
qui est la probabilité de survivre pendant l’intervalle de temps ∆i =]T(i−1) ; T(i) ] quand on
était vivant au début de cet intervalle. On note que
Notons :
−
Ri = card R(T(i) ) le nombre des sujets qui sont vivants juste avant l’instant T(i) , en désignant
par R(t ) l’ensemble des sujets à risque à l’instant t − ;
−
316
Supposons d’abord qu’il n’y ait pas d’ex-aequo, i.e. on suppose que
Dans ce cas,
si D(i) = 1, c’est qu’il y a eu un mort en T(i) et donc Mi = 1,
si D(i) = 0, c’est qu’il y a eu une censure en T(i) et donc Mi = 0.
Par suite,
µ ¶ ½
Mi 1 D(i) 1 − R1i , en cas de mort en T(i) ,
p̂i = 1 − = 1− =
Ri Ri 1, en cas de censure en T(i) ,
µ ¶D(i)
1
= ∏ 1−
n−i+1
.
T(i) ≤t
Pour estimer la variance de Ŝn (t), on utilise l‘approximation de Greenwood, d’après laquelle
£ ¤ £ ¤2 Di
Var Ŝn (t) ≈ Ŝn (t) ∑ .
i:Ti ≤t (n − i)(n − i + 1)
R∞
La moyenne EXi de survie Xi est estimée par 0 Ŝn (t)dt. Enfin on remarque que
317
puisque µ ¶
1 1
log 1 − ≈− ,
n− j+1 n− j+1
pour les grandes valeurs de n − j + 1. La statistique
Di
A∗n (t) = ∑
i:Ti ≤t n − i + 1
est connue comme l’estimateur de Nelson pour le taux de hasard cumulé A(t).
Théorème 1. Si les lois F et H de la survie Xi et de la censure Ci n’ont aucune discontinuité
commune, la suite d’estimateurs {Ŝn (t)} de Kaplan-Meier de la fonction de survie S(t) est
consistante.
Théorème 2. Si l’échantillon X = (X1 , ..., Xn )T et l’échantillon de censure
C = (C1 , ...,Cn )T sont indépendants, alors dans les conditions du théorème 1
√ L
n(Ŝn (t) − S(t)) → W (t), n → ∞,
où W (t) est un processus gaussien centré, EW (t) ≡ 0, dont la fonction de covariance est
Z s∧t
dF(u)
k(s,t) = EW (s)W (t) = S(s)S(t) .
0 [1 − F(u)]2 [1 − H(u)]
Remarque 1. Il est facile à voir que
Ŝn (t)
E = 1,
S(t ∧ T(n) )
et donc
S(t)
S(t) = E Ŝn (t) > EŜn (t),
S(t ∧ T(n) )
i.e. l’estimateur de Kaplan-Meier Ŝn (t) n’est pas un estimateur sans biais pour S(t).
Remarque 2. Si S(t) est continue, alors pour ∀t < H −1 (1)
1 n
Ŝn (t) = S(t) + ∑ ψi(t) + rn(t),
n i=1
où W (t) est un processus gaussien centré, EW (t) ≡ 0, dont la fonction de corrélation est
Z t1 ∧t2
dG(t, 1)
k(s,t) = EW (s)W (t) = ,
0 S2 (t)
318
où G(t, 1) = P{Ti ≥ t, Di = 1}.
Exemple 1. Sur 10 patients atteints de cancer des bronches on a observé les durées de survie
suivantes, exprimées en mois :
1 3 4+ 5 7+ 8 9 10+ 11 13+ .
Les données suivies du signe + correspondent à des patients qui ont été perdues de vue à la
date considérée, i.e. censurées.
L’estimateur de Kaplan-Meier Ŝ(t) = Ŝ10 (t) de la fonction de survie S(t) vaut :
Ŝ(0) = 1 et Ŝ(t) = 1 pour tout t dans [0; 1[
1
Ŝ(t) = (1 − 10 )Ŝ(0) = 0.9, 1 ≤ t < 3,
Ŝ(t) = (1 − 19 )Ŝ(1) = 0.80, 3 ≤ t < 5,
Ŝ(t) = (1 − 17 )Ŝ(3) = 0.694, 5 ≤ t < 8,
Ŝ(t) = (1 − 15 )Ŝ(5) = 0.555, 8 ≤ t < 9,
Ŝ(t) = (1 − 14 )Ŝ(8) = 0.416, 9 ≤ t < 11,
Ŝ(t) = (1 − 12 )Ŝ(9) = 0.208.
6
1 a -a -
0.9 a -
0.8
0.7 a -
0.6 a -
0.5 a -
0.4
0.3 a -
0.2
0.1 - t
0 1 2 3 4 5 6 7 8 9 10 11 12 13 (mois)
Mais la plupart du temps il y a des ex-aequo, comme dans le premier exemple qui est
celui des données de Freireich de l’exemple suivant.
Exemple 2 (Données de Freireich). Ces données, très souvent citées dans la littérature
statistique médicale car les performances des diverses méthodes sont souvent testées sur
elles, ont été obtenues par Freireich, en 1963, lors d’un essai thérapeuti- que ayant pour but
de comparer les durées de rémission, exprimées en semaines, de sujets atteints de leucémie
selon qu’ils ont reçu de la 6-mercaptopurine (notée 6-MP) ou un placebo. L’essai a été
fait en double aveugle, c’est-à-dire que ni le médecin, ni le patient ne sont informés de
l’attribution du traitement ou du placebo.
Le tableau ci-après donne, pour chacun des 42 sujets, la durée de rémission.
Traitement Durée de rémission
6, 6, 6, 6+ , 7, 9+ , 10, 10+ , 11+ , 13, 16, 17+ ,
6-MP
19+ , 20+ , 22, 23, 25+ , 32+ , 32+ , 34+ , 35+ .
1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8,
Placebo
11, 11, 12, 12, 15, 17, 22, 23.
319
Les chiffres suivis du signe + correspondent à des patients qui ont été perdus de vue à la
date considérée. Ils sont donc exclus vivants de l’étude et on sait seulement d’eux que leur
durée de vie est supérieure au nombre indiqué. Par exemple, le quatrième patient traité par
6-MP a eu une durée de rémission supérieure à 6 semaines. On dit que les perdus de vue ont
été censurés, et ce problème de censure demande un traitement particulier. En effet, si l’on
se contentait d’éliminer les observations incomplètes, c’est-à-dire les 12 patients censurés
du groupe traité par le 6-MP, on perdrait beaucoup d’information : un test de Wilcoxon
appliqué aux 9 patients restant dans le groupe 6-MP et aux 21 patients du groupe placebo
sous-évaluerait très visiblement l’effet du traitement.
1) Si ces ex-aequo sont tous de morts la seule différence tient à ce que Mi n’est plus égal à
1 mais au nombre des morts et l’estimateur de Kaplan-Meier devient :
µ ¶
Mi
Ŝ(t) = ∏ 1−
Ri
.
T(i) ≤t
2) Si ces ex-aequo sont des deux sortes, on considère que les observations non censurées
ont lieu juste avant les censurées. Voyons ce que donne l’estimateur de Kaplan-Meier dans
le cas des données de Freireich :
Pour le 6-MP :
320
Pour le Placebo :
Ŝ(t) = 1, 0 ≤ t < 1,
2
Ŝ(1) = (1 − 21 )Ŝ(0) = 0.905,
2
Ŝ(2) = (1 − 19 )Ŝ(1) = 0.895,
1
Ŝ(3) = (1 − 17 )Ŝ(2) = 0.842,
2
Ŝ(4) = (1 − 16 )Ŝ(3) = 0.737,
2
Ŝ(5) = (1 − 14 )Ŝ(4) = 0.632,
4
Ŝ(8) = (1 − 12 )Ŝ(5) = 0.421,
Ŝ(11) = (1 − 28 )Ŝ(8) = 0.316,
Ŝ(12) = (1 − 26 )Ŝ(11) = 0.210,
Ŝ(15) = (1 − 14 )Ŝ(12) = 0.158,
Ŝ(17) = (1 − 13 )Ŝ(15) = 0.105,
Ŝ(22) = (1 − 12 )Ŝ(17) = 0.053,
Ŝ(23) = (1 − 11 )Ŝ(22) = 0.
Plus d’information sur le modèle de survie on peut voir dans Kaplan and Meier (1958),
Turnbull (1974),(1976), Kalbfleisch and Prentice (1980), Lawless (1982), Droesbeke, Fi-
chet & Tassi (1989), Bagdonaviv̧ius et Nikulin (1995, 1998, 1999).
Le modèle de Cox est employé lorsque on cherche à évaluer l’effet de certaines variables
sur la durée de survie. D’après ce modèle on a les 2n variables aléatoires indépendantes
X1 , X2 , . . . , Xn et C1 ,C2 , . . . ,Cn
que sont les durées de survie et les temps de censures des n individus considérés. En réalité,
on observe la suite des n vecteurs (Ti , Di ), où Ti date de départ du i-éme individu (en sup-
posant qu’ils sont entrés à l’instant 0), Di indicatrice de la cause de départ (Di = 1 si c’est
la mort, Di = 0 sinon),
Di = 1{Xi ≤Ci } .
Mais on a aussi observé sur chacun des individus un vecteur Z i = (Zi1 , . . . , Zip )T dont dé-
pend la durée de survie Xi . Ce vecteur Z est généralement appelé covariable.
Le modèle des "hasards proportionnels", ou modèle de Cox suppose que
n o
α(t|Z = z) = αz (t) = α0 (t)exp βT z ,
βT z = β1 z1 + β2 z2 + · · · + β p z p ,
où βT = (β1 , . . . , β p )T est le vecteur des coefficient de la regression, α0 (t) est le risque
instantané de base. En général, ils sont inconnus tous les deux. C’est pour cela on dit
321
souvent que le modèle de Cox est semiparamétrique.
Remarque 1. La famille des loi d’un tel modèle est du type suivant :
toutes les fonctions de survie sont égales à une même fonction de survie S0 (t) de base,
élevée à des puissances variées :
Exemple 1. Prenons le cas le plus simple : 1 seule covariable (p = 1), Z prenant seulement
les valeurs 0 ou 1. Il peut s’agir par exemple d’un essai thérapeutique destiné à comparer
l’effet d’un nouveau traitement (Z = 1 pour les patient traités) à celui du traitement habituel
ou d’un placebo (Z = 0), sur la durée de survie.
On a alors deux populations :
si Z = 0, S(t) = S0 (t),
si Z = 1, S1 (t) = [S0 (t)]γ ,
où T(1) < T(2) < · · · < T(n) désignent la suite des instant où a lieu un événement (mort ou
censure), et à l’instant T(i) sont observés :
D(i) la nature de l’événement ; D(i) = 1, si c’est une mort, D(i) = 0, si c’est une censure ;
Z (i) la covariable, de dimension p, de l’individu à qui est arrivé l’événement ;
−
R(i) l’ensemble des indices des individus encore à risque à l’instant T(i) ainsi que la valeur
de leur covariable, Z (k) , k ∈ R(i) .
Cox traite cette vraisemblance partielle comme une vraisemblance ordinaire.
En temps continu, on fait l’hypothèse qu’il n’y a aucun ex-aequo, et dans ce cas
³√ ´ ¡ ¢
L n(β̂n − β) → N 0, I −1 (β) ,
322
6.9 Sur l’estimation semiparamétrique pour le modèle de
Cox
Ti = Xi ∧Ci , Di = 1{Xi ≤ Ci }.
Nous supposons que les statistiques (X1 ,C1 ), ..., (Xn ,Cn ) soient indépendantes. On a un
échantillon (Ti , Di , Zi (·)), (i = 1, ..., n).
Supposons que la censure est indépendante pour chaque individu, i.e. αci (t) = αi (t)
pour tout t : P(Ti ≥ t) > 0, où
où β = (β1 , ..., β p )T est le vecteur des coefficients de regression inconnus, α0 (t) le risque
instantané de base inconnu. Alors
pi ( j|r,t) = P{(i) = j|R(i) = r, X(i) = t} = lim P{(i) = j|R(i) = r, X(i) ∈ [t,t + h)} =
h↓0
eβ Z j (t)
T
αc j (t) α j (t)
= = .
∑s∈r αcs (t) ∑s∈r αs (t) ∑ eβT Zs (t)
s∈r
323
La fonction de vraisemblance partielle est déterminée comme le produit
eβ
T
N N Z(i) (X(i) )
L(β) = ∏ p((i)|R(i) ; X(i) ) = ∏ .
β Zs (X(i) )
T
i=1 i=1 ∑
s∈R(i) e
Alors
N N
eβ
T
log L(β) = ∑ βT Z(i) (X(i) ) − ∑ log ∑ Zs (X(i) )
i=1 i=1 s∈R(i)
et
β
T
Zs (X(i) )
∂ log L(β) N N ∑s∈R(i) Zs (X(i) )e
U(β) = = ∑ Z(i) (X(i) ) − ∑ .
∂β
eβ
T
Zs (X(i) )
i=1 i=1 ∑s∈R(i)
où
n
(u, β) = ∑ eβ
T
(0) Zi (u)
S Yi (u).
i=1
Rt
Cela implique l’estimateur Â0 (t) pour la fonction A0 (t) = 0 α0 (u)du :
Z t
N(t) = S(0) (u, β̂)d Â0 (u),
0
d’où Z t
dN(u)
Â0 (t) = .
0 S(0) (u, β̂)
L’estimateur de la fonction
Z t
eβ
T
Z(u)
AZ(·) (t) = dA0 (u)
0
est Z t T
eβ̂ Z(u) dN(u)
ÂZ(·) (t) = ,
0 S(0) (u, β̂)
et l’estimateur de la fonction de survie SZ(·) (t) = e−AZ(·) (t) :
Les résultats obtenus nous permettent de construire des tests statistiques pour beaucoup de
problèmes importants.
Test d’homogénèité Considérons l’hypothèse
H0 : β1 = β2 = · · · = β p = 0
324
Sous cette hyphothèse la loi de survie ne dépend pas des covariables. Elle peut etre vérifiée
en utilisant plusieurs tests.
a) Test du score
Sous H0 :
U(0) ≈ N(0, Σ(0)),
où ½ ¾
k ∑s∈Ri zs (X(i) )
U(0) = ∑ z(X(i) ) − ,
i=1 ni
½ ¾
k ∑ j∈Ri zr j (X(i) )zs j (X(i) ) ∑ j∈Ri zr j (X(i) ) ∑ j∈Ri zs j (X(i) )
Σ(0) = − ∑ −
i=1 ni ni ni
(0) (0)
ni = Y (Ti ) est le nombre des sujets à risque juste avant Ti . Donc
U T (0)Σ(0)−1U(0) ≈ χ2 (p).
b) Test de Wald
Sous H0
β̂ ≈ N(0, Σ−1 (0)).
Donc
β̂T Σ(0))β̂ ≈ χ2 (p).
On rejette H0 au niveau de signification α, si
On rejette H0 , si
−2(ln L(0) − ln L(β̂)) > χ21−α (p).
Si la seule caractéristique d’un individu est son appartenance à un groupe :
½
1 pour les individus du 1 groupe
z(t) =
0 pour les individus du 2 groupe,
325
le modèle de Cox a la forme
½ β
e h0 (t) pour les individus du 1 groupe
h(t | z) =
h0 (t) pour les individus du 2 groupe.
Dans ce cas l’hypothèse H0 : β = 0 signifie l’egalité des fonctions de risque de deux groupes
qui est equivalent à l’egalitd́es fonctions de survie. Donc les tests du score, de Wald et du
rapport de vraisemblance vérifient l’hypothèses de l’egalité des lois des deux groupes.
Modèle stratifié
Supposons qu’on étudie l’effet des sous covariables z(s) = (z1 , · · · , zs ) du vecteur des
covariables z(p) = (z1 , · · · , z p ) (p > s) sur la survie, mais le modèle de Cox n’est pas vérifié
par rapport à z(p) . Parfois la modification suivante du modèle peut être utile.
Supposons que la région des valeurs de zs+1 , · · · , z p est divisée en q strates et pour des
sujets de j-ème strate le modèle de Cox est vérifié :
(s) ))T z(s) )(t)
h j (t | z(s) ) = e(β h0 j (t) ( j = 1 · · · q).
Pour chaque strate la fonction de risque de base est differente mais l’effet des covariables
z(s) est le même pour toutes strates.
Pour estimer β, on commence par la vraisemblance partielle L j à l’interieur de chaque
strate.
La vraisemblance partielle pour tous les sujets est le produit de toutes les vraisem-
blances :
s
L(β(s) ) = ∏ L j .
j=1
et donc
ln H(t | z) = βT z + ln H0 (t).
Sous des valeures differents de z les graphes des fonctions ln H(t | z) sont parallèls. Donc,
si z est discrète avec valeurs z(1) , · · · , z(s) , alors on considère les graphs des estimateurs
ln Ĥ(t | z( j) ) ( j = 1, · · · , s)
Hl : βl+1 = · · · = β p = 0,
326
et
(p) ))T z(p) )(t)
h(t | z(p) ) = e(β h0 (t)
les modèles de Cox avec l et p covariables,respectivement. Alors
H p−1 : β p = 0.
Elle signifie que le modèle avec (p − 1) covariables z1 , · · · , z p−1 donne la même prediction
que le modl̀e avec (p) covariables z1 , · · · , z p , i.e. la covariable z p peut être exclue du modèle.
L’hypothèse H p−1 est rejetèe, si
Σ−1 (β) =
Sous Hl :
Si l = p − 1, alors
Wp−1,p = β̂2p /A22 (β̂1 , · · · , β̂ p−1 , 0)
et l’hypothèse H p−1 : β p = 0 est rejetée, si
327
6.10 Processus de comptage et l’estimation non paramé-
trique
N(t) est le nombre des pannes observées dans l’intervalle [0, τ], Y (t) est le nombre des
unités à risque au moment t−. N(t) et Y (t) peuvent prendre des valeurs 0 et 1. On suppose
que la variable aléatoire X est absolument continue et pour tout t tel que P{T ≥ t} > 0 il
existe la limite
P{T ∈ [t,t + h[, δ = 1|T ≥ t}
αc (t) = lim .
h↓0 h
αc (t) montre le risque de panne après ou au moment t sachant que une unité était à risque
(pas censurée et pas en panne) juste avant le moment t.
On dit que la censure est indépendante, si
P{X ≥ t,C ≥ t}
P{C ≥ t|X = t} = .
SX (t)
Si X et C sont indépendantes, cette égalité est évidement vérifiée. De l’autre côté on peut
faire aussi une remarque intéressante :
1 ∂
− [P{X ≥ s,C ≥ t}] |s=t .
P{X ≥ t,C ≥ t} ∂s
Exemple. Soit le vecteur (X,C) ait une loi exponentielle de trois paramètres λ > 0, µ >
0, θ > 0 :
P{X ≥ t,C ≥ s} = exp(−λt − µs − θts), t > 0, s > 0,
328
d’où on tire que X suit une loi exponentielle de paramètre λ,
P{X ≥} = exp(−λt),
1 ∂
αc (t) = − [P{X ≥ s,C ≥ t}] |s=t = λ + θt,
P{X ≥ t,C ≥ t} ∂s
et donc on voit que dans cet exemple la censure n’est indépendante.
Notons Z t
M(t) = N(t) − Y (u)α(u)du.
0
Proposition. Si la censure est indépendante, alors EM(t) = 0 pour tout t tel que P{T ≥
t} > 0.
Preuve. L’égalité
P{X ≥ t,C ≥ t}
P{C ≥ t|X = t} = .
SX (t)
implique Z t
EM(t) = EN(t) − EY (u)α(u)du =
0
Z t
P{X ≤ t, X ≤ C} − P{X ≥ u,C ≥ u}α(u)du =
0
Z t Z t
P{C ≥ u|X = u} fX (u)du − P{C ≥ u|X = u}SX (u)α(u)du = 0.
0 0
La proposition est démontrée.
De plus on peut montrer le processus M(t) est une martingale par rapport à la filtration
Ft ,t ≥ 0, où Ft est la σ-algèbre engendrée par les processus N(t) et Y (t) :
Ft = σ{N(s),Y (s) : 0 ≤ s ≤ t}.
Dans ce cas on a :
E{M(t)|Fs } = M(s), pour t ≥ s,
ou ½Z t
¾
E{N(t) − N(s)|Fs } = E Y (u)α(u)du|Fs ,
s
d’où on tire que
1
lim E{N(t) − N(s)|Fs } =
h↓0 h
½Z s+h ¾
lim E Y (u)α(u)du|Fs = E{ Y (s)α(s)|Fs } = Y (s)α(s).
h↓0 s
Cette relation montre que le processus
λ(t) = Y (t)α(t)
329
ce modèle elle est le produit d’un terme déterministe, α(t), et d’un processus Y (t), qui est
prévisible, c’est-à-dire sa valeur au moment t est connue si l’histoire dans l’intervalle [0,t[ :
Ti = Xi ∧Ci , Di = 1{Xi ≤ Ci }.
N(t) est un processus de comptage du nombre de défaillances observées sur [0,t] par sa
valeur à l’instant t. Le processus N(t) est un processus cadlag : ses trajectoires sont des
fonctions continues à droite et limitées à gauche. Enfin, le processus Y (t) représente le
nombre des sujets à "risque" juste avant l’instant t, i.e. Y (t) montre le nombre de données
restant encore en vie.
On introduit la filtration Ft engendrée par tous les processus Ni (s) et Yi (s) :
qui représente l’histoire des défaillances et des censures observées jusqu’à l’instant t. No-
tons Z t
Λi (t) = λi (s)ds.
0
Parce que
Mi (t) = Ni (t) − Λi (t)
est une martingale avec E{Mi (t)} = 0, on dit que Λi (t) est le compensateur du processus
de comptage Ni (t).
De même le processus
Z t Z t Z t
Λ(t) = λ(s)ds = Y (s)α(s)ds = Y (s)dA(s)
0 0 0
330
où M(t) = ∑ni=1 Mi (t) est une Ft -martingale,
E{M(t)|Fs } = M(s).
on en tire que pour trouver l’estimateur Ân (t) il nous faut résoudre l’équation suivante :
Y (T(i) ) = n − i + 1,
Ayant l’estimateur d’Aalen-Nelson pour le risque cumulé A(t) on peut facilement obte-
nir le product-limite (Kaplan-Meier) estimateur Ŝn (t) pour la fonction de survie S(t) =
exp{−A(t)} : µ ¶
∆N(s)
Ŝn (t) = ∏ 1 − ,
0<s<t Y (s)
331
où ∆N(t) = N(t) − N(t − ) est un processus Ft -prévisible.
Pour obtenir cette formule on note d’abord que de l’équation
il suit que Z t Z t
S(t) = 1 − S(u)dA(u) = 1 − S(u−)dA(u).
0 0
Puisque
dN(t)
d Ân (t) =
Y (t)
on en tire que on a : Z t
S(u−)
Ŝn (t) = 1 − dN(u)
0 Y (u)
et
Ŝn (t−)
d Ŝn (t) = − dN(t).
Y (t)
Donc
Z t Z t−
Sn (u−) Sn (u−) Ŝn (t−)
Ŝn (t−) − Ŝn (t) = dN(u) − dN(u) = ∆N(t),
0 Y (u) 0 Y (u) Y (t)
d’où on tire que µ ¶
∆N(t)
Ŝn (t) = Ŝn (t−) 1 − , Ŝn (0) = 1,
Y (t)
et par la suit on obtient la formule de Kaplan-Meier :
µ ¶
∆N(s)
Ŝn (t) = ∏ 1 − .
0<s<t Y (s)
332
Puisque on a
Ŝn (t−)
dS(t) = −S(t)dA(t), d Ŝn (t) = − dN(t),
Y (t)
et
dN(t) = dM(t) +Y (t)dA(t),
on trouve que
Z t Z t
Ŝn (t) Ŝn (u−) Ŝn (u−)
= 1+ dA(u) − dN(u) =
S(t) 0 S(u) 0 S(u)Y (u)
Z t
Ŝn (u−)
1− dM(u).
0 S(u)Y (u)
Le théorème est démontré.
Ce théorème nous permet de calculer
½ Z t ¾2
Ŝn (u−)I{N(u) > 0}
Var Ŝn (t) = E S(t) dM(u) ,
0 S(u)Y (u)
Supposons qu’on a deux groupes des individus (unités). Le i- ème groupe a ni individus.
Pour le premier groupe on a un échantillon
où en forme équivalente
où
(N21 (t),Y21 (t),t ≥ 0), ..., (N2n2 (t),Y2n2 (t),t ≥ 0).
Soit Si (t) la fonction de survie du i-ème groupe. On va tester l’hypothèse
H0 : S1 (t) = S2 (t) ∀t ≥ 0.
Notons Hi (t) = − ln Si (t) la fonction de risque cumulé pour le i-ème groupe.
333
L’estimateur de Nelson-Aalen pour Hi (t) est
Z t
dNi (u)
Ĥi (t) = .
0 Yi (u)
Si l’hypothèse H0 est vérifiée, alors les estimateurs Ĥ1 (t) et Ĥ2 (t) doivent être proches.
Donc le test est basé sur la statistique
Z ∞ Z ∞ Z ∞
dN1 (u) dN2 (u)
V= K(u)d(Ĥ1 (u) − Ĥ2 (u)) = K(u) − K(u) ,
0 0 Y1 (u) 0 Y2 (u)
2. Test de Tarone-Ware :
Y1 (u) Y2 (u)
KG (u) = an .
n1 n2
4. Test de Prentice :
Y (u)
KP (u) = an S̃(u−) ,
Y (u) + 1
où
µ ¶
∆N(v)
S̃(u) = ∏ 1− , N = N1 + N2 , ∆N(u) = N(u) − N(u−).
v≤u Y (v) + 1
5. Test de Efron :
KE (u) = an Ŝ1 (u−)Ŝ2 (u−)1{Y1 (u)Y2 (u)>0} ,
334
Si n1 et n2 sont grands, la loi de V est approchée par la loi normale :
V ≈ N(0, σ2 ),
V2
> χ21−α (1).
σ̂2
Des integrals peuvent être écrites en terme des sommes :
m1 m2
d1 j d2 j
V= ∑ K(T10j )
n1 j
− ∑ K(T20j )
n2 j
,
j=1 j=1
où
Ti10 < ... < Tim
0 sont des moments distincts des décès observés du i-ème groupe,
i
di j est le nombre des décès au moment Ti0j pour le i-ème groupe,
ni j - le nombre des individus à risque juste avant le moment Ti0j pour le i - ème groupe.
Par exemple, pour le test de Gehan
Z ∞ µ ¶ m1
dN1 (u) dN2 (u) d1 j m2 d2 j
VG = KG (u) − = ∑ KG (T10j ) − ∑ KG (T20j ) =
0 Y1 (u) Y2 (u) j=1 n1 j j=1 n2 j
à !
m1 m2
an
n1 n2 ∑ n2 j d1 j − ∑ n1 j d2 j .
j=1 j=1
Considérons une autre expression pour ce test. Notons T1∗ < ... < Tm∗ les moments des décès
observés de tous n = n1 + n2 individus,
Di j , Ni j les nombres des décès au moment T j∗ et les nombres des individus à risque juste
avant T j∗ pour les individus de i-ème groupe,
D j = D1 j + D2 j , N j = N1 j + N2 j ;
335
an m ¡ ¢
n1 n2 ∑ N2 j D1 j + N1 j D1 j − N1 j D2 j =
j=1
µ ¶
an m ¡ ¢ an m N1 j
n1 n2 ∑ N j D1 j − N1 j D j = n1n2 ∑ Nj D1 j − D j
Nj
.
j=1 j=1
Dans la dernière formule D1 j représente le nombre des décès du premier groupe au moment
N
T j∗ , E1 j = D j N1jj représente sous l’hypothèse H0 le nombre expecté des décès du premier
groupe sachant que le nombre des décès de tous les deux groupes est D j et la proportion
N
des individus à risque juste avant T j∗ est N1jj . Donc
m
an
VG =
n1 n2 ∑ N j (D1 j − E1 j ).
j=1
Si des autres statistiques sont considérées, les poids associés à (D1 j − E1 j ) sont différents :
m
n
VL = an
n1 n2 ∑ (D1 j − E1 j );
j=1
√
n m p
VTW = an
n1 n2 ∑ N j (D1 j − E1 j );
j=1
m N 2j
VP = an ∑ S̃(T j0 −) (D1 j − E1 j );
j=1 (N j + 1)N1 j N2 j
m Ŝ1 (T j0 −)Ŝ2 (T j0 −)
VE = an ∑ N j 1{N1 j N2 j >0} .
j=1 N1 j N2 j
L’estimateur de la variance σ̂2 de la statistique V peut être donnée en terme des sommes :
µ ¶
m K 2 (T j0 ) Dj −1
σ̂ =
2
∑ N1 j N2J
1−
Nj − 1
D j.
j=1
Supposons que des unités sont très fiables et il n’y a pas de possibilité d’obtenir des
pannes pendant le temps t donné par expérience. Dans ce cas on effectue des expériences
sous des stress qui sont supérieurs au stress usuel. On appele ces expériences expériences
accélérées. L’application des stress accélérés racourci la durée de vie des unités et des
pannes peuvent se produire pendant le temps t. Des exemples des stress : température,
voltage, poids etc.
336
Dans le cas général des stress x peuvent varier en temps et peuvent être multidimension-
nels :
x = x(τ), τ ≥ 0, où x : [0, ∞[→ B ⊂ Rm .
Supposons que la durée de vie Tx(·) sous le stress x(·) est la variable aléatoire non-
négative absolument continue de fonction de survie
Considérons un ensemble des stress E . Formelement, on dit qu’un stress x1 (·) est supérieur
à un stress x0 (·), si Sx0 (·) (t) ≥ Sx1 (·) (t) pour tout t ≥ 0.
Le but d’expériences accélérés est d’estimer la fiabilité des unités correspondante aux
conditions usuelles x0 de fonctionnement en utilisant des données de ces expériences. La
solution de ce problème exige construction des modèles qui déterminent de quelle façon
la fonction de survie Sx(·) ou une autre caractéristique (la densité, le taux de pannes, etc. )
change quand on change le stress x(·).
Soit fx(·) (t) = Sx−1
0
◦ Sx(·) (t), où x0 ∈ E est un stress usuel, Sx−1
0
= inf{s : Sx0 (s) ≥ p} est
la fonction inverse de Sx0 . Alors pour tout x(·) ∈ E
Pour tout x(·) ∈ E la probabilité de survivre jusqu’au moment t sous le stress x(·) est
la même que la probabilité de survivre jusqu’au moment fx(·) (t) sous le stress x0 (t). Le
nombre fx(·) (t) est appelé la ressource utilisé sous le stress x(·) jusqu’au moment t. Il est
clair que fx(·) (0) = 0 pour tout x(·) ∈ E . La variable aléatoire R = fx(·) (Tx(·) ) est la res-
source utilisé sous le stress x(·) jusqu’au la panne. La fonction de survie de R est Sx0 et ne
dépend pas de x(·).
Le modèle de vie accélérée (VA) est vérifé sur E si’il existe une fonction r : E → R+
telle que pour tout x(·) ∈ E
d
f (t) = r[x(t)]. (1)
dt x(·)
Le modèle VA signifie que la vitesse d’utilisation de la ressource au moment t ne dépend
que de la valeur du stress appliqué au moment t. La formule (1) implique que
µZ t ¶
Sx(·) (t) = Sx0 r[x(τ)]dτ . (2)
0
Nous nous bornons au modèle (2). Pour nombreuses généralisations et applications voir
Bagdonavičius & Nikulin (1995, 1997, 1998), voir aussi L.Gerville-Réache & V.Nikoulina
(1998), V. Bagdonavičius, L.Gerville-Réache, V.Nikoulina & M.Nikulin (2000).
Dans le cas x(τ) ≡ x = const le modèle (2) implique
337
Le deuxième plan peut être utilisé si le coefficient de variation de la durée de vie sous
le stress usuel x0 n’est pas très grand et la plupart des pannes se produisent dans un certain
intervalle [s1 , s2 ], où s1 est supérieur au temps t donné pour l’expérience. Alors on peut faire
deux expériences : l’une sous un stress accéléré x1 et une autre sous le stress x1 jusqu’au
moment t1 < t, en remplaçant le stress x1 par le stress usuel x0 au moment t1 . Des unités
utilisent beaucoup de ses “ressources” jusqu’au moment t1 sous le stress x1 donc même
sous le stress usuel x0 on peut obtenir des pannes dans l’intervalle [t1 ,t]
Dans le cas du premier plan d’expériences on n’a pas d’expérience sous le stress usuel
x0 . Si la fonction r(t) est completement inconnue, la fonction Sx0 ne peut pas être estimée
même si l’on connaît la famille des distributions à laquelle elle appartient.
α
Par exemple, si Sx0 (t) = e−(t/θ) , alors
· µ ¶ ¸
r(x) α
Sx (t) = exp − t .
θ
Les paramètres α, r(xθ1 ) , ..., r(xθk ) et les fonctions Sx1 , ..., Sxk peuvent être estimés mais puisque
r est complètement inconnu, r(x0 ) et donc Sx0 (t) ne peuvent pas être estimés.
Donc la fonction r doit être choisie dans une certaine classe des fonctions.
Considérons choix possible de la fonction r(x). Si le modèle (3) est vérifié sur un en-
semble des stress E , alors pour tous x1 , x2 ∈ E
où ρ(x1 , x2 ) = r(x2 )/r(x1 ) montre comment l’échelle de distribution change quand le stress
x2 est utilisé au lieu du stress x1 . Il est évident que ρ(x, x) = 1. Supposons que des stress
x ∈ E sont unidimensionnels : E ⊂ R. Le taux de changement d’échèle est déterminé par
la dérivée
ρ(x, x + ∆x) − ρ(x, x)
δ(x) = lim = [log r(x)]0 .
∆x→0 ∆x
Donc pour tout x ∈ E ½Z ¾
x
r(x) = exp δ(v)dv .
x0
Supposons que δ(x) est proportionnelle à une fonction connue u(x) de stress :
Alors
r(x) = eβ0 +β1 z(x) ,
où z(x) est une fonction connue, β0 , β1 - des paramètres inconnus.
où β1 > 0. C’est le modèle loglinéaire. Ce modèle est appliqué pour analyser des donnés de
fatigue, testant divers composantes électroniques.
338
b). δ(x) = α/x, alors
r(x) = eβ0 +β1 log x = αxβ1 ,
où β1 > 0. C’est le modèle de la règle de puissance (“power rule model”).
Ce modèle est appliqué quand le stress est le voltage, la charge mécanique.
c). δ(x) = α/x2 , alors
r(x) = eβ0 +β1 /x = αeβ1 /x ,
où β1 < 0. C’est le modèle d’Arrhénius.
Ce modèle est largement appliqué quand le stress est la température.
S’il n’est pas clair laquelle de ces trois paramétrisations de r(x) à choisir, on peut consi-
dérer la plus large paramétrisation :
δ(x) = αxγ ,
qui est équivalente à ½ ε
eβ0 +β1 (x −1)/ε , si ε 6= 0,
r(x) =
eβ0 +β1 log x , si ε = 0.
Dans le cas du deuxième plan la paramétrisation de r n’est pas nécessaire. Si le premier
groupe est testé sous le stress accéléré x1 et le deuxième groupe sous le stress
½
x1 , 0 ≤ τ ≤ t1 ,
x2 (t) =
x0 , t1 < τ ≤ t2 ,
alors
Sx1 (u) = Sx0 (ru),
½
Sx0 (ru), 0 ≤ u ≤ t1 ,
Sx2 (·) (u) =
Sx0 (r(u ∧ t1 ) + (u − t1 ) ∨ 0), t1 < u ≤ t2 ,
où r = r(x1 )/r(x0 ). Les fonctions Sx1 et Sx2 (·) peuvent être toujours estimées. On verra plus
tard que des estimateurs de r et consécutivement de Sx0 peuvent être obtenues même dans
le cas quand la fonction Sx0 est complètement inconnue.
Le modèle (4) peut être généralisé, en supposant que δ(x) est la combinaison linéaire
des fonctions connues du stress :
k
δ(x) = ∑ αi ui (x).
i=1
Dans ce cas
k
r(x) = exp {β0 + ∑ βi zi (x)},
i=1
où ri (x) sont des fonctions du stress connus, β0 , ..., βk des paramètres inconnus (peut être
pas tous).
Exemple.
1. δ(x) = 1/x + α/x2 .
Alors r(x) = eβ0 +β1 log x+β2 /x = α1 xeβ2 /x , où β1 = 1, β2 < 0. C’est le modèle d’Eyring,
on l’applique souvent quand le stress est une température.
2. δ(x) = ∑ki=1 αi /xi . Alors
k−1
r(x) = exp {β0 + β1 log x + ∑ βi /xi }.
i=1
339
C’est le modèle d’Eyring généralisé.
Le stress peut être multidimensionnel : x = (x1 , ..., xm )T . Alors on considère des carac-
téristiques infinitésimales δi (x) données par des égalités :
ki
δi (x) = ∑ αi j ui j (x),
j=1
où ui j (x) sont des fonctions connues, αi j -des constantes inconnues. Dans ce cas
m ki
r(x) = exp{β0 + ∑ ∑ βi j zi j (x)},
i=1 j=1
ou µ T ¶
Sx (t) = Sx0 eβ zt , (6)
z(t) = (z0 (t), ..., zm (t))T = (z0 (x(t)), ..., zm (x(t)))T , z = (z0 (x), ..., zm (x))T
sont des vecteurs des fonctions connues du stress, la première composante z0 est égale à 1.
Ces modèles peuvent être considérés comme paramétriques, si la fonction Sx0 appar-
tienne à une certaine classe des répartitions, ou comme semiparamétriques si Sx0 est com-
plètement inconnue.
340
6.11.2 Estimation paramétrique
On suppose, que le modèle (6) est considéré et le premier plan d’expériences est utilisé :
k groupes d’unités sont observés ; on fixe la durée maximale d’expérience ti du i -ème
groupe et on teste ce groupe sous le stress accéléré xi (i = 1, ..., k). Notons
Par exemple, si
S0 (t) = e−t , (1 + t)−1 , 1 − Φ(lnt),
alors on obtient des classes des répartitions de Weibull, loglogistique, lognormale respecti-
vement. Ici Φ est la fonction de répartition de la loi normale standard. Donc le modèle (6)
peut être écrit sous la forme :
µ ¶
lnt − γT z
Sx (t) = S , t > 0,
σ
où
S(u) = S0 (eu ), u ∈ R, σ = 1/ν, γ = (γ0 , ..., γm ), γ0 = ln θ − β0 ,
γl = −βl (l = 1, ..., m).
Dans les cas des lois de Weibull, loglogistique et lognormale
u
S(u) = e−e , (1 + eu )−1 , 1 − Φ(u)
respectivement.
Notons Ti j la durée de vie (pas nécessairement observée) de jème unité du ième groupe,
f (u)
Xi j = ln (Ti j ∧ ti ), δi j = I{Ti j ≤ ti }, f (u) = −S0 (u), λ(u) = .
S(u)
La fonction de survie et la densité de ln Ti j sont
à ! à !
u − γT z(i) 1 u − γT z(i)
Si (u; γ, σ) = S , fi (u; γ, σ) = f , u ∈ R.
σ σ σ
∂ ln L(γ, σ) 1 k ni
Ul (γ; σ) = = ∑ zil ∑ ai j (γ, σ), (l = 1, ..., m),
∂γl σ i=1 j=1
341
∂ ln L(γ, σ) 1 k ni
Um+1 (γ; σ) = = ∑ ∑ {vi j (γ, σ)ai j (γ, σ) − δi j },
∂σ σ i=1 j=1
où
Xi j − γT z(i)
vi j (γ, σ) = , ai j (γ, σ) = λ(vi j (γ, σ)) − δi j (ln λ)0 (vi j (γ, σ)).
σ
Des estimateurs de maximum de vraisemblance σ̂, γ̂ peuvent être obtenus en résolvant le
système d’équations
Ul (γ, σ) = 0 (l = 1, ..., m + 1).
Notons
I(γ, σ) = (Ilk (γ, σ))(m+1)×(m+1)
la matrice avec des éléments suivants :
∂2 ln L(γ, σ) 1 k ni
Ils (γ, σ) = − = 2 ∑ zil zis ∑ ci j (γ, σ), l, s = 0, ..., m;
∂γl ∂γs σ i=1 j=1
∂2 ln L(γ, σ) 1 1 k ni
Il,m+1 (γ, σ) = − = Ul (γ, σ) + 2 ∑ zil ∑ vi j (γ, σ)ci j (γ, σ), l = 0, ..., m;
∂γl ∂σ σ σ i=1 j=1
∂2 ln L(γ, σ) 2 1 k ni 2
Im+1,m+1 (γ, σ) = − = Um+1 (γ, σ) + 2 ∑ ∑ (vi j (γ, σ)ci j (γ, σ) + δi j ),
∂σ2 σ σ i=1 j=1
où
ci j (γ, σ) = λ0 (vi j (γ, σ)) − δi j (ln λ)00 (vi j (γ, σ)).
Si Tx0 suit les lois de Weibull, loglogistique ou lognormale, alors
respectivement, où
1 2
ϕ(t) = √ e−t /2 .
2π
Si les estimateurs de maximum de vraisemblance γ̂ et σ̂ sont obtenus, alors l’estimateurs de
la fonction de survie Sx0 et de la p-quantile t p (x0 ) sont
à !
lnt − γ̂T z(0)
, tˆp (x0 ) = eγ̂ z [S0−1 (1 − p)]σ̂ .
T (0)
Ŝx0 (t) = S
σ̂
La loi asymptotique de (γ̂, σ̂)T quand ni sont grands est approchée par la loi normale
N((γ, σ)T , Σ (γ, σ)) et la matrice de covariance Σ (γ, σ) peut être estimé par
L’estimateur tˆp (x0 ) est la fonction régulière de γ̂ et σ̂, donc la loi asymptotique de tˆp (x0 ) est
aussi normale. Mais t p (x0 ) prend des valeurs positives, donc la vitesse de convergence vers
la loi normale est plus grande si on considère la loi limite de
342
La loi de K̂ p (x0 ) est approximée par la loi normale N(K p (x0 ), σ2Kp ), où la variance σ2Kp peut
être estimée par
µ ¶
∂K̂ p (x0 ) ∂K̂ p (x0 ) ∂K̂ p (x0 ) −1
σ̂Kp =
2
, ..., , I (γ̂, σ̂)×
∂γ̂0 ∂γ̂m ∂σ̂
µ ¶T
∂K̂ p (x0 ) ∂K̂ p (x0 ) ∂K̂ p (x0 ) m m
∂γ̂0
, ...,
∂γ̂m
,
∂σ̂
= ∑ ∑ z0l z0sI ls(γ̂, σ̂)+
l=0 s=0
m
2 ln [S0−1 (1 − p)] ∑ I l,m+1 (γ̂, σ̂)z0l + ln2 [S0−1 (1 − p)]I m+1,m+1 (γ̂, σ̂).
l=0
La loi de
K̂ p (x0 ) − K p (x0 )
σ̂Kp
est approchée par la loi N(0, 1). L’intervalle approximatif de confiance de niveau de confiance
(1 − α) pour K p (x0 ) est donné par la formule
où wα est la α-quantile de la loi de N(0, 1). L’intervalle approximatif pour t p (x0 ) est donné
par la formule
tˆp (x0 ) exp{±σ̂Kp w1−α/2 }.
L’estimateur Ŝx0 (t) est aussi la fonction régulière de γ et σ. Notons
La fonction Qx0 (t) prend ces valeurs dans R donc la convergence de Q̂x0 (t) vers la loi limite
est plus grande que la convergence de Ŝx0 (t) vers sa loi limite. Comme dans le cas de t p (x0 )
on obtient que la loi de
(Q̂x0 (t) − Qx0 (t))/σ̂Q0
est approximée par la loi normale N(0, 1) ; ici
Donc les (1 − α)-intervalles approximatifs de confiance pour Qx0 (t) et Sx0 (t) sont Q̂x0 (t) ±
σ̂Q0 w1−α/2 et
µ ¶−1
1 − Ŝx0 (t)
1+ exp{∓σ̂Q0 w1−α/2 } .
Ŝx0 (t)
Exemple 1. Si Tx0 suit la loi de Weibull, i.e.
ν
Sx0 (t) = e−(t/θ) , t ≥ 0,
343
et la paramétrisation d’Arrhénius est choisie (le stress est la température, par exemple), i.e.
et la paramétrisation de la règle de puissance est choisie (le stress est le voltage, par exemple),
i.e.
r(x) = eβ0 +β1 ln x ,
alors
S(t) = (1 + et )−1 , z00 = 1, z10 = ln x0 ,
donc
· µ ¶¸ µ ¶σ̂
lnt − γ̂0 − γ̂1 ln x0 −1 γ̂0 +γ̂1 ln x0 p
Ŝx0 (t) = 1 + exp , tˆp (x0 ) = e .
σ̂ 1− p
Exemple 3. Si Tx0 suit la loi lognormale et la paramétrisation d’Eyring est choisie, i.e.
alors
z00 = 1, z10 = ln x0 , z20 = 1/x0 , S(t) = 1 − Φ(t)
et
µ ¶
lnt − γ̂0 − γ̂1 ln x0 − γ̂2 /x0 −1 (p)
Ŝx0 (t) = 1 − Φ , tˆp (x0 ) = eγ̂0 +γ̂1 ln x0 +γ̂2 /x0 +σ̂Φ .
σ̂
Exemple 4. Supposons que la durée de vie Tx0 suit la loi de Weibull et le stress x =
(x1 , x2 )T est bidimensionel (le voltage et la température, par exemple) et le modèle d’Ar-
rhénius généralisé avec δ1 (x) = α1 /x1 , δ2 /x22 est choisi. Alors
et
lnt − γ̂0 − γ̂1 ln x10 − γ̂2 /x20
Ŝx0 (t) = exp {− exp { }},
σ̂
tˆp (x0 ) = eγ̂0 +γ̂1 ln x10 +γ̂2 /x20 (− ln (1 − p))σ̂ .
Les formules sont plus simples, si ν = 1 dans (7), par exemple dans le cas de la loi
exponentielle :
344
Le modèle (6) peut être écrit
où
γ = (γ0 , ..., γm )T , γ0 = β0 − ln θ, γi = βi , (i = 1, ..., m).
La fonction de survie et le taux de pannes de Ti j sont
£
k ni ¤δi j k ni
L(γ) = ∏ ∏ λxi (Xi j ) Sxi (Xi j ) = exp{− ∑ ∑ (δi j γT z(i) + eγ
T (i)
z X )}.
ij
i=1 j=1 i=1 j=1
∂ ln L(γ) k
= − ∑ zil (δi + eγ z Xi· ),
T (i)
Ul (γ) =
∂γl i=1
où
ni ni
δi = ∑ δi j , Xi· = ∑ Xi j
j=1 j=1
où
½ ¾ ( ) µ ¶
∂2 ln L(γ) −eγ
k k T (i)
= E ∑ zil zis eγ z Xi·
z
= ∑ ni zil zis 1 − e
T (i) ti
Ils (γ) = −E .
∂γl ∂γs i=1 i=1
ne dépendent pas de γ.
Notons Î = I(γ̂) la matrice d’information de Fisher estimée.
La loi asymptotique de γ̂ quand ni sont grands est approximée par la loi normale N(γ, I−1 (γ))
et donc la loi de
K̂ p (x0 ) = ln tˆp (x0 ) = −γ̂T z(0) + ln (− ln (1 − p))
est approximée par la loi normale N(K p (x0 ), σ2Kp ), où
m m
σ2Kp = ∑ ∑ I ls(γ)z0l z0s,
l=0 s=0
345
Notons
m m
σ̂2Kp = ∑ ∑ I ls(γ̂)z0l z0s.
l=0 s=0
Donc
K̂ p (x0 ) − K p (x0 )
σ̂Kp
est approximée par la loi N(0, 1). L’intervalle approximatif de confiance du niveau 1 − α
pour t p (x0 ) est donné par la formule
Donc les (1 − α)-intervalles de confiance approximatifs pour Qx0 (t) et Sx0 (t) sont
et µ ¶−1
1 − Ŝx0 (t)
1+ exp{∓σ̂Q0 w1−α/2 } .
Ŝx0 (t)
Si γ̂ est l’estimateur de maximum de vraisemblance pour γ, alors
Par exemple, dans le cas de modèles d’Arrhénius et de la règle de puissance il faut prendre
zil = 1/xil et zil = ln xil respectivement et on a
Ŝx0 (t) = exp{−eγ̂0 +γ̂1 /x0 t}, Ŝx0 (t) = exp{−eγ̂0 +γ̂1 ln x0 t}
respectivement.
Le premier plan d’expérience a ses points faibles :
1) des strictes suppositions sur la forme de la fonction r(x) sont faites ;
2) comme dans le cas de tous les modèles de régression la prédiction de variable dépen-
dante pour la valeur de stress x0 peut être mauvaise parce que cette valeur n’appartient pas
à la région des stress utilisés pendant des expériences.
346
Donc supposons que le deuxième plan est utilisé : le premier groupe d’articles de taille
n1 est testé sous le stress accéléré x1 et un échantillon complet T11 ≤ ... ≤ T1n1 est obtenu,
le deuxième groupe de taille n2 est testé sous le stress
½
x1 , si 0 ≤ τ ≤ t1 ,
x2 (τ) =
x0 , si t1 ≤ τ ≤ t2
et un échantillon censuré du premier type T21 ≤ ... ≤ T2m2 est obtenu (m2 ≤ n2 ).
Supposons que ¡ ¢
Sx0 (t) = S0 (t/θ)α ,
donc le modèle (2) peut être écrit
µµZ t
¶α ¶
Sx(·) (t) = S0 r[x(t)]dτ/θ . (8)
0
Alors
Sx1 (t) = S(α(lnt + ρ − ψ));
½
S(α(lnt + ρ − ψ)), t ≤ t1 ,
Sx2 (t) = ρ
S(α(ln (e t1 + t − t1 ) − ψ)), t > t1 ;
α
fx1 (t) = f (α(lnt + ρ − ψ)) ;
t
½ α
f (α(lnt + ρ − ψ)) t , t ≤ t1 ,
fx2 (t) = ρ α
f (α(ln (e t1 + t − t1 ) − ψ)) eρt1 +t−t1 , t > t1 .
Notons r2 le nombre de pannes du deuxième groupe jusqu’au moment t1 . La fonction de
vraisemblance
n1
α r2
α
L = ∏ f (α(ln T1 j + ρ − ψ)) ∏ f (α(ln T2 j + ρ − ψ)) T2 j ×
j=1 T1 j j=1
m2
α
∏ f (α(ln (eρt1 + T2 j − t1 ) − ψ))
eρt 1 + T2j − t1
Sn2 −m2 (α(ln (eρt1 + t2 − t1 ) − ψ)),
j=r2 +1
donc
∂ ln L n1
c(T1 j ) n1 + m2
U1 (α, ρ, ψ) =
∂α
= ∑ (ln f )0(c(T1 j )) α
+
α
+
j=1
r2 m2
c(T2 j ) d(T2 j ) d(t2 )
∑ (ln f )0(c(T2 j )) α
+ ∑ (ln f )0 (d(T2 j ))
α
− (n2 − m2 )λ(d(t2 ))
α
,
j=1 j=r2 +1
347
∂ ln L n1 r2
U2 (α, ρ, ψ) =
∂ρ
= ∑ (ln f )0(c(T1 j ))α + ∑ (ln f )0(c(T2 j ))α+
j=1 j=1
m2
αeρt1 m2
eρt1 αeρt1
∑ eρt1 + T2 j − t1 j=r∑
(ln f )0 (d(T2 j )) −
e ρt + T − t
1 2 j 1
−(n 2 −m 2 )λ(d(t 2 ))
eρt + t − t
1 2 1
,
j=r2 +1 2 +1
"
∂ ln L n1 r2
U3 (α, ρ, ψ) = = −α ∑ (ln f )0 (c(T1 j )) + ∑ (ln f )0 (c(T2 j ))+
∂ψ j=1 j=1
#
m2
∑ (ln f )0 (d(T2 j )) − (n2 − m2 )λ(d(t2 )) ,
j=r2 +1
où
c(u) = α(ln u + ρ − ψ), d(u) = α(ln (eρt1 + u − t1 ) − ψ).
Dans les cas des lois de Weibull, loglogistique et lognormale
1 − et
(ln f )0 (t) = et ; ; −t,
1 + et
respectivement, et
ϕ(t)
λ(t) = et ; (1 + e−t )−1 ; ,
1 − Φ(t)
respectivement.
Si les estimateurs de maximum de vraisemblance α̂, ρ̂, ψ̂ sont obtenus, alors l’estima-
teurs de la fonction de survie Sx0 et de la p-quantile t p (x0 ) sont
1
Ŝx0 (t) = S(α̂(lnt − ψ̂)), tˆp = exp{ψ̂ + S−1 (1 − p)}.
α̂
Dans les cas des lois de Weibull, loglogistique et lognormale
1
S−1 (p) = ln (− ln (1 − p)); − ln ( − 1); Φ−1 (1 − p).
p
Notons I(α, ρ, ψ) = (Ii j (α, ρ, ψ) une (3 × 4) matrice symétrique avec des éléments sui-
vantes : (
∂2 ln L 1 n1
I11 = −
∂α2
= − ∑ (ln f )00(c(T1 j ))[c(T1 j )]2 − n1 − m2+
α2 j=1
r2 m2
∑ (ln f )00(c(T2 j ))[c(T2 j )]2 + ∑ (ln f )00 (d(T2 j ))[d(T2 j )]2 −
j=1 j=r2 +1
ª
(n2 − m2 )λ0 (d(t2 ))[d(t2 )]2 ,
∂2 ln L n1
I12 = I21 = − = − ∑ (ln f )00 (c(T1 j ))c(T1 j )−
∂α∂ρ j=1
r2 m2
eρt1
∑ (ln f )00(c(T2 j )) − ∑ (ln f )00 (d(T2 j ))d(T2 j ) + (n2 − m2 )λ0 (d(t2 ))
eρt1 + t2 − t1
−
j=1 j=r2 +1
348
1 1 m2
eρt1
α
U2 (α, ρ, ψ) −
α ∑ eρt1 + T2 j − t1 ,
j=r2 +1
∂2 ln L n1 r2
I13 = I31 = −
∂α∂ψ
= ∑ (ln f )00(c(T1 j ))c(T1 j ) + ∑ (ln f )00(c(T2 j ))c(T2 j )+
j=1 j=1
m2
1
∑ (ln f )00 (d(T2 j ))d(T2 j ) − (n2 − m2 )λ0 (d(t2 ))d(t2 ) − U3 (α, ρ, ψ),
α
j=r2 +1
∂2 ln L n1
I22 = −
∂ρ2
= −α2
∑ (ln f )00(c(T1 j ))−
j=1
µ ¶2
r2 m2
eρt1
α ∑ (ln f ) (c(T2 j )) − α ∑ (ln f ) (d(T2 j )) ρ
2 00 2 00
−
j=1 j=r2 +1 e t1 + T2 j − t1
m2
eρt1 (T2 j − t1 )
∑ [α(ln f )0 (d(T2 j )) − 1]
(eρt1 + T2 j − t1 )2
+
j=r2 +1
µ ¶2
0 αeρt1 αeρt1 (t2 − t1 )
(n2 − m2 )λ (d(t2 )) ρ + (n2 − m2 )λ(d(t2 )) ρ ,
e t1 + t2 − t1 (e t1 + t2 − t1 )2
(
∂2 ln L n1 r2
I23 = I32 = − = α ∑ (ln f ) (c(T1 j )) + ∑ (ln f )00 (c(T2 j ))+
2 00
∂ρ∂ψ j=1 j=1
)
m2
eρt e ρt
∑ (ln f )00(d(T2 j )) eρt1 + T2 j − t1 − (n2 − m2)λ0(d(t2)) (eρt1 + t2 − t1) ,
1 1
j=r2 +1
"
∂ ln L
2 n1 r2
I33 = − = −α ∑ (ln f ) (c(T1 j )) + ∑ (ln f )00 (c(T2 j ))+
2 00
∂ψ 2
j=1 j=1
#
m2
∑ (ln f )00 (d(T2 j )) − (n2 − m2 )λ0 (d(t2 )) .
j=r2 +1
00 t −2et
(ln f ) (t) = e ; ; −1,
(1 + et )2
respectivement, et
µ ¶2
0 et ϕ(t) ϕ(t)
λ (t) = e ; t
; −t + ,
(1 + et )2 1 − Φ(t) 1 − Φ(t)
respectivement.
Si n est grand, la loi de (α̂, ρ̂, ψ̂) peut être approchée par la loi normale de moyenne
(α, ρ, ψ) et la matrice de covariance estimée par
349
Notons
Ŝx0 (t)
Q̂x0 (t) = ln .
1 − Ŝx0 (t)
La loi de
(Q̂x0 (yt) − Qx0 (t))/σ̂Q0
est approchée par la loi normale N(0, 1), ici
sont
K̂ p (x0 ) + ±w1−α/2 σ̂Kp et tˆp (x0 ) exp{±σ̂Kp w1−α/2 }
respectivement.
On suppose que le modèle (5) est considéré et la fonction Sx0 est inconnue. On considère
le premier plan d’expériences. La fonction de survie sous le stress xi est
Notons Ni (τ) les nombres des pannes observées du i-ème groupe dans l’intervalle [0, τ],
Yi (τ) des nombres d’unités “a risque” (à l’état de fonctionnement et non-censurés) avant le
350
moment τ, Ti1 ≤ ... ≤ Timi les moments de pannes du i-ème groupe, mi = Ni (ti ). On suppose
d’abord que β soit connu. Les variables aléatoires
eβ zi Ti j
T
(i = 1, ..., k; j = 1, ..., mi )
peuvent être considérées comme des pseudo-pannes “observées” dans une expérience où
n = ∑mi=1 ni unités avec la fonction de survie Sx0 ont été testés et ni parmi elles ont été
censurées au moment eβ zi t (i = 1, 2, ..., k). Alors
T
i
k
N R (τ, β) = ∑ Ni (e−βzi τ)
i=1
La fonction de vraisemblance
k mi
L(β) = ∏ ∏ [S̃x0 (eβ zi Ti j −, β) − S̃x0 (eβ zi Ti j , β)]S̃xni0−mi (eβ zi ti , β),
T T T
i=1 j=1
où
S̃x0 (u−, β) = lim S̃x0 (u − ε, β).
ε↓0
Le facteur qui correspond à une panne est le saut de la fonction S̃x0 parce que la den-
sité fx0 = −Sx0 0 est inconnue et peut être approchée dans les points eβ zi Ti j par le facteur
T
proportionnel à
S̃x0 (eβ zi Ti j −, β) − S̃x0 (eβ zi Ti j , β).
T T
Si on a des ex aequo, alors on note T1∗ (β) < ... < Tq∗ (β) les moments différents parmi
exp{βT zi }Ti j , d j - le nombre des pseudopannes au moment T j∗ (β). Alors pour tout s ≤
maxi {eβ zi ti }
T
dj
S̃x0 (s, β) = ∏ 1 −
β
T
j:T ∗ (β)≤s ∑ Y (e
m − z l ∗
T (β))
j l=1 l j
351
et
q m
(β), β) − S̃x0 (T j∗ (β), β)]di ∏ S̃xni0−mi (eβ zi ti , β).
T
L(β) = ∏ [S̃x0 (T j−1
∗
j=1 i=1
Notons β̂ = Argmaxβ L(β). La fonction de survie sous le stress normale est estimée pour
T
tous s ≤ maxi {eβ̂ zi ti } par
Ŝx0 (s) = S̃x0 (s, β̂).
Au lieu d’estimation par la méthode de maximum de vraisemblance on peut considérer la
méthode des moments modifiée.
Si β est connu, le taux de pannes accumulé
d ∑ki=1 Ni (e−β zi u)
Z t Z t T
dN R (u)
Ãx0 (t, β) = = .
∑ki=1 Yi (e−β zi u)
0 Y R (u) 0
T
k Z ∞
E ∑ zi dNi (u) −Yi (u)dAi (u) = 0.
i=1 0
C’est la fonction en escaliers et ces valeurs sont dispersées autour zéro. L’estimateur de β
peut être déterminé comme
β̂ = sup Arg min Ũ(β).
β
Le choix de poids zi peut être justifié de façon suivante. Si Ax0 est connue, alors la fonction
de vraisemblance pour β
k ni
δ
L(β) = ∏ ∏ λxiij (Xi j )Sxi (Xi j )
i=1 j=1
et donc
∂ ln L(β) k ni
βz α0x0 (eβzi Xi j )
Ul (β) = = ∑ ∑ δi j zil [1 + e Xi j
i
− αx0 (eβzi Xi j )eβzi Xi j ] =
∂βl i=1 j=1
βz
αx (e Xi j )
i
0
k Z ∞
∑ Wi (u)(dNi (u) −Yi (u)dAx0 (eβzi )),
i=1 0
352
où Ã !
βz α0x0 (eβzi u)
Wil = zil 1+e u i
.
αx0 (eβzi u)
Les poids optimaux Wil dépendent de la loi de Tx0 . Si Tx0 suit la loi de Weibull, alors
Wil (u) = zil . Notons
Alors
k Z ∞
Wi (u)(dNi (u) −Yi (u)dAx0 (eβ zi u).
T
U(β) = ∑ (10)
i 0
Remplaçant dans (10) la fonction inconnue Ax0 (v) par le pseudoestimateur Ãx0 (v, β) et en
prenant des poids Wil (u) = zil , on obtient la fonction score modifiée Ũ(β), donnée par la
formule (9).
Le choix de poids influence un peu l’effectivité mais pas la validité des procédures
inférentielles. Les poids optimaux dépendent de la dérivée du taux de pannes et donc ne
peuvent pas être bien estimés quand la loi est inconnue.Donc on utilise les poids les plus
simples Wil (u) = zil qui sont optimaux pour la loi de Weibull.
Après avoir trouvé l’estimateur β̂ par une des méthodes considérées on obtient un esti-
mateur de la fonction de survie :
peuvent être interprétés comme les moments de pannes obtenus dans une expérience pen-
dant laquelle n = n1 + n2 “unités” de fonction de survie Sx0 ont été observés et le temps de
353
censure pour les dernières n2 “unités” a été égale à (rt1 + t − t1 ). Les nombres des pannes,
“obsrvées” dans un intervalle [0, u] serait
S̃1 (s, r) = S̃0 (rs, r), S̃2 (s) = S̃0 (r(s ∧ t1 ) + (s − t1 ) ∨ 0).
354
Il est facile à montrer que
Z t
Y2 (τ)dN1 (t1 + τ−t τ−t1
r ) −Y1 (t1 + r )dN2 (τ)
1
Û(r) =
t1 Y1 (t1 + τ−t
r ) +Y2 (τ)
1
ou
Y2 (t1 + r(T1 j − t1 ))
Û(r) = ∑ −
j:T1 j >t1 Y1 (T1 j ) +Y2 (t1 + r(T1 j − t1 ))
T2 j −t1
Y1 (t1 + r )
∑ T2 j −t1
.
j:T2 j >t1 Y1 (t1 + r ) +Y2 (T2 j )
La fonction Û est décroissante et en escaliers, Û(0) > 0, Û(∞) < 0 avec une probabilité 1.
L’estimateur du paramètre r :
Alors Z s £ ¤
dN1 ( ur̂ ) + dN2 ur̂ ∧ t1 + (u − r̂t1 ) ∨ 0
Â0 (s) = £u ¤ =
0 Y1 ( ur̂ ) +Y2 r̂ ∧ t1 + (u − r̂t1 ) ∨ 0
1
∑ Y (T ) +Y2 [T1 j ∧ t1 + r̂(T1 j − t1 ) ∨ 0]
+
j: T1 j ≤s 1 1j
r̂
1
∑ T2 j −t1
.
j: T2 j ≤ r̂s ∧t1 +(s−r̂t1 )∨0 Y1 [T2 j ∧ t1 + r̂ ∨ 0] +Y2 (T2 j )
La fonction de survie Sx0 peut être estimée par l’estimateur
ou de façon alternative
Ŝx0 (t) = exp{−Â0 (t)}.
Les propriétés asymptotiques des estimateurs et construction des intervalles de confiance
approximatifs sont données dans Bagdonavičius & Nikulin (1997).
355
356
Chapitre 7
INFERENCE BAYESIENNE
Soit (X, Θ)T un vecteur aléatoire à valeurs dans l’espace χ × Ω et soit p(x, θ) sa densité.
Alors Z Z
π(θ) = p(x, θ)dx et q(x) = p(x, θ)dθ (7.1)
χ Ω
p(x, θ)
q(θ|x) = (7.3)
q(x)
π(x|θ)π(θ) π(x|θ)π(θ)
q(θ|x) = =R (7.5)
q(x) Ω π(x|θ)π(θ)dθ
et
q(θ|x)q(x) q(θ|x)q(x)
π(x|θ) = =R . (7.6)
π(θ) χ q(θ|x)q(x)dx
357
Exemple 1. Supposons que Θ suit la loi normale N(µ, τ2 ), i.e. la densité à priori est
µ ¶
1 θ−µ
π(θ) = ϕ , θ ∈ R1 , (7.7)
τ τ
où ϕ(u) est la densité de la loi normale standard N(0, 1), µ et τ sont connus, |µ| < ∞, τ2 > 0.
On suppose que la loi conditionnelle de X sachant que Θ = θ est normale N(θ, σ2 ) i.e., la
densité conditionnelle de X sachant Θ = θ est
µ ¶
1 x−θ
π(x|θ) = ϕ , (7.8)
σ σ
σ2 > 0, σ2 est connu. Calculons la densité q(x) de la loi marginale de X. D’aprés (1)-(3) on
a Z ∞ Z ∞ µ ¶ µ ¶
1 x−θ 1 θ−µ
q(x) = π(x|θ)π(θ)dθ = ϕ ϕ dθ
−∞ −∞ σ σ τ τ
Z ∞ ½ ¾ ½ ¾
1 1 1 1
= √ exp − 2 (x − θ) √ 2
exp − 2 (θ − µ) dθ 2
−∞ 2πσ2 2σ 2πτ2 2τ
Z ∞ ½ · ¸¾
1 1 x2 − 2xθ + θ2 θ2 − 2θµ + µ2
= exp − + dθ
2πστ −∞ 2 σ2 τ2
½ µ ¶¾ Z ∞ ½ · ³x ¸¾
1 1 x2 µ2 1 θ2 µ ´ θ2
= exp − + exp − − 2θ 2 + 2 + 2 dθ
2πστ 2 σ2 τ2 −∞ 2 σ2 σ τ τ
½ µ ¶¾
1 1 x2 µ2
= exp − + ×
2πστ 2 σ2 τ2
Z ∞ ½· µ ¶ ³x ¸¾
1 2 1 1 µ´ ³ x µ ´2 ³ x µ ´2
× exp − θ + − 2θ 2 + 2 + 2 + 2 − 2 + 2 dθ
−∞ 2 σ2 τ2 σ τ σ τ σ τ
½ ¾
1 1 τ2 x2 + σ2 µ2
= exp − ×
2πστ 2 σ2 τ2
Z ∞
( " µ 2 ¶2 µ 2 ¶2 #)
τ2 + σ2 2 τ2 x + σ2 µ τ x + σ2 µ τ x + σ2 µ
× exp − 2 2 θ − 2θ 2 + − dθ
−∞ 2σ τ σ + τ2 σ2 + τ2 σ2 + τ2
½ ¾
1 1 τ2 x2 + σ2 µ2
= exp − ×
2πστ 2 σ2 τ2
Z ∞
( µ ¶2 ) ½ ¾
τ2 + σ2 τ2 x + σ2 µ (xτ2 + µσ2 )2
exp − 2 2 θ − 2 exp dθ
−∞ 2σ τ σ + τ2 2σ2 τ2 (σ2 + τ2 )
½ 2 2 ¾
1 τ x + σ2 µ2 (x2 τ2 + µ2 σ2 )2
=√ √ exp − + 2 2 2
2π τ2 + σ2 σ2 τ2 2σ τ (σ + τ2 )
358
½ ¾
1 1 2
=√ √ exp − (x − µ) , (7.9)
2π τ2 + σ2 2(σ2 + τ2 )
i.e. la loi marginale de X est normale N(µ, σ2 + τ2 ) de paramètres
EX = µ et Var X = σ2 + τ2 . (7.10)
½ · ¸¾
1 1 (x − µ)2 (x − µ)(θ − µ) (σ − µ)2
p exp − − 2ρ √ + ,
2πσ1 σ2 1 − ρ2 2(1 − ρ2 ) σ2 + τ2 τ σ2 + τ2 τ2
où
τ2
ρ2 = , σ21 = σ2 + τ2 , σ22 = τ2 ,
σ2 + τ2
i.e. (X, Θ)T suit la loi normale bidimensionnelle de paramètres a = (µ, µ)T et ∑, où
¯¯ 2 ¯¯
¯¯ σ + τ2 ρστ ¯¯
∑ = ¯¯ ρστ τ2 ¯¯¯¯
¯¯
¤
L’inférence statistique sur Θ dans l’optique de l’approche bayesienne est donnée en
utilisant la densité à posteriori q(θ|x) basée sur l’échantillon X, puisque toute information
probabiliste sur Θ est exprimée en termes de q(θ|X). S’il est nécessaire d’estimer la va-
leur U(θ), où θ est une réalisation non-observée du paramètre aléatoire Θ, alors on utilise
l’espérance conditionnelle E{U(Θ)|X} comme l’estimateur ponctuel pour U(θ). ¤
où Z
E{Θ|X = x} = θq(θ|x)dθ et E{Θ∗ |X = x} = Θ∗ (x). (7.3)
Ω
Définition 1. L’estimateur Θ̂(X) est sans biais si l’erreur systématique est égale à zéro,
i.e., si
Θ̂(x) ≡ E{Θ|X = x}. (7.4)
359
Il s’ensuit que l’estimateur sans biais est unique presque sûrement.
Soit Θ̃ = Θ̃(X) un autre estimateur de θ. Puisque
on a
E{(Θ̃ − Θ)2 |X = x}
= [Θ̃(x) − Θ̂(x)]2 + 2[Θ̃(x) − Θ̂(x)]E{Θ̂(X) − Θ|X = x} + E{[Θ̂(X) − Θ]2 |X = x}
= [Θ̃(x) − Θ̂(x)]2 + E{[Θ̂(X) − Θ]2 |X = x} ≥ E{[Θ̂(X) − Θ]2 |X = x}. (7.5)
Donc l’estimateur sans biais Θ̂ minimize le risque quadratique à postériori. L’inégalité
implique qu’avec la probabilité 1
Exemple 1. Soit (X, Θ)T un vecteur aléatoire où Θ est une variable aléatoire suivant la
loi uniforme [0, 1], i.e. la densité à priori est
½
1, si θ ∈ Ω = [0, 1],
π(θ) = (7.9)
0, sinon .
Ω π(x|θ)π(θ)dθ 0 , sinon ,
360
2(1 − θ), si x = 0, θ ∈ Ω,
= 2θ, si x = 1, θ ∈ Ω,
0, sinon .
Supposons que X = 0. Alors
Z 1 Z 1
1
Θ̂(0) = θq(θ|0)dθ = 2 θ(1 − θ)dθ = .
0 0 3
Dans le cas X = 1 on a
Z 1 Z 1
2
Θ̂(1) = θq(θ|1)dθ = 2 θ2 dθ = .
0 0 3
1 2
E{(Θ̂ − Θ)2 |Θ = θ} = E{(Θ̂ − θ)2 } = ( − θ)2 P{X = 0} + ( − θ)2 P{X = 1}
3 3
1 2 1 1
= ( − θ)2 (1 − θ) + ( − θ)2 θ = (θ2 − θ + ).
3 3 3 3
Il peut être comparé avec le risque quadratique θ(1 − θ) de l’estimateur de maximum de
vraisemblance X de θ. ¤
Θ ∼ N(µ, τ2 ),
√ (√ )
σ2 + τ2 σ2 + τ2 h ³x µ ´i
= ϕ θ − σ2 ρ2 2 + 2 ,
στ στ σ τ
µ h ³x ¾
1 1 µ ´i
= ϕ θ−σ ρ 2 2
+ , (7.12)
ρσ ρσ σ2 τ2
361
τ2
où ρ2 = σ2 +τ2
. i.e. la répartition à posteriori est normale de paramètres
³x µ´
σ ρ
2 2
+ et ρ2 σ2 :
σ2 τ2
½ h ³x ¾
1 µ ´i
P{Θ ≤ θ|X = x} = Φ θ−σ ρ2 2
+ ,
ρσ σ2 τ2
d’où l’estimateur bayesien est obtenu :
Z ∞ µ ¶
X µ
Θ̂ = E{Θ|X} = θq(θ|X)dθ = σ ρ2 2
+ .
−∞ σ2 τ2
La statistique X est l’estimateur de maximum de vraisemblance de θ et est le meilleur
estimateur sans biais. Notons que si σ2 est fixé et τ2 → ∞, alors ρ2 → 1, d’où
Θ̂(x) → x.
Θ̂(X) ≈ X,
q(θ|x) = q∗ (θ|t(x)),
π(x|θ) = π∗ (T (x)|θ)w(x).
q(θ|x) = q∗ (θ|t(x)).
Notons que dans l’approche bayesienne la notion de l’exhaustivité joue le même rôle comme
dans la statistique classique. De plus, la statistique T = T (X) est exhaustive si la répartition
à posteriori de Θ, sachant T , est la même que la répartition à posteriori de Θ, sachant X.
Donc, R
θπ∗ (T |θ)w(X)π(θ)dθ
Θ̂ = Θ̂(T ) = R ∗ =
π (T |θ)w(X)π(θ)dθ
362
R R
θπ∗ (T |θ)π(θ)dθ θπ∗ (T |θ)π(θ)dθ
R = .¤
π∗ (T |θ)π(θ)dθ q∗ (T )
Exemple 3. Supposons que sachant Θ = θ les composantes X1 , X2 , · · · , Xn du vecteur
observé X = (X1 , X2 , · · · , Xn )T sont des variables indépendantes Bernoulli B(1, θ), X1 prend
la valeur 1 avec la probabilité θ et la valeur 0 avec la probabilité 1 − θ, θ ∈ Ω = [0, 1], i.e.,
pour tout i = 1, 2, · · · , n on a
X1 = x1 , X2 = x2 , · · · , Xn = xn
est
π(θ)θt (1 − θ)n−t
q(θ|x1 , · · · , xn ) = q∗ (θ|t) = R 1 = (7.16)
0 π(θ)θ (1 − θ)
t n−t dθ
θt (1 − θ)n−t
R1 ,
0 θt (1 − θ)n−t dθ
où t = x1 + x2 + · · · + xn est une réalisation de la statistique exhaustive
Tn = X1 + X2 + · · · + Xn , (7.17)
Puisque
t µ ¶
n
P{Tn ≤ t|Θ = θ} = ∑ k
θk (1−θ)n−k ≡ I1−θ (n−t,t +1) ≡ 1−Iθ (t +1, n−t) (7.19)
k=0
363
et
Γ(t + 1)Γ(n − t + 1) d
θt (1 − θ)n−t ≡ Iθ (t + 1, n − t + 1), (7.20)
Γ(n + 2) dθ
on a Z 1
t!(n − t)! Γ(t + 1)Γ(n − t + 1)
θt (1 − θ)n−t dθ = = (7.21)
0 (n + 1)! Γ(n + 2)
et donc
θt (1 − θ)n−t
q∗ (θ|t) = R 1
0 θt (1 − θ)n−t dθ
Γ(n + 2) 1
θt (1 − θ)n−t = θt (1 − θ)n−t . (7.22)
Γ(t + 1)Γ(n − t + 1) B(t + 1, n − t + 1)
Pour tout t = 0, 1, · · · , n, la fonction Iθ (t + 1, n − t + 1), comme la fonction de θ dans l’in-
tervalle [0, 1] est la fonction de répartition, voir §2.3, avec la densité
1
fβ (θ;t + 1, n − t + 1) = θt (1 − θ)n−t , θ ∈ Ω = [0, 1], (7.23)
B(t + 1, n − t + 1)
t +1 (t + 1)(t + 2)
E{Θ|Tn = t} = et E{Θ2 |Tn = t} = , (7.25)
n+2 (n + 2)(n + 3)
i.e.,
Var {Θ|Tn = t} = E{Θ2 |Tn = t} − (E{Θ|Tn = t})2
µ ¶
(t + 1)(n − t + 1) 1 t +1 t +1
= = 1− . (7.26)
(n + 2)2 (n + 3) n+3 n+2 n+2
Utilisant (16), (22), (23) et (25) on a
Tn + 1
Θ̂ = E{Θ|X1 , · · · , Xn } = E{Θ|Tn } = . (7.27)
n+2
(27) et (14) impliquent que pour grandes valeurs de n on a
Θ̂ ∼ θ̂n (7.28)
et (26) implique
t t
n (1 − n )
Var {Θ̂|X1 = x1 , · · · , Xn = xn } = Var {Θ̂|Tn = t} ∼ .¤ (7.29)
n
364
Exemple 4. (continuation de l’Exemple 2). Supposons que la densité à priori π(θ) dans
l’exemple 2 suit la loi beta de paramètres a et b, a > 0, b > 0 :
1
π(θ) = θa−1 (1 − θ)b−1 , θ ∈ Ω = [0, 1]. (7.30)
B(a, b)
Il est évident que si a = b = 1 alors on a la densité π(θ) de la loi uniforme sur [0, 1],
considérée en (18). La statistique
Tn = X1 + X2 + · · · + Xn
est suffisante et la loi conditionnelle de Tn , sachant Θ = θ, est donnée par (13). De (16) on
a que la densité à posteriori q(θ|t) sachant Tn = t,
Θ̂ ∼ θ̂n (7.33)
On sait que
λ λ
EΘ = et Var Θ = 2 . (7.38)
p p
365
Dans ce modèle la statistique
Tn = X1 + · · · + Xn (7.39)
est exhaustive pour θ, et
Z t
θn
P{Tn ≤ t|Θ = θ} = xn−1 e−θx dx, t ≥ 0, (7.40)
Γ(n) 0
1 n
Xn = ∑ Xi
n i=1
366
est suffisante pour θ, et puisque la loi conditionnelle de X n est N(θ, 1n ) i.e.
√ Z x n n o
n √
P{X n ≤ x|Θ = θ) = √ exp − (u − θ)2 du = Φ[ n(x − θ)],
2π −∞ 2
la densité conditionnelle de X n , sachant Θ = θ, est
√ n n o √ √
n
π(x|θ) = √ exp − (x − θ)2 = nϕ( n(x − θ)), x ∈ R1 . (7.47)
2π 2
Utilisant (46) et (47) on peut trouver la densité q(x) de la loi marginale de X n :
Z ∞ Z ∞
√ √
q(x) = π(x|θ)π(θ)dθ = nϕ( n(x − θ))π(θ)dθ =
−∞ −∞
√ Z ∞ n n o 1 µ 2¶
n θ
=√ exp − (x − θ) √ exp −
2
dθ
2π −∞ 2 2π 2
√ Z ∞ ½ ¾
n nx2 nθ2 θ2
= exp − + nxθ − − dθ
2π −∞ 2 2 2
r ½ ¾ r µr ¶
1 n nx2 n n
=√ exp − = ϕ x , (7.48)
2π n + 1 2(n + 1) n+1 n+1
i.e., la loi marginale de X n est normale N(0, n+1
n ) de paramètres 0 et (n+1)/n. De la formule
de Bayes on peut obtenir la densité q(θ|x) de la loi à posteriori, sachant X n = x :
√ √
π(x|θ)π(θ) nϕ( n(x − θ))π(θ)
q(θ|x) = = q ³ q ´
q(x) n
ϕ x n
n+1 n+1
√ ½ ¶
n+1 nx2 nx2 θ2
= √ exp − + + nxθ − (n + 1)
2π 2 2(n + 1) 2
√ ( µ ¶2 ) · µ ¶¸
n+1 n+1 nx √ √ nx
= √ exp − θ− = n + 1ϕ n + 1 θ − , (7.49)
2π 2 n+1 n+1
¡ nx 1 ¢
i.e. la loi à posteriori de Θ, sachant X n = x, est normale N n+1 , n+1 ,
· µ ¶¸
√ nx
P{Θ ≤ θ|X n = x} = Φ n + 1 θ − ,
n+1
367
i.e.,
nτ2 σ2 σ2 τ2
E{Θ|X n } = X n + µ et Var {Θ|X n } = .¤
nτ2 + σ2 nτ2 + σ2 nτ2 + σ2
Exemple 7. Soit (X, Θ)T le modèle bayesien de paramètre Θ, Θ ∈ Ω = (0, ∞). Sachant
Θ, soit X la variable aléatoire de Poisson de paramètre θ :
θx −θ
P{X = x|Θ = θ} = e , x = 0, 1, · · · . (7.51)
x!
Supposons que la densité à priori π(θ) est la densité de la loi gamma de m degrés de liberté
et de paramètre d’échelle α, i.e.
αm m−1 −αθ
π(θ) = θ e , (7.52)
Γ(m)
α et m sont connus, α > 0 , m > 0. Dans ce cas, la densité marginale q(x) de X est
Z ∞ Z ∞ x
θ −θ αm m−1 −αθ
q(x) = π(x|θ)π(θ)dθ = e θ e dθ
0 0 x! Γ(m)
Z ∞ ∞ Z
αm x+m−1 −θ(α+1) αm
= θ e dθ = ux+m−1 e−u du
x!Γ(m) 0 Γ(x + 1)Γ(m)(α + 1)x+m
0
µ ¶m µ ¶x
Γ(x + m)α m Γ(x + m) 1 α
= = , (7.53)
Γ(x + 1)Γ(m)(α + 1)x+m Γ(x + 1)Γ(m) 1 + α 1+α
i.e. la loi marginale de X est la loi binomiale negative, donnée dans la section 0.3. L’esti-
mateur bayesien Θ̂ = Θ̂(X) pour θ est
Z ∞ Z ∞ Z ∞ X
θπ(x|θ)π(θ) 1 θ αm m−1 −αθ
Θ̂ = θq(θ|X)dθ = dθ = θ e−θ θ e dθ
0 0 q(X) q(X) 0 X! Γ(m)
Z ∞
αm
= θX+m e−θ(α+1) dθ
Γ(m)q(X)Γ(X + 1) 0
αm Γ(X
+ m + 1) X +m
= = .¤ (7.54)
Γ(m)q(X)Γ(X + 1)(α + 1)X+m+1 1+α
Remarque 4. Considérons le modèle bayesien (X, Θ)T de paramètre Θ, Θ ∈ Ω ∈ R1 ,
et soit q(θ|x) la densité de la loi à posteriori de Θ sachant X = x. Utilisant la densité à
posteriori q(θ|x) on peut construire (1 − α) -intervalle de confiance (Θ(X), Θ(X)) pour Θ,
tel que
P{Θ ≤ Θ ≤ Θ|X = x} = 1 − α, 0 < α < 0.5. (7.55)
En effet, soit β et γ deux nombres positifs tels que β + γ = α. Définissons Θ = Θ(x, γ)
comme le γ-quantile supérieur de la loi à posteriori, i.e., Θ est la racine de l’équation
Z Θ(x,γ)
P{Θ ≤ Θ|X = x} = q(θ|x)dθ = 1 − γ. (7.56)
−∞
368
Dans ce cas on obtient l’estimateur par intervalle (Θ(X), Θ(X)) pour Θ de coefficient de
confiance P = 1 − α :
Z Θ
P{Θ ≤ Θ ≤ Θ|X = x} = q(θ|x)dθ = 1 − γ − β = 1 − α = P. (7.58)
Θ
Il existe une autre approche qui permet de construire “le plus court" intervalle de confiance
pour Θ . Sachant X = x soit I(x, c) un esemble dans Ω tel que
I(x, c) = {θ : q(θ|x) > c}, (7.59)
où c est la constante positive, et soit
Z
P(x.c) = q(θ|x)dθ = P{Θ ∈ I(x, c)|X = x}
I(x,c)
d’où
mes∆ j ≥ mes∆I , (7.67)
où Z
mes∆ j = dθ.¤
∆J
Exemple 8. Soit (X, Θ)T le modèle bayesien de paramètre Θ, Θ ∼ N(0, 1). Sachant Θ,
les éléments X1 , X2 , · · · , Xn d’échantillon X sont les variables normales N(Θ, 1) indépen-
dantes. La loi à posteriori de Θ est normale de paramètres
µ ¶
1 1
E{Θ|X n } = X n 1 − et Var {Θ|X n } = , (7.68)
n+1 n+1
369
où X n = (X1 + X2 + · · · + Xn )/n. De la symétrie de la densité de la loi normale on tire que
le plus court (1 − α)-intervalle de confiance pour Θ est
µ µ ¶ µ ¶ ¶
1 xα/2 1 xα/2
Xn 1 − −√ ;Xn 1 − +√ (7.69)
n+1 n+1 n+1 n+1
On peut remarquer que cet intervalle bayesien est plus court que (1 − α)-intervalle de
confiance classique µ ¶
xα/2 xα/2
Xn − √ ;Xn + √
n n
L’approche bayesienne empirique permet de faire des conclusions sur le paramètre non
observé Θ dans le modèle bayesien (X, Θ)T même si sa loi à priori π(θ) est inconnue. Soit
π(x|θ) la densité de la répartition conditionnelle de X sachant Θ. On suppose que π(x|θ) est
connu. L’estimateur bayesien pour Θ est
Z Z
1
Θ̂ = E{Θ|X} = θq(θ|X)dθ = θπ(X|θ)π(θ)dθ, (7.1)
Ω q(X) Ω
est la densité de la loi marginale de X. Si la densité à priori π(θ) est inconnue, il est im-
possible de calculer les valeurs de θ̂ et q(x). Mais si la taille n de X = (X1 , X2 , · · · , Xn )T
est suffisament grande, il est possible de construire un estimateur consistant q̂(X) de q(x).
S.N. Bernstein (1941) a proposé d’estimer Θ en remplacant q(x) par q̂(X) dans (2), et cher-
chant la solution π̂(θ) de cette équation intégrale. Après on peut estimer Θ, en utilisant
π̂(θ) et q̂(X) au lieu de π(θ) et q(x) dans (1). Cependant la méthode de Bernstein est dif-
ficile, puisque trouver la solution d’équation (2) est le problème difficile de la théorie des
équations intégrales. Nous allons donner un exemple (Nikulin, 1978), où est démontré que
la répartition à posteriori de la variable aléatoire Xn , Xn ∼ B(n, Θ) sachant Θ, peut être ap-
proximée par la loi beta, si le paramètre n de la loi binomiale tend vers l’infini et la densité
à priori Θ est continue. Ici nous allons suivre l’article de Nikulin (1992).
7.4 Exemple
370
la fonction de répartition de β est
On suppose que
Iy (a, 0) ≡ 1 − I1−y (0, a) ≡ 0, 0 ≤ y ≤ 1, a > 0. (7.4)
Sous cette hypothèse pour tout x = 0, 1, 2, · · · , n (n est un entier positif) on a une identité
x µ ¶
n
∑ k θk (1 − θ)n−k ≡ I1−θ(n − x, x + 1) ≡ 1 − Iθ(x + 1, n − x). (7.5)
k=0
Soit {(Xn , Θ)} une suite des vecteurs aléatoires où Θ est la variable aléatoire, Θ ∈ [0, 1],
dont la densité p(θ) est continue sur [0, 1]. On suppose que la loi conditionelle de Xn sachant
Θ = θ est binomiale B(n, θ) :
µ ¶
n
P{Xn = x|Θ = θ} = θx (1 − θ)n−x ; x = 0, 1, · · · , n. (7.8)
x
Soit u(θ) une fonction bornée sur [0, 1], |u(θ)| ≤ U , où U est une constante. On considère
une fonction En (u|x, p) qui représente l’espérance conditionnelle de la statistique u(Θ) sa-
chant Xn = x. D’après la formule de Bayes cette fonctionnelle peut être représentée comme
le rapport
J (x; u, p)
En (u|x, p) = E{u(Θ)|Xn = x} = n , (7.9)
Jn (x; 1, p)
où, comme il s’ensuit de (1) et (8),
Z 1
Jn (x; u, p) = u(θ)p(θ|x + 1, n − x + 1)p(θ)dθ. (7.10)
0
Lemme. Soit u(θ) et v(θ) deux fonctions continues sur [0, 1]. Alors lorsque n → ∞
µ ¶Z 1
x+1
Rn (x; u, p) = Jn (x; u, v) − v u(θ)p(θ|x + 1, n − x + 1)dθ → 0 (7.11)
n+2 0
371
uniformément par rapport à x = 0, 1, 2, · · · , n.
Démonstration. On considére un ensemble
½ ¾
x+1
Aε = θ : |θ − | < ε, 0 ≤ θ ≤ 1 ,
n+2
où d’après (7)
2ε = (n + 3)−1/4 .
Dans ce cas en utilisant (10) on obtient
Z 1· µ ¶¸ Z Z
x+1
Rn = Rn (x; u, v) = v(θ) − v u(θ)p(θ|x + 1, n − x + 1)dθ = + .
0 n+2 Aε Aε
de toutes fonctions non négatives continues sur [0, 1], telles que pour tout v ∈ V on a
lorsque n =⇒ ∞.
Démonstration. D’après (9), (10) et le lemme sachant Xn = x on a
¡ x+1 ¢ R 1
v n+2 0 u(θ)p(θ|x + 1, n − x + 1)dθ + Rn (x; u, v)
E (u|x, v) = ¡ x+1 ¢ ,
v n+2 + Rn (x; 1, v)
où le reste Rn dans le numérateur et dans le dénominateur tend vers zéro uniformément par
rapport à x = 0, 1, 2, · · · , n, lorsque n −→ ∞ (bien sûr, la vitesse de convergence dépend du
choix de la fonction v). Pour la statistique (Xn + 1)/(n + 2) la loi de grands nombres est
vérifiée et puisque la fonction v(θ) est continue on a
½ µ ¶ ¾
Xn + 1
P v −→ v(θ), n −→ ∞|Θ = θ = 1. (7.13)
n+2
De plus, puisque v ∈ V on a
372
D’où, sachant Θ la probabilité conditionnelle de la relation limite (12) égale à 1, et par
conséquent la probabilité non conditionnelle est aussi égale à 1.
Corollaire 2. Si v ∈ V , alors avec la probabilité 1 on a lorsque n −→ ∞
n+1 µ ¶
n+1
P{Θ ≤ θ|Xn = x} − ∑ k
θk (1 − θ)n−k+1 −→ 0, (7.15)
k=x+1
et
x!(n + k + 1)!
E{Θk |Xn = x}. −→ 1 (7.17)
(x + k)!(n + 1)!
uniformément par rapport à θ, 0 ≤ θ ≤ 1 ; (k est un entier positif).
Pour démontrer (15) on peut remarquer que (15) suit immédiatement de (12), si on pose
½
1,t ≤ θ,
u(t) ≡
0,t > θ.
x+1 (x + 2)(x + 1)
Θ̂ = E{Θ|Xn = x} ≈ and Θ̂2 = E{Θ2 |Xn = x} ≈ ,
n+2 (n + 3)(n + 2)
d’où µ ¶
ˆ (x + 1)(n − x + 1) 1 x + 1 x+1
(Θ2 ) − (Θ̂) ≈
2
= 1 − ,
(n + 2)2 (n + 3) (n + 3) n+2 n+2
i.e., pour les grandes valeurs de n on a
x+1 x
E{Θ̂|Xn = x} ≈ ≈ ,
n+2 n
µ ¶ x
¡x¢
x+1 x+1
Var {Θ̂|Xn = x} ≈ 1− ≈ n n
.
(n + 2)(n + 3) n+2 n
7.6 Aproximations
373
Approximation normale. Si 0 < θ0 ≤ θ ≤ θ1 < 1 et v ∈ V , alors avec la probabilité 1
on a lorsque n =⇒ ∞
" #
x − (n + 1)θ + 0.5
P{Θ > θ|Xn = x} − Φ p −→ 0. (7.18)
(n + 1)θ(1 − θ)
Ce résultat ne différe que par des détails non significatifs du théorème de S. Berstein (1946),
connu comme le théorème “inverse de Laplace". ¤
Approximation de Poisson. Si x ≤ x0 (x0 est une constante positive) et v ∈ V , alors
avec la probabilité 1 on a, lorsque n −→ ∞,
x
[λ(x, n, θ)]k −λ(x,n,θ)
P{Θ > θ|Xn = x} − ∑ e −→ 0 (7.19)
k=1 k!
Remarque 1. Supposons que la densité à priori p(θ) est positive sur [0, 1]. Dans ce cas,
dans les Corollaires (18) et (19) on peut omettre des mots “avec la probabilité 1" et après
les relations (12)-(19) ajouter “uniformément par rapport à Xn = x = 0, 1, 2, · · · , n",
Remarque 2. Les relations (15) - (17) dans certains sens approuvent le choix de M. De
Groot de la famille des lois beta comme la famille conjuguée des répartitions à priori pour
des échantillons de la loi Bernoulli. ¤
Remarque 3. (Nikulin (1978)). Considérons V = {v = v(θ) : v ∈ Lr [0, 1]} tel que si x0
est un point de Lebesgue de v ∈ V , alors
¯ Z x +h ¯1/r à !
¯1 0 ¯ 1
¯ r ¯
¯ 2h x −h |v(x) − v(x0 )| dx¯ = o [lnln 1 ]1/2r .
0 h
Dans ce cas avec la probabilité 1 les relations (15) - (17) sont vérifiées pour toute densité à
priori de V , lorsque n −→ ∞. ¤.
Plus de détails à ce problème on peut trouver dans Nikulin (1992), (1978), Voinov and
Nikulin (1996), et C. Robert (1992).
374
Chapitre 8
EXERCICES.
A = {x ∈ Rn : x1 ≤ x2 ≤ . . . ≤ xn }.
Montrer que la densité
n!
f∗X(1) ,...,X(r) (x1 , x2 , . . . , xr ) = [1 − F(x)]n−r f (x1 ) · . . . · f (xr )
(n − r)!
(n)
pour tout x ∈ A. Il est évident que si r = n, dans ce cas Xn = X(n) .
3. Trouver la densité de
(r)
Xn = (X(1) , X(2) , . . . , X(r) )T , 1 ≤ r ≤ n,
quand
375
f (x; θ) = θe−θx , x ≥ 0, θ > 0.
4. (suite) On suppose que la durée de la vie de certains produits suit une loi exponentielle
de paramètre θ, θ > 0. On considère un échantillon X = (X1 , .., Xn )T de cette distribution et
on arrête l’expérience dès qu’on a obtenu la r-me (1 ≤ r ≤ n) défaillance. Le résultat de
l’expérience est donc une réalisation du vecteur
(r)
Xn = (X(1) , X(2) , . . . , X(r) )T .
a) Trouver la statistique exhaustive minimale associée à ce problème et sa fonction de ré-
partition.
b) Estimer le paramètre θ par la méthode du maximum de vraisemblence,
c) Trouver le biais de cet estimateur. Construire le meilleur estimateur sans biais pour Eθ Xi
sachant que Eθ Xi = 1/θ .
d) Trouver l’estimateur de maximum de vraisemblance et le meilleur estimateur sans biais
S∗ (t) pour la fonction de survie
Wn = X(n) − X(1) .
Cette statistique est appellée l’étendue de l’échantillon. On suppose que Xi suive une loi
continue, dont la densité f ne dépend que des paramètres de translation µ et d’échelle σ,
1 x−µ
f ( σ ) , | µ |< ∞, σ > 0.
Xi ∼
σ
a) Montrer qu’il existe une constante cn telle que
EWn = cn σ.
b) Construire un estimateur sans biais pour σ.
c) Trouver cn quand Xi est uniforme sur [µ, µ + σ].
6. Soit X = (X1 , . . . , Xn )T un échantillon et f (x) la densité de Xi . On désigne Ri le numéro
de Xi dans la suite des statistiques d’ordre
X(n) = x, x = (x1 , . . . , xn )T ∈ A,
est donnée par la formule :
f(xr1 , . . . , xrn )
P{R1 = r1 , . . . , Rn = rn | X(1) = x1 , . . . , X(n) = xn ) =
f∗ (x1 , . . . , xn )
pour tout r = (r1 , . . . , rn )T ∈ σn .
376
7. Soient X = (X1 , . . . , Xn )T un échantillon et f (x) la densité de Xi .
Montrer que dans ce cas les statistiques R et X(n) sont indépendantes et que
1
P{R = r} = P{R1 = r1 , . . . , Rn = rn } = , r = (r1 , . . . , rn ) ∈ σn ,
n!
(n − m)!
P{Ri1 = ri1 , . . . , Rim = rim } = , (i1 , . . . , im ) ⊆ {1, 2, . . . , n},
n!
n+1 n2 − 1 n+1
ERi = , VarRi = , Cov(Ri , R j ) = − .
2 12 12
8. Soient X = (X1 , ..., Xn )T et Y = (Y1 , ...,Yn )T deux échantillons peut être dépendants.
On range (Xi ,Yi ) de façon que les Xi forment une suite nondécroissante. On remplace les Xi
et les Yi par leur rangs. On a les statistiques de rangs :
R(1) = (R11 , R12 , ..., R1n )T et R(2) = (R21 , R22 , ..., R2n )T .
n(N + 1) nm(N + 1)
EW = et VarW = .
2 12
10. Soit X = (X1 , . . . , Xn )T un échantillon,
1 x−µ
Xi ∼ f ( σ ), | µ |< ∞, σ > 0,
σ
377
où
f (x) = exp(−x)1[0,∞[ (x).
a) Estimer les paramètres µ et σ en utilisant la méthode des moments ;
b) estimer les paramètres µ et σ en utilisant la méthode de maximum de vraisemblance.
11. Supposons que, pour trouver une constante µ, on ait fait n mesures indépendantes.
Supposons de plus que les resultats de l’expérience sont libres d’erreur systématique et
que les erreurs de mesure suivent une loi normale N(0, σ2 ). Pour estimer la variance σ2 de
l’erreur de mesure on a proposé deux formules :
1 n 1 n−1
σ̂21 = ∑
n − 1 i=1
(xi − x̄)2 , σ̂22 = ∑
2(n − 1) i=1
(xi+1 − xi )2 .
Peut-on dire que σ̂21 et σ̂22 sont des valeurs de deux estimateurs sans biais pour la variance ?
Quel est le meilleur de ces deux estimateurs ?
12. Soit X = (X1 , . . . , Xn )T un échantillon,
1
H0 : Xi ∼ fr (x, θ) = xr−1 e−x/θ 1]0,+∞[ (x),
θr Γ(r)
i.e. Xi suit une loi gamma avec deux paramètres r et θ, qui sont inconnus, r ∈ N et θ ∈ Θ =
]0, ∞[.
a) Trouver par la méthode des moments les estimateurs rn∗ et θ∗n pour r et θ.
b) Peut-on dire que les suites {rn∗ } et {θ∗n } sont consistantes ?
c) Supposons que n = 10 et on a reçu :
θ x −θ
H0 : Xi ∼ f (x; θ) = e , x ∈ X = {0, 1, . . .}, θ ∈ Θ =]0, ∞[,
x!
i.e. Xi suit la loi de Poisson de paramètre θ. Notons
T = X1 + . . . + Xn
la statistique exhaustive pour θ.
a) Montrer que les statistiques
1 2 1
θI = χ1−γ1 (2T ) et θS = χ2γ2 (2T + 2)
2n 2n
sont γ1 -limite inférieure de confiance et γ2 -limite supérieure de confiance pour θ, où χ2α (n)
désigne α-quantile de la distribution du chi-deux de n degrés de liberté.
b) Trouver γ-intervalle de confiance pour :
ln (1 + θ)
θ = Eθ X, b(θ) = Eθ X 2 , c(θ) = .
1+θ
378
c) Le nombre de coups de téléphone venus au commutateur pendant une unité de temps est
une réalisation d’une variable aléatoire qui suit la loi de Poisson de parametre θ. On a reçu
X = 3 coups de télephone. Construire 0.95-intervalle de confiance pour θ et 0.95-limites de
confiance pour la probabilité
p0 (θ) = Pθ {X = 0}.
14. Soit X = (X1 , . . . , Xn )T un échantillon,
1 x
H0 : Xi ∼ f (x; θ) = exp{− }1(x>0) ,
θ θ
i.e. Xi suit la loi exponentielle de parametre d’échelle θ, θ > 0.
a) Construire γ-limites de confiance pour θ.
b) Supposons que n = 5 et que
S(x; θ) = Pθ {X ≥ x}.
d) Soit n = 20 ; le résultat d’expérience est donné par le vecteur
(8)
X20 = (X(1) , . . . , X(r) )T = (10, 15, 41, 120, 159, 181, 222, 296)T .
F(x; θ) = 1 − θx , si x > 0,
F(x; θ) = 0, sinon.
Supposons que dans l’expérience on a observé X = 1. Construire un intervalle de confiance
de niveau P pour θ dans deux cas :
a)X est continue ;
b)
X est discrète, P{X ≤ x} = F([x]).
379
17. Soit X1 et X2 deux variables aléatoires indépendantes,
380
α = 0.1, que Xi suit une loi de Poisson. Calculer, sous l’hypothèse H0 , la loi conditionelle
5
de Xi sachant ∑ Xi .
i=1
27. Après 8000 épreuves indépendantes les événements A, B,C se sont realisés respec-
tivement 2014, 5012 et 974 fois.
Tester l’hypothèse
W (tk ) −W (tk−1 )
∆k = tk − tk−1 , yk = , t0 = W (0) = 0.
∆k
381
Montrer que en statistique
1 n 1 n
ân = ∑ ∆k yk
tn k=1
et σ̂n = ∑ δk (yk − ân)2
n − 1 k=1
Supposons que l’on observe W (t) sur un intervalle [0, ε], ε > 0.
Soit 0 = t0 < t1 < ... < tn−1 < tn = ε, ti = ni ,
1 n−1
Sn2 = ∑ [W (ti+1) −W (ti)]2.
ε i=0
Montrer que
P
Sn2 → σ2 , n → ∞.
382
Chapitre 9
SOLUTIONS.
1. Soit F(x) = F(x1 , . . . , xn ) la fonction de répartition de X(n) , x ∈ Rn . Dans ce cas pour tout
x ∈ A = {x ∈ Rn : x1 ≤ x2 ≤ . . . ≤ xn }
on a
F(x1 , . . . , xn ) = PX(1) ≤ x1 , . . . , X(n) ≤ xn } =
Zx1 Zxn
= ∑ ... fXr1 ,...,Xrn (u1 , u2 , . . . , un )du1 . . . dun =
(r1 ,...,rn )∈σn−∞ −∞
Zx1 Zxn
= ... ∑ fXr1 ,...,Xrn (u1 , u2 , . . . , un )du1 . . . dun ,
−∞ −∞ (r1 ,...,rn )∈σn
On remarque que s’il existe au moins deux numéros i et j pour lesquels xi > x j , (i < j),
c’est à dire si x 6∈ A ,dans ce cas
383
Z∞ Z∞
f∗X(1) ,...,X(r) (x1 , . . . , xr ) = ... f∗X(1) ,...,X(n) (x)dxr+1 . . . dxn .
−∞ ∞
Mais
Notons que
Z∞
f (xn )dxn = S(xn−1 ),
xn−1
n!
f∗X(1) ,...,X(r) (x1 , . . . , xr ) = Sn−r (xr ) f (x1 ) . . . f (xr ).
(n − r)!
3. En cas de la loi exponentielle on a Xi ∼ f (x; θ), θ ∈ Θ =]0, ∞[, où pour tout θ ∈ Θ
f (x; θ) = θexp{−θx}, x ≥ 0,
et
384
S(x; θ) = 1 − F(x; θ) = e−θx , x ≥ 0, F(x; θ) = P{Xi ≤ x; θ} = Pθ {Xi ≤ x}, et donc avec la
probabilité 1
X(n) ∈ A = {x ∈ Rn : 0 ≤ x1 ≤ x2 ≤ . . . ≤ xn },
(r)
d’où on trouve que la densité de Xn est donnée par la formule :
n!
f∗X(1) ,...,X(r) (x1 , . . . , xr ; θ) = θr exp{−θt}, x ∈ A,
(n − r)!
où
r
t = ∑ xi + (n − r)xr .
i=1
4. a) La statistique
r
T = ∑ X(i) + (n − r)X(r)
i=1
(r)
est exhaustive pour θ, parce que la fonction de vraisemblance L(Xn ; θ) de la statistique
(r)
Xn peut être présentée comme un produit
( )
r
n!
θr exp θ ∑ X(i) + θ(n − r)X(r) 1{X(1) ≥0} ,
(r) (r)
L(Xn ; θ) = g(T ; θ)h(Xn ) =
(n − r)! i=1
(r) n!
lnL(Xn ; θ) = ln + rlnθ − θT,
(n − r)!
on trouve que
r
θ̂n = .
T
On remarque que θ̂n ne dépend que de la statistique exhaustive T. Sachant θ̂n nous pouvons
construire tout de suite l’estimateur de maximum de vraisemblance Ŝ(x) pour S(x; θ) pour
tout x fixé :
385
n rx o
Ŝ(x) = exp − .
T
Tout d’abord on remarque que dans ce problème on n’observe que la statistique
(r)
Xn = (X(1) , . . . , X(r) )T , (1 ≤ r ≤ n)
et pas X ou X(n) , et pour cette raison on dit que on a un échantillon censuré.
c). Pour apprendre des propriétés des estimateurs, basées sur la statistique exhaustive T ,
il nous faut savoir la distribution de T. On remarque que la statistique T peut être présentée
dans la forme suivante :
uii = n − i + 1, i = 1, . . . , r,
ui j = −(n − j + 1), j = i − 1; i = 2, . . . , r,
ui j = 0 dans tout les autres cas,
et donc
zi = (n − i + 1)(xi − xi−1 ), i = 1, . . . , r; x0 = 0.
Dans ce cas
T = Z1 + . . . + Zr .
Tout d’abord nous allons montrer que les statistiques Z1 , . . . , Zr sont indépendantes et suivent
la mème loi. Pour prouver cela il nous faut trouver la densité fZ (z; θ) de la statistique
(r) (r)
Z = UXn . Sachant que la densité de Xn est
( )
r
n!
f∗X(1) ,...,X(r) (x1 , . . . , xr ; θ) = θr exp −θ[ ∑ xi + (n − r)xr ] ,
(n − r)! i=1
pour trouver la densité fZ (z; θ), il nous faut calculer le Jacobian de la transformation U−1 .
Parce que
386
fZ (z; θ) = θr exp{−θ(z1 + . . . + zr )} = f (z1 ; θ) . . . f (zr ; θ),
d’où on voit bien que les statistiques Z1 , . . . , Zr sont indépendantes et suivent la loi expo-
nentielle de paramètre θ. Mais dans ce cas la satistique T suit la loi gamma avec r degrés
de liberté, dont la densité est donnée par la formule :
θr r−1 θt
fT (t; θ) = t e , t > 0.
Γ(r)
En utilisant ce résultat on trouve que
Z∞
r r θr
Eθ̂n = Eθ = fT (t; θ)dt = ,
T t r−1
0
d’où on trouve que le meilleur estimateur sans biais pour θ est
r−1
θ∗ = .
T
d). Pour trouver le meilleur estimateur sans biais S∗ (x) pour S(x; θ) nous pouvons ap-
pliquer l’approche de Rao-Blackwell-Kolmogorov, d’apres laquelle tout d’abord il nous
faut trouver n’importe quel estimateur sans biais, et apres calculer son espérance condi-
tionelle par rapport à la statistique exhaustive T , qui est complète, parce que la famille
{ fT (t; θ), θ ∈ Θ} est complète. En qualité de l’estimateur primaire pour S(x; θ) il est raison-
nable de choisir la statistique
S∗ (x) = Eθ {S̃(x) | T }.
On remarque que cette espérance conditionelle ne dépend pas de θ, parce que la statistique
T est exhaustive. Pour trouver la densité conditionnelle de Z1 par rapport à T , il nous faut
savoir la densité de la statistique (Z1 , T )T . On remarque que la densité de
(Z1 , T − Z1 )T = (Z1 , Z2 + Z3 + . . . + Zr )T ,
−θz θ
r−1 vr−2
fZ1 ,T −Z1 (z, v; θ) = θe e−θv , z ≥ 0; v ≥ 0,
Γ(r − 1)
z = z et t = z + v,
la densité fZ1 ,T (z,t; θ) de la statistique (Z1 , T )T :
387
θr−1
fZ1 ,T (z,t; θ) = θe−θz (t − z)r−2 e−θ(t−z) ,t ≥ z ≥ 0,
Γ(r − 1)
parce que le Jacobian de la transformation est égal à 1. En utilisant ce résultat on trouve
immédiatement la densité conditionelle
fZ1 ,T (z,t) r − 1
fZ1 |T =t (z) = = r−1 (t − z)r−2 ,t ≥ z ≥ 0,
fT (t) t
sinon fZ1 |T =t (z) = 0. Donc si T ≥ x on a
ZT
r−1 z x
Eθ {S̃(x) | T } = 1· (1 − )r−2 dz = (1 − )r−1 ,
T T T
x
où
P (x, n) = P{χ2 (n) ≥ x}.
On a
k−1
(nλ)i −nλ
G(k − 0, λ) = ∑ i! e = P (2nλ, 2k) (k = 1, 2, ...),
i=1
388
G(k − 0, λ) = 0, si k = 0.
Les fonctions I et S du théorème de Bolshev
I(λ; X) = P (2nλ, 2T ), si X 6= 0,
I(λ; X) = 0, si X = 0,
S(λ; X) = P (2nλ, 2T + 2).
La fonction S est strictement décroissante pour toutes valeurs de T , la fonction I est stricte-
ment décroissante pour T 6= 0.
On déduit du théorème de Bolshev que γ1 -limite inférieure de confiance λi et γ2 -limite
supérieure de confiance λs pour λ peuvent être trouvées des équations
P (2nλi , 2T ) = γ1 ,
P (2nλs , 2T + 2) = 1 − γ2
où
1 2
λi = χ (2T )
2n 1−γ1
1
λs = χ2γ2 (2T + 2). (1)
2n
Si T = 0, I(λ; X) = 0. Dans ce cas il n’existe pas λ tel que I(λ; X) ≥ γ1 > 1/2. On déduit
du théorème de Bolshev que
λi = inf λ = 0.
λ>0
b) Pour obtenir γ-intervalle de confiance ]λi , λs [ pour λ il faut prendre γ1 + γ2 = 1 + γ dans
les formules (1) . Dans le cas γ1 = γ2 on a γ1 = γ2 = (1 + γ)/2.
c) Si n = 1, T = X = 3, on a
1 1
λi = χ21−γ1 (6), λs = χ2γ2 (6).
2 2
Pour obtenir 0.95-intervalle de confiance il faut prendre
γ1 = γ2 = (1 + 0.95)/2 = 0.975.
On a
1 1
λi = χ20.025 (6) = 1.237 = 0.6185,
2 2
1 1
λs = χ20.975 (8) = 17.535 = 8.7675.
2 2
Si p0 (λ) = e−λ , on a
389
Ps0 = e− 2 χ0.05 (6) = e− 2 1.635 ≈ 0.441.
1 2 1
14. a) Notons
T = X1 + ... + Xn .
La statistique T suit une loi gamma G(n; θ1 ) de paramètres n and 1/θ :
Z t
1
P{T ≤ t} = un−1 e−u/θ du, t ≥ 0,
(n − 1)!θn 0
suit une loi gamma G(r; θ1 ), et par conséquant γ-intervalle de confiance pour θ est ]θi , θs [,
où
2Tr 2Tr
θi = 2 et θs = 2 .
χ 1+γ (2r) χ 1−γ (2r)
2 2
Puisque la fonction de survie S(x; b) = e−x/θ 1[0,∞[ (x) est croissante en θ, nous avons γ-
intervalle de confiance ]Si , Ss [ pour S(x; θ) avec
Si = e−x/θi et Ss = e−x/θs .
15. a) Il est clair que la statistique
n
T = ∑ Xi
i=1
suit une loi binomialle B(n, θ) de paramètres n et θ. La fonction de répartition de T est
k µ ¶
n
G(k; θ) = Pθ {T ≤ k} = ∑ θi (1 − θ)n−i =
i=0
i
390
I1−θ (n − k, k + 1) = 1 − Iθ (k + 1, n − k), k = 0, 1, ..., n − 1,
G(k; θ) = 1, si k = n,
où Ix (a, b) est la fonction de répartition de la loi beta de paramètres a et b, et
k−1 µ ¶
n
G(k − 0; θ) = ∑ i
θi (1 − θ)n−i = 1 − Iθ (k, n − k + 1), k = 1, 2, ..., n,
i=0
G(k − 0; θ) = 0, si k = 0.
Les fonctions I et S sont
½
I1−θ (n − T + 1, T ), si T 6= 0
I(θ; X) =
0, sinon ,
½
I1−θ (n − T, T + 1), si T =
6 n
S(θ; X) =
1, si T = n.
On remarque que S(θ; X) est strictement décroissante en θ pour T 6= n, et I(θ; X) est stric-
tement decroissante en θ pour T 6= 0, et par conséquant du théorème de Bolshev il suit
que
I1−θi (n − T + 1, T ) = γ1 pour T 6= 0,
et donc
θi = 0, si T = 0,
I1−θs (n − T, T + 1) = 1 − γ1 pour T 6= n,
et donc
θs = 1, si T = n.
Donc, ½
1 − x(γ1 ; n − T + 1, T ), si T =
6 0
θi =
0, si T = 0,
½
1 − x(1 − γ1 ; n − T, T + 1), si T =
6 n
θs =
1, si T = n,
où x(γ1 ; a, b) est le γ1 -quantil de la distribution beta de paramètres a et b.
16. b) Dans ce cas
Si X = 1 alors
I(1; θ) = F(1 − 0; θ) = F(0; θ) = 0.
Du théorème de Bolshev il suit que la limite inférieure de confiance θi pour θ du niveau de
confiance supérieur ou égal à γ1 est
391
est décroissante en θ et donc du théorème de Bolshev nous avons
S(1; θs ) = 1 − γ2 ,
1 − e−2(X(1) −θi ) = γ1 ,
1 − e−2(X(1) −θs ) = 1 − γ2 ,
où
1
θi = X(1) + ln (1 − γ1 ),
2
1
θs = X(1) + ln γ2 .
2
L’intervalle ]θi , θs [ est γ-intervalle de confiance pour θ si γ = γ1 + γ2 − 1.
La longueur de cet intervalle
1
θs − θi = (ln γ2 − ln (1 − γ1 )).
2
On cherche γ1 et γ2 tels que
γ1 + γ2 = 1 + γ, 0.5 < γi ≤ 1 (i = 1, 2)
392
µ ¶
1 1 1
− < 0.
2 γ2 γ2 − γ
cette fonction est décroissante, donc θs − θi = min si γ2 = 1 et γ1 = 1 + γ − γ2 = γ, d’où on
tire que
1
θi = x(1) + ln (1 − γ);
2
θs = x(1) .
18. il est évident que yi − θ suit la loi uniforme sur [-1,1], d’où il suit que la répartition
de la variable aléatoire
t = x1 + x2 − 2θ = y1 + y2
ne dépend pas de θ. il est facile à montrer que
0, y ≤ −2,
1 (y + 2)2 ,
8 −2 ≤ y ≤ 0,
g(y) = p{t ≤ y} = (y−2)2
1 − 8 , 0 ≤ y ≤ 2,
1, y ≥ 2.
la fonction
g(t) = g(x1 + x2 − 2θ), θ ∈ r1 ,
est décroissant en θ. du théorème de bolshev il s’ensuit que les limites de confiance, infé-
rieure et supérieure, de niveau de confiance γ1 et γ2 respectivement (0.5 < γi ≤ 1) vérifient
les équations
g(x1 + x2 − 2θi ) = γ1 et g(x1 + x2 − 2θs ) = 1 − γ2 ,
d’où nous trouverons
x1 + x2 p x1 + x2 p
θi = − 1 + 2(1 − γ1 ) et θs = + 1 − 2(1 − γ2 ).
2 2
il est facile à montrer que pour γ = γ1 + γ2 − 1 donné la fonction
p p
θs − θi = 2 − 2(1 − γ1 ) − 2(1 − γ2 )
393
si et seulement si
n
∑ Xi > c1
i=1
où c1 est une constante. On a utilisé le fait que θ < θ0 . On cherche c1 tel que :
( ) ( )
n n © ª
α = Pθ0 ∑ Xi > c1 = Pθ0 2θ0 ∑ Xi > 2θ0 c1 = P χ2 (2n) > 2θ0 c1 ,
i=1 i=1
d’où
2θ0 c1 = χ21−α (2n)
et donc
1 2
c1 = χ (2n).
2θ0 1−α
Le test ne dépends pas de θ, donc il est UPP pour l’alternative θ < θ0 . La fonction de
puissance est :
( ) µ ¶
n © 2 ª θ 2
β(θ) = Pθ ∑ Xi > c1 = Pθ χ (2n) > 2θc1 = P (2θc1 , 2n) = P χ (2n), 2n ,
i=1 θ0 1−α
© ª
oú P (x, n) = P χ2 (n) > x . β(θ0 ) est décroissante,
lim β(θ) = P (0, n) = 1, β(θ0 ) = α.
θ→0+0
Figure 1.
Le test est biaisé pour l’alternatives θ > θ0 .
394
si et seulement si
1 n
X̄ = ∑ Xi > c.
n i=1
Les risques de première et deuxième espèce sont :
β = P1 {(X̄ ≤ c} ≤ 0.01.
√
Si θ = 0, X̄ ∼ N(0, 1n ), nX̄ ∼ N(0, 1).
√
Si θ = 1, X̄ ∼ N(1, 1n ), n(X̄ − 1) ∼ N(0, 1).
Donc
√
1 − Φ( nc) ≤ 0.01
√
Φ( n(c − 1)) ≤ 0.01
où √
nc ≥ Φ−1 (0.99)
√ (1)
n(c − 1) ≤ 1 − Φ−1 (0.99).
√
Notons a = Φ−1 (0.99) ≈ 2.326, m = n. Il faut trouver le plus petit m vérifiant
mc ≥ a,
m(c − 1) ≤ −a,
où
a a
c≥ , c ≤ 1− . (2)
m m
Figure 2
La fonction g(m) = est décroissante, la fonction h(m) = 1 − ma est croissante. On
a
m
cherche le point d’intersection m∗ :
a a
= 1− ,
m m
395
donc m∗ = 2a ≈ 4.652.
Parce que
2 · 2.325 < m∗ < 2 · 2.33
et
21.6 < (m∗ )2 < 21.8,
le plus petit nombre naturel pour lequel les inégalités (1) sont vérifiées est n = [(m∗ )2 ] + 1 =
22.
24. La fonction de vraisemblance est
1
L(θ) = 1{0 ≤ X(1) ≤ X(n) ≤ θ}.
θn
a) H : θ = θ0 , H̄ : θ > θ0 .
On cherche le test pur de Neyman-Pearson de niveau α :
½
1, si L(θ) > kL(θ0 )
ϕ(X) =
0, sinon
Si X(n) ≤ θ0 , l’inégalité
L(θ) > kL(θ0 ) (1)
est vérifiée pour k > 0, si et seulement si
µ ¶n
θ0
> k.
θ
³ ´n
θ0
Si X(n) > θ0 , l’inégalité (1) est toujours vérifiée. Prenons k < θ :
396
est vérifiée pour k > 0 si et seulement si
µ ¶n
θ0
= k.
θ
³ ´n
θ0
Si X(n) > θ0 , l’égalité (3) n’est pas vérifiée. Prenons k = θ :
½
1, X(n) > θ0 ,
ϕ(X) =
γ, X(n) ≤ θ0 ,
Donc on a ½
1, X(n) > θ0 ,
ϕ(X) =
α, X(n) ≤ θ0 .
D’après le lemme de Neyman-Pearson le test ϕ est UPP car il ne dépend pas de θ > θ0 .
b) H : θ = θ0 , H̄ : θ < θ0 . On cherche le test pur de Neyman-Pearson.
Si X(n) ≤ θ, l’inégalité (1) est vérifiée pour k > 0 si et seulement si
µ ¶n
θ0
> k.
θ
Si X(n) > θ, l’inégalité (1) n’est pas vérifiée.
³ ´n
Prenons k < θθ0 . Dans ce cas
½
1, X(n) ≤ θ,
ϕ(X) =
0, sinon ,
et µ ¶n
θ
α = Pθ0 {X(n) ≤ θ} = .
θ0
Le niveau de signification est α pour l’alternative θ1 = θ0 α1/n . Sous cette alternative
½
1, X(n) ≤ θ0 α1/n ,
ϕ(X) =
0, sinon .
Dans le cas d’autres alternatives cherchons le test randomisé (2).
Si X(n) ≤ θ, l’égalité (3) est vérifiée si et seulement si
µ ¶n
θ0
= k.
θ
Pour X(n) > θ, l’égalité (3) n’est pas vérifiée.
³ ´n
Prenons k = θθ0 . Le test de Neyman-Pearson donne
½
γ, X(n) ≤ θ,
ϕ1 (X) =
0, sinon ,
397
µ ¶n
θ
α = Eθ0 ϕ1 (X) = γP{X(n) ≤ θ} = γ ,
θ0
µ ¶n
θ0
γ=α .
θ
L’inégalité γ ≤ 1 est vérifiée si θ ≥ θ0 α1/n .
Le test de Neyman-Pearson n’existe pas quand θ < θ0 α1/n .
Pour θ ≥ θ0 α1/n µ ¶n
θ0
ϕ(X) = α .
θ
On cherche la puissance de ϕ et ϕ1 pour θ ≥ θ0 α1/n ’ :
à !n µ ¶
θ 0 α 1/n θ0 n
Eθ ϕ(X) = Pθ {X(n) ≤ θ0 α } =
1/n
= α,
θ θ
µ ¶n µ ¶n
θ0 θ0
Eθ ϕ1 (X) = α Pθ {X(n) ≤ θ} = α.
θ θ
La puissance de ϕ est la même que la puissance du test le plus puissant ϕ1 pour l’alternative
θ ≥ θ0 α1/n . Si θ < θ0 α1/n
est le plus puissant pour l’alternative θ < θ0 et les puissances de ces tests
La puissance de ϕ2 :
398
Si θ < θ0
Eθ ϕ2 (X) = Pθ {X(n) ≤ θ0 α1/n } = Eθ0 ϕ0 (X),
si θ > θ0 µ ¶n
θ0
Eθ ϕ2 (X) = Pθ {X(n) > θ0 } + α =
θ
Pθ {X(n) > θ0 } + αPθ {X(n) ≤ θ0 } = Eθ ϕ(X),
ϕ2 est le test UPP pour l’hypothèse H : θ = θ0 contre l’alternative bilatérale H̄ : θ 6= θ0 .
399
BIBLIOGRAPHIE.
Aguirre N. (1993). Test d’ajustement du chi-deux pour une loi logistique. XXV Journée
de Statistique, Vannes, Session 35 (191).
Aguirre N. and Nikulin M. (1994) Chi squared goodness-of-fit test for the family of
logistic distributions. Kybernetika, 30 3, p. 214-222.
Aalen, O. (1980). A model for nonparametric regression analysis of counting processes.
In. Mathematical Statistics and Probability Theory, Lecture Notes in Statistics, 2, (Eds. W.
Klonecki, A. Kozek and J. Rosinski), New York : Springer Verlag, 1-25.
Achtziger W., Bendsøe M.P. Taylor J.E. (1998). Bounds on the effect of progressive
structural degradation. J. Mech. Phys. Solids, 46, 6, 1055-1087.
Anderson T.W. (1962). On the distribution of the two-sample Cramer-von Mises crite-
rion. Annals of the Mathematical Statistics, 33, p.1148- 1159.
Anderson T.W. and Darling D.A. (1952). Asymptotic theory of certain "Goodness of
fit" criteria based on stochastic processes. Annals of the Mathematical Statistics, 23, p.193-
212.
P.K.Andersen and R.D.Gill. (1982). "Cox’s regression model for counting processes :
A large sample study", Ann. Statist, 10, p. 1100-1120.
P.K.Andersen, O.Borgan, R.D.Gill and N.Keiding, (1993). Statistical Models Based
on Counting Processes, New York : Springer-Verlag.
Andersen, P.K. (1991). Survival analysis 1981-1991 : The second decade of the pro-
portional hazards regression model. Statistics in Medicine, 10, # 12, 1931-1941.
V.Bagdonavičius. (1978.) "Testing the hyphothesis of the additive accumulation of da-
mages". Probab. Theory and its Appl., 23, pp. 403-408.
V.Bagdonavičius and M.Nikulin. (1994). " Stochastic models of accelerated life". In :
Advanced Topics in Stochastic Modelling, (eds. J.Gutierrez, M.Valderrama), Singapore :
World Scient.
Bagdonavičius, V., Nikulin, M. (1995). Semiparametric models in accelerated life tes-
ting. Queen’s Papers in Pure and Applied Mathematics. Queen’s University, Kingston, On-
tario, Canada. 98, 70p.
V.Bagdonavičius and M.Nikulin. (1996). “Analyses of generalized additive semipara-
metric models “, Comptes Rendus, Academie des Sciences de Paris, 323, 9, Série I, 1079-
1084.
V.Bagdonavičius and M.Nikulin. (1997a). "Transfer functionals and semiparametric
regression models", Biometrika, vol. 84 pp. 365-378.
V.Bagdonavičius and M.Nikulin. (1997b). "Asymptotic analysis of semiparametric
models in survival analysis and accelerated life testing", Statistics, vol. 29 pp. 261-283.
V.Bagdonavičius and M.Nikulin. (1997). "Semiparametric estimation in the generali-
zed additive multiplicative model". In : Probability and Statistics, 2, (Eds : I.A. Ibragimov,
V.A. Sudakov), Proceeding of the Steklov Mathematical Institute, St. Petersbourg, 7-27.
V.Bagdonavičius and M.Nikulin. (1997). “Statistical analysis of the generalized addi-
tive semiparametric survival model with random covariates”, Qüestiió, Qüestiió, 21, # 1-2,
p. 273-291.
V.Bagdonavičius and M.Nikulin. (1997). “Sur l’application des stress en escalier dans
les expériences accélérées “, Comptes Rendus, Academie des Sciences de Paris, 325, Série
I, p. 523-526.
400
V.Bagdonavičius and M.Nikulin. (1997). “Accelerated life testing when a process of
production is unstable”, Statistics and Probabilité Letters, 1997, 35, p. 269-279.
V.Bagdonavičius and M.Nikulin. (1997). “Transfer functionals and semiparametric
regression models”, Biometrika, 1997, 84, 2, p. 365-378.
V.Bagdonavičius and M.Nikulin. (1997). “Analysis of general semiparametric models
with random covariates”, Revue Roumaine de mathématiques Pures et Appliquées, 42, #
5-6, p. 351-369.
V.Bagdonavičius and M.Nikulin. (1997). “Asymptotic analysis of semiparametric mo-
dels in survival analysis and accelerated life testing”, Statistics, 29, p.261-283.
V.Bagdonavičius and M.Nikulin. (1997). “Some rank tests for multivariate censored
data”. In : Advances in the Theory and Practice of Statistics : A volume in Honor of Samuel
Kotz. (eds. N.L.Johnson and N.Balakrishnan), New York : J. Wiley and Sons, 193-207.
V.Bagdonavičius and M.Nikulin. (1998a). Additive and multiplicative semiparametric
models in accelerated life testing and survival analysis. Queen’s Papers in Pure and Applied
Mathematics, vol. 108, Kingston : Queen’s University, Canada.
V.Bagdonavičius and M.Nikulin. (1998b). "Estimation in generalized proportional ha-
zards
model". C.R.Acad.Sci.Paris, Serie I, 326, pp. 1415-1420.
V.Bagdonavičius, S.Malov and M.Nikulin. (1998). “Characterizations and semipa-
rametric regression estimation in Archimedean copulas”, Journal of Applied Statistical
Sciences, 8, 549-562.
V.Bagdonavičius, V.Nikoulina and M.Nikulin. (1998). “Bolshev’s method of confi-
dence interval construction”, Qüestiió, 21, # 3, 549-562.
V.Bagdonavičius and M.Nikulin. (1999). "Generalized proportional hazards model ba-
sed on modified partial likelihood" , Life Data Analysis, 5, 329-350.
Bagdonavičius, V. and Nikulin, M. (2001). Estimation in Degradation Models with
Explanatory variables, Lifetime Data Analysis, 7, 85-103.
V.Bagdonavičius and M.Nikulin. (1999). “Model Buildings in Reliabilty", In : Proba-
bilistic and Statistical Models in Reliability , (Eds. N. Limnios and D. Ionescu), Boston :
Birkhauser, 51-74.
V.Bagdonavičius and M.Nikulin. (1999). “On Nonparametric Estimation From Ac-
celerated Experiments", In : Probabilistic and Statistical Models in Reliability, (Eds. N.
Limnios and D. Ionescu), Boston : Birkhauser, 75-90.
V.Bagdonavičius and M.Nikulin. (2000)"Modèle statistique de dégradation avec des
covariables dépendant de temps", Comptes Rendus, Academie des Sciences de Paris, 2000,
329, Série I, p. 131-134.
V.Bagdonavičius and M.Nikulin. (2000). "On goodness-of-fit for the Linear Transfor-
mation and Frailty models", Statistics and Probability Letters, 47, #2, 177-188.
V.Bagdonavičius and M.Nikulin. (2000). "On nonparametric estimation in accelerated
experiments with step-stresses", Statistics, 33, 349-365.
V.Bagdonavičius, L.Gerville-Réache, V.Nikoulina, M.Nikulin. (2000) "Expériences
Accélérées : Analyse Statistique du Modèle Standard de Vie Accélérée", Revue de Statis-
tique Appliquée, XLVIII, #3, 5-38.
V.Bagdonavičius and M.Nikulin. (2001). Accelerated Life Models, Chapman&Hall/CRC,
348p.
V.Bagdonavičius, M.Nikulin. (2003) Stochastical Modeling in survival analysis and its
influence on duration analysis. In : " Advances in Survival Analysis. v.23 ". (by N.Balakrishnan
401
and C.R.Rao) North-Holland.
V.Bagdonavičius, M.Nikulin. (2003) " Semiparametric statistical analysis for aging
and longevity ". In : "Advances in statistical inferential methods : theory and applications"
(Ed. by V. Voinov), Gylym : Almaty, ISBN 9965-07-253-, p.17-30.
Bagdonavičius, V., Bikelis, A., Kazakevičius, A. and Nikulin, M. (2002). Non-parametric
estimation from simultaneous degradation and failure data, Comptes Rendus, Academie des
Sciences de Paris, v. 335, 183-188.
V.Bagdonavičius, A.Bikelis, V.Kazakevicius, M.Nikulin. (2003) Estimation from si-
multaneous degradation and failure time data. In : Mathematical and Statistical Methods in
Reliability,(B. Lindqvist and Kjell A Doksum, eds.), World Scientific Publishing, Series on
Quality,Reliability and Engineering Statistics, 7, p.301-318.
Bagdonaviçius,V., Hafdi,M., Himdi, K., Nikulin,M.. (2003). "Statistical analysis of
the Generalised Linear Proportionnal Hazards model." Proceedings of the Steklov Mathe-
matical Institute, St.Petersburg, : Probability and Statistics, 6., v.294, p.5-18, (ISSN 0373-
2703).
Bagdonaviçius,V., Haghighi, F., Nikulin, M. (2003). Statistical Analysis of General
Degradation Path Model and Failure time data with Multiple failure modes, Preprinte de
l’IFR-99 Sané Publique, Université Victor Segalen Bordeaux 2.
Bagdonavičius, V. (1978). Testing the hyphothesis of the additive accumulation of da-
mages. Probab. Theory and its Appl., 23, No. 2, 403-408.
Bagdonavičius V., M.Hafdi and Nikulin M. (2002). The Generalized Proportional
Hazards Model and its Application for Statistical Analysis of the Hsieh Model. In : Procee-
dings of The Second Euro-Japanese Workshop on Stochastic Risk Modelling for Finance,
Insurance, Production and Reliability, September 18-20, Chamonix, France, (Eds. T.Dohi,
N.Limnios, S.Osaki), p. 42-53.
Bagdonavičius V., Hafdi, M., El Himdi, K. and Nikulin M. (2002). Analyse du mo-
dèle des hazards proportionnels généralisé. Application sur les donnés du cancer des pou-
mons. Preprint 0201, I.F.R. "Santé Publique".
Bagdonavičius V., Hafdi, M., El Himdi, K. and Nikulin, M. (2002). Analysis of Sur-
vival Data with Cross-Effects of Survival Functions. Applications for Chemo and Radiothe-
rapy Data. Preprint 0202, I.F.R. "Santé Publique".
Bagdonavičius, V. and Nikulin, M. (2004). Semiparametric analysis of Degradation
and Failure Time Models. In : Semiparametric Models and Applications for Reliability, Sur-
vival Analysis and Quality of Life, (Eds. : M.Nikulin, N.Balakrishnan, M.Mesbah, N.Limnios),
Birkhauser : Boston.
Balakrishnan N., Ed. (1992) Handbook of the logistic distribution. New York : Marcel
Dekker.
Balakrishnan, E., Nelson, M. I., Wake, G. C. (1999). Radiative ignition of combus-
tible materials. I. Polymeric materials undergoing nonflaming thermal degradation :the cri-
tical storage problem.Math. Comput. Modelling,30, # 11-12, 177-195.
Berger T., Zhang Z. (1983). Minimum breakdown degradation in binary source enco-
ding. IEEE Trans. Inform. Theory, 29, # 6, 807-814.
Boulanger,M., Escobar, L.A.(1994). Experimental design for a class of accelerated
degradation tests. Technometrics, 36, 260-272.
Burchard A. (1994). Substrate degradation by a mutualistic association of two species
in the chemostat. J. Math. Biol., 32, #5, 465-489.
Busenberg S., Tang B. (1994). Mathematical models of the early embryonic cell cycle :
402
the role of MPF activation and cyclin degradation. J.Math.Biol., 32, #6, 573-596.
Birnbaum Z.W. (1952). Numerical tabulation of the distribution of Kolmogorov’s sta-
tistic for finite sample size. JASA, v.47, p.425.
Bolshev L.N. and Nikulin M.S. (1975) One solution of the problem of homogeneity.
Serdika, Bulgarsko Mathematichesko Spicanie, v.1, p.104-109.
Bolshev L.N. and Smirnov N.N. (1968). Tables of mathematical statistics. Moscow :
Nauka (in russian).
S.C.Cheng, L.J.Wei and Z.Ying. (1995). "Analysis of tranformation models with cen-
sored data", Biometrika, vol. 82 pp. 835-846.
Chernoff H., Lehmann E.L. (1954) The use of maximum likelihood estimator in χ2
tests for goodness of fit. Ann. Math. Stat., 25, 579-586.
Cantrell R.S., Cosner C., Fagan W. F.(1998). Competitive reversals inside ecological
reserves : the role of external habitat degradation. J. Math. Biol., 37, #6, 491-533.
Carasso A.S., Sanderson J.G.., Hyman J.M. (1978). Digital removal of random media
image degradations by solving the diffusion equation backwards in time. SIAM J. Numer.
Anal. 15, #2, 344-367.
Carey, M.B., Koenig,R.N. (1991). "Reliability assessment based on accelerated degra-
dation : a case study. IEEE Transactions on Reliability",40, 499-506.
Chiao, C.H., Hamada, M. (1996). Using Degradation Data from an Experimet to
Achive Robust Reliability for Light Emmitining Diodes, Quality and Reliability Enginee-
ring International, 12, 89-94.
Cinlar,E. (1980). On a generalization of gamma processes, J.Appl.Probab.,17, 467-480.
Cramer H. (1946). Mathematical methods of statistics. Princeton University Press,
Princeton, N.J.
D.R.Cox. (1972). "Regression models and life tables", J.Roy.Statist. Soc., B, vol. 34 pp.
187-220.
D.R.Cox and D.Oakes. (1984). Analysis of Survival Date, London : Chapman and Hall.
Cox, D.R. (1975) Partial likelihood. Biometrika, 62, 269-276.
Cox, D.R.(1999). Some Remarks on Failure-times, Surrogate Markers, Degradation,
Wear, and the Quality of Life, Lifetime Data Analysis, 5, 307-314, 1999.
D.M.Dabrowska and K.A.Doksum. (1988a). "Estimation and Testing in a Two-Sample
Generalized Odds-Raparte Model", JASA, 83 pp. 744-749.
D.M.Dabrowska and K.A.Doksum. (1988b). "Partial likelihood in transformation mo-
del with censored data", Scand. J. Statist., 15, pp. 1-23.
Darling D.A. (1957) The Kolmogorov-Smirnov, Cramer-fon-Mises tests. Ann. Math.
Statist.,28, p.1-7.
Dowling, N.E.(1993). Mechanical Behavior of Materials, Prentice Hall : Englewood
Cliffs.
Doksum, K.A., Hoyland, A.(1992). Models for variable-stress accelerated life testing
experiment based on Wiener processes and the inverse Gaussian distribution, Technome-
trics, 34, 74-82.
Doksum,K.A., Normand, S.-L.T.(1995). "Gaussian Models for Degradation Processes
- Part I : Methods for the Analysis of Biomarker Data", Lifetime Data Analysis,1, 131-144.
Doksum K.A., Normand S.-L.T. (1996). Models for degradation processes and event
times based on Gaussian processes. Lifetime data : models in reliability and survival analy-
sis (Cambridge, MA, 1994), 85-91.Dordrecht : Kluwer Acad. Publ.
403
Droesbeke, J.-J., Fichet B. & Tassi P., (1989). Analyse statistique des durées de vie,
Paris : Economica.
Drost F. (1988) Asymptotics for generalized chi-square goodness-of-fit tests, Amster-
dam : Center for Mathematics and Computer Sciences, CWI Tracts, 48.
Dzhaparidze, K.O. and Nikulin M.S. (1974). On a modification of the standard sta-
tistics of Pearson. Theory of probability and its applications, 19, #4, p.851-852.
Dzhaparidze, K.O. and Nikulin M.S. (1982). Probability distributions of the Kolmo-
gorov and omega-square statistics for continuous distributions with shift and scale para-
meters. Journal of Soviet Mathematics, 20, p.2147-2163.
Dzhaparidze, K.O., Nikulin, M.S. (1995), On the computation of the chi-square type
statistics, Journal of Mathematical Sciences, 75, 5, 1910-1921.
Fasano A., Primicerio M., Rosso F. (1992). On quasi-steady axisymmetric flows of
Bingham type with stress-induced degradation. Computing,49, # 3, 213-237.
Friedrich J. (1999). A dual reciprocity boundary element model for the degradation of
strongly eroded archaeological signs. Math. Comput. Simulation, 48, 3, 281-293.
Gajewski, H., Sparing, H.-D. (1992).On a model of a polycondensation process with
thermal degradation. Z. Angew. Math. Mech., 62, #11, 615-626.
Garrigoux, C., Meeker, W.Q. (1994). A reliability model for planning in-service ins-
pections for components subject to degradation failure. Pakistan J. Statist., 10, 1, 79-98.
Gupta, R. (1991). Analysis of a two-unit cold standby system with degradation and
linearly increasing failure rates. Internat. J. Systems Sci., 22, #11, 2329-2338.
Gerville-Réache L., Nikulin, M. (2000). " Analyse statistique du modéle de Makeham
" Revue Roumaine Math. Pure et Appl., 45, #6, 947-957.
Gihman, I.I. (1961) On the empirical distribution function in the case of grouping data.
In : Selected Translation in Mathematical Statistics and Probability, 1, p.77-81.
Grizzle, J.E. (1961) A new method of testing hypotheses and estimating parameters for
the logistic model. Biometrics, 17, p.372-385.
Habib, M.G., Thomas, D.R. (1986). Chi-square goodness-of-fit tests for randomly cen-
sored data. Annals of Statistics, 14,759-765.
Haghighi, F., Nikulin, M (2003). Chi-square type test for power generalized Weibull
family. In : Advances in statistical inferential methods : theory and applications, (Ed. by V.
Voinov), Gylym : Almaty, p.89-105.
Hamada, M.(1995). "Analysis of Experiments for Reliability Improvement and Robust
Reliability", In : Recent Advances in Life-Testing and Reliability, (Ed. N. Balakrishnan),
CRC Press : Boca Raton.
Hald, A. (1952) Statistical Theory with Engineering Applications. Wiley, New York.
Hougaard, P. (1986) Survival models for heterogeneous populations derived from stable
distributions, Biometrika, 73, 3, 387-396.
Hsieh, F. (2001). On heteroscedastic hazards regression models : theory and application.
Journal of the Royal Statistical Society, Series B 63, 63-79.
Huber-Carol C. (1989). Statistique au PCEM . Masson, Paris .
Huber C and Nikulin M.S. (1993). Classical random walks and some statistical pro-
blems. In : Rings and modules. Limit theorems of probability theory.#3. St. Petersburg State
University.
Huber C. (1991). Modeles log-lineaires. Preprinte de l’Université Paris 5, DEA STA-
TISTIQUE ET SANTE, 50 p.
404
Huber-Carol C. (1991). Statistique. Preprinte de l’Université Paris 5, Maitrise de Sciences
Biologiques et Medicales d’Informatique, Statistique et Epidémiologie et DUPESB, 134 p.
Huber C. (1991). Elements de statistique générale. Choix et réduction d’un modele
statistique. Preprinte de l’Université Paris 5, 48 p.
Huber C. (2000). Censored and Truncated Lifetime Data. In : Recent Advances in Re-
liability Theory. (Eds. N. Limnios, M.Nikulin). Boston : Birkhauser, 291-306.
C.Huber and M.Nikulin. (1997). “Remarques sur le maximum de vraisemblance”,
Qüestiió, 21, # 1-2, p. 37-58 (avec C. Huber).
Igaki N., Sumita U., Kowada M., (1998). On a generalized M/G/1 queue with service
degradation/enforcement. J. Oper. Res. Soc. Japan, 41, 3, 415-429.
Jayanti P, Chandra T. D., Toueg S. (1999). The cost of graceful degradation for omis-
sion failures. Inform. Process. Lett., 71, # 3-4, 167-172.
Kleinbaum, D. (1996). Survival Analysis : A Self-Learning text. New York : Springer-
Verlag.
Klein, J.P. and Moeschberger, M.L. (1997). Survival Analysis, New York : Springer.
Kalbfleisch J.D., Prentice R.L. (1980) The Statistical Analysis of Failure Time Data.
New York : J. Wiley and Sons.
Kaplan E.L. and Meier P. (1958) Monparametric estimation from incomplete obser-
vations. J.Am.Stat.Assoc., 53, p.457-481.
Khalfina N.M. (1983) Some asymptotic results associated with the Chauvenet test for
multidimensional random variables. Journal of Soviet Mathematics, 23, #1, p.99-106.
Klinger D.J..(1992). "Failure time and rate constant of degradation : an argument for
the inverse relationship". Microelectronics and Reliability,32, 987-994.
Klimontovich, Yu. L. (1997). Chaoticity, degradation and self-organization in open
systems. Self-organization of complex structures, ( Berlin, 1995), 37-50. Amsterdam : Gor-
don and Breach.
Koike T., Kameda H. (1973). Reliability theory of structures with strength degradation
in load history. Mem. Fac. Engrg. Kyoto Univ., 35, 331-360.
Kolmogorov A.N. (1933). Sulla determinizione empirica di una legge di distribuzione.
Giorn.Ist.Ital.Attuari, 4, p.83-91.
Kolmogorov A.N. (1951). Une généralisation d’une formule de Poisson. Uspekhi Mat.Nauk.,
6,p. 133-134.
Lawless J.F. (1982) Statistical Models and Methods for Lifetime Data. New York : J.
Wiley and Sons.
Lawless,J.,Hu,J., and Cao, J.(1995). Methods for the estimation of failure distributions
and rates from automobile warranty data, Lifetime Data Analysis, 1, 227-240.
LeCam, L., Mahan,C., Singh, A. (1983). An extension of a Theorem of H.Chernoff
and E.L.Lehmann. In : Recent advances in statistics, Academic Press, Orlando, 303-332.
Lehmann E.H. (1973). On two modification of the Cramer-von Mises statistic. Journal
of the Royal Statist.Soc.,Ser, 35, p.523.
Lin, D.Y., and Ying, Z. (1996). " Semiparametric analysis of the general additive-
multiplicative hazard models for counting processes", Ann. Statist., 23, p. 1712-1734.
Lin, D.Y., Geyer, C.J. (1992). Computational methods for semiparametric linear re-
gression with censored data. Journal Comput. and Graph. Statist.,, 1, 77-90.
Lu, C.J. (1995). "Degradation processes and related reliability models", Ph.D. thesis,
McGill University, Montreal, Canada.
405
Lu,C.J.,Meeker.W.Q.(1993). "Using degradation Measures to Estimate a Time-to-Failure
Distribution", Technometrics, 35,161-174.
Lu C. J., Meeker W.Q., Escobar L.A. (1996). A comparison of degradation and failure-
time analysis methods for estimating a time-to-failure distribution. Statist. Sinica, 6, 3, 531-
546.
Mann, N.R., Schafer, R.E. and Singpurwalla, N. (1974) Methods for Statistical Ana-
lysis of Reliability and Life Data. New York : John Wiley and Sons.
Mann H.B. and Whitney D.R. (1947). Annals of Mathematical Statistics, v.18, p.50-
60.
Mardia K.V. and Zemroch P.J. (1978). Tables of the F- and related distributions with
algorithms. Academic Press.
McKeague, I.W., Sasieni, P.D.(1994). A partly parametric additive risk model. Biome-
trika, 81,#3, 501-514.
Meinhold R.J. and Singpurwalla N.D. (1987) A Kalman-Filter Smoothing Approach
for Extrapolation in Certain Dose - Response. Damage Assessment. and Accelerated-Life-
Testing Studies. The American Statistician, 41, p.101-106.
Margolis S. B. (1979). An analytical solution for the multidimensional degradation of
a packed bed thermocline. J. Franklin Inst., 307, #1, 39-58.
Meeker,W.Q., Escobar,L.A., Lu, C.J. (1998)."Accelerated Degradation Tests : Mode-
ling and Analysis", Technometrics, 40, 89-99.
Meeker,W.Q., Escobar,L.A. (1998).Statistical Methods for Reliability Data, John Wi-
ley and Sons : New York.
Mine H., Kawai H. (1976). Marginal checking of a Markovian degradation unit when
checking interval is probabilistic. J. Operations Res. Soc. Japan, 19, 2, 158-173.
Mitsuo,F.(1991). "Reliability and Degradation of Semiconductor Lasers and LEDs",
Artech House : Norwood.
Meeker, W.Q. and Escobar, L. (1998). Statistical Analysis for Reliability Data, John
Wiley and Sons, New York.
Miller L. (1956). Table of percentage points of Kolmogorov statistics. JASA, 51, p.111.
Mises R. von (1931). Warhrscheinlichkeit, Statistik und Wahrheit. Springer-Verlag.
Molenar W. (1970). Approximations to the Poisson,Binomial and Hypergeometric Dis-
tribution Functions Amsterdam, Mathematical centre tracts, 31.
Moore D. and Spruill M. (1975). Unified large-sample theory of general chi-squared
statistics for tests of fit, Ann. Statist.,, 3, 599-616.
S.A.Murphy. (1995). "Asymptotic theory for the frailty model", Annals of Statist., vol.
23 pp. 182-198.
S.A.Murphy, A.J.Rossini and A.W. van der Vaart. (1997). Maximum likelihood es-
timation in the proportional odds model, JASA., 92, p. 968-976.
Nelson, W. (1990). Accelerated Testing : Statistical Models, Test Plans, and Data Ana-
lysis, John Wiley and Sons : New York.
Nikulin M.S. (1973) Chi-square test for continuous distributions with shift and scale
parametres. Theory of probability and its applications, 18, p.559-568.
Nikulin M.S. (1973). On a chi-square test for continuous distributions.Theory of pro-
bability and its applications, 18, p.638-639.
Nikulin M.S. (1979). Hypothesis testing for a parameter difference in binomial distri-
butions. Theory of probability and its applications, v.24, #2, p.392-396.
406
Nikulin M.S. (1984). F-distributions and its relations with others distributions. In :
Mardia K.V. and Zemroch P.J. Tables of the F- and related distributions with algorithms.
Academic Press. Moscow, Nauka (in russian).
Nikulin M.S. (1991). Some recent results on chi-squared tests. Queen’s papers in pure
and applied mathematics, 86, Queen’s University, Kingston, Canada, 74 p.
Nikulin M.S., Nacerra Seddik-Ameur (1991). Analyse statistique des données binor-
males. Seminaire 90-91, Université Paris 5, p.87-110.
Nikulin M.S. (1992). Gihman statistic and goodness-of-fit tests for grouped data. C.R.
Math. Rep. Acad. Sci. Canada, 14, #4, p.151-156.
M.Nikulin and V.Solev. (1999). Chi-squared goodness of fit test for doubly censored
data, applied in Survival Analysis and Reliability, In : Probabilistic and Statistical Models
in Reliability, (Eds. N. Limnios and D. Ionescu), Boston : Birkhauser, 101-112.
M.Nikulin, M.Novak, D.Turetaev, V.Voinov. (2000). Estimating Environmental Ra-
dioactive Contamination in Kazakhstan, Central Asian Journal of Economics, Management
and Social Research, # 1, 59-71. (ISBN 9965-9047-3-1)
Nikulin, M., Pya, N., Voinov,V. (2003). Chi-squared goodness-of-fit tests for the family
of logistic distributions. Preprinte "Statistique Mathématique et ses Applications, Université
Victor Segalen Bordeaux 2, France.
Oliver F.R. (1964). Methods of estimating the logistic growth function. Appl. Statist.,
13, p.57-66.
Olson W.H. (1977). Non-uniform breakage-mechanism branching processes and de-
gradation of long-chain polymers. J. Appl. Probability, 14, 1, 1-13.
E.Parner. (1998). Asymptotic theory for the correlated gamma-frailty model, Ann. Sta-
tist., 26, p. 183-214.
Patnaik P.B. (1949) . The non-central χ2 and F distributins and their applications. Bio-
metrika, 36, p.202-232.
Pearson E.S. (1959). Note on an approximation to the distribution of non-central χ2 .
Biometrika, 46, p.364.
Pearson E.S. and Hartley H.O. (1966). Biometrika tables for statisticians, 1. Cam-
bridge University Press.
Pearson E.S. and Hartley H.O. (1972). Biometrika tables for statisticians, 2. Cam-
bridge University Press.
Pearson K. (1934). Tables of the incomplete Γ-fonction. Cambridge University Press.
Pearson K. (1968). Tables of the incomplete Beta-function. Cambridge University Press.
Pearl R., Reed L.J. (1920). On the rate of growth of the population of the United States
since 1790 and its mathematical representation. Proc. of National Acad. Sci., 6, p.275-288.
Pearlman W.A. (1976). A limit on optimum performance degradation in fixed-rate co-
ding of the discrete Fourier transform. IEEE Trans. Information Theory, IT-22, 4, 485-488.
Pinçon, C. (2003) Estimators non-paramétriques et semi-paramétriques efficaces dans
l’analyse des données censurées multivariées, Thèse de l’Université Paris XI, Faculté de
MEDECINE PARIS-SUD.
Prékopa A. (1954). Statistical treatment of the degradation process of long chain poly-
mers. Magyar Tud. Akad. Alkalm. Mat. Int. Kozl., 2, 103-123 .
Pettit L. I., Young K. D. S. (1999). Bayesian analysis for inverse Gaussian lifetime data
with measures of degradation. J. Statist. Comput. Simulation, 63, 3, 217-234.
Redinbo G.R. (1979). Optimum soft decision decoding with graceful degradation. In-
form. and Control,41, #2, 165-185.
407
Rao C.R. (1965) Linear Statistical Inferece and its application. New York : J.Wiley and
Sons.
Rao K.C., Robson D.S. (1974). A chi-squared statistic for goodness-of-fit tests within
the exponential distribution, Commun. Statist., 3, 1139-1153.
Reed L.J., Berkson J. (1929). The application of the logistic function to the experi-
mental data. Journal Physical Chemistry, 33, p.760-779.
Sedyakin, N.M. (1966). On one physical principle in reliability theory.(in russian).
Techn. Cybernetics, 3,80-87.
Singpurwalla, N.D.(1995). Survival in Dynamic Environnements. Statistical Science,l,10,
86-103.
Singpurwalla,N.D.(1997). Gamma processes and their generalizations : an overview. In
Engineering Probabilistic Design and Maintenance for Flood Protection, (R.Cook, M.Mendel
and H.Vrijling, eds.) Kluwer Acd.Publishers, 67-73.
Singpurwalla,N.D., Youngren, M.A.(1998). Multivariate distributions induced by dy-
namic environments, Scandinavian Journal of Statistics, 20, 251-261.
Schiffer, M. (1993). Quantum fog and the degradation of information by the gravitatio-
nal field. Gen. Relativity Gravitation, 25, # 7, 721-752.
Srinivasan S. K., Mehata K. M. (1972). A stochastic model for polymer degradation.
J. Appl. Probability, 9,43-53.
Suzuki,K., Maki,K., Yokogawa, S. (1993). An analysis of degradation data of a carbon
film and properties of the estimators. In : Statistical Sciences and Data Analysis, (Eds.
K.Matusita, M.Puri,T.Hayakawa), Utrecht, Netherlands :VSP.
Smirnov N.V. (1936). Sur la distribution de ω2 .[C.R.Acad.Sci. de Paris, 202, p.449-452.
Smirnov N.V. (1939). On estimating the discrepancy between empirical distribution
functions in two independent samples. The Bulletin of the Moscow’s Gos.University, ser.A,
2, p.3-14.
Smirnov N.V. (1937). On the distribution of Mises ω2 -test. Math.Sbornik, 2, p.973-994.
Smirnov N.V. (1939). On deviation of the empirical distribution function.Math. Sbor-
nik, 6, p.3-26.
Smirnov N.V. (1944). Approximate distribution laws for random variables, constructed
from empirical data.Uspekhi Math.Nauk, 10, p.197-206.
Stablein, D. M., Koutrouvelis, I. A. (1985). A two sample test sensitive to crossing
hazards in uncensored and singly censored data. Biometrics 41, 643-652.
Thompson C.M. (1963). Tables of percentage points of theχ2 -distribution. Biometrika,
32, p.187-191.
Thompson C.M. (1941) . Tables of percentage of the incomplete Beta-function. Biome-
trika, 32, p.151-181.
Thompson W.R. (1935). On a criterion for the rejection of observations and the dis-
tribution of the ratio of deviation to sample standard deviation. Annals of mathematical
statistics, v.6, p.214-219.
Tseng,S.T., Hamada,M.S. and Chiao,C.H.(1994). Using degradation data from a frac-
tional experiment to improve fluorescent lamp reliability. Research Report RR-94-05. The
Institute for Improvement in Quality and Productivity, University of Waterloo, Waterloo,
Ontario, Canada.
A.A.Tsiatis. (1981). A large sample study of Cox’s regression model, Ann. Statist., 9, p.
93-108.
Tumanian S.Kh. (1956). Asymptotic distribution of χ2 criterion when the number of
408
observations and classes increase simultaneously. Theory of Probability and its Applica-
tions, 1, #1, p.131-145.
Turnbull B.W. (1974). Non parametric estimation of survivorship function with doubly
censored data. JASA, 69, 169-173.
Turnbull B.W. (1976). The empirical distribution function with arbitrarily grouped,
censored, and truncated Data. .Royal Statist. Soc. B 38, p.290-295.
J.W.Vaupel, K.G.Manton and E.Stallard. (1979). The impact of heterogeneity in in-
dividual frailty on the dynamics of mortality, Demography, 16, p. 439-454.
Van der Vaart, A. W. (2000). Asymptotic Statistics. Cambridge : UK.
Verdooren L.R. (1963). Extended tables of critical values for Wilcoxon’s test statis-
tic.Biometrica, v.50, p.177-186.
Voinov V.G. and Nikulin M.S. (1993). Unbiased estimators and their applications, v.1
Univariate case, Dordrecht : Kluwer Academic Publishers.
Voinov V.G. and Nikulin M.S. (1996). Unbiased estimators and their applications, v.2
Multivariate case, Dordrecht : Kluwer Academic Publishers.
Woodroofe M. (1985). Estimating a distribution function with truncates data. Ann.
Statist., 13, p.163-177.
Wulfsohn, M. and Tsiatis, A. (1997). A Joint Model for Survival and Longitudinal
Data Measured with Error. Biometrics, 53, 330-339.
Whitmore,G.A..(1995). Estimating Degradation By a Wiener Diffusion Process Sub-
ject to Measurement Error. Lifetime Data Analysis, 1, 307-319.
Whitmore, G.A., Schenkelberg,F.(1997). Modelling Accelerated Degradation data
Using Wiener Diffusion With a Time Scale Transformation, Lifetime Data Analysis, 3, 27-
45.
Whitmore, G.A., Crowder,M.I. and Lawless, J.F.(1998). Failure inference from a
marker process based on bivariate model, Lifetime Data Analysis, 4, 229-251.
Wu S.-J., Shao J. (1999). Reliability analysis using the least squares method in nonli-
near mixed-effect degradation models. Statist. Sinica, 9, # 3, 855–877.
Yanagisava, T. (1997). Estimation of the degradation of amorphous silicon cells, Mi-
croelectronics and Reliability, 37, 549-554.
Yu H.-F., Tseng S.-T. (1999). Designing a degradation experiment. Naval Res. Logist.,
46, #6, 689-706.
Zeleny M. (1995). The ideal-degradation procedure : searching for vector equilibria.
Advances in multicriteria analysis, 117-127, Nonconvex Optim. Appl., 5, Kluwer Acad.
Publ., Dordrecht.
Zacks S. (1971) The theory of statistical inference. New York : Wiley and Sons.
Zerbet A. (2001) Statistical tests for normal family in the presence of outlying obser-
vations. In : Goodness-of-fit tests and Validity of Models (Eds. C.Huber, N.Balakrishnan,
M.Nikulin, M.Mesbah), Boston : Birkhauser.
Zerbet, A., Nikulin, M. (2003). A new statistics for detecting outliers in exponential
case, Communications in Statistics : Theory and Methods,32, 573-584.
Zhang B. (1999) A chi-squared goodness-of-fit test for logistic regression models based
on case-control data, Biometrika, 86, #3, 531-539.
Zdorova-Cheminade, O. (2003) Modélisation du processus d’évolution de l’incapa-
cité chez les personnes agées, Mémoire de DEA "Epidémiologie et Intervention en Santé
Publique", Université Bordeaux 2, Juin 2003, 77 pages.
409