Poly 2

Statistique Numrique et Analyse
des Donnes
Arnak DALALYAN
Septembre 2010
Table des matires
1 lments de statistique descriptive 9
1.1 Rpartition dune srie numrique unidimensionnelle . . . . . . . . . . . . . . 9
1.2 Statistiques dune srie numrique unidimensionnelle . . . . . . . . . . . . . . 11
1.3 Statistiques et reprsentations graphiques de deux sries numriques . . . . . 14
1.4 Rsum du Chapitre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Analyse des donnes multivaries 21
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Exemple : billets suisses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 La thorie de lAnalyse en Composantes Principales . . . . . . . . . . . . . . . 23
2.4 Reprsentations graphiques et interprtation . . . . . . . . . . . . . . . . . . . 27
2.5 Rsum du Chapitre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3 Rappel des bases de la statistique paramtrique 35
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Modle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5 Test dhypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.7 Rsum du Chapitre 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4 Rgression linaire multiple 55
4.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 Lois associes aux chantillons gaussiens . . . . . . . . . . . . . . . . . . . . . 59
4.3 Le modle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.4 Rgression linaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.6 Rsum du Chapitre 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5 Tests dadquation 73
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2 Tests du chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4 Rsum du Chapitre 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4 Table des matires Chapitre 0
6 Tables numriques 83
6.1 Quantiles de la loi normale centre rduite . . . . . . . . . . . . . . . . . . . . 83
6.2 Table de la loi du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.3 Table de la loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.4 Quantiles pour le test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . 87
Table des gures
1.1 Histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Fonction de rpartition empirique . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Rpartitions asymtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6 Nuage de points pour les donnes transformes . . . . . . . . . . . . . . . . . 16
1.7 Nuage de point et droite de rgression . . . . . . . . . . . . . . . . . . . . . . . 16
1.8 QQ-plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1 1000 Francs Suisses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Billets suisses : boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Billets Suisses : scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4 Billets suisses : projection des individus . . . . . . . . . . . . . . . . . . . . . . 27
2.5 Billets suisses : scree-graph et cercle des corrlations . . . . . . . . . . . . . . . 29
3.1 La log-vraisemblance du modle de Bernoulli . . . . . . . . . . . . . . . . . . . 41
3.2 La log-vraisemblance du modle exponentielle . . . . . . . . . . . . . . . . . . 41
3.3 La log-vraisemblance du modle Uniforme . . . . . . . . . . . . . . . . . . . . 42
3.4 Intervalles de conances pour le modle de Bernoulli . . . . . . . . . . . . . . 45
3.5 Les quantiles de la loi ^(0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1 Donnes de pluie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2 La rpartition des donnes du taux dalcool . . . . . . . . . . . . . . . . . . . . 61
4.3 Donnes de pluie : droite de rgression . . . . . . . . . . . . . . . . . . . . . . 70
5.1 Le test de Kolmogorov sappuie sur la distance entre fonction de rpartition
empirique et thorique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2 Prsentation usuelle de la distance de Kolmogorov. . . . . . . . . . . . . . . . 80
Liste des tableaux
1.1 Donnes PIB-Consommation dnergie par habitant . . . . . . . . . . . . . . . 19
2.1 Donnes des billets suisses authentiques . . . . . . . . . . . . . . . . . . . . . . 32
2.2 Donnes des billets suisses contrefaits . . . . . . . . . . . . . . . . . . . . . . . 33
4.1 Hauteurs darbres dans 3 forts . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 Jour et quantit de pluie par annes . . . . . . . . . . . . . . . . . . . . . . . . 58
6.1 Quantiles de la statistique de Kolmogorov . . . . . . . . . . . . . . . . . . . . . 87
1
lments de statistique descriptive
Le but de ce chapitre est de prsenter les outils graphiques les plus rpendus de la statis-
tique descriptive. On considrera les cas dune srie numrique unidimensionnelle et bidi-
mensionnelle.
Avant de rentrer dans le vif du sujet, apportons une petite prcision une ide trs large-
ment rpendue, selon laquelle le but de la discipline statistique est danalyser des donnes
issues dune exprience caractre alatoire. Cela sous-entend quil nest pas possible ou
quil nest pas utile dappliquer la mthodologie statistique aux donnes receuillies par un
procd dterministe (non alatoire). Cette une dduction errone. La bonne dnition de
lobjectif de la Statistique en tant que discipline scientique, notre avis, serait dexplorer
les proprits frquentielles dun jeu de donnes. Par proprits frquentielles, on com-
prend les proprits qui restent invariantes par toute transformation des donnes (comme,
par exemple, la permutation) qui ne modie pas la frquence des rsultats.
Le but de ce chapitre est dintroduire les statistiques principales et de donner un apercu des
outils graphiques les plus utiliss.
1.1 Rpartition dune srie numrique unidimensionnelle
Supposons que les donnes quon a notre disposition reprsentent n valeurs relles
notes x
1
, . . . , x
n
constituant les rsultats dune certaine exprience rpte n fois. Des
exemples de source de telles donnes sont : les sondages, les exprience scientiques (phy-
siques, chimiques, mdicales,...), les enregistrements historiques (mtorologiques, socio-
conomiques,...). Dans certains cas, ces donnes sont volumineux et difcile interprter.
On a alors besoin de les rsumer et de trouver des outils pertinents pour les visualiser.
An que lanalyse statistique dune srie numrique ait un sens, il faut que les diffrents
lments de cette srie reprsentent la mme quantit mesure sur des entits diffrentes.
Par exemple, x
1
, . . . , x
n
peuvent tre les hauteurs de n immeubles choisis au hazard Paris,
ou les tempratures journalires moyennes Paris enregistres au cours de lanne 2009,
etc. On dit alors que x
1
, . . . , x
n
sont les valeurs dune variable (statistique) observes sur n
individus.
10 lments de statistique descriptive Chapitre 1
On va diffrencier deux types de sries numeriques : celles qui reprsentent une variable
discrte et celles qui reprsentent une variable continue
1
. On dit quune variable est discrte,
si le nombre de valeurs diffrentes parmi x
1
, . . . , x
n
est petit devant n. Cette dnition est loin
dtre rigoureuse, mais cela nest en gnral pas trs gnant. Dans les deux exemples donns
aux paragraphe prcdent, les variables hauteur dimmeuble et temprature journalire
moyenne sont continues. Si au lieu de mesurer la hauteur dun imeuble, on comptait le
nombre dtages, ce serait une variable discrte.
1.1.1 Histogramme
Pour les sries numriques reprsentantes une variable discrte, on dnit lhistogramme
comme la fonction h : R N qui chaque x R associe le nombre dlments dans la srie
x
1
, . . . , x
n
gaux x. Par exemple, lhistogramme de la srie numrique
10 8 9 6 5 9 8 7 6 5 6 9 10
8 7 8 7 8 7 6 9 10 9 8 5 9
(1.1)
est trac dans la Figure 1.1 ( gauche). Une approche alternative consiste dnir h(x)
comme la proportion des lments dans la srie gaux x. On utilise alors la forme ana-
lytique
h(x) =
1
n
n
i=1
1(x
i
= x).
Dans le cas o la srie numrique quon cherche analyser est continue, on commence par
choisir une partition de R en un nombre ni dintervalles : I
0
, I
1
, . . . , I
k
. Ayant x la parti-
tion, on dnit lhistogramme de la srie x
1
, . . . , x
n
comme la fonction h : R R
+
donne
par la formule
h(x) =
n
j
n[I
j
[
, si x I
j
,
o n
j
est le nombre dlments de la srie qui se trouvent dans le jme intervalle I
j
de la
partition et [I
j
[ est la longueur de lintervalle I
j
. Le choix de la partition est une question
dlicate que lon napprofondira pas ici. Dans la plupart des cas, on choisit une partition
uniforme (cest--dire, tous les I
j
sont de mme longueur) dun intervalle contenant toutes
les valeurs de la srie numrique. De plus, on essaye de faire en sorte quil y ait au moins 5
observations dans chaque intervalle non-vide.
Par exemple, lhistogramme de la srie numrique
0.11 0.81 0.94 0.62 0.50 0.29 0.48 0.17 0.26 0.55
0.68 0.17 0.28 0.57 0.98 0.77 0.56 0.49 0.31 0.89
0.76 0.39 0.64 0.05 0.91 0.78 0.59 0.79 0.07 0.86
(1.2)
est trac dans la Figure 1.1 ( droite).
1.1.2 Fonction de rpartition empirique
Une reprsentation alternative des frquences des valeurs contenues dans une srie num-
rique est la fonction de rpartition, appele galement histogramme cumul. Pour un x R,
1. Le terme variable continue nest pas trs bien choisi, mais cela ne pose pas de problme majeur.
Section 1.2 Statistiques dune srie numrique unidimensionnelle 11
FIGURE 1.1 Exemples dhistogrammes. A gauche : lhistogramme de la srie discrte (1.1). A
droite : lhistogramme de la srie (1.2).
FIGURE 1.2 Fonction de rparition empirique (FDRE). A gauche : la FDRE de la srie discrte (1.1).
A droite : la FDRE de la srie (1.2). On voit bien que cest une fonction en escalier croissante, qui vaut
0 sur lintervalle ] , min
i
x
i
[ et qui vaut 1 sur lintervalle ] max
i
x
i
, +[.
la valeur en x de la fonction de rpartition dune srie numrique x
1
, . . . , x
n
est la proportion
des lments de la srie infrieurs ou gaux x, cest--dire :
F
n
(x) =
1
n
n
i=1
1(x
i
x).
Lavantage de la fonction de rpartition, compar lhistogramme, est que sa dnition est
identique dans le cas dune variable discrte et dans le cas dune variable continue.
1.2 Statistiques dune srie numrique unidimensionnelle
On appelle une statistique toute fonction qui associe aux donnes x
1
, . . . , x
n
un vecteur
S(x
1
, . . . , x
n
) R
p
. On utilise les statistiques pour rsumer les donnes.
1.2.1 Statistiques de tendance centrale et de dispersion
Les trois statistiques de tendance centrale les plus utilises sont la moyenne, la mdiane et le
mode. On les appelle galement les statistiques de position.
La moyenne, note x, est dnie par :
x =
1
n
n
i=1
x
i
.
La mdiane, note Med
x
, est le nombre rel tel que le nombre de donnes Med
x
con-
cide avec le nombre de donnes Med
x
.
Le mode, not Mode
x
, est la valeur la plus frquente lintrieur de lensemble des don-
nes.
Contrairement la moyenne, la mdiane et le mode ne sont pas toujours uniques.
Les trois statistiques de dispersion les plus utilises sont la variance, lcart-type et lcart
interquartile.
La variance, note v
x
, est la valeur moyenne des carrs des carts entre les donnes et la
moyenne :
v
x
=
1
n
n
i=1
(x
i
x)
2
.
Lcart-type, note s
x
, est la racine carr de la variance : s
x
=

v
x
.
Lcart interquartile est la diffrence entre le troisime et le premier quartile : Q
3
Q
1
,
o le premier quartile Q
1
(respectivement, le toisime quartile Q
3
) est la mdiane des
donnes < Med
x
(resp. > Med
x
).
1.2.2 Statistiques dordre et quantiles
Etant donn une srie de donnes unidimensionnelles x
1
, . . . , x
n
, on sintresse souvent la
plus petite valeur min
i
x
i
ou la plus grande valeur max
i
x
i
prise par les x
i
. En statistique,
on utlise les notations
x
(1)
= min
1in
x
i
, x
(n)
= max
1in
x
i
,
et on les appelle premire et dernire statistiques dordre. Plus gnralement, on dnit la
statistique dordre de rang k, note x
(k)
, comme la k
me
plus petite valeur parmi x
1
, . . . , x
n
.
Plus prcisment, soit (i
1
, . . . , i
n
) une permutation (il peut y en avoir plusieurs) des indices
(1, . . . , n) qui classe les donnes dans lordre croissant :
x
i
1
x
i
2
. . . x
i
n
.
On appelle alors statistique dordre k la valeur x
(k)
= x
i
k
.
Pour toute valeur [0, 1], on appelle quantile dordre , not q
x
, de la srie x
1
, . . . , x
n
, la
statistique dordre x
(m)
avec m = [n]. En utilisant la notion de quantile, on peut rednir
les quartiles et la mdiane comme suit :
Q
1
= q
x
0.25
, Med
x
= q
x
0.5
, Q
3
= q
x
0.75
.
En pratique, ces dnitions de quartiles et mdiane conduisent vers des rsultats qui dif-
frent lgrement de ceux obtenus par la premire dnition, mais gnralement la diff-
rence nest pas importante et dcroit lorsque la taille n de la srie augmente.
Section 1.2 Statistiques dune srie numrique unidimensionnelle 13
1.2.3 Statistiques de forme
Les deux statistiques de forme les plus utilises sont le coefcient dasymtrie et le coefcient
dapplatissement. Le coefcient dasymtrie (skewness), note
x
, et le coefcient dappla-
tissement (kurtosis), note
x
, sont dnis par :
x
=
1
ns
3
x
n
i=1
(x
i
x)
3
,
x
= 3 +
1
ns
4
x
n
i=1
(x
i
x)
4
.
On peut facilement vrier que le coefcient dasymtrie de toute srie numrique sym-
FIGURE 1.3 Exemples de rpartitions asymtriques : le coefcient dasymtrie est positive pour la
distribution gauche et ngative pour celle de droite.
trique est nul. (On dit quune srie numrique est symtrique par rapport un nombre rel
mu, si pour tout a > 0 la frquence de la valeur + a dans la srie est gale celle de a.
On peut galement vrier que le coefcient dapplatissement tend vers zro lorsque n
si la srie numrique reprsente des ralisations indpendantes de la loi gaussienne ^(0, 1).
1.2.4 Box plots (Botes moustaches)
Un rsum simple et pratique de la rpartition dune srie x
1
, . . . , x
n
est donn par le quin-
tuplet (A, Q
1
, Med
x
, Q
3
, B), o
A et B reprsentent les limites infrieure et suprieure de lintervalle en dehors duquel
les donnes sont considres comme aberrantes (on les appelle aussi atypiques ou des
outliers).
Q
1
et Q
3
sont respectivement le premier et le troisime quartile.
Med
x
est la mdiane de lchantillon.
Ce quintuplet est utilis pour construire le diagramme en bote ou moustaches que nous
appellerons dsormais boxplot. La forme gnrale dun boxplot est montre dans la Fi-
gure 1.4. Les valeurs A et B sont dtermines par les formules
A = max
_
x
i
: x
i
Q
3
+ 1.5(Q
3
Q
1
)
_
,
B = min
_
x
i
: x
i
Q
1
1.5(Q
3
Q
1
)
_
.
Si la srie numrique a une rpartition normale (Gaussienne), la probabilit quune valeur
de la srie se trouve en dehors de lintervalle [A, B] est de 0.7%.
FIGURE 1.4 La forme typique dune bote moustaches (ou boxplot), le rectangle bleu tant la bote
et les segments [A, Q
1
] et [Q
3
, B] tant les moustaches.
Pour complter le boxplot, on fait apparatre les valeurs aberrantes. Toutes les valeurs qui
se trouvent en dehors de lintervalle [A, B] sont dsignes par un symbole (souvent par une
toile). Dans lexemple de la Fig. 1.4, il ny a pas de valeur aberrante.
Pour interprter un boxplot, il faut noter que
la moiti des valeurs de la srie se trouvent entre Q
1
et Q
3
, cest--dire dans la bote du
boxplot,
la moiti des valeurs de la srie se trouvent gauche de la mdiane,
sil ny a pas de valeurs aberrantes, toutes les valeurs de la srie se trouvent entre A et B.
Les boxplots sont pratiques pour comparer deux sries statistiques.
1.3 Statistiques et reprsentations graphiques de deux sries nu-
mriques
Considrons maintenant le cas de deux sries numriques x
1
, . . . , x
n
et y
1
, . . . , y
n
correspon-
dant aux valeurs de deux variables prleves sur le mme individu. Par exemple, x
i
et y
i
peuvent constituer la taille et le poids dune personne, la temprature moyenne et le niveau
de pollution Paris un jour donn,...
1.3.1 Covariance et corrlation
La statistique la plus utilise dans le contexte de deux sries numriques est la corrlation.
Pour la dnir, la notion de covariance doit tre introduite. On appelle covariance des sries
numriques x
1
, . . . , x
n
et y
1
, . . . , y
n
la valeur
s
xy
=
1
n
n
i=1
(x
i
x)(y
i
y).
o x et y sont respectivement la moyenne des x
i
et celle des y
i
.
On appelle coefcient corrlation ou coefcient corrlation linaire des sries numriques
x
1
, . . . , x
n
et y
1
, . . . , y
n
la valeur
xy
=
s
xy
s
x
s
y
,
o s
x
et s
y
sont respectivement lcart-type des x
i
et celui des y
i
. Par convention, on pose
xy
= 0 si au moins lun des deux cart-types s
x
, s
y
est nul.
Proposition 1.1. Le coefcient de corrlation est toujours entre 1 est +1 :
1
xy
1.
Section 1.3 Statistiques et reprsentations graphiques de deux sries numriques 15
De plus, [
xy
[ = 1 si et seulement si les sries x
1
, . . . , x
n
et y
1
, . . . , y
n
sont lies par une relation
afne, cest--dire x
i
= ay
i
+ b pour tout i = 1, . . . , n.
Dmonstration. En utilisant lingalit de Cauchy-Schwarz, on vrie que
[s
xy
[
1
n
n
i=1
[(x
i
x)(y
i
y)[
1
n
_ n
i=1
(x
i
x)
2
n
i=1
(y
i
y)
2
_1
2
= s
x
s
y
.
Cela implique que le coefcient de corrlation
xy
= s
xy
/(s
x
s
y
) est toujours entre 1 et +1.
De plus, lingalit de Cauchy-Schwarz est une galit si et seulement si x
i
x = a(y
i
y) +
b, ce qui entrane la seconde assertion de la proposition.
1.3.2 Nuage de points et droite de rgression
Supposons que lon dispose de deux sries numriques x
1
, . . . , x
n
et y
1
, . . . , y
n
reprsentant
les valeurs de deux variables prleves sur n individus. Il est naturel et pratique de repr-
senter ces donnes sous forme dun nuage de points. Il sagit de reprsenter par un symbole
(losange, dans lexemple de la Fig. 4.1) les n points de coordonnes (x
i
, y
i
).
A titre dexemple, considrons les donnes prsentes dans la Table 1.1. Ces donnes repr-
sentent deux variables dont les valeurs sont enregistres pour n = 38 individus. Les indivi-
dus sont des pays, alors que les deux variables X et Y sont respectivement le PIB (produit
intrieur brut) par habitant et la consommation dnergie par habitant. Le nuage de point
de ces donnes est afch dans la partie haute de la Figure 4.1. Dans ce contexte, lidentit
des individus reprsente un intrt (cela nest pas toujours le cas). Il est alors pratique de
marquer ct de chaque point du nuage une chane de caractre permettant lidentication
de lindividu reprsent par le point. Cest ce qui est fait dans la partie basse de la Fig. 4.1.
0
2
4
6
8
10
C
o
n
s
o
m
m
a
t
i
o
n
d
e
n
e
r
g
i
e
0 1 2 3 4 5 6 7
x 10
4
0
2
4
6
8
10
AfS
Alg
Alm
ArSa
Arg
Aus
Bn
Br
Can
Chn
Col
CorS
Egy
Esp
EU
Fr
Gr
Ind
Irn
Isr
It
Jap
Kow
Lu
Mar
Nig
Nor
Par
Phi
Por
RU
Rus
Sn
Su
Sui
Tur
Ven
Vie
PIB
C
o
n
s
o
m
m
a
t
i
o
n
d
e
n
e
r
g
i
e
FIGURE 1.5 Le nuage de points reprsentant les donnes de la Table 1.1. En haut : le nuage
simple. En bas : le nuage annot
Pour rendre le nuage de point plus lisible, on a souvent recours une transformation dune
ou des deux variables. Dans lexemple de la Table 1.1, on obtient un nuage de point plus
interprtable (voir la Fig. 4.3) en prenant le logarithme des deux variables.
6 7 8 10 11 12
1.5
1
0.5
0
0.5
1
1.5
2
2.5
AfS
Alg
Alm
ArSa
Arg
Aus
Bn
Br
Can
Chn
Col
CorS
Egy
Esp
EU
Fr
Gr
Ind
Irn
Isr
It
Jap
Kow
Lu
Mar
Nig
Nor
Par
Phi
Por
RU
Rus
Sn
Su
Sui
Tur
Ven
Vie
log(PIB)
l
o
g
(
C
o
n
s
o
m
m
a
t
i
o
n
d
e
n
e
r
g
i
e
)
FIGURE 1.6 Le nuage de points reprsentant les logarithmes des donnes de la Table 1.1.
An dobtenir une droite approximant le nuage de points, on calcule la droite de rgression
de Y sur X, donne par lquation y = ax + b o
a =
s
xy
s
2
x
, b = y a x. (1.3)
Pour les donnes de la Table 1.1, la droite de rgression ainsi que son quation sont donnes
dans la Fig. 1.7. On voit dans la formule (1.3) que la droite de rgression de Y sur X ne
concide pas, en gnral, avec la droite de rgression de X sur Y. Si lon note M
i
le point qui
a pour coordonnes (x
i
, y
i
) et par d
i
la distance entre M
i
et le point M
/
i
= (x
i
, ax
i
+b), alors la
droite de rgression est la droite pour laquelle la somme des d
i
au carr est minimale. Cest
la raison pour laquelle on dit que la droite de rgression est obtenue par la mthode des
moindres carrs. On reparlera de cette proprit dans un cadre plus gnral plus loin dans
ce document.
0 1 2 3 4 5 6 7
x 10
4
0
2
4
6
8
10
PIB
C
o
n
s
o
m
m
a
t
i
o
n
d
e
n
e
r
g
i
e

y = 0.00011*x + 1.3
M
i
d
i
FIGURE 1.7 Le nuage de points reprsentant les donnes de la Table 1.1 superpos de la
droite de rgression.
1.3.3 QQ-plot
(graphiques quantile-quantile)
Un QQ-plot permet de voir rapidement ladquation dune srie numrique une distribu-
tion, ou comparer les rpartitions de deux sries numriques.
1er cas : Lorsque lon sintresse ladquation une distribution, laxe des ordonnes
porte les quantiles q
j
de la distribution observe, tandis que laxe des abscisses porte
les quantiles q
j
correspondants de la loi thorique.
Section 1.3 Statistiques et reprsentations graphiques de deux sries numriques 17
2me cas : Lorsque lon sintresse la comparaison de deux distributions, laxe des ordon-
nes porte les quantiles q
x
j
de la srie x
1
, . . . , x
n
, tandis que laxe des abscisses porte les
quantiles q
y
j
de la srie y
1
, . . . , y
n
.
Le nuage des points (q
j
, q
j
) (respectivement (q
x
j
, q
y
j
)) saligne sur la premire bissectrice
lorsque la distribution thorique propose est une bonne reprsentation des observations
(resp., lorsque les rpartitions des x
i
et des y
i
sont gales).
Si le nuage des points (q
j
, q
j
) saligne sur une droite, alors il existe une transformation afne
des observations telle que la distribution thorique propose est une bonne reprsentation
des observations transformes.
3 2 1 0 1 2 3
4
2
0
2
4
6
8
x 10
4
Standard Normal Quantiles
Q
u
a
n
t
i
l
e
s

o
f

I
n
p
u
t

S
a
m
p
l
e
0 1 2 3 4 5 6 7
x 10
4
0
1
2
3
4
5
6
7
8
9
10
X Quantiles
Y

Q
u
a
n
t
i
l
e
s
FIGURE 1.8 QQ-plots pour les donnes de la Table 1.1. Le graphe de gauche indique que la rpa-
rition du PIB est signicativement diffrente dune loi normale. Le graphe de droite montre que les
rpartitions du PIB et de la consommation dnergie ne sont pas lies par une transformation afne.
Exercice 1.1. Le tableau suivant prsente les
donnes du PIB par habitant pour 15 pays
dont la majeure partie se trouve en Asie. Ces
donnes ont t obtenues sur le site http:
//www.statistiques-mondiales.com/. Le box-
plot de ces donnes a la forme suivante :
1. Selon ce diagramme, quelle est la valeur m-
diane du PIB/habitant en Asie ?
2. Y a-t-il des donnes atypiques ?
3. La rpartition du PIB/habitant est-elle sym-
trique ? Comment sinterprte cette asym-
trie ?
4. Rpondre la question 3 en utilisant linfor-
mation que la moyenne des 15 observations
quon dispose est de 7670.
Pays PIB / habitant
(en $ US, 2004)
Afghanistan 174
Arabie Saoudite 9285
Armnie 1034
Chine 1258
Core du Sud 13929
Inde 631
Iran 2350
Isral 18404
Japon 36647
Koweit 21420
Pakistan 81
Philippines 948
Russie 4071
Turquie 4296
Vietnam 520
1.4 Rsum du Chapitre 1
Srie numrique :
Variable discrte :
Variable continue :
Histogramme :
variable discrte :
variable continue :
Fonction de rpartition empirique :
Statistiques de tendance centrale :
moyenne :
mdiane :
mode :
Statistiques de dispersion :
variance :
cart-type :
cart interquartile :
Statistiques dordre :
Quantiles :
Boxplots :
Covariance :
Corrlation :
Nuage de points :
Droite de rgression :
QQ-plot :
Section 1.4 Rsum du Chapitre 1 19
Pays PIB par habitant Consommation dnergie par habitant
(en $ US, en 2004) (en Tonnes dquivalent ptrole, en 2002)
Afrique du sud 5700 2.502
Algrie 2575 0.985
Bnin 512 0.340
Egypte 976 0.789
Maroc 1505 0.363
Nigeria 541 0.718
Sngal 637 0.319
Allemagne 33422 4.198
Espagne 25777 3.215
France 33614 4.470
Grce 19226 2.637
Italie 28909 2.994
Luxembourg 66808 9.112
Norvge 54894 5.843
Portugal 15835 2.546
Royaume-Uni 35193 3.824
Sude 38746 5.718
Suisse 47577 3.723
Arabie Saoudite 9285 5.775
Chine 1258 0.960
Core du Sud 13929 4.272
Inde 631 0.513
Iran 2350 2.044
Isral 18404 3.191
Japon 36647 4.058
Koweit 21420 9.503
Philippines 948 0.525
Russie 4071 4.288
Turquie 4296 1.083
Vietnam 520 0.530
Argentine 3808 1.543
Brsil 3210 1.093
Canada 30014 7.973
Colombie 2234 0.625
Etats-Unis 39114 7.943
Paraguay 1032 0.709
Venezuela 4203 2.141
Australie 30498 5.732
TABLE 1.1 Ces donnes sont obtenues du site http://www.statistiques-mondiales.com/
2
Analyse des donnes multivaries
2.1 Introduction
2.1.1 Objectif
Dans toute tude applique, la dmarche premire du statisticien est de dcrire et dexplorer
les donnes dont il dispose, avant den tirer de quelconques lois ou modles prdictifs. Or
la statistique traite gnralement du grand nombre et, les outils informatiques aidant, les
bases de donnes deviennent de plus en plus volumineuses, tant en largeur (quantit din-
formations recueillies) quen hauteur (nombre dunits sur lesquelles ces informations sont
recueillies).
Cette phase dexploration descriptive des donnes nest en consquence pas aise. Si le sta-
tisticien est dj outill pour analyser la distribution dune variable ou la relation entre deux
variables, ces outils basiques ne permettent pas dapprhender ce vaste ensemble informa-
tif dans sa globalit. Il ne sagit naturellement pas den donner alors une vision exhaustive,
mais bien de rpondre lune des principales missions du statisticien : extraire dune masse
de donnes ce quil faut en retenir, en la synthtisant ou en simpliant les structures.
Les techniques danalyse de donnes rpondent ce besoin. On prsentera ici lAnalyse en
Composantes Principales (ACP) qui sappuie sur la rduction de rang dcoulant des travaux
de dcomposition matricielle dEckart et Young (1936). Le but principal de lACP est de
dterminer les principales relations linaires dans un ensemble de variables numriques.
Il sagit bien de rduire un ensemble complexe et de grande dimension ses principaux
lments, de faon en mieux comprendre les structures sous-jacentes.
2.1.2 Notations
On dispose de p variables X
1
, . . . , X
j
, . . . , X
p
, que lon observe sur n units statistiques - ou
individus : on note x
j
i
la valeur de la variable X
j
observe sur le i-ime individu. Cet en-
semble de donnes peut donc tre mis sous la forme dun tableau X n lignes et p colonnes,
et de terme courant x
j
i
.
22 Analyse des donnes multivaries Chapitre 2
Dans la suite - et cest trs gnralement le cas en analyse des donnes, contrairement aux
autres domaines de la statistique - on confondra la notion de variable avec le vecteur de
dimension n qui la dnit sur notre chantillon, cest--dire X
j
= (x
j
1
, . . . , x
j
n
). De mme,
chaque individu sera assimil au vecteur de dimension p qui compile ses valeurs sur les
variables : X
i
= (x
1
i
, . . . , x
p
i
).
X =
_
_
_
x
1
1
. . . x
p
1
.
.
.
.
.
.
.
.
.
x
1
n
. . . x
p
n
_
_
_
. .
p variables
individu # 1, not X
1
.
.
.
individu # n, not X
n
2.2 Exemple : billets suisses
Nous choisirons ici un exemple dcrivant 6 mesures, note X
1
, . . . , X
6
, releves sur 200 billets
de 1000 Francs Suisses. La Figure 2.1 prsente la nature des mesures effectues alors que
lensemble des donnes receuillies est donn dans les Tables 2.1 et 2.2. Sur les 200 billets
examins, il y a eu 100 billets authentiques et 100 billets contrefaits. Cet exemple comporte
volontairement un nombre rduit de variables, pour en faciliter la comprhension.
Pour comprendre ce quapportent les mthodes danalyse de donnes, menons au pralable
une brve analyse descriptive de ces tableaux du point de vue des variables.
FIGURE 2.1 Cette gure montre une coupure de 1000 Francs Suisses (anciens) avec les 6
mesures effectues.
Etude descriptive des variables
Classiquement, on peut se livrer une analyse de la distribution de chaque variable. Cela
peut se faire, par exemple, en visualisant les boxplots de chacune des 6 variables X
i
. La
Fig. 2.2 montre ces boxplots, qui nous renseignent sur les caractristiques individuelles des
variables X
i
. On y voit, entre autre, quil y a 2 billets dont la longueur est anormalement
Section 2.3 La thorie de lAnalyse en Composantes Principales 23
grande et un billet dont la longueur est anormalement petite. On remarque galement, en
comparant les boxplots de X
2
et X
3
, que la largeur gauche est typiquement lgrement
plus grande que la largeur droite.
X
1
X
2
X
3
X
4
X
5
X
6
FIGURE 2.2 Les boxplots des donnes de billets suisses
Cette gure ne dit cependant rien sur la relation entre les variables. Des outils danalyse
connus peuvent ainsi tre mis en uvre pour apprhender les distributions bivaries, comme
le scatter plot (voir Fig. 2.3), ou encore le calcul des coefcients de corrlation linaire,
aprs avoir vri que la forme linaire des nuages les lgitimait.
Voici le tableau des corrlations :
X
1
X
2
X
3
X
4
X
5
X
6
X
1
1.00 0.23 0.15 -0.19 -0.06 0.19
X
2
0.23 1.00 0.74 0.41 0.36 -0.50
X
3
0.15 0.74 1.00 0.49 0.40 -0.52
X
4
-0.19 0.41 0.49 1.00 0.14 -0.62
X
5
-0.06 0.36 0.40 0.14 1.00 -0.59
X
6
0.19 -0.50 -0.52 -0.62 -0.59 1.00
Ce tableau montre que les variables X
2
et X
3
sont les plus corrles, ce qui est tout fait
logique et cela se voyait dj sur le scatter plot de la Fig. 2.3.
On voit donc quon dispose des outils qui nous permettent danalyser les variables indi-
viduellement ou deux par deux. Il nous manquent cependant des outils de synthse, qui
permettraient de dgager la structure globale de ces donnes. Nous allons en dvelopper
un, parmi les plus utiliss.
2.3 La thorie de lAnalyse en Composantes Principales
2.3.1 Problmatique
On se place ici dans la situation o les p variables dintrt X
1
, . . . , X
j
, . . . , X
p
, sont nu-
mriques. Pour apprhender linformation contenue dans le tableau numrique X, on peut
tenter de visualiser le nuage de points reprsentant les n individus dans R
p
. Mais trs sou-
vent, le nombre de variables p peut atteindre quelques dizaines. Quoiquil en soit, mme
avec des outils de visualisation performants, X ne peut tre apprhend de faon simple
dans sa globalit, ni les relations entre les variables.
FIGURE 2.3 Scatter plot des diffrentes variables
La problmatique est alors double :
Comment visualiser la forme du nuage des individus ?
Comment synthtiser les relations entre variables ?
LACP permet justement de rpondre ce type de besoin.
2.3.2 Choix de la mtrique
La mthode dAnalyse en Composantes Principales requiert un espace vectoriel muni dun
produit scalaire. Dans ce chapitre, nous considrerons lespace euclidien R
p
muni de son
produit scalaire canonique. La mtrique associe est donne par
|X
i
X
i
/ |
2
=
p
j=1
_
x
j
i
x
j
i
/
_
2
.
Dnition 2.1. Soient x
j
=
n
i=1
x
j
i
et s
2
j
=
n
i=1
_
x
j
i
x
j
_
2
la moyenne et la variance de la
variable dintrt X
j
. La reprsentation centre de lindividu i est donne par x
j
1
, . . . , x
j
p
, o pour tout
1 j p,
x
j
i
= x
j
i
x
j
.
La reprsentation centre-rduite de lindividu i est donne par x
j
1
, . . . , x
j
p
, o pour tout 1 j p,
x
j
i
=
x
j
i
x
j
s
j
.
Section 2.3 La thorie de lAnalyse en Composantes Principales 25
Une ACP norme est une ACP mene sur la reprsentation centre-rduite.
LACP opre toujours sur les reprsentations centres. Pour simplier la prsentation, on
considrera dans la suite que les variables ont t dj centres, dans le sens o
n
i=1
X
i
= 0.
Les diffrentes variables X
j
pouvant tre htrognes, et correspondre des chelles de me-
sure disparates, la reprsentation centre-rduite est utilise pour viter que le choix de ces
units ait une inuence dans le calcul des distances. Cette reprsentation rend les variables
centres et de variance 1.
2.3.3 Moindre dformation du nuage
Pour visualiser le nuage des individus (et donc en connatre la forme, pour savoir comment
sont lies nos p variables), il est ncessaire de rduire la dimension de lespace qui le porte.
LACP rduit cette dimension par projection orthogonale sur des sous-espaces afnes.
Dnition 2.2. Soit X
1
, . . . , X
n
un nuage de points dont le barycentre concide avec lorigine (cest
le cas pour des variables rduites). Linertie du nuage X
1
, . . . , X
n
est donne par
I =
1
n
n
i=1
|X
i
|
2
.
Linertie J
H
du nuage autour du sous-espace linaire H est donne par
J
H
=
1
n
n
i=1
|X
i
P
H
X
i
|
2
,
o P
H
X
i
le projet orthogonal de X
i
sur H.
Linertie J
H
autour de H mesure la dformation du nuage lorsque celui-ci est projet or-
thogonalement sur H. Pour que la reprsentation des donnes par leur projection sur un
sous-espace afne ait un sens, il faut quelle modie peu la forme du nuage de points, donc
quelle minimise linertie J
H
.
Remarquons que daprs le thorme de Pythagore, on a
I =
1
n
n
i=1
_
|X
i
P
H
X
i
|
2
+|P
H
X
i
|
2
_
df
= J
H
+ I
H
.
Par consquent, la moindre dformation dun nuage de points par projection orthogonale
sur un sous-espace linaire est obtenue, de manire quivalente, par minimisation de liner-
tie par rapport au sous-espace linaire ou par maximisation de linertie du nuage projet.
Dans le but de pouvoir visualiser le nuage de points des individus, on aimerait trouver
dans R
p
un sous-espace linaire de dimension 2 (cest--dire, un plan) qui approche bien les
donnes. On est donc tout naturellement intress par la rsolution du problme
H
2
= min
H:dim(H)=2
J
H
. .
minimisation de la dformation du nuage
= max
H:dim(H)=2
I
H
. .
maximisation de linrtie du nuage projet
Dune faon plus gnrale, on sintresse aux sous-espaces linaires H
k
, pour k 1, . . . , p
1, dnis par
H
k
= min
H:dim(H)=k
J
H
= max
H:dim(H)=k
I
H
. (2.1)
Par exemple, si le nuage des individus dans R
p
nest pas bien approximable par un plan, il
pourrait tre plus intressant de considerer une visualisation 3 dimensionnelle en projetant
les donnes sur H
3
. Dans certains cas, cela peut considrablement augmenter linertie du
nuage projet.
Montrons maintenant que la recherche dun sous-espace afne de dimension xe maximi-
sant linertie du nuage projet peut tre mene de manire squentielle et que linertie se
dcompose en la somme des inerties moyennes du nuage projet sur des droites orthogo-
nales, dites directions principales de lACP.
Soit la matrice de variance-covariance associe au nuage de points (dans la reprsentation
centre, les moyennes

X
j
sont nulles) :
=
1
n
(X)
t
X,
autrement dit
j,j
/ =
n
i=1
x
j
i
x
j
/
i
est la covariance entre les variables dintrt X
j
et X
j
/
. Notons
au passage que lorsquon considre des variables rduites, la matrice est galement la
matrice des corrlations des variables X
j
.
Thorme 2.1. Les assertions suivantes caractrisent la rsolution squentielle du problme de r-
duction de dimension par moindre dformation.
Soit u
k
un vecteur propre de associe la k-ime plus grande valeur propre. Alors H
k
=
Vect(u
1
, . . . , u
k
) est lespace vectoriel engendr par les k premiers vecteurs propres de .
La k-ime plus grande valeur propre
k
de vaut linertie du nuage projet sur le k-ime axe propre
u
k
:
I
u
k
=
k
.
linertie sur H
k
est la somme des inerties moyennes sur les k axes propres principaux :
I
H
k
=
k
l=1
l
.
Dmonstration. Cherchons dabord le vecteur unitaire, i.e. de norme 1, u maximisant linertie
du nuage projet sur u. Considrons la projection du nuage sur la direction donne par le
vecteur unitaire u. Le projet X
i
de lindividu i scrit
X
i
= u, X
i
)u
et linertie du nuage projet (nous nous plaons toujours dans le cadre de la reprsentation
rduite) est
I
u
=
1
n
n
i=1
|u, X
i
)u|
2
=
1
n
n
i=1
u, X
i
)
2
=
1
n
n
i=1
u
t
X
i
(X
i
)
t
u = u
t
u.
La matrice est symtrique, semi-dnie positive ; elle est diagonalisable, a toutes ses va-
leurs propres relles, et il existe une base orthonormale de vecteurs propres de R
p
. Notons
1
...
p
les valeurs propres tries par ordre dcroissant, et u
/
1
, ..., u
/
p
les vecteurs propres
unitaires associs. Alors
I
u
=
p
j=1
j
_
u, u
/
j
_
2

1
p
j=1
_
u, u
/
j
_
2
=
1
[[u[[
2
=
1
.
Il suft alors de choisir u = u
/
1
pour maximiser I
u
.
Section 2.4 Reprsentations graphiques et interprtation 27
La meilleure droite de projection du nuage est celle de vecteur directeur u
1
, associ la plus
grande valeur propre
1
de la matrice .
On admet sans dmonstration que pour tout entier k < p, lespace H
k+1
est obtenu partir
de lespace H
k
par H
k+1
= Vect(H
k
, v
k+1
) o v
k+1
est un vecteur orthogonal H
k
.
Pour les H
k
suivants, on rpte le procd, en cherchant le vecteur directeur u
2
orthogonal
u
1
portant linertie maximale. Pour tout vecteur u orthogonal u
/
1
, on a
I
u
=
p
j=2
j
_
u, u
/
j
_
2

2
.
Donc le maximum est atteint pour u = u
/
2
, et ainsi de suite.
Au passage, on a galement prouv la deuxime assertion du thorme : I
u
k
=
k
. La troi-
sime assertion dcoule alors du thorme de Pythagore.
Linertie I du nuage de points est donc gale la trace de matrice de variance-covariance, ce
qui implique I = p, en ACP norme. (En ACP non norme, elle vaut la somme des variances :
I =
p
j=1
s
2
j
=
p
l=1

l
.) On dnit la part dinertie explique sur le l-ime axe propre :
l
=
l
/I. Linertie porte par un sous-espace de dimension k est donc au mieux
k
l=1

l
pour cent de linertie totale I.
2.4 Reprsentations graphiques et interprtation
Sur notre exemple concernant les billets suisses, on peut chercher visualiser les proximits
(en termes de distance norme sur les 6 caractristiques) entre billets sur le premier plan
factoriel (u
1
horizontalement, u
2
verticalement) (voir Fig.2.4 gauche). Dans cet exemple,
FIGURE 2.4 A gauche : projection des individus sur le premier plan factoriel. A droite :
la mme projection avec des symboles diffrents pour les billets authentiques et les billets
contrefaits. Les triangles correspondent aux billets contrefaits, alors que les cercles repr-
sentent les billets authentiques.
linertie I = 4.494 se dcompose sur les premiers axes ainsi : I
1
= 3 (donc
1
= 66.7%),
I
2
= 0, 93 (donc
2
= 20.8%). On visualise donc de faon simplie, mais optimale (
12
=
I
u
1
u
2
/I =87.5% de linertie reprsente sur ce plan), les proximits entre les billets.
Les vecteurs directeurs de ces deux premiers axes sexpriment ainsi, dans lancienne base :
Vecteur propre X
1
X
2
X
3
X
4
X
5
X
6
u
1
0.04 0.11 0.14 0.77 0.20 0.58
u
2
0.01 0.07 0.07 0.56 0.66 0.49
Reste interprter vritablement ces axes, et comprendre quels sont les principales rela-
tions linaires entre les caractristiques techniques. . .
2.4.1 Principales relations entre variables
Les composantes principales
La diagonalisation vue prcdemment permet de dnir p nouvelles variables
1
appeles
composantes principales :
C
=
p
j=1
u
j
X
j
= Xu
R
n
,
ou encore C
i
= X
i
, u
). Elles sont donc combinaisons linaires des variables dintrt X

j
initiales. Elles sont centres puisque les X
j
le sont, et on a :
Cov
_
C
, C
_
=
p
j=1
p
j
/
=1
u
j
u
j
/
Cov
_
X
j
, X
j
/
_
= u
t
u
t
.
Donc Cov
_
C
, C
_
=
_
0 si ,= ,
si = ,
, ce qui veut dire que les diffrentes composantes prin-
cipales sont non-corrles.
On peut calculer la covariance entre les composantes principales et les variables initiales :
Cov
_
C
, X
j
_
=
p
j
/
=1
u
j
/
Cov
_
X
j
/
, X
j
_
=
p
j
/
=1
u
j
/
j
/
,j
=
u
j
.
Il sensuit que
Corr
_
C
, X
j
_
=
Cov
_
C
, X
j
_
_
Var(C
)Var(X
j
)
=
_
u
j
/s
j
.
Donc
p
j=1
s
2
j
Corr
2
_
C
, X
j
_
=
.
Pour visualiser les corrlations entre les composantes principales et les X
j
, on tablit des
reprsentations planes o, en prenant par exemple
_
C
1
, C
2
_
comme base orthogonale de ce
plan, chaque X
j
est gur par un vecteur de coordonnes
_
Corr
_
C
1
, X
j
_
, Corr
_
C
2
, X
j
__
,
lintrieur du cercle unit
2
, dit des corrlations.
1. De mme que prcdemment, on confondra sous le vocable variable la forme linaire, et sa ralisation sur
nos n individus, soit encore le vecteur de R
n
associ.
2. Ce vecteur est dans le cercle unit car, dans R
n
muni du produit scalaire x, y) =
n
i=1
x
i
y
i
, cest le vecteur
projet orthogonal du vecteur unitaire X
j
/s
j
sur le plan engendr par les vecteurs orthonorms C
1
/
_
Var(C
1
)
et C
2
/
_
Var(C
2
).
Section 2.4 Reprsentations graphiques et interprtation 29
Retour lexemple
On voit, dans cet exemple (voir la partie droite de la Fig. 2.5), que les variables X
1
, X
2
et
X
3
sont mal expliques par les deux premiers axes principaux, car les points reprsentant
ces variables sont loigns du cercle. En revanche, les 3 autres points sont quasiment sur le
cercle, ce qui veut dire que les variables X
4
, X
5
, X
6
sont trs bien expliques par C
1
et C
2
.
De plus, comme lengle form par les vecteurs

OX
4
et

OX
5
est proche de 90
, les variables
X
4
et X
5
sont trs faiblement corrles.
2.4.2 Nombre daxes (ou de composantes) analyser
Combien daxes analyser ? Il existe plusieurs critres de dcision.
Le premier (Kaiser) veut quon ne sintresse en gnral quaux axes dont les valeurs propres
sont suprieures la moyenne (qui vaut 1 en ACP norme).
Un second (dit du coude, ou de Cattell) utilise le rsultat suivant : lorsque des variables
sont peu corrles, les valeurs propres de la matrice dinertie dcroissent rgulirement - et
lACP prsente alors peu dintrt. A linverse, lorsquil existe une structure sur les donnes,
on observe des ruptures dans la dcroissance des valeurs propres (cf. Fig.2.5). On cherchera
donc ne retenir que les axes correspondant aux valeurs qui prcdent la dcroissance rgu-
lire. Analytiquement, cela revient chercher un point dinexion dans la dcroissance des
valeurs propres, et de ne pas aller au-del dans lanalyse.
Ainsi, dans notre exemple, on ne sintressera quaux 2 premiers axes.
FIGURE 2.5 Reprsentation des valeurs propres et cercle des corrlations pour le premier
plan factoriel
2.4.3 Aides linterprtation
Si, pour les variables numriques, la visualisation des vecteurs lintrieur du cercle des
corrlations donne toute linformation ncessaire lanalyse, il peut tre utile de dnir,
pour chaque individu, les aides suivantes :
La contribution linertie du nuage, qui crot avec lexcentricit de lindividu :
CTR(X
i
) =
|X
i
|
2
I
La contribution linertie porte par un axe (O, u
) :
CTR
(X
i
) =
_
C
i
_
2
Par construction :
n
i=1
CTR(X
i
) = 1, et
n
i=1
CTR
(X
i
) = 1. La valeur de ces contribu-
tions dpend donc fortement du nombre dindividus : une contribution de 5% sera consi-
dre comme forte si lon manipule les donnes de milliers dindividus, nettement moins
si lon nen a quune vingtaine (de faon gnrale, on considrera que lindividu i a une
contribution importante si elle dpasse son poids 1/n).
La qualit de projection sur laxe (O, u
) est donne par le carr du cosinus de langle :

CO2
(X
i
) =
_
C
i
_
2
|X
i
|
2
.
Par orthogonalit des u
, la qualit de projection dun individu sur un sous-espace prin-

cipal est additive : CO2
+
(X
i
) = CO2
(X
i
) + CO2
(X
i
). Dautre part, on remarque que
p
=1
CO2
(X
i
) = 1 ; de mme que prcdemment, cette qualit dpend fortement du
nombre initial de variables : on pourra tre exigeant si lon nen manipule quune poigne,
on le sera moins sil y en a davantage.
Pour un axe donn, lexamen parallle des CTR et des CO2 des individus qui sy projettent
peut donner lieu quatre cas de gure, dont un pose problme (CO2 faible-CTR forte), qui
apparat lorsquun individu a un poids trop fort par rapport aux autres :
CTR faible CTR forte
CO2 faible Elment peu contributif Elment trs contributif
quasi indpendant de laxe mais peu illustratif de laxe
CO2 forte Elment peu contributif Elment particulirement
mais bien illustratif de laxe caractristique de laxe
Tableau de donnes multivaries :
variables :
individus :
Matrice des corrlations :
Scatter-plot :
Reprsentation centre :
Reprsentation centre-rduite :
Analyse en Composantes Principales (ACP) :
ACP norme :
Inertie du nuage :
Inertie autour dun sous-espace :
Composantes principales :
Reprsentation graphiques drives de lACP :
Projection des individus :
Scree-graph :
Projection des variables :
X
1
X
2
X
3
X
4
X
5
X
6
214.8 131 131.1 9 9.7 141
214.6 129.7 129.7 8.1 9.5 141.7
214.8 129.7 129.7 8.7 9.6 142.2
214.8 129.7 129.6 7.5 10.4 142
215 129.6 129.7 10.4 7.7 141.8
215.7 130.8 130.5 9 10.1 141.4
215.5 129.5 129.7 7.9 9.6 141.6
214.5 129.6 129.2 7.2 10.7 141.7
214.9 129.4 129.7 8.2 11 141.9
215.2 130.4 130.3 9.2 10 140.7
215.3 130.4 130.3 7.9 11.7 141.8
215.1 129.5 129.6 7.7 10.5 142.2
215.2 130.8 129.6 7.9 10.8 141.4
214.7 129.7 129.7 7.7 10.9 141.7
215.1 129.9 129.7 7.7 10.8 141.8
214.5 129.8 129.8 9.3 8.5 141.6
214.6 129.9 130.1 8.2 9.8 141.7
215 129.9 129.7 9 9 141.9
215.2 129.6 129.6 7.4 11.5 141.5
214.7 130.2 129.9 8.6 10 141.9
215 129.9 129.3 8.4 10 141.4
215.6 130.5 130 8.1 10.3 141.6
215.3 130.6 130 8.4 10.8 141.5
215.7 130.2 130 8.7 10 141.6
215.1 129.7 129.9 7.4 10.8 141.1
215.3 130.4 130.4 8 11 142.3
215.5 130.2 130.1 8.9 9.8 142.4
215.1 130.3 130.3 9.8 9.5 141.9
215.1 130 130 7.4 10.5 141.8
214.8 129.7 129.3 8.3 9 142
215.2 130.1 129.8 7.9 10.7 141.8
214.8 129.7 129.7 8.6 9.1 142.3
215 130 129.6 7.7 10.5 140.7
215.6 130.4 130.1 8.4 10.3 141
215.9 130.4 130 8.9 10.6 141.4
214.6 130.2 130.2 9.4 9.7 141.8
215.5 130.3 130 8.4 9.7 141.8
215.3 129.9 129.4 7.9 10 142
215.3 130.3 130.1 8.5 9.3 142.1
213.9 130.3 129 8.1 9.7 141.3
214.4 129.8 129.2 8.9 9.4 142.3
214.8 130.1 129.6 8.8 9.9 140.9
214.9 129.6 129.4 9.3 9 141.7
214.9 130.4 129.7 9 9.8 140.9
214.8 129.4 129.1 8.2 10.2 141
214.3 129.5 129.4 8.3 10.2 141.8
214.8 129.9 129.7 8.3 10.2 141.5
214.8 129.9 129.7 7.3 10.9 142
214.6 129.7 129.8 7.9 10.3 141.1
214.5 129 129.6 7.8 9.8 142
X
1
X
2
X
3
X
4
X
5
X
6
214.6 129.8 129.4 7.2 10 141.3
215.3 130.6 130 9.5 9.7 141.1
214.5 130.1 130 7.8 10.9 140.9
215.4 130.2 130.2 7.6 10.9 141.6
214.5 129.4 129.5 7.9 10 141.4
215.2 129.7 129.4 9.2 9.4 142
215.7 130 129.4 9.2 10.4 141.2
215 129.6 129.4 8.8 9 141.1
215.1 130.1 129.9 7.9 11 141.3
215.1 130 129.8 8.2 10.3 141.4
215.1 129.6 129.3 8.3 9.9 141.6
215.3 129.7 129.4 7.5 10.5 141.5
215.4 129.8 129.4 8 10.6 141.5
214.5 130 129.5 8 10.8 141.4
215 130 129.8 8.6 10.6 141.5
215.2 130.6 130 8.8 10.6 140.8
214.6 129.5 129.2 7.7 10.3 141.3
214.8 129.7 129.3 9.1 9.5 141.5
215.1 129.6 129.8 8.6 9.8 141.8
214.9 130.2 130.2 8 11.2 139.6
213.8 129.8 129.5 8.4 11.1 140.9
215.2 129.9 129.5 8.2 10.3 141.4
215 129.6 130.2 8.7 10 141.2
214.4 129.9 129.6 7.5 10.5 141.8
215.2 129.9 129.7 7.2 10.6 142.1
214.1 129.6 129.3 7.6 10.7 141.7
214.9 129.9 130.1 8.8 10 141.2
214.6 129.8 129.4 7.4 10.6 141
215.2 130.5 129.8 7.9 10.9 140.9
214.6 129.9 129.4 7.9 10 141.8
215.1 129.7 129.7 8.6 10.3 140.6
214.9 129.8 129.6 7.5 10.3 141
215.2 129.7 129.1 9 9.7 141.9
215.2 130.1 129.9 7.9 10.8 141.3
215.4 130.7 130.2 9 11.1 141.2
215.1 129.9 129.6 8.9 10.2 141.5
215.2 129.9 129.7 8.7 9.5 141.6
215 129.6 129.2 8.4 10.2 142.1
214.9 130.3 129.9 7.4 11.2 141.5
215 129.9 129.7 8 10.5 142
214.7 129.7 129.3 8.6 9.6 141.6
215.4 130 129.9 8.5 9.7 141.4
214.9 129.4 129.5 8.2 9.9 141.5
214.5 129.5 129.3 7.4 10.7 141.5
214.7 129.6 129.5 8.3 10 142
215.6 129.9 129.9 9 9.5 141.7
215 130.4 130.3 9.1 10.2 141.1
214.4 129.7 129.5 8 10.3 141.2
215.1 130 129.8 9.1 10.2 141.5
214.7 130 129.4 7.8 10 141.2
TABLE 2.1 Les donnes de billets suisses authentiques. Le tableau comprend 100 lignes
(individus) et 6 colonnes (variables). Ces variables sont dcrites dans la Fig. 2.1. Toutes les
valeurs sont en mm.
X
1
X
2
X
3
X
4
X
5
X
6
214.4 130.1 130.3 9.7 11.7 139.8
214.9 130.5 130.2 11 11.5 139.5
214.9 130.3 130.1 8.7 11.7 140.2
215 130.4 130.6 9.9 10.9 140.3
214.7 130.2 130.3 11.8 10.9 139.7
215 130.2 130.2 10.6 10.7 139.9
215.3 130.3 130.1 9.3 12.1 140.2
214.8 130.1 130.4 9.8 11.5 139.9
215 130.2 129.9 10 11.9 139.4
215.2 130.6 130.8 10.4 11.2 140.3
215.2 130.4 130.3 8 11.5 139.2
215.1 130.5 130.3 10.6 11.5 140.1
215.4 130.7 131.1 9.7 11.8 140.6
214.9 130.4 129.9 11.4 11 139.9
215.1 130.3 130 10.6 10.8 139.7
215.5 130.4 130 8.2 11.2 139.2
214.7 130.6 130.1 11.8 10.5 139.8
214.7 130.4 130.1 12.1 10.4 139.9
214.8 130.5 130.2 11 11 140
214.4 130.2 129.9 10.1 12 139.2
214.8 130.3 130.4 10.1 12.1 139.6
215.1 130.6 130.3 12.3 10.2 139.6
215.3 130.8 131.1 11.6 10.6 140.2
215.1 130.7 130.4 10.5 11.2 139.7
214.7 130.5 130.5 9.9 10.3 140.1
214.9 130 130.3 10.2 11.4 139.6
215 130.4 130.4 9.4 11.6 140.2
215.5 130.7 130.3 10.2 11.8 140
215.1 130.2 130.2 10.1 11.3 140.3
214.5 130.2 130.6 9.8 12.1 139.9
214.3 130.2 130 10.7 10.5 139.8
214.5 130.2 129.8 12.3 11.2 139.2
214.9 130.5 130.2 10.6 11.5 139.9
214.6 130.2 130.4 10.5 11.8 139.7
214.2 130 130.2 11 11.2 139.5
214.8 130.1 130.1 11.9 11.1 139.5
214.6 129.8 130.2 10.7 11.1 139.4
214.9 130.7 130.3 9.3 11.2 138.3
214.6 130.4 130.4 11.3 10.8 139.8
214.5 130.5 130.2 11.8 10.2 139.6
214.8 130.2 130.3 10 11.9 139.3
214.7 130 129.4 10.2 11 139.2
214.6 130.2 130.4 11.2 10.7 139.9
215 130.5 130.4 10.6 11.1 139.9
214.5 129.8 129.8 11.4 10 139.3
214.9 130.6 130.4 11.9 10.5 139.8
215 130.5 130.4 11.4 10.7 139.9
215.3 130.6 130.3 9.3 11.3 138.1
214.7 130.2 130.1 10.7 11 139.4
214.9 129.9 130 9.9 12.3 139.4
X
1
X
2
X
3
X
4
X
5
X
6
214.9 130.3 129.9 11.9 10.6 139.8
214.6 129.9 129.7 11.9 10.1 139
214.6 129.7 129.3 10.4 11 139.3
214.5 130.1 130.1 12.1 10.3 139.4
214.5 130.3 130 11 11.5 139.5
215.1 130 130.3 11.6 10.5 139.7
214.2 129.7 129.6 10.3 11.4 139.5
214.4 130.1 130 11.3 10.7 139.2
214.8 130.4 130.6 12.5 10 139.3
214.6 130.6 130.1 8.1 12.1 137.9
215.6 130.1 129.7 7.4 12.2 138.4
214.9 130.5 130.1 9.9 10.2 138.1
214.6 130.1 130 11.5 10.6 139.5
214.7 130.1 130.2 11.6 10.9 139.1
214.3 130.3 130 11.4 10.5 139.8
215.1 130.3 130.6 10.3 12 139.7
216.3 130.7 130.4 10 10.1 138.8
215.6 130.4 130.1 9.6 11.2 138.6
214.8 129.9 129.8 9.6 12 139.6
214.9 130 129.9 11.4 10.9 139.7
213.9 130.7 130.5 8.7 11.5 137.8
214.2 130.6 130.4 12 10.2 139.6
214.8 130.5 130.3 11.8 10.5 139.4
214.8 129.6 130 10.4 11.6 139.2
214.8 130.1 130 11.4 10.5 139.6
214.9 130.4 130.2 11.9 10.7 139
214.3 130.1 130.1 11.6 10.5 139.7
214.5 130.4 130 9.9 12 139.6
214.8 130.5 130.3 10.2 12.1 139.1
214.5 130.2 130.4 8.2 11.8 137.8
215 130.4 130.1 11.4 10.7 139.1
214.8 130.6 130.6 8 11.4 138.7
215 130.5 130.1 11 11.4 139.3
214.6 130.5 130.4 10.1 11.4 139.3
214.7 130.2 130.1 10.7 11.1 139.5
214.7 130.4 130 11.5 10.7 139.4
214.5 130.4 130 8 12.2 138.5
214.8 130 129.7 11.4 10.6 139.2
214.8 129.9 130.2 9.6 11.9 139.4
214.6 130.3 130.2 12.7 9.1 139.2
215.1 130.2 129.8 10.2 12 139.4
215.4 130.5 130.6 8.8 11 138.6
214.7 130.3 130.2 10.8 11.1 139.2
215 130.5 130.3 9.6 11 138.5
214.9 130.3 130.5 11.6 10.6 139.8
215 130.4 130.3 9.9 12.1 139.6
215.1 130.3 129.9 10.3 11.5 139.7
214.8 130.3 130.4 10.6 11.1 140
214.7 130.7 130.8 11.2 11.2 139.4
214.3 129.9 129.9 10.2 11.5 139.6
TABLE 2.2 Les donnes de billets suisses contrefaits. Le tableau comprend 100 lignes (indi-
vidus) et 6 colonnes (variables). Ces variables sont dcrites dans la Fig. 2.1. Toutes les valeurs
sont en mm.
3
Rappel des bases de la statistique paramtrique
Dans ce chapitre, nous survolons rapidement les bases du calcul des probabilits et de la sta-
tistique. Toutes les notions et tous les rsultats prsents ci-dessous constituent les prrequis
pour ce cours de Statistique numrique et analyse des donnes . Pour une prsentation
plus dtaille des sujets traits dans ce chapitre voir [?].
3.1 Introduction
Les problmes statistiques que nous allons tudier dans le cadre de ce module peuvent se
rsumer de la faon suivante : nous disposons dun jeu de donnes qui sont supposes tre
gnres par un phnomne alatoire. (Rappelons que tout phnomne alatoire est enti-
rement caractris par sa loi de probabilit.) De plus, nous considrons quun travail de
modlisation a t effectu lissue duquel la loi de probabilit rgissant les donnes a t
dtermine un paramtre inconnu prs. Dans ce contexte, les trois types de problmes que
nous allons tudier sont :
estimation : trouver une valeur approche du paramtre inconnu,
rgion de conance : dterminer une rgion (aussi petite que possible) qui contient le para-
mtre inconnu avec une probabilit prescrite (gnralement 95%),
test dhypothse : pour un ensemble
0
de valeurs possibles du paramtre inconnu, dcider
au vu des donnes si oui ou non le paramtre inconnu appartient
0
.
An de faciliter la comprhension, les diffrentes notions introduites dans ce chapitre seront
illustres dans les deux exemples suivants.
Exemple 1. (Qualit de lair) On cherche valuer la frquence des jours o lindice ATMO
(mesurant la qualit de lair) Paris dpasse
1
le niveau 8. Pour avoir une estimation
simple, on choisit au hasard n jours dans le pass et on regarde si oui ou non le niveau 8
a t dpass ces jours-l. On obtient ainsi un chantillon x
1
, . . . , x
n
o chaque x
i
prend
deux valeurs : 0 ou 1. Par convention, la valeur 0 correspond un jour o le niveau 8
1. Lindice ATMO varie sur une chelle allant de 1 (trs bonne) 10 (excrable). Lorsque la valeur de cet
indice dpasse le niveau 8, la qualit de lair est considre comme mauvaise.
36 Rappel des bases de la statistique paramtrique Chapitre 3
na pas t dpass. Nous modlisons le dpassement du niveau 8 par lindice ATMO
par une variable alatoire X de loi de Bernoulli ;
Proba(X = 1) =
, Proba(X = 0) = 1
pour une valeur
]0, 1[ qui nous est inconnue. Cette valeur reprsente la frquence

moyenne des jours o la qualit de lair a t mauvaise Paris.
Exemple 2. (Vitesse du vent) An dtudier la possibilit de linstallation dune centrale o-
lienne sur un site donn, on cherche estimer la probabilit de lvnement la vitesse
du vent sur le site en question est infrieure 10km/h . Lintrt lgard de cet
vnement vient du fait que, lorsque la vitesse du vent est infrieure 10km/h, une
centrale olienne sarrte en raison des forces de frottement sec qui sopposent la ro-
tation de lhlice. Lapproche la plus simple consiste modliser la vitesse du vent sur
le site en question un instant donn par une variable alatoire de loi exponentielle.
En dautres termes, si X reprsente la vitesse du vent, on suppose que
Proba(X [a, b]) =
_
b
a
p(
; x) dx, p(
; x) =
1
e
x/
1l
[0,[
(x),
o
> 0 est un paramtre inconnu. Si lon admet que cette modlisation est correcte,
on peut calculer la probabilit de lvnement A = la vitesse du vent est infrieure
10km/h par la formule
Proba(A) =
_
10
0
1
e
x/
dx = 1 e
10/
.
Par consquent, une valeur approche de
nous permettrait de calculer une valeur

approche de la probabilit de lvnement A. Pour pouvoir estimer
, nous mesu-
rons la vitesse du vent n instants sufsamment espacs dans le temps, ce qui nous
fournit les observations x
1
, . . . , x
n
. Le but dun statisticien est, entre autre, dutiliser ces
observations pour estimer le paramtre
.
3.2 Modle statistique
Nous commenons par donner la dnition gnrale dun modle statistique, que nous illus-
trons par la suite dans les deux exemples prsents ci-dessus.
Dnition 3.1. On appelle modle statistique la donne dun espace mesurable (A
n
, F
n
) et dune
famille de mesures de probabilit P
n
= P
n,
, dnies sur (A
n
, F
n
). Lespace A
n
, appel
espace dtats, est constitu de toutes les valeurs quaurait pu prendre le jeu de donnes tudi. La
famille P
n
dcrit lensemble des lois de probabilit pouvant avoir gnr le jeu de donnes tudi.
Pour un modle statistique donn, la problmatique gnrale de la thorie statistique snonce
de la faon suivante : au vu dune ralisation x
(n)
A
n
tir au hasard selon une loi P
n,
P,
tudier certaines proprits de P
n,
. Le plus souvent x
(n)
est un vecteur. On cherche donc
caractriser la loi dun vecteur alatoire X
(n)
partir dune ralisation x
(n)
. Bien-entendu,
si lon autorise la famille P
n
tre une collection quelconque de lois sur (A
n
, F
n
), la tche
de lextraction de linformation able sur la loi du vecteur alatoire X
(n)
partir dune seule
ralisation est irralisable. An de pouvoir laborer une thorie raisonnable et utile pour les
applications, on se restreint au cas o la famille P
n
a une certaine structure. Exemples de
telles structures sont le modle observations i.i.d., le modle de rgression linaire, etc.
Section 3.3 Estimation 37
Ce chapitre est entirement ddi ltude du modle observations i.i.d. (indpendantes
et identiquement distribues). Il sagit du cas o x
(n)
= (x
1
, . . . , x
n
) est un vecteur dans R
n
dont les coordonnes reprsentent n copies indpendantes dune mme variable alatoire X.
Cela revient postuler que x
(n)
est une ralisation du vecteur alatoire X
(n)
= (X
1
, . . . , X
n
)
compos de n variables alatoires indpendantes distribues selon la mme loi que X. Dans
ce cas, la loi de X
(n)
est entirement caractrise par celle de X, car
Proba(X
1
A
1
, . . . , X
n
A
n
) = Proba(X
1
A
1
) . . . Proba(X
n
A
n
)
= Proba(X A
1
) . . . Proba(X A
n
)
quels que soient les intervalles A
1
, . . . , A
n
R. Si P dsigne la loi de X, on dit alors que
X
(n)
est un chantillon i.i.d. de loi P. Par consquent, pour dnir un modle observations
i.i.d., il suft de dcrire la famille P = P
qui est sense contenir la loi P de X. Les deux

exemples prsents dans lintroduction correspondent des modles observations i.i.d. :
dans le premier exemple P = B() : ]0, 1[ o B() dsigne la loi de Bernoulli de
paramtre , tandis que dans le deuxime exemple P = c(
1
) : > 0, o c() dsigne
la loi exponentielle de paramtre > 0. En consquence, dans le premier exemple = [0, 1]
alors que dans le deuxime exemple =]0, [.
Tout au long de ce chapitre, on appellera statistique toute fonction de lchantillon X
(n)
.
3.3 Estimation
Supposons maintenant quon dispose dun chantillon i.i.d. X
1
, . . . , X
n
de loi P P = P
:
. Cela veut dire que pour un
inconnu, on a
X
1
, . . . , X
n
iid
P
.
Par la suite, on appellera
la vraie valeur du paramtre. La premire question quon se

pose est celle du calcul dune valeur approche de
en utilisant uniquement lchantillon

observ.
Dnition 3.2. Soit X
1
, . . . , X
n
un chantillon i.i.d. de loi P P = P
: avec R
p
pour un p N. On appelle estimateur de
toute application mesurable
: R
n
R
p
.
Dans la statistique thorique, on identie lapplication

au vecteur alatoire

(X
1
, . . . , X
n
).
Un estimateur a pour objectif dapprocher la vraie valeur
. Cependant, la dnition ci-

dessus ne rete absolument pas cet objectif. En effet, mme si

(X
1
, . . . , X
n
) est trs loign
de
,

sera appel un estimateur si peu quil soit mesurable. An de restreindre la classe
de tous les estimateurs ceux qui reprsentent un intrt pratique, on spcie des propri-
ts quon aimerait voir satisfaites par un estimateur. Par la suite, pour souligner le fait que
lestimateur

dpend de n (la taille de lchantillon), on utilisera la notation

n
.
Dnition 3.3. On dit que lestimateur

n
est sans biais, si
E
n
] =
,
o lexpression E
n
] doit tre lue comme esprance du vecteur alatoire

n
(X
1
, . . . , X
n
) sachant
que X
1
, . . . , X
n
iid
P
. On dit que lestimateur

n
est convergent (ou consistant), sil converge en
probabilit vers la vraie valeur, cest--dire
lim
n
P
([
[ > ) = 0, > 0,
.
La proprit de convergence est centrale en statistique, car elle indique que la valeur esti-
me de
calcule laide de lestimateur

est proche de
si la taille n de lchantillon
est sufsamment grande. Dans beaucoup de situations, il existe de nombreux estimateurs
convergents. On sintresse alors aux proprits plus rafnes des estimateurs : la vitesse
laquelle

n
tend vers
et la loi asymptotique de la diffrence

proprement normali-
se.
Dnition 3.4. On dit que lestimateur convergent

n
est asymptotiquement de loi P
avec la vitesse
n
, o > 0, si
n
)
L
P
,
o
L
dsigne la convergence en loi. Si P
est la loi gaussienne ^(0,

2
), on dit alors que

n
est
asymptotiquement normal avec la vitesse n
et la variance limite
2
.
Pour dmontrer la convergence et la normalit asymptotique des estimateurs, on utilise le
plus souvent les rsultats probabilistes prsents dans le paragraphe suivant.
3.3.1 Quelques rsultats sur la convergence des variables alatoires
Soit
1
,
2
, . . . ,
n
, . . . et
des variables alatoires et soit F
n
(x) = P(
n
x) la fonction de
rpartition de
n
, n N . On distingue les quatre types de convergence (de
n
vers
) suivants :
1. convergence en probabilit : pour tout > 0, on a lim
n
P([
n
[ > ) = 0,
2. convergence presque sr : P(limsup
n
[
n
[ = 0) = 1,
3. convergence en moyenne quadratique : lim
n
E[(
n
)
2
] = 0,
4. convergence en loi : lim
n
F
n
(x) = F
(x) pour tout x R tel que F
est continue
en x.
Rappelons que les convergences presque sr et en moyenne quadratique entranent la conver-
gence en probabilit et cette dernire entrane son tour la convergence en loi. Notons aussi
que la dnition de la convergence en loi, contrairement aux autres types de convergences
prcites, ne sous-entend pas que les variables
n
soient dnies sur le mme espace proba-
bilis.
Thorme 3.1 (Loi forte des grands nombres). Soit X
1
, . . . , X
n
des variables alatoires i.i.d. int-
grables : E[[X
1
[] < . Alors,
X
n
=
1
n
n
i=1
X
i
p.s.
E[X
1
], lorsque n ,
o
p.s.
dsigne la convergence presque-sr.
Thorme 3.2 (Thorme de la limite centrale). Soit X
1
, . . . , X
n
des variables alatoires i.i.d. de
carr intgrables : E[X
2
1
] < . Alors,
n(X
n
E[X
1
])
L
^(0, Var[X
1
]), lorsque n .
Thorme 3.3 (Mthode delta). Soit X
1
, . . . , X
n
des variables alatoires i.i.d. de carr intgrables
et soit G une fonction continment diffrentiable sur un ensemble ouvert A tel que P(X
1
A) = 1.
Alors,
n
_
G(X
n
) G(E[X
1
])
_
L
^(0,
2
), lorsque n ,
avec la variance limite
2
= G
/
(E[X
1
])
2
Var[X
1
].
Ces rsultats se gnralisent une suite de vecteurs alatoires, auquel cas la variance est
remplace par la matrice de covariance Var[X
1
] = E[X
1
X
1
] E[X
1
]E[X
1
] et la variance
limite dans la mthode delta est donne par
2
= G(E[X
1
])
Var[X
1
]G(E[X
1
]).
Thorme 3.4 (Thorme de Slutsky). Soit
n
nN

n
nN
deux suites de variables alatoires
dnies sur le mme espace probabilis. Si pour une constante a R et pour une variable alatoire
on a
n
L
, et
n
P
n
a
alors
n
+
n
L
+ a, et
n
n
L
n
a
.
3.3.2 Estimateur du maximum de vraisemblance
Aprs avoir vu ce que cest un estimateur et quelles sont les proprits souhaites dun esti-
mateur, on sintresse naturellement la mise en place dune procdure gnrique permet-
tant la construction dun estimateur pour une large classe de modles. On se focalise ici sur
la mthode destimation la plus utilise : le maximum de vraisemblance. De plus, pour vi-
ter le rappel de notions abstraites (absolue continuit, thorme de Radon-Nykodim) de la
thorie de la mesure, on ne donnera pas la dnition de lestimateur du maximum de vrai-
semblance (EMV) dans le cas le plus gnral des modles domins, mais seulement dans le
cadre des modles i.i.d. discrets et densit.
Dnition 3.5. On dira que le modle observations i.i.d. P
: est discret, sil existe un

ensemble A = a
1
, a
2
, . . . au plus dnombrable tel que P
(A) = 1 pour tout . En dautres

termes, lensemble A contient toutes les valeurs possibles prises par les variables de lchantillon.
Lexemple 1 considr au dbut de ce chapitre porte sur un modle discret, car les va-
riables alatoires constituant lchantillon sont des variables de Bernoulli et, par consquent,
prennent leurs valeurs dans lensemble ni 0, 1.
On caractrise un modle discret par les probabilits discrtes
p(; a
k
) = Proba(X
i
= a
k
), a
k
A o X
1
, . . . , X
n
iid
P
. (3.1)
Dnition 3.6. On dira que le modle observations i.i.d. P
: est densit, si pour tout

il existe une fonction (appele densit) p(; ) : R R telle que
P
([a, b]) = Proba(X

i
[a, b]) =
_
b
a
p(; x) dx, o X
i
P
, (3.2)
pour tout a, b R.
Dnition 3.7. Soit P = P
: un modle i.i.d. discret ou densit et soit p(, x) la

fonction dnie par (3.1) dans le cas discret et par (3.2) dans le cas densit. On appelle fonction de
vraisemblance lapplication
p
n
: R
n
R
+
, p
n
(; x
1
, . . . , x
n
) =
n
i=1
p(; x
i
). (3.3)
On appelle estimateur du maximum de vraisemblance (EMV), not

MV
n
, le point du maximum global
(sil existe) de lapplication p
n
(, X
1
, . . . , X
n
). On crit alors
MV
n
= arg max
p
n
(; X
1
, . . . , X
n
).
3.3.3 LEMV dans lexemple 1
Dans lexemple 1 portant sur la qualit de lair, on dispose dun chantillon i.i.d. X
1
, . . . , X
n
de loi de Bernoulli B(
) avec
=]0, 1[. Il sagit dun modle discret avec A = 0, 1

et
p(; x) =
_
, si x = 1,
1 , si x = 0.
On vrie facilement que cela quivaut
p(; x) =
x
(1 )
1x
, x 0, 1.
Par consquent, la fonction de vraisemblance scrit comme
p
n
(; x
1
, . . . , x
n
) =
n
i=1
x
i
(1 )
1x
i
=
i
x
i
(1 )
n
i
x
i
.
On remarque dabord que la fonction de vraisemblance est strictement positive sur ]0, 1[. Il
en rsulte quon peut remplacer le problme de maximisation de p
n
par celui de maximisa-
tion de l
n
= log p
n
:
MV
n
= arg max
]0,1[
log p
n
(; X
1
, . . . , X
n
) = arg max
]0,1[
_
nX log + n(1 X) log(1 )
_
,
o X =
1
n
i
X
i
. On vrie aisment que la fonction
l
n
() = nX log + n(1 X) log(1 ),
appele fonction de log-vraisemblance est strictement concave sur ]0, 1[ et que X est le seul
point o la drive de l
n
sannule. Or, si la drive dune fonction concave sannule en un
point alors cest le point de maximum global. Il en dcoule que dans le modle de Bernoulli
MV
n
= X.
Par la linarit de lesprance, on montre que cet estimateur est sans biais :
E
[X] =
1
n
n
i=1
E
[X
i
] =
1
n
n
i=1
= , [0, 1].
De plus, cest un estimateur consistant et asymptotiquement normal de vitesse 1/
n et de
variance limite (1 ).
La courbe de la fonction de log-vraisemblance l
n
pour trois chantillons i.i.d. de loi B(1/2)
est reprsente dans la Figure 3.1. On y voit clairement la nature alatoire de lestimateur du
maximum de vraisemblance, qui est d au fait que lchantillon a t obtenu par un tirage
alatoire.
3.3.4 LEMV dans lexemple 2
Dans lexemple 2 portant sur la vitesse du vent, on dispose dun chantillon i.i.d. X
1
, . . . , X
n
de loi Exponentielle c(1/
) avec
=]0, +[. Il sagit dun modle densit avec :

p(; x) =
1
e
x/
1l
[0,[
(x).
FIGURE 3.1 Modle de Bernoulli : la fonction de log-vraisemblance et son maximum global. Les
trois courbes reprsentent la log-vraisemblance pour trois chantillons diffrents de taille 40. La vraie
valeur du paramtre dans les trois cas est
= 1/2. Les valeurs estimes quon obtient pour ces

chantillons sont

MV
n
= 0.5 ; 0.55 ; 0.425.
FIGURE 3.2 Modle exponentiel : la fonction de log-vraisemblance et son maximum global. Les
trois courbes reprsentent la log-vraisemblance pour trois chantillons diffrents de taille 40. La vraie
valeur du paramtre dans les trois cas est
= 20. Les valeurs estimes quon obtient pour ces

chantillons sont

MV
n
= 17.48 ; 22.61 ; 14.84.
On en dduit la fonction de vraisemblance
p
n
(; x
1
, . . . , x
n
) =
n
i=1
1
e
x
i
/
=
n
exp
_
i=1
x
i
_
pour tout x
1
, . . . , x
n
0. Comme on sait que lchantillon X
1
, . . . , X
n
est gnr par une loi
exponentielle, P(X
i
0; i = 1, . . . , n) = 1. On a donc la fonction de log-vraisemblance
l
n
() = n(log +
1
X), > 0.
Cette fonction nest pas concave sur R
+
, mais on vrie aisment quelle est croissante sur
]0, X] et dcroissante sur [X, +[. Il en dcoule que X est le point de maximum global de l
n
,
ce qui entrane que
MV
n
= X
n
.
Comme dans lexemple prcdent, ici aussi lestimateur X est sans biais. De plus, en vertu
de la loi forte des grands nombres et du thorme de la limite centrale, X est consistant et
asymptotiquement normal de vitesse n
1/2
et de variance limite
2
, cest--dire
n(X
)
L
n
^(0,
2
).
Remarque 3.1. Dans les deux exemples prcdents la mthode du maximum de vraisemblance nous a
conduit des estimateurs sans biais, consistants et asymptotiquement normaux de vitesse n
1/2
. On
FIGURE 3.3 Modle uniforme : la fonction de vraisemblance et son maximum global. Les trois
courbes reprsentent la vraisemblance pour trois chantillons diffrents de taille 10. La vraie valeur
du paramtre dans les trois cas est
= 1. Les valeurs estimes quon obtient pour ces chantillons

sont

MV
n
= 0.98 ; 0.95 ; 0.87.
peut naturellement se demander si ces proprits sont caractristiques aux deux modles considrs ou
si elles restent valables dans un cadre plus gnral. Nous ne donnerons pas ici une rponse exhaustive
cette question, mais seulement quelques lments de rponse :
- lEMV nest en gnral pas sans biais (on dit quil est biais), mais son biais tend vers zro lorsque
n sous certaines conditions de rgularit ;
- il existe des conditions de rgularit assez faibles sur lapplication (, x) p(; x) garantissant
la consistance de lEMV ainsi que sa normalit asymptotique avec la vitesse n
1/2
.
3.3.5 Un exemple de modle irrgulier : modle uniforme
Pour se convaincre que lEMV nest pas toujours sans biais et quil peut converger une
vitesse diffrente de n
1/2
, considrons le modle suivant. On dispose dun chantillon i.i.d.
X
1
, . . . , X
n
de loi uniforme sur lintervalle [0,
], note |([0,
]). Le paramtre inconnu
est suppos appartenir lensemble R

+
. Cest un modle densit avec
p(; x) =
1
1l
[0,]
(x).
Par consquent, la fonction de vraisemblance a la forme
p
n
(; x
1
, . . . , x
n
) =
1
n
_
1, si x
i
[0, ] i,
0, sinon
=
n
1l
[x
(n)
,+[
(),
o x
(n)
= max
i=1,...,n
x
i
. LEMV est donc dni par
MV
n
= arg max
>0
n
1l
[X
(n)
,+[
() = X
(n)
(= max
1in
X
i
).
Vrions dabord que X
(n)
est biais. Pour cela, on introduit lvnement
A = X
1

/2; . . . X
n

/2
Section 3.4 Intervalle de conance 43
qui vrie P
(A) = (1/2)
n
> 0. Comme sur cet vnement X
(n)

/2, on a
E
[X
(n)
] = E
[X
(n)
1l
A
] +E
[X
(n)
1l
A
c ]
1
2
(A) +
(A
c
)
=
1
2
(A) <
.
Il en rsulte que

MV
n
= X
(n)
est un estimateur biais.
Exercice 3.1. Soit X
1
, . . . , X
n
iid
|([0,
]) avec
]0, +[ et soit

MV
n
= X
(n)
.
1. Vrier que la fonction de rpartition F
n
de X
(n)
est donne par
F
n
(
, x) =
_
_
0, si x ] , 0],
(x/
)
n
, si x ]0,
],
1, si x ]
, +].
En dduire la densit de

MV
n
.
2. Vrier que la quantit
B
n
(
) = [E
MV
n
]
[,
appele le biais de

MV
n
, est gale
/(n + 1).
3. En utilisant la dnition de la convergence en loi, prouver que

MV
n
est asymptotiquement de
loi exponentielle c(1/
) avec la vitesse 1/n, cest--dire

n(
MV
n
)
L
n
c(1/
).
3.4 Intervalle de conance
La mthode du maximum de vraisemblance nous permet de calculer une estimation de la
vraie valeur du paramtre. Cependant, ayant calcul cette estimation, on peut naturellement
sinterroger sur sa qualit. Une faon largement rpandue pour dcrire la qualit de lesti-
mation consiste fournir un intervalle de conance ou, plus gnralement, une rgion de
conance.
Dnition 3.8. Soit X
1
, . . . , X
n
un chantillon i.i.d. de loi P
avec
R
p
. On appelle
rgion de conance de niveau prescrit 1 , avec [0, 1], tout sous-ensemble I
n
= I(X
1
, . . . , X
n
)
de R
p
tel que
P
_
I
n
contient
_
1 ,
. (3.4)
Si p = 1 et I
n
est un intervalle, on lappelle intervalle de conance. Si au lieu davoir (3.4) pour n
x, on la de faon asymptotique, cest--dire
lim
n
P
_
I
n
contient
_
1 ,
, (3.5)
alors on dit que I
n
est une rgion de conance de niveau asymptotique 1 .
La dmarche gnrale pour construire un intervalle de conance peut se rsumer de la ma-
nire suivante.
1. On dtermine un estimateur consistant

n
; dans la plupart des cas, la loi de

n
est
concentre autour de la vraie valeur
.
2. On cherche un
n
= (X
1
, . . . , X
n
) > 0 tel que
P
([
[ >
n
) ,
,
et lon dnit I
n
= [

n
,

n
+
n
].
Remarque 3.2. Si la loi de

est fortement asymtrique, on remplace la seconde tape par la

recherche de deux variables alatoires
n
= (X
1
, . . . , X
n
) > 0 et
/
n
= (X
1
, . . . , X
n
) > 0 telles que
P
<
n
_

2
, et P
>
/
n
_

2
,
pour tout
, et lon dnit I
n
= [

/
n
,

n
+
n
].
An de clarier le schma prsent ci-dessus, considrons deux exemples.
3.4.1 Modle de Bernoulli : intervalle de conance par excs
Rappelons que dans lexemple 1 portant sur la qualit de lair, on dispose de n variables i.i.d.
de loi B(
) avec
]0, 1[. Nous avons dj vu que lEMV

MV
n
= X est consistant dans ce
modle. On cherche donc un
n
tel que
P
_
[X
n
[ >
n
_
,
]0, 1[. (3.6)

Daprs lingalit de Tchebychev, on a
P
_
[X
n
[ >
n
_

E
[(X
n
)
2
]
2
n
.
Or, comme X
n
est sans biais, il vient
E
[(X
n
)
2
] = Var
(X
n
) =
Var
n
i=1
X
i
_
n
2
=

(1
)
n
.
En combinant les deux ingalits prcdentes avec lingalit lmentaire ab (a + b)
2
/4,
on obtient
P
_
[X
n
[ >
n
_

(1
)
n
2
n
1
4n
2
n
.
Il en rsulte quen choisissant
2
n
= 1/(4n), lingalit (3.6) sera satisfaite. Par consquent,
I
n
=
_
X
n
1
2
n
; X
n
+
1
2
n
_
est un intervalle de conance (IC) de niveau 1 pour
. On remarque que le
n
quon a
trouv nest pas alatoire. En dautres termes, la longueur de lIC ne dpend pas de lchan-
tillon.
Section 3.4 Intervalle de conance 45
FIGURE 3.4 A gauche : les intervalles de conance de niveau 90% pour
= 0.25 dans le modle de

Bernoulli. On a tir au hasard 40 chantillons de taille 400. En particulier, on remarque sur le graphe
ci-dessus que tous les 40 intervalles contiennent la valeur 0.25 et sont tous de mme taille. A droite :
les intervalles de conance de niveau 90% pour
= 5 dans le modle exponentiel. On remarque que

sur 40 chantillons de taille 400 tirs au hasard, 4 fois lintervalle de conance calcul ne contient pas
la vraie valeur.
3.4.2 Modle exponentiel : intervalle de conance asymptotique
Considrons maintenant lexemple de modle exponentielle :
X
1
, . . . , X
n
iid
c(1/
),
]0, [.
Nous avons vu que dans cet exemple lEMV de
est la moyenne empirique X

n
. De plus,
en vertu de la loi des grands nombres X
n
est un estimateur consistant. On cherche donc
un intervalle de conance sous la forme [X
n

n
, X
n
+
n
]. Dans ce cas, il est impossible
dappliquer la stratgie utilise dans lexemple prcdent, car la variance de X
n
gale
2
/n
nest pas borne sur =]0, +[.
Supposons que la taille n de lchantillon est sufsamment grande. On peut alors utiliser
une approximation de la loi de X
n
par une loi normale, car en vertu du thorme de la limite
centrale (TLC),
n(X
n
)
L
n
^(0,
2
).
(Lutilisation du TLC est justie puisque E
[X
2
1
] = Var
[X
1
] + (E
[X
1
])
2
= 2
2
< .)
Cela implique que
n
_
X
n
1
_
L
n
^(0, 1)
et, par consquent,
lim
n
P
n
_
X
n
1
_
A
_
= P( A), A B
R
,
o ^(0, 1). On peut dmontrer que le plus petit ensemble A tel que P( A) = 1
pour ^(0, 1) est A = [q
N
1/2
, q
N
1/2
] o q
N
1/2
dsigne le quantile dordre 1 /2 de
FIGURE 3.5 La courbe de la densit de la loi normale centre rduite et les quantiles dordre 1 /2.
la loi normale centre rduite (voir la Figure 3.5). En choisissant A de cette faon, on obtient
lim
n
P
n
_
X
n
1
_
[q
N
1/2
, q
N
1/2
]
_
= 1 .
Pour conclure, il suft de remarquer que
n
_
X
n
1
_
[q
N
1/2
, q
N
1/2
]
X
n

_
1
q
N
1/2
n
, 1 +
q
N
1/2
n
_

_
X
n
1 + (q
N
1/2
/
n)
,
X
n
1 (q
N
1/2
/
n)
_
.
On en dduit que
I
n
=
_
X
n
1 + (q
N
1/2
/
n)
,
X
n
1 (q
N
1/2
/
n)
_
est un intervalle de conance de niveau asymptotique 1 pour
.
Exercice 3.2. Soit X
1
, . . . , X
n
un chantillon i.i.d. de loi c(1/
) avec
]0, [.
1. Prouver que
n
X
n
(X
n
)
L
n
^(0, 1).
2. En dduire que
I
n
=
_
X
n
_
1
q
N
1/2
n
_
, X
n
_
1 +
q
N
1/2
n
__
est in IC de niveau asymptotique pour
.
3. Dmontrer que, pour les grandes valeurs de n, les intervalles I
n
et

I
n
sont trs proches. Plus
prcisment, montrer que si
q
N
1/2
n
1/2 alors
[I
n

I
n
[ +[
I
n
I
n
[
[
I
n
[

2q
N
1/2
n
.
Exercice 3.3. Vrier que, dans le modle de Bernoulli X
1
, . . . , X
n
iid
B(
),
I
n
=
_
X
n
q
N
1/2
n
; X
n
+
q
N
1/2
n
_
est un intervalle de conance de niveau asymptotique 1 pour le paramtre
Section 3.5 Test dhypothses 47

3.5 Test dhypothses
On termine ce chapitre par un rappel trs succinct des tests dhypothses. On se place tou-
jours dans le contexte des modles observations i.i.d., o un chantillon X
1
, . . . , X
n
de loi
P
sur R est notre disposition, mais le paramtre
est inconnu. Le but des tests sta-

tistiques est de dsigner des procdures automatiques qui, pour un sous-ensemble (propre)
0
donn, permettent de dcider avec une probabilit derreur contrle si oui ou non
lhypothse
0
contient
est satisfaite.
3.5.1 Dnitions principales
On est donc intress par tester lhypothse
H
0
:

0
contre H
1
:

c
0
=
0
. (3.7)
On dit que H
0
est lhypothse nulle et H
1
est lhypothse alternative. La dcision quant
au rejet (ou pas) de lhypothse nulle doit bien-entendu tre prise au vu de lchantillon
observ. Par consquent, une procdure de test peut tre considre comme une partition
de lensemble R
n
(cest lensemble des valeurs prises par lchantillon) en deux classes. Si
lchantillon observ appartient la premire classe de la partition, on rejette lhypothse
nulle, sinon on laccepte. Ce raisonnement nous conduit la dnition suivante.
Dnition 3.9. On appelle rgion critique ou rgion de rejet, note R
n
, toute partie mesurable de
R
n
. La procdure de test associe la rgion critique R
n
consiste
- rejeter H
0
si (x
1
, . . . , x
n
) R
n
,
- ne pas rejeter H
0
si (x
1
, . . . , x
n
) , R
n
.
Lorsquon effectue un test en utilisant une procdure base sur la rgion critique R
n
, deux
types derreurs sont possibles. Lerreur de premire espce consiste rejeter tort lhypo-
thse H
0
. Par opposition, lerreur de deuxime espce consiste accepter tort lhypothse
H
0
. Comme la dcision est prise au vu dun chantillon alatoire, chacune de ces deux er-
reurs a une certaine probabilit (gnralement non nulle) dtre commise.
Dnition 3.10. Le risque de premire espce dune procdure de test R
n
, not (R
n
) est la plus
grande valeur atteinte par la probabilit de commettre lerreur de premire espce :
(R
n
) = sup
0
P
_
(X
1
, . . . , X
n
) R
n
_
.
De la mme faon, le risque de deuxime espce dune procdure de test R
n
, not (R
n
) est la plus
grande valeur atteinte par la probabilit de commettre lerreur de deuxime espce :
(R
n
) = sup
,
0
P
_
(X
1
, . . . , X
n
) , R
n
_
.
On appelle puissance dune procdure de test R
n
lapplication qui chaque valeur ,
0
associe la
probabilit de rejeter H
0
:
R
n
() = P
_
(X
1
, . . . , X
n
) R
n
_
.
En utilisant ce vocabulaire, une procdure de test R
n
serait idale si les risques de premire
et de deuxime espce taient tous les deux gaux zro : (R
n
) = (R
n
) = 0. Malheureu-
sement, sauf dans des cas trs spciques, il nexiste pas de procdure idale et on doit se
contenter par des procdures dont les risques sont contrls.
Dnition 3.11. Soit ]0, 1[ une valeur donne. Une procdure de test R
n
est dite de niveau si
son risque de premire espce ne dpasse pas le niveau :
(R
n
) .
On dit que R
n
est asymptotiquement de niveau si lim
n
(R
n
) .
Il existe en gnral un grand nombre de procdures de test de niveau . Lune des approches
les plus rpandues pour dpartager deux procdures de niveau est de donner la prfrence
celle dont la puissance est plus grande partout sur
c
0
. Dans la mme logique, un test de
niveau asymptotique est dit convergent (et considr comme un bon test) si pour tout
,
0
x, la puissance
R
n
() tend vers 1. Mme si lvaluation de la puissance est une
tape importante dans ltude dune procdure de test, nous avons fait le choix de ne pas
approfondir cette question dans ce cours.
3.5.2 Stratgie gnrale
Nous prsentons ici un schma gnrique qui comprend la plupart des stratgies usuelles
de construction des procdures de test pour le problme (3.7). Il sagit deffectuer les tapes
suivantes :
1. Dterminer un estimateur consistant, not

n
, du paramtre inconnu
.
2. Dterminer une fonction T : R R telle que
(a) pour tout
, la fonction u T(
+ u,
) est continue et ne sannule quen

0, cest--dire T(
+ u,
) = 0 si et seulement si u = 0.
(b) La loi de la variable alatoire T(

n
,
) ne dpend pas de
.
3. Dnir, pour deux valeurs relles a, b telles que a 0 b,
R
n
= (x
1
, . . . , x
n
) : T(

n
, ) , [a, b]
0
.
4. Choisir a et b de telle sorte que R
n
soit de niveau .
La justication de cette stratgie est simple. La fonction T joue le rle dune distance (signe)
entre lestimateur et les valeurs possibles du paramtre inconnu
. Comme

n
est consistant
et T est continue par rapport la premire variable, on a T(

n
,
) T(
) = 0. Par
consquent, si lhypothse nulle H
0
:

0
est vraie, il existe un lment de
0
tel que
T(

n
, ) se trouve dans un voisinage de 0. Cela nous conduit accepter H
0
si T(

n
, ) [a, b]
pour un lment
0
et de la rejetter dans le cas contraire. Do la dnition de la rgion
critique ci-dessus.
Remarque 3.3 (Loi symtrique). Dans la plupart des exemples que nous allons considrer par la
suite, la loi de la variable alatoire T(

n
,
) sera symtrique par rapport zro. On prendra alors

a = b et on pourra rcrire R
n
sous la forme
R
n
= (x
1
, . . . , x
n
) : min
0
[T(

n
, )[ > b.
Remarque 3.4 (Test asymptotique). Si on cherche un test de niveau asymptotique , la condition
2(b) peut tre remplace par la suivante : pour tout

0
, la variable alatoire T(

n
,
) converge
en loi vers une variable alatoire dont la loi ne dpend pas de
.
Section 3.5 Test dhypothses 49
3.5.3 P-value dun test
Lorsquon effectue un test statistique, on a souvent envie de quantier lvidence ou la per-
tinence de la decision dicte par le test. La notion qui nous permet datteindre cet objectif est
la p-value dun test. An de motiver la dnition rigoureuse de la p-value donne ci-dessus,
remarquons que la majorit des tests peuvent tre crit comme
R
n,
=
_
(x
1
, . . . , x
n
) : S
n
(x
1
, . . . , x
n
) C
_
o S
n
est une statistique de test et C
est un nombre rel appel seuil critique du test. Ici, on

a ajout un indice la rgion critique R
n
pour souligner le fait que le test est de niveau .
Considrons le cas o
sup
0
P
_
(X
1
, . . . , X
n
) R
n,
_
= .
Intuitivement, il est claire que la rgion R
n,
grossit lorsque augmente. Il existe donc une
valeur
pour laquelle R
n,
contient la ralisation observe x
1
, . . . , x
n
, alors que pour tous
les <
R
n,
ne contient pas la ralisation observe. Cette valeur
est appele p-value

du test R
n,
.
Dnition 3.12. On appelle p-value dun test R
n
= R
n,
, note
(R
n
), la plus petite valeur de
pour laquelle le test R
n
rejette lhypothse H
0
.
En pratique, si la p-value dun test est infrieure 5%, alors lhypothse H
0
sera rejet au
seuil de 5%. De plus, une p-value trs petite traduit lvidence de la dcision concernant le
rejet de H
0
.
3.5.4 Exemple 1 : test bilatral dans le modle de Bernoulli
On observe X
1
, . . . , X
n
iid
B(
) et on cherche tester lhypothse

H
0
:
=
0
contre lalternative bilatrale
H
1
:
,=
0
o
0
= 10%. En suivant le schma gnrique, on utilise comme estimateur de
la propor-
tion empirique X
n
=
1
n
n
i=1
X
i
. Daprs le thorme de la limite centrale, on a
n(X
n
)
L
n
^(0,
(1
))
ou encore

n(X
n
)
_
(1
)
L
n
^(0, 1).
Par consquent, on pose
T(X
n
, ) =
n(X
n
)
_
(1 )
et
R
n
= (x
1
, . . . , x
n
) : [T(X
n
,
0
)[ > b.
Pour que R
n
soit de niveau , il faut que lim
n
P
0
([T(X
n
,
0
)[ > b) . Or, la convergence
en loi tablie ci-dessus implique que
lim
n
P
0
([T(X
n
,
0
)[ > b) = P([[ > b), ^(0, 1).
Par consquent, on choisit b de telle sorte que la probabilit de lvnement [[ > b soit gale
. Cela nous conduit vers b = q
N
1/2
(voir la Figure 3.5).
Nous avons donc construit la procdure de test suivant :
- on rejette H
0
:
=
0
, avec
0
= 10%, si
n(X
n
0
)
_
0
(1
0
)
> q
N
1/2
[X
n
0.1[ >
0.3 q
N
1/2
n
.
- on ne rejette pas H
0
si lingalit ci-dessus nest pas satisfaite.
3.5.5 Exemple 2 : test unilatral dans le modle exponentiel
Plaons-nous maintenant dans la situation o on observe X
1
, . . . , X
n
iid
c(1/
) et on cherche
tester lhypothse
H
0
:

0
contre lalternative unilatrale
H
1
:
<
0
avec, par exemple,
0
= 2. Comme dans lexemple prcdent, on utilise lEMV de
qui
nest autre que la moyenne empirique

MV
n
= X
n
et qui vrie
n(X
n
)
L
n
^(0,
2
)
en vertu du thorme de la limite centrale. Posons
T(X
n
, ) =
n(X
n
)
et R
n
=
_
(x
1
, . . . , x
n
) : min
0
[T(X
n
, )[ > b
_
.
On vrie aisment que
min
0
[T(X
n
, )[ > b [
1
X
n
1[ > bn
1/2
,
0
X
n
<
0
(1 bn
1/2
).
On veut donc dterminer b de telle sorte que
lim
n
sup
0
P
_
X
n
<
0
(1 bn
1/2
)
_
= .
On peut vrier que la loi de

X
n
/
est absolument continue et ne dpend pas de
, ce qui
implique que
sup
0
P
_
X
n
<
0
(1 bn
1/2
)
_
= sup
0
F
X
n
/
0
(1 bn
1/2
)
_
= F
X
n
/
_
1 bn
1/2
_
= P
_
X
n
/
< 1 bn
1/2
_
= P
n(X
n
< b
_
n
P( < b) = P( > b) = 1 P( b)
o ^(0, 1). Pour que le test soit de niveau asymptotique , on choisit b = q
N
1
.
En conclusion, nous rejetons lhypothse H
0
:

0
si et seulement si X
n
<
0
_
1
q
N
1
n
_
.
Section 3.7 Exercices 51
3.6 Exercices
Exercice 1. On observe un chantillon X
1
, . . . , X
n
de loi double exponentielle translate. Cest-
-dire, X
1
, . . . , X
n
iid
P
R et P
a pour densit la fonction

p(
, x) =
1
2
e
[x
[
, x R.
1. Vrier que p(
, ) est bien une densit de probabilit et prouver que la mdiane

empirique de lchantillon X
1
, . . . , X
n
est lEMV de
.
2. Montrer que la moyenne empirique de lchantillon est un estimateur consistant
et asymptotiquement normal de
.
3. On suppose que n est grand et on admet le rsultat suivant : si X
1
, . . . , X
n
sont
i.i.d. de densit p dont la mdiane est
, alors la mdiane empirique

Me
n
de
lchantillon X
1
, . . . , X
n
vrie 2p(
n(
Me
n
)
L
n
^(0, 1).
Au vu de ce rsultat et de celui de la question 2, lequel des deux estimateurs

Me
n
et X
n
prfreriez-vous.
Exercice 2. Soient X
1
, . . . , X
n
des variables i.i.d. de loi exponentielle c(1/
) avec
> 0.
1. Montrer que la fonction T(x, ) = (x )/ vrie les conditions 2(a) et 2(b) (voir
paragraphe 3.5.2) avec

n
= X
n
.
2. En dduire un test dhypothse H
0
:
= 1 contre H
1
:
,= 1.
3.7.1 Modle statistique
1. Dnition : on appelle modle statistique le triplet (A
n
, F
n
, P
n,
, ), o A
n
est
lespace dtats et est lespace des paramtres. La problmatique statistique est alors
la suivante : ayant observ un lment x
(n)
de A
n
tir au hazard selon la loi P
n,
(avec
un
que lon ignore), caractriser la loi P

n,
.
2. Modle observations i.i.d. : x
(n)
est une ralisation dun vecteur alatoire X
(n)
=
(X
1
, . . . , X
n
) dont les coordonnes sont des variables alatoires indpendantes et iden-
tiquement distribues (i.i.d.).
3. Modle discret : un modle observations i.i.d. tel que X
1
prend ces valeurs dans un
ensemble ni ou dnombrable, not A = a
1
, a
2
, . . .. Un modle discret est caractris
par les valeurs p(; a
k
) = P
(X
1
= a
k
).
4. Modle densit : un modle observations i.i.d. tel que X
1
admet une densit par
rapport la mesure de Lebesgue, not p(; x). Cela quivaut P
(X
1
I) =
_
I
p(; x) dx
pour tout intervalle I et tout .
5. Echantillon : le vecteur alatoire dont on a observ une ralisation. Dans le modle
observations i.i.d., cest simplement une suite X
1
, . . . , X
n
de variables alatoires i.i.d.
de loi P
.
6. Statistique : toute variable alatoire de forme Y = g(X
1
, . . . , X
n
) o g est une fonction
mesurable.
7. Vraisemblance : pour un modle observations i.i.d., quil soit discret ou densit, la
fonction de vraisemblance est donne par la formule :
p
n
(; x
1
, . . . , x
n
) =
n
i=1
p(; x
i
).
Pour un modle discret, p(; x
i
) est la probabilit de la valeur x
i
si la vraie valeur du
paramtre est . Pour un modle densit, p(; x
i
) est la valeur de la densit, lorsque
la vraie valeur du paramtre est , value au point x
i
.
8. Log-vraisemblance : tant donn les observations X
1
, . . . , X
n
, la log-vraisemblance est :
l
n
() = log p
n
(; X
1
, . . . , X
n
) =
n
i=1
log p(; X
i
).
Cette fonction peut prendre la valeur si largument du log sannule.
3.7.2 Estimation
Pour un chantillon X
1
, . . . , X
n
donn, on appelle estimateur toute statistique des X
1
, . . . , X
n
:
n
= g
n
(X
1
, . . . , X
n
).
1. Estimateur sans biais : E
n
] = pour tout .
2. Estimateur convergent (consistant) :

n
P
si X
1
, . . . , X
n
iid
P
.
3. Estimateur asymptotiquement normal (de vitesse 1/
n et de variance limite
2
) :
n(

)
loi
n
^(0,
2
).
4. Estimateur du maximumde vraisemblance : la valeur du paramtre qui maximise la
vraisemblance p
n
(; X
1
, . . . , X
n
) ou, de faon quivalente, la log-vraisemblance l
n
(),
est appele estimateur du maximum de vraisemblance et note

MV
n
.
3.7.3 Intervalle de conance
1. Intervalle de conance de niveau : on dit que lintervalle I qui dpend de lchan-
tillon X
1
, . . . , X
n
est un intervalle de conance de niveau pour le paramtre , si
P
I) 1 . Si cette ingalit est stricte, on parle dun intervalle de conance

par excs.
2. Intervalle de conance de niveau asymptotique : on dit que lintervalle I
n
qui d-
pend de lchantillon X
1
, . . . , X
n
est un intervalle de conance de niveau asymptotique
pour le paramtre , si
2
lim
n
P
I
n
) 1 .
3. Exemple gnrique : si

n
est un estimateur consistant de tel que
n(

)
loi
n
^(0,
2
) et lapplication
2
est continue, alors

I
n
=
_
n
q
N
1/2
;

n
+

n
q
N
1/2
_
est un intervalle de conance de niveau asymptotique pour
. Ici, q
N
1/2
dsigne le
quantile dordre 1 /2 de la loi normale centre rduite : ^(0, 1).
2. La limite ici est en ralit une limit infrieure
3.7.4 Test dhypothses
On cherche tester lhypothse nulle H
0
:

0
contre lalternative H
1
:

1
.
1. On dit que lhypothse H
0
est simple, si
0
ne contient quun seul lment :
0
=
0
.
Une hypothse qui nest pas simple est dite composite.
2. Rgion critique ou rgion de rejet : on appelle rgion critique dun test lensemble R
des valeurs possibles de lchantillon pour lesquelles lhypothse nulle est rejete.
3. Erreur de premire espce : le fait de rejeter tort lhypothse nulle.
4. Erreur de deuxime espce : le fait de ne pas rejeter lhypothse H
0
, alors quil fallait
le faire.
5. Risque de premire espce : la probabilit de lerreur de premire espce :
sup
0
P
_
(X
1
, . . . , X
n
) R
_
.
6. Risque de deuxime espce : la probabilit de lerreur de deuxime espce :
sup
1
P
_
(X
1
, . . . , X
n
) , R
_
.
7. Test de niveau : le risque de premire espce ne dpasse pas le niveau .
8. Test de niveau asymptotique : la limite (infrieure) lorsque n du risque de
premire espce ne dpasse pas .
9. Puissance dun test : la fonction
_
(X
1
, . . . , X
n
) R
_
,

1
.
Entre deux tests de niveau , celui dont la puissance est plus grande est prfrable.
10. P-value dun test : soit R
la rgion critique dun test (de niveau ). Etant donn les ob-
servations x
1
, . . . , x
n
, la p-value du test R
est la plus grande valeur de pour laquelle

lhypothse H
0
nest pas rejete : max : (x
1
, . . . , x
n
) , R
.
11. Interprtation : une p-value leve suggre que lhypothse nulle ne doit pas tre reje-
te. Typiquement, si la p-value est > 5% on ne rejette pas lhypothse nulle.
4
Rgression linaire multiple
4.1 Gnralits
4.1.1 Plans dexpriences
Le statisticien planie une exprience statistique en fonction dun objectif qui est souvent
ltude de leffet de certains facteurs de variabilit dun phnomne. Ces facteurs sont pr-
sents sous plusieurs modalits.
La technique de bon sens lorsque plusieurs facteurs sont tudier est de ne modier quun
facteur la fois. Par exemple, si on dispose de 3 facteurs prsents chacun sous p modali-
ts, cette technique conduirait xer 2 facteurs puis tudier dans chacun des cas leffet du
troisime facteur, soit 3p
2
expriences. Dans beaucoup de cas le cot, lefcacit, ou les pos-
sibilits effectives dexprimentation, recommandent de minimiser le nombre dexpriences
tout en conservant un cadre exprimental rigoureux. En rpondant ces critres, la mthode
des plans dexprience initie au dbut du XX
me
sicle par Ronald A.Fisher sest impose
dans le cadre industriel pour tester des mdicaments, des varits de plantes, des procds
de fabrication, etc...
Lobjectif de la construction de plans dexprience est de mettre en place un dispositif ex-
primental permettant daboutir une interprtation statistique des rsultats notamment
laide de tests dhypothses. Pour cela il faut construire un modle statistique qui distinguera
parmi les facteurs de variabilit les facteurs contrls et les facteurs alatoires.
4.1.2 Le modle gnral
Ce type dexprience statistique peut tre dcrit avec le modle gnral suivant :
Y = f () + ,
o
Y = (Y
i
)
i=1,...,n
dsigne les observations effectues.
= (
1
, . . . ,
p
) est un vecteur de paramtres inconnu caractrisant les facteurs contrls
que lon souhaite tudier laide de ces observations.
56 Rgression linaire multiple Chapitre 4
= (
i
)
i=1,...,n
sont des variables alatoires indpendantes et centres, reprsentant lerreur
exprimentale. Le modle est gaussien si est un vecteur gaussien centr.
f () est une application connue qui xe le modle. Ce modle est linaire si f () est une
application X o X est une matrice. Le modle scrit alors matriciellement :
Y = X + .
Dans la suite nous considrerons des modles linaires gaussiens. Ces deux hypothses (li-
narit et caractre gaussien de lerreur) doivent tre valides. Pour les vrier on peut, soit
utiliser la connaissance a priori que lon a du modle, soit construire des tests.
Dans certains cas, lorsquil y a plusieurs observations, le caractre gaussien peut tre une
consquence du thorme de la limite centrale. Enn, dans de nombreux cas, on peut rendre
le modle gaussien et linaire en effectuant des transformations sur les observations.
4.1.3 Exemples
Dans ce paragraphe nous proposons des exemples illustrant la problmatique prcdente.
Dans les sections suivantes, nous donnerons les lments permettant de rsoudre ce type de
problmes.
Exemple 4.1. Le tableau ci-dessous reprsente des mesures de hauteurs darbres en mtres effectues
dans 3 forts distinctes. On rassemble dans un mme tableau les mesures effectues dans les 3 forts
dans le but de les comparer.
Foret 1 Foret 2 Foret 3
n
1
= 13 arbres n
2
= 14 n
3
= 10
23.4 22.5 18.9
24.4 22.9 21.1
24.6 23.7 21.2
24.9 24.0 22.1
25.0 24.4 22.5
26.2 24.5 23.5
26.3 25.3 24.5
26.8 26.0 24.6
26.8 26.2 26.2
26.9 26.4 26.7
27.0 26.7
27.6 26.9
27.7 27.4
28.5
TABLE 4.1 Hauteurs darbres dans 3 forts
Le facteur tudi est ici linuence de la fort sur la hauteur de ces arbres. La variabilit de la hauteur
due ici au tirage dun chantillon alatoire dans chaque fort se dcompose donc naturellement en
une partie controle, le facteur (fort), et une partie alatoire, la variabilit intrinsque la pousse des
arbres due au terrain, la lumire, la prsence ou non dun autre arbre proximit...
On peut supposer que les hauteurs des diffrents arbres sont indpendantes (ce qui exige que lon ne
mesure pas des arbres trop rapprochs les uns des autres), et que, pour la fort numro k, la mesure
dun arbre suit une loi gaussienne de moyenne m
k
et de variance
2
k
; on peut alors comparer les 3
Section 4.1 Gnralits 57
chantillons 2 2. Mais si la variabilit des hauteurs des arbres peut tre considre comme identique
dune fort lautre (
2
1
=
2
2
=
2
3
=
2
) on observe trois chantillons gaussiens de mme variance
2
et de moyennes diffrentes qui reprsentent leffet de chaque fort (les modalits du facteur fort)
sur la pousse des arbres. Lhypothse dgalit des variances est appele homoscdasticit. Avec ces
hypothses on peut alors crire :
Y
i,j
= m
i
+
i,j
pour la j-ime mesure de la fort i, j = 1, . . . , n
i
, i = 1, 2, 3,
o ^(0,
2
). Ceci scrit avec une notation matricielle :
Y = X + ,
o est un vecteur alatoire gaussien, et
Y = (Y
1,1
, . . . , Y
1,n
1
, Y
2,1
, . . . , Y
2,n
2
, Y
3,1
, . . . , Y
3,n
3
)
t
,
X =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 0 0
.
.
.
.
.
.
.
.
.
1 0 0

0 1 0
.
.
.
.
.
.
.
.
.
0 1 0

0 0 1
.
.
.
.
.
.
.
.
.
0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
, =
_
_
m
1
m
2
m
3
_
_
Ce problme est un problme danalyse de la variance un facteur. Pour rpondre la question
existe-t-il un effet fort, on construira un test statistique dont lhypothse nulle est :
H
0
: m
1
= m
2
= m
3
.
Exemple 4.2. Le tableau suivant donne le nombre de jours de pluie et la hauteur de pluie en mm,
observs pendant toute lanne Paris de 1956 1995.
Une reprsentation sur un graphique (g. 4.1) des donnes avec en abscisse le nombre de jours de
pluie et en ordonne la hauteur de pluie permet de constater que lensemble des points forme un nuage
allong et que la quantit de pluie augmente lorsque le nombre de jours de pluie augmente.
Le facteur hauteur de pluie est alors un facteur expliquer par le facteur explicatif contrl nombre
de jours de pluie.
La question que lon se pose est de savoir si ces deux quantits sont lies par une relation afne, de
calculer les paramtres de cette relation et davoir une indication sur le caractre prdictif de ce modle
(autrement dit, peut-on dduire de faon satisfaisante la hauteur de pluie partir du nombre de jours
de pluie ?).
Le modle statistique que lon propose est le suivant :
Y
i
= + X
i
+
i
o :
Annes 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965
Jours 154 161 193 131 198 152 159 159 146 196
Hauteur 545 536 783 453 739 541 528 559 521 880
Annes 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975
Jours 192 161 176 173 199 141 170 156 198 164
Hauteur 834 592 634 618 631 508 740 576 668 658
Annes 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Jours 135 179 171 172 170 197 173 177 177 163
Hauteur 417 717 743 729 690 746 700 623 745 501
Annes 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995
Jours 176 180 167 140 149 140 154 155 192 162
Hauteur 611 707 734 573 501 472 645 663 699 670
TABLE 4.2 Jour et quantit de pluie par annes
130 140 150 160 170 180 190 200
400
450
500
550
600
650
700
750
800
850
900
Nombre de jours
H
a
u
t
e
u
r
d
e
p
l
u
i
e

FIGURE 4.1 Reprsentation des donnes
Y = (Y
i
)
i=1,...,n
dsigne la hauteur de pluie.
(X
i
)
i=1,...,n
dsigne le nombre de jours de pluie
la droite dquation
y = x +
est appele droite de rgression ; et sont estimer partir des observations.
= (
i
)
i=1,...,n
reprsente les carts alatoires entre les observations et la droite. On supposera que
cest une suite de variables alatoires indpendantes de loi ^(0,
2
).
Le modle peut alors scrire :
Y = X +
Section 4.2 Lois associes aux chantillons gaussiens 59
en notant :
X =
_
_
_
_
_
1 X
1
1 X
2
.
.
.
.
.
.
1 X
n
_
_
_
_
_
, et =
_
_
Cest un modle de rgression linaire simple qui sera tudi en 4.4.
4.2 Lois associes aux chantillons gaussiens
Rappelons pour commencer les dnitions des lois associes aux chantillons gaussiens qui
nous serons utiles dans la suite.
Dnition 4.1.
Si (X
1
, . . . , X
n
) est un chantillon de loi normale ^(0, 1), alors la loi de la v.a.
n
i=1
X
2
i
est la loi
du chi-deux n degrs de libert, note
2
(n).
Si X ^(0, 1), Y
2
(n) et que X et Y sont indpendantes, alors
X
Y/n
t(n), loi de Student
n degrs de libert.
Si X
2
(n), Y
2
(m) et que X et Y sont indpendantes, alors
X/n
Y/m
T(n, m), loi de Fisher
(ou de Fisher-Snedecor) n et m degrs de libert.
Enn, on utilise souvent la convention pratique suivante : si une v.a. X a pour loi F, on note
aF la loi de aX. Ainsi, on notera
2
2
(n) la loi de
n
i=1
X
2
i
dans le cas o (X
1
, . . . , X
n
) forment
un n-chantillon de la loi ^(0,
2
).
4.2.1 Thorme de Cochran
Cest loutil fondamental pour ltude des chantillons gaussiens et du modle linaire gaus-
sien (la notation [[ [[ dsigne la norme euclidienne dans R
n
).
Thorme 4.1. Soit Y = (Y
1
, . . . , Y
n
) un n-chantillon de ^(0, 1), et E
1
, . . . , E
p
une suite de p
sous-espaces deux--deux orthogonaux de R
n
, avec dim(E
j
) = d
j
, j = 1, . . . , p. Alors on a :
(i) Les composantes de Y dans toute base orthonormale de R
n
forment encore un n-chantillon de
^(0, 1).
(ii) Les vecteurs alatoires Y
E
1
, . . . , Y
E
p
, qui sont les projections de Y sur E
1
, . . . , E
p
, sont ind-
pendants.
(iii) Les variables alatoires [[Y
E
1
[[, . . . , [[Y
E
p
[[ sont indpendantes, et
[[Y
E
j
[[
2

2
(d
j
), j = 1, . . . , p.
Une formulation quivalente consiste dire (par exemple avec p = 2), que si P
1
et P
2
sont
deux projecteurs orthogonaux de R
n
sur deux sous-espaces orthogonaux E
1
et E
2
de dimen-
sions d
1
et d
2
, alors P
1
Y = Y
E
1
et P
2
Y = Y
E
2
sont indpendants, et [[P
1
Y[[
2
et [[P
2
Y[[
2
sont
indpendants et ont pour lois respectivement
2
(d
1
) et
2
(d
2
).
4.2.2 Statistiques fondamentales
Plaons-nous donc dans le cas o (Y
1
, . . . , Y
n
) est un n-chantillon de la loi ^(,
2
). Les
statistiques utiles pour les problmes de test ou dintervalle de conance sur les paramtres
et
2
sont fonction de la moyenne empirique, que nous notons
Y =
1
n
n
i=1
Y
i
,
et de la variance empirique, dont nous choisissons ici la version sans biais (voir 4.3.1) :
S
2
=
1
n 1
n
i=1
(Y
i

Y)
2
=
n
n 1
_
1
n
n
i=1
Y
2
i
(

Y)
2
_
.
Utilisons le thorme 4.1 dans le cas o p = 2 et o on projette Y sur le sous-espace E de
dimension 1 engendr par le vecteur (norm) de R
n
, e
1
=
1
n
1
n
(o on note 1
n
le vecteur de
dimension n ayant toute ses coordonnes gales 1). On obtient Y
E
=

n

Y
1
n
1
n
. La norme
de la projection de Y sur lorthogonal de E (de dimension n 1) est
[[Y Y
E
[[
2
=
n
i=1
(Y
i

Y)
2
qui suit la loi
2
2
(n 1) (cest le point (iii) du thorme de Cochran ceci prs quil faut
tenir compte de la variance
2
). On en dduit les rsultats suivants, utiles pour le statisticien :
Proposition 4.1. Soit Y = (Y
1
, . . . , Y
n
) un n-chantillon de ^(,
2
). Alors on a :
(i) Les v.a.

Y et S
2
sont indpendantes.
(ii) (n 1)S
2

2
2
(n 1).
(iii)
n(

Y )
S
t(n 1).
Remarquons que la v.a.
n
i=1
(Y
i
)
2
suit elle-mme la loi
2
2
(n) mais, si est inconnu, son
calcul nest pas accessible. Le point (ii) exprime intuitivement le fait que lon perd un degr
de libert en raison du remplacement de , inconnu, par son estimateur

Y. De mme la v.a.
n(

Y )/ ^(0, 1), autrement dit le point (iii) signie que la loi de Student remplace
la loi normale comme loi de la moyenne empirique normalise dans le cas o est inconnu
et doit tre remplac par son estimateur S.
4.3 Le modle gaussien
Nous illustrons dans un premier temps les concepts du modle paramtrique sur le modle
gaussien. Ce modle est trs (trop?) couramment utilis pour analyser des donnes conti-
nues. Cet usage frquent est d la simplicit des calculs et la gnralit du TCL (sous des
hypothses trs faibles, la somme de nombreux petits bruits suit asymptotiquement une loi
gaussienne).
4.3.1 Un exemple de donnes relles loi gaussienne
On a enregistr le taux dalcool dans le sang (en dg/l) de n sujets : voici le tableau des
observations, avec n = 30 (extrait de louvrage de D. Schwartz, Mthodes statistiques lusage
des mdecins et des biologistes, Flammarion).
Section 4.3 Le modle gaussien 61
10
15
20
25
30
35
1 3 2 1 0 1 2 3
5
10
15
20
25
30
35
40
Standard Normal Quantiles
Q
u
a
n
t
i
l
e
s
o
f
I
n
p
u
t
S
a
m
p
l
e
0 10 20 30 40
0
1
2
3
4
5
6
7
8
9
10
FIGURE 4.2 Le boxplot, lhistogramme et le QQ-plot des donnes du taux dalcool.
27 , 26 , 26 , 29 , 10 , 28 , 26 , 23 , 14 , 37 , 16 , 18 , 26 , 27 , 24
19 , 11 , 19 , 16 , 18 , 27 , 10 , 37 , 24 , 18 , 26 , 23 , 26 , 19 , 37
On notera (x
1
, . . . , x
30
) cette suite de rsultats observe. Les valeurs schelonnant entre 10
et 37, la prcision tant lunit, il serait maladroit de modliser ceci comme les ralisations
de v.a. discrtes : le nombre de valeurs distinctes envisageables devrait tre grand, de lordre
de la quarantaine, car rien ninterdit de penser quauraient pu tre observes des valeurs en
dehors de lintervalle ici prsent. Il est plus raisonnable de considrer quil y a, sous-jacent
ces observations, un phnomne valeurs relles, dont les observations recueillies sont une
discrtisation, larrondi se faisant la prcision du dcigramme par litre.
Les modles les plus simples que lon puisse envisager ici sont des modles dchantillonna-
ge : on admet que lon a observ les ralisations de n v.a. Y
i
indpendantes et identiquement
distribues.
Pour voir si un tel modle est appropri, il faut dabord se demander comment a t constitu
cet chantillon.
Le problme essentiel est, comme dans le premier paragraphe, celui de la source de varia-
bilit (cause de lalatoire). Celle-ci a en fait ici plusieurs origines simultanes : variation
dindividu individu et, pour chaque individu, imprcision de lappareil de mesure et effet
de lerreur darrondi.
Il est assez vident que, quelles que soient les conditions de recueil, elles ont d assurer
lindpendance des n v.a. Y
i
dont les observations rsultent. Le problme de lidentit de
leurs lois et du choix de la famille laquelle serait suppose appartenir cette loi commune
est plus dlicat.
Nous lavons dit, les praticiens utilisent souvent dans un tel contexte une modlisation avec
pour loi commune une loi normale, de moyenne et variance
2
(non nulle) inconnues,
^(,
2
). Le paramtre est donc bi-dimensionnel = (,
2
) R R
+
. La probabilit
^(,
2
) a pour support R tout entier, alors quici (comme presque toujours dans la pra-
tique) les donnes sont fondamentalement bornes ; cet usage suppose donc que, pour la
zone de valeurs de et envisageables, la probabilit du complmentaire de lintervalle des
valeurs effectivement atteignables par les taux dalcool soit ngligeable.
4.3.2 tude du modle
On considre donc un chantillon (Y
1
, . . . , Y
n
) de v.a. indpendantes et de mme loi gaus-
sienne : T = ^(,
2
), = (,
2
) R]0, [. La densit de la loi ^(,
2
) est
p(y
1
; ,
2
) =
1
2
2
e
(y
1
)
2
/2
2
.
La vraisemblance du modle est pour y = (y
1
, . . . , y
n
) R
n
,
p
n
(y; ,
2
) = (2
2
)
n/2
e
n
i=1
(y
i
)
2
/2
2
= (2
2
)
n/2
e
n
( yn)
2
+vn
2
2
,
o y
n
=
1
n
n
i=1
y
i
et v
n
=
1
n
n
i=1
(y
i
y
n
)
2
. Traditionnellement, on considre
S
2
n
=
1
n 1
n
i=1
(Y
i

Y
n
)
2
=
1
n 1
n
i=1
Y
2
i

n
n 1
(

Y
n
)
2
,
au lieu de V
n
=
1
n
n
i=1
(Y
i

Y
n
)
2
(car S
2
n
est un estimateur sans biais de
2
), cf la proposition
4.1. La loi de la statistique (

Y
n
, S
2
n
) est donne dans la proposition 4.1.
4.3.3 Estimation
Pour calculer lestimateur du maximum de vraisemblance de (,
2
), on considre la log-
vraisemblance
n
(y; ,
2
) =
n
2
log(2)
n
2
log(
2
) n
( y
n
)
2
+ v
n
2
2
.
En calculant les drives partielles, il vient
n
(y; ,
2
) = n
y
n
2
,
et
n
(y; ,
2
) =
n
2
2
+ n
( y
n
)
2
+ v
n
2
4
.
En particulier, les drives de la log-vraisemblance sannulent pour = y
n
et
2
= v
n
. En-
suite, on vrie sans difcult que la log-vraisemblance atteint son maximum pour (,
2
) =
( y
n
, v
n
). On en dduit donc que lEMV de = (,
2
) est (

Y
n
, V
n
). On dduit de la propo-
sition 4.1 que E
[

Y
n
] = et que E
[S
2
n
] =
2
. (En revanche V
n
est un estimateur biais de
2
, do le choix traditionnel de S
2
n
). Ainsi lestimateur

n
= (

Y
n
, S
2
n
) est un estimateur sans
biais de .
Par la loi forte des grands nombre

Y
n
et S
2
n
sont des estimateurs convergents. Ainsi

n
est un
estimateur convergent de . (On peut galement vrier quil est asymptotiquement normal,
mais cela ne nous sera pas utile par la suite).
Section 4.3 Le modle gaussien 63
4.3.4 Intervalle de conance et tests pour la moyenne
On dduit de la proposition 4.1, que la loi de

n(

Y
n
)/S
n
est la loi t(n 1). La loi de
Student est symtrique, ainsi si q
1/2
(t
n1
) est le quantile dordre 1 /2 de la loi t(n
1), alors q
1/2
(t
n1
) est le quantile dordre /2. En particulier, une v.a. de loi t(n 1)
appartient [q
1/2
(t
n1
), q
1/2
(t
n1
)] avec probabilit 1 . Comme
n(

Y
n
)
S
n
[q
1/2
(t
n1
), q
1/2
(t
n1
)]
_
Y
n
q
1/2
(t
n1
)
S
n
n
_
,
on en dduit que [

Y
n
q
1/2
(t
n1
)
S
n
n
] est un intervalle de conance de niveau 1 pour
.
On remarque que la longueur de lintervalle de conance
_
y
n
q
1/2
(t
n1
)
s
n
, o s
2
n
=
1
n1
n
i=1
(y
i
y
n
)
2
tend bien vers 0 quand la taille de lchantillon tend vers linni ( y
n
et s
n
x). Il est aussi dautant plus long que s
n
est plus lev (ceci est naturel : la uctuation des
donnes contrarie la conance que lon a en elles, conance qui se traduirait par un intervalle
de conance assez court).
Exercice 4.1. Si la variance est connue et gale
2
0
, cest--dire si lon considre le modle T =
^(,
2
0
), R, vrier que lintervalle [

Y
n
q
N
1/2
n
] (o q
N
1/2
est le quantile dordre
1 /2 de la loi ^(0, 1)) est alors un intervalle de conance de niveau 1 pour .
On considre les hypothses H
0
: =
0
et H
1
: ,=
0
, o
0
est donn. (On parle
dhypothse bilatrale, par opposition lexercice 4.2, o parle dhypothse unilatrale). Il
est naturel de comparer la moyenne empirique avec moyenne propose,
0
. Toutefois, sous
H
0
, la loi de

Y
n
0
est la loi ^(0,
2
/n), qui dpend du paramtre inconnu
2
. On considre
donc la statistique de test
n
=

n

Y
n
0
S
n
.
La loi de la statistique de test sous H
0
est la loi de Student de paramtre n 1. La loi de
n
sous H
1
est la loi de Student dcentre, mais nous ne lexpliciterons pas ici. On remarque
que sous H
1
,

Y
n

0
converge p.s. vers
0
,= 0 quand n . On a toujours que S
n
converge p.s. vers
2
. On en dduit donc que sous H
1
, p.s.
lim
n
= +.
Il est donc naturel de considrer la rgion critique
W
n
= (y
1
, . . . , y
n
);

obs
n
a, (4.1)
o
obs
n
=

n
y
n
0
s
n
, avec y
n
=
1
n
n
i=1
y
i
et s
n
=
1
n1
n
i=1
(y
i
y
n
)
2
. Daprs le comportement
de la statistique de test sous H
1
, on en dduit que le test W
n
est convergent.
Comme sous H
0
, la loi de
n
est la loi de Student de paramtre n 1, on en dduit que le
niveau du test W
n
est
sup
H
0
P
(W
n
) = P(
a),
o Z est de loi t(n 1). Pour obtenir un test de niveau , on choisit a = q
1/2
(t
n1
), le
quantile dordre 1 /2 de loi de Student de paramtre n 1.
La p-valeur du test est donne par
p-valeur = P(
[
obs
n
[), (4.2)
o
obs
n
est la statistique de test value en les observations.
Remarque 4.1. On peut tudier la rponse du test en fonction de n, y
n
et s
n
.
n et s
n
xs, si y
n
sloigne de
0
, alors
augmente et on a tendance rejeter le test.

n et y
n
xs, si s
n
diminue, alors

augmente et on a tendance rejeter le test. Cela traduit le

fait que si s
n
est petit alors la variabilit des donnes est petite et y
n
donne une estimation prcise
du vrai paramtre . Des petits carts entre y
n
et
0
deviennent signicatifs.
y
n
et s
n
xs, si n augmente, alors

augmente et on a tendance rejeter le test. En effet, plus

la taille de lchantillon est grande est plus y
n
donne une estimation prcise du vrai paramtre .
Exercice 4.2. crire le test pour les hypothses unilatrales H
0
:
0
et H
1
: >
0
.
Exercice 4.3. Tester les hypothses H
0
: =
0
et H
1
: ,=
0
, o
0
est donn dans le modle
gaussien variance connue : T = ^(,
2
0
), R.
4.3.5 Intervalles de conance et tests pour la variance
Le raisonnement est identique dans le cas de la variance : la construction dintervalles de
conance ou de tests se fait partir de la connaissance de la loi, sous lhypothse nulle ou
la frontire de celle-ci, de lestimateur du paramtre dintrt.
Intervalles de conance pour la variance
Lestimateur (sans biais) de
2
est la variance empirique sans biais S
2
, et le point (ii) de la
proposition 4.1 permet dcrire par exemple que, si
2
n,1
est le quantile dordre (1 ) de
la loi
2
(n),
P
_
q
/2
(
2
n1
) <
(n 1)S
2
2
< q
1/2
(
2
n1
)
_
= 1 ,
do lon dduit un intervalle de conance pour la variance (bilatral dans cet exemple) de
niveau de conance (1 ) :
_
(n 1)S
2
q
1/2
(
2
n1
)
;
(n 1)S
2
q
/2
(
2
n1
)
_
.
Tests pour la variance
On peut aussi, en suivant la dmarche introduite au chapitre 3, construire des tests pour des
hypothses relatives au paramtre
2
. Considrons par exemple le test de
H
0
:
2

2
0
contre H
1
:
2
>
2
0
.
la frontire de H
0
, i.e. lorsque la valeur du paramtre est
2
0
, la statistique
Z =
(n 1)S
2
2
0

2
(n 1).
Section 4.4 Rgression linaire multiple 65
Cette statistique aura tendance crotre avec sous lhypothse alternative (et de plus
S
2

2
p.s. en vertu de la loi forte des grands nombres), do le choix dune rgion de rejet
de la forme ]c, +[, o c est calibr (le plus petit possible) de sorte que P
0
(Z > c) = . Ceci
amne donc choisir pour c le quantile dordre (1 ) de la loi
2
(n 1), autrement dit
conclure
Rejet de H
0
si
(n 1)S
2
2
0
> q
1
(
2
n1
).
Le lecteur pourra construire les tests relatifs aux situations suivantes :
H
0
:
2

2
0
contre H
1
:
2
<
2
0
,
H
0
:
2
=
2
0
contre H
1
:
2
,=
2
0
.
4.3.6 Analyse des donnes relles
On choisit le modle T = ^(,
2
), R, > 0. On obtient lestimation de (,
2
)
laide de ( y
n
, s
2
n
) :
y
n
=
1
n
n
i=1
y
i
= 22.9 et s
2
n
=
1
n 1
n
i=1
(y
i
y
n
)
2
= 53.0.
Lintervalle de conance de niveau 95% de est donn par
[ y
n
q
1/2
(t
n1
)
s
n
n
] = [20.2, 25.6].
La p-valeur associe au test de rgion critique (4.1), dnie par (4.2), est pour
0
= 20,
p-valeur = P(

obs
n
) = 0.037, o
n
=

n
y
n
0
s
n
= 2.18.
En particulier on rejette H
0
: =
0
au niveau de 5%.
4.4 Rgression linaire multiple
Rappel de la problmatique
La problmatique a t introduite sur un exemple en 4.1. Reprenons-la avec une autre si-
tuation. Il sagit ici de modliser un phnomne alatoire observ par une combinaison li-
naire ou afne de variables explicatives, dont les valeurs sont dterministes et connues pour
chaque exprience (ou observation) ralise. Par exemple, si lon souhaite expliquer la du-
re dune certaine maladie (en jours) aprs ladmission de patients lhpital, on peut penser
que cette dure est lie certaines variables quantitatives (i.e., valeur numriques). On re-
lvera par exemple les nombres de bactries de certains types prsentes dans lorganisme du
patient son arrive, ainsi que des indicateurs de son tat gnral (poids, temprature,. . . ).
Si lon dispose de n observations de ces variables explicatives ainsi que de la variable ex-
pliquer (lobservation de la variable expliquer est donc faite a posteriori dans cet exemple,
lorsque les n patients ont quitt lhopital) on peut tudier la pertinence de cette modlisation
linaire. Il est possible de tester la signicativit du modle, et celle de certaines variables
explicatives. Il est possible aussi destimer les liens entre variables explicatives et variable
expliquer et ventuellement de faire ensuite de la prdiction, cest dire ici destimer la dure
dhospitalisation dun nouveau patient partir de la connaissance des valeurs des variables
explicatives dans son cas.
4.4.1 Cadre gnral du modle linaire gaussien
Lintroduction gnrale et lexemple prcdent permettent de dgager le cadre formel ci-
dessous. On effectue n observations Y = (Y
1
, . . . , Y
n
), et chaque observation est laddition
dun effet moyen et dun bruit. Si on considre le vecteur des observations Y R
n
, le
modle scrit
Y = + ,
et on fait les hypothses (de modle) suivantes :
M1 leffet moyen est inconnu et non observable, mais E, sous espace vectoriel de R
n
,
x et de dimension k ;
M2 le vecteur alatoire (non observable) a pour loi ^(0,
2
I
n
) et le paramtre
2
> 0 est
inconnu.
Estimation
Ayant observ Y, le point de E le plus proche de Y est sa projection sur E, Y
E
= +
E
,
qui est lestimateur intuitif de . La projection sur lorthogonal de E, Y Y
E
=
E
ne
contient pas dinformation sur (elle est centre) : cest un indicateur de la dispersion des
observations, quil est naturel dutiliser pour estimer
2
. On prcise ceci dans le rsultat
suivant, consquence directe du thorme 4.1.
Proposition 4.2. On observe Y = + avec les hypothses M1 et M2. Alors on a :
(i) Y
E
est un estimateur sans biais de .
(ii) [[Y Y
E
[[
2
/(n k) est un estimateur sans biais de
2
.
(iii) Y
E
et Y Y
E
sont indpendants.
(iv) [[Y
E
[[
2

2
2
(k) et [[Y Y
E
[[
2

2
2
(n k).
On peut montrer galement que, pour tout vecteur u R
n
, le produit scalaire u, Y
E
) est
lestimateur de u, ) sans biais de variance minimum.
4.4.2 Dnition du modle
On observe un phnomne alatoire Y et lon suppose ce phnomne inuenc par p va-
riables explicatives ou rgresseurs, R
1
, . . . , R
p
. Parfois, Y est aussi appele la variable dpen-
dante, et R
1
, . . . , R
p
les variables indpendantes.
On ralise n observations, autrement dit Y = (Y
1
, . . . , Y
n
), et on note R
1
i
, . . . , R
p
i
les condi-
tions exprimentales pour la i-me observation Y
i
, cest dire les valeurs (dterministes) des
p rgresseurs lors de lexprience i. On fait comme on la dit lhypothse dune relation li-
naire ou afne entre les rgresseurs et la variable expliquer Y et, comme en analyse de la
variance, on suppose observer la somme de leffet de ces rgresseurs et dun ensemble de
perturbations non observables, que lon rsume par un bruit gaussien centr. Ce modle
scrit ainsi
Y
i
=
p
j=1
j
R
j
i
+
i
, ou bien Y
i
= +
p
j=1
j
R
j
i
+
i
, i = 1, . . . , n,
o = (
1
, . . . ,
n
) est un n-chantillon de la loi ^(0,
2
) (lhypothse dhomoscdasticit est
prsente ici aussi, puisque
2
ne dpend pas de i). Les paramtres inconnus estimer sont
(,
1
, . . . ,
p
,
2
) dans le cas afne (on retire dans le cas linaire sans constante).
Notation vectorielle
Considrons par exemple le cas afne, et posons
X =
_
_
1 R
1
1
R
p
1
.
.
.
.
.
.
.
.
.
1 R
1
n
R
p
n
_
_ =
_
1
n
R
1
R
p
_
,
la matrice n (p + 1) des rgresseurs (la colonne de 1, 1
n
, tant considre comme un r-
gresseur particulier lorsquelle gure dans le modle). Posons aussi R
p+1
le paramtre
du modle, o = (,
1
, . . . ,
p
)
t
. Le modle scrit vectoriellement :
Y = X + , avec X E et ^(0,
2
I
n
),
o E = Xu, u R
p+1
est le sous-espace vectoriel de R
n
engendr par les colonnes de X.
Ce modle sinscrit ainsi dans le cadre gnral du modle linaire gaussien dcrit en 4.4.1,
avec adoption des hypothses M1 et M2 qui y ont t faites.
On suppose que la dimension de E est p + 1, cest dire que les p rgresseurs et 1
n
sont
linairement indpendants, ou ce qui revient au mme que rang(X) = p + 1, ou encore que
la matrice symtrique X
T
X est elle-mme de rang p +1. Cette hypothse nest pas une relle
perte de gnralit puisque, si elle nest pas vrie, cela signie que lun des rgresseurs
est combinaison linaire des autres ; il napporte alors pas dexplication supplmentaire et il
suft de le retirer.
Exemple 4.3. La rgression simple. Cest la situation o lon dispose dun seul rgresseur (p = 1)
que nous notons simplement R. Le modle scrit
Y
i
= + R
i
+
i
, i = 1, . . . , n,
ce qui revient dire que Y
i
^( + R
i
,
2
). On visualise ce modle dans lespace des variables
(R, Y) par le fait que les observations tombent dans un tunnel gaussien damplitude le long de
la droite dquation x = + r. Lexemple 4.2 des donnes de pluie est de ce type.
4.4.3 Estimation
On applique dans ce cadre les rsultats de la proposition 4.2. La projection de Y sur E est
lestimateur sans biais de X. Il scrit Y
E
= X

, o

R
p+1
est lestimateur sans biais de .
Il est tel que Y X

est orthogonal tout vecteur de E, autrement dit pour tout vecteur
u R
p+1
, Xu, Y X

) = 0, ce qui donne
= (X
t
X)
1
X
t
Y.
Remarquons que, si lon note P le projecteur sur E (donc tel que Y
E
= PY), celui-ci scrit
P = X(X
t
X)
1
X
t
. La rsiduelle est [[Y Y
E
[[
2
= Y, Y Y
E
) = Y
t
(I P)Y, soit
[[Y Y
E
[[
2
= Y
t
_
I X(X
t
X)
1
X
t
_
Y.
Daprs le point (iv) de la proposition 4.2, [[Y Y
E
[[
2

2
2
_
n (p + 1)
_
, et lon estime
(sans biais) la variance par

2
=
[[Y Y
E
[[
2
n (p + 1)
.
Remarque : dans le cas de la rgression sans constante, il suft de retirer la colonne 1
n
de X
et de remplacer p + 1 par p.
Variances des estimateurs
On dduit immdiatement de lexpression de

que sa matrice de variances-covariances est
Var(

) =
2
(X
t
X)
1
.
Exemple 4.4. La rgression simple (suite de lexemple 4.3).
Il est facile de mener les calculs la main dans le cas de la rgression simple. La matrice des
rgresseurs est X = [1
n
R], do
(X
t
X)
1
=
1
n
n
i=1
(R
i

R)
2
_

n
i=1
R
2
i

n
i=1
R
i
n
i=1
R
i
n
_
,
et le calcul de

donne
=
Cov(R, Y)
Var(R)
,

=

Y

R,
o

R =
n
i=1
R
i
/n est la moyenne empirique de R, et
Var(R) =
1
n
n
i=1
(R
i

R)
2
, Cov(R, Y) =
1
n
n
i=1
(R
i

R)(Y
i

Y) =
1
n
n
i=1
R
i
Y
i

R

Y,
sont les variances et covariances empiriques (qui ont le sens de mesures descriptives ici puisque R nest
pas alatoire). On peut remarquer que ces estimateurs concident avec les estimateurs des moindres
carrs de la droite de rgression de Y sur R, cest dire la pente et la constante de la droite dquation
Y = b + aR qui minimisent les carrs des carts
n
i=1
(Y
i
b aR
i
)
2
.
On dduit immdiatement de lexpression de Var(

) lexpression des variances de et

, ainsi que la
covariance entre les deux estimateurs (ils ne sont pas indpendants). Comme ils sont des estimateurs
sans biais des paramtres quils estiment, et suivent des lois gaussiennes (car combinaisons linaires
de Y), on a nalement :
^
_
,

2
n
i=1
(R
i

R)
2
_
,

^
_
,

2
n
i=1
R
2
i
n
n
i=1
(R
i

R)
2
_
.
Le projet est Y
E
=

1
n
+ R, et on peut crire directement la rsiduelle
SSE = [[Y Y
E
[[
2
=
n
i=1
(Y
i

R
i
)
2
,
carts entre les valeurs observes et les valeurs ajustes par le modle. Elle suit la loi
2
2
(n
2), et lestimateur sans biais de la variance est [[Y Y
E
[[
2
/(n 2) qui est indpendant de

. La
connaissance des lois des estimateurs de (, ), qui dpendent de
2
, ainsi que de la loi de lestimateur
de
2
et cette proprit dindpendance permet de construire des intervalles de conance ou des tests
pour et analogues aux intervalles de conance et tests de Student construits en 4.3.5.
4.4.4 Test de lutilit des rgresseurs
Dans le modle Y = X + avec p rgresseurs et la constante (cas afne), on souhaite sou-
vent tester lutilit dune partie des rgresseurs, autrement dit une hypothse nulle de la
forme
H
0
: R
q+1
, . . . , R
p
sont inutiles contre H
1
: cest faux,
o 1 q < p, et o on a ventuellement effectu une permutation de lordre des rgresseurs.
La contre-hypothse se comprend comme H
1
: lun des R
j
, q +1 j p au moins est utile.
Lhypothse nulle, si elle nest pas rejete, permet alors de simplier le modle de rgression,
en ne conservant quune partie des variables qui taient a priori explicatives. Les hypothses
peuvent se reformuler comme
H
0
:
j
= 0, j = q + 1, . . . , p contre H
1
: il existe au moins un
j
,= 0,
autrement dit comme lappartenance, sous H
0
, de leffet moyen un sous-espace vectoriel
de E de dimension plus petite, ce qui nous ramne la mthode employe pour le test dho-
mognit en analyse de la variance (voir le passage Gnralisation en ??, p. ??). En effet,
le sous-modle associ H
0
scrit Y
i
= +
q
j=1

j
R
j
i
+
i
, i = 1, . . . , n, ou vectoriellement
(en indiant par 0 les quantits qui diffrent sous lhypothse nulle)
Y = X
0
0
+ , X
0
= [1
n
R
1
R
q
],
0
= (,
1
, . . . ,
q
)
t
,
et donc X
0
0
H = X
0
w : w R
q+1
, o H est de dimension q + 1. On teste ainsi
H
0
: X H contre H
1
: X E H.
Sous H
0
, on estime leffet moyen par la projection de Y sur H cest dire Y
H
= X
0

0
avec
0
= (X
t
0
X
0
)
1
X
t
0
Y. On procde ensuite comme pour le test dhomognit : sous H
0
, [[Y
E
Y
H
[[
2

2
2
(p q) mais est inconnu. On prend le rapport avec la rsiduelle normalise
qui, elle, suit toujours la loi
2
(n p 1), pour construire la statistique de test
F =
[[Y
E
Y
H
[[
2
/(p q)
[[Y Y
E
[[
2
/(n p 1)
T(p q, n p 1) sous H
0
.
La loi du
2
du numrateur (normalis convenablement) se dcentre sous lhypothse alter-
native, do le test au niveau qui conduit
rejeter H
0
ds que F > q
1
(T(p q, n p 1)).
Table danalyse de la variance pour le modle de rgression
Lorsquils traitent un modle de rgression, la plupart des logiciels de statistique calculent
les estimateurs des paramtres et effectuent des tests individuels de nullit de ces paramtres
(p tests de Student de H
0
:
j
= 0, j = 1, . . . , p, fonds sur les lois que nous avons donn plus
haut). Ils fournissent galement une table danalyse de variance associe au modle de rgression.
Il sagit du rsultat du test de Fisher pour lhypothse nulle pas de modle de rgression,
autrement dit aucun rgresseur nest signicatif. Cest la ralisation du test ci-dessus pour
H = 1
n
, R.
Coefcient de dtermination
Lorsque il y a une constante dans la rgression, on appelle coefcient de dtermination, ou
R
2
, le nombre
R
2
=
[[Y
E

Y1
n
[[
2
[[Y

Y1
n
[[
2
[0, 1].
Cest un indicateur de la qualit de la rgression : plus le R
2
est proche de 1, meilleure
est ladquation du modle aux donnes (on parle aussi de pourcentage de la variabilit
explique par le modle de rgression).
Remarquons que pour le test de Fisher associ lhypothse nulle aucun rgresseur nest
signicatif, le sous-espace vectoriel H est celui engendr par 1
n
ce qui entrane que Y
H
=
Y1
n
. Dans ce cas il existe un lien simple entre le R
2
et la statistique du test de Fisher :
F =
(n (p + 1))
p
R
2
1 R
2
.
Exemple 4.5. La rgression simple, (suite et n de lexemple 4.4).
Nous terminons ltude dtaille de la rgression simple avec le test de non effet du seul rgresseur
prsent dans le modle :
H
0
: = 0 contre H
1
: ,= 0.
Remarquons que, ici, il est possible de construire ce test de deux manires : partir de la loi de en
utilisant la loi de Student (qui provient, rappelons-le, de lobligation destimer
2
par la rsiduelle),
ou bien partir du test de Fisher. On vrie que les statistiques de ces deux tests sont lies par la
relation F = T
2
, et ils donnent la mme p-valeur. Nous allons utiliser ici la seconde mthode.
Sous H
0
, le modle est simplement Y = 1
n
+ (il sagit donc dun n-chantillon de ^(,
2
)), et
Y
H
=

Y1
n
. Nous avons dj prcis lexpression de la rsiduelle dans ce cas. La somme des carrs
du modle est
SSM = [[Y
E
Y
H
[[
2
=
n
i=1
(

+ R
i

Y)
2
,
et la statistique de test
F =
[[Y
E
Y
H
[[
2
[[Y Y
E
[[
2
/(n 2)
T(1, n 2) sous H
0
.
On rejette donc H
0
au niveau si F > q
1
(T(1, n 2)). Enn, si on a observ la valeur f de la
statistique F, la p-valeur de ce test est P(F > f ), o F T(1, n 2).
Dans le cas de la rgression simple, le coefcient de dtermination R
2
= SSM/SST est aussi le carr
du coefcient de corrlation entre Y et R.
Exemple 4.6. Si on reprend lexemple 4.2, on obtient les rsultats suivants :
Les estimations des paramtres valent : = 4.55 et

= 128.07. Sur le graphique (Fig. 4.3) on a
reprsent la droite de rgression.
130 140 150 160 170 180 190 200
400
450
500
550
600
650
700
750
800
850
900
Nombre de jours
H
a
u
t
e
u
r
d
e
p
l
u
i
e

y = 4.6*x - 1.3e+002
FIGURE 4.3 Droite de rgression sur le nuage de points
Section 4.6 Exercices 71
Les intervalles de conance de Student sont : I
0.05
() = [3.40; 5.70] et I
0.05
() = [322; 66]
Le calcul du R
2
et du test de H
0
: = 0 donnent :
R
2
Fisher p-valeur
0.6294 64.52 < 10
4
donc on rejette clairement H
0
.
4.5 Exercices
4.6.1 Le modle gaussien variance connue
1. Modle : (Y
k
, 1 k n) suite de v.a. i.i.d. de loi gaussienne variance,
2
0
, connue :
T = ^(,
2
0
), R.
2. H
0
: =
0
, H
1
: ,=
0
, avec
0
R.
3. Statistique de test :
n
=

n

Y
n
0
.
4. Loi sous H
0
: ^(0, 1).
5. Loi sous H
1
: gaussienne rduite dcentre.
6. Rgion critique : W
n
=
a.
7. Niveau exact : a = q
N
1/2
, o q
N
1/2
est le quantile dordre 1 /2 de ^(0, 1).
8. Test convergent.
9. p-valeur : P(
[
obs
n
[) o G de loi ^(0, 1).
10. Variante : H
0
:
0
, H
1
: >
0
. Mme statistique de test. Rgion critique :
W
n
=
n
a. Niveau exact : a = q
N
1
. Test convergent. p-valeur : P(G
obs
n
).
4.6.2 Le modle gaussien variance inconnue
1. Modle : (Y
k
, 1 k n) suite de v.a. i.i.d. de loi gaussienne : T = ^(,
2
),
R, > 0.
2. H
0
= =
0
, H
1
: ,=
0
, avec
0
R.
n
=

n

Y
n
0
S
n
.
4. Loi sous H
0
: Student de paramtre n 1.
5. Comportement asymptotique sous H
1
:
n
converge p.s. vers ou +.
n
=
a.
7. Niveau exact : a = q
1/2
(t
n1
), o q
1/2
(t
n1
) est le quantile dordre 1 /2 de la
loi de Student de paramtre n 1.
8. Test convergent.
9. p-valeur : P(

obs
n
) o T de loi de Student de paramtre n 1.
10. Variante : H
0
:
0
, H
1
: >
0
. Rgion critique : W
n
=
n
a. Niveau
exact : a = q
1
(t
n1
). Test convergent. p-valeur : P(T
obs
n
).
4.6.3 Rgression multiple
1. Modle : pour i = 1 . . . n
Y
i
= +
p
j=1
j
R
j
i
+
i
.
Les v.a.
i
, i = 1 . . . n sont i.i.d. de loi ^(0,
2
). Les coefcients de la rgression ,
1
, . . . ,
p
et la variance
2
sont inconnues.
2. H
0
:
q+1
= . . . =
p
= 0 (les p q rgresseurs R
q+1
, . . . , R
p
sont inutiles),
H
1
: j q + 1, . . . , p,
j
,= 0 (un au moins des p q rgresseurs R
q+1
, . . . , R
p
est
utile).
F =
[[Y
E
Y
H
[[
2
/(p q)
[[Y Y
E
[[
2
/(n p 1)
,
o Y
E
est la projection orthogonale de Y sur lespace vectoriel, E, engendr par 1, R
1
, . . . , R
p
,
et Y
H
est la projection orthogonale de Y sur lespace vectoriel, H, engendr par 1, R
1
, . . . , R
q
.
4. Comportement sous H
0
: F suit une loi de Fischer : T(p q, n p 1).
5. Comportement sous H
1
: F quand n .
n
= F > a.
7. Niveau : a = q
1
(T(p q, n p 1)), o q
1
(T(p q, n p 1)) est le quantile
dordre 1 de la loi de Fisher T(p q, n p 1).
8. Le test est convergent.
9. p-valeur : P(F f
obs
).
5
Tests dadquation
5.1 Introduction
En pratique, dans la plupart des situations, il est impossible de savoir quelle est la loi de pro-
babilit des donnes que nous souhaitons analyser. Au chapitre 1, nous avons vu quelques
outils graphiqueshistogramme, fonction de rpartition empirique, QQ-plotoffrant une
valuation visuelle de la pertinence de modlisation des donnes observes par telle ou telle
loi. Le but de ce chapitre est de fournir des mthodes statistiques permettant une valuation
quantitative de la modlisation des donnes par une loi donne ou par une famille des lois.
5.2 Tests du chi-deux
5.2.1 Test dadquation une loi discrte
Le problme
On observe n v.a. (X
i
)
1in
, indpendantes et de mme loi, valeurs dans un espace ni A =
a
1
, . . . , a
k
. Cette loi, inconnue, est caractrise par la suite p = (p
1
, . . . p
k
) (avec
k
j=1
p
j
=
1), o pour tout j = 1, . . . , k, la quantit p
j
dsigne la probabilit dobserver a
j
(indpendante
de i en raison de lidentique distribution des X
i
) ; soit p
j
= P(X
i
= a
j
). La loi jointe du n-
uplet X = (X
i
)
1in
est : pour tout (x
1
, , x
n
) A
n
,
P
p
(X
i
= x
i
, 1 i n) =
n
i=1
P
p
(X
i
= x
i
) =
k
j=1
p
card(i ; x
i
=a
j
)
j
.
Remarque 5.1. Il en est ainsi, par exemple, si on procde un sondage dans une population divise
en k catgories, les tirages des n individus pouvant tre considrs comme indpendants, et, chaque
fois, la probabilit dtre dans une catgorie donne tant gale la proportion (inconnue) dindividus
de cette catgorie dans la population totale. Cest bien le cas si on effectue des tirages avec remises et
brassage de la population, mais un tel modle durne, quoique traditionnel, nest pas trs raliste.
Cependant, on peut considrer quon est approximativement dans le modle propos si on fait porter
74 Tests dadquation Chapitre 5
le tirage sur des individus distincts (tirage sans remise) mais dans un contexte o la taille totale de
la population est trs grande par rapport celle de lchantillon.
On avance lhypothse que le paramtre est p
0
= (p
0
1
, . . . , p
0
k
), o p
0
j
> 0, pour tout j =
1, . . . , k. Le but est de tester, un niveau donn , cette hypothse nulle simple, H
0
: p = p
0
,
contre lhypothse alternative H
1
: p ,= p
0
.
Intuitions
Pour tout j = 1, . . . , k on note N
j
= card(i : X
i
= a
j
) =
n
i=1
1
X
i
=a
j
la variable alatoire
de comptage du nombres de fois o ltat a
j
est visit par les v.a. X
i
, i = 1, . . . , n. La v.a. N
j
suit une loi binomiale de paramtres (n, p
j
). On rappelle que E[N
j
] = np
j
, que la v.a.

P
j
=
N
j
n
est un estimateur convergent sans biais de p
j
.
Il y a donc lieu de penser que, sil est vrai que p = p
0
, la suite des effectifs observs n
j
=
card(i : x
i
= a
j
) sera telle que la suite des frquences observes, p = ( p
1
, . . . , p
k
) =
(
n
1
n
, . . . ,
n
k
n
), sera proche (en raison de la loi forte des grands nombres cite prcdemment)
de la suite mise en test p
0
= (p
0
1
, . . . , p
0
k
).
Avec cette notation, il vient que P
p
(X
i
= x
i
, 1 i n) =
k
j=1
p
n
j
j
. On peut en dduire
que p est lestimation par maximum de vraisemblance de p, ce qui justie que nous fassions
porter notre test sur cette suite des frquences observes

P = (

P
j
)
1jk
.
On souhaite donc pouvoir caractriser une distance entre la suite des frquences observes
p et la suite des frquences thoriques p
0
, de manire rejeter lhypothse nulle si cette
distance est suprieure une certaine valeur frontire. Pour raliser ce programme, il faut
que :
la loi, sous lhypothse nulle, de cette distance soit (au moins approximativement) connue
de sorte que la frontire sera le quantile dordre 1 de cette loi (le rejet tort de lhypo-
thse nulle sera bien alors de probabilit approximativement gale ),
si lhypothse nulle nest pas satisfaite, cette distance ait tendance prendre des valeurs
dautant plus grandes que la vraie valeur du paramtre p est plus loigne de p
0
(ce qui,
l aussi, conduit souhaiter disposer dune distance entre p et p
0
, gouvernant la loi de la
distance entre la v.a.

P et p
0
).
Outils
On dnit la distance du
2
(ou distance du chi-deux) , entre deux probabilits sur un en-
semble ni k lments, p = (p
j
)
1jk
et q = (q
j
)
1jk
, par :
D(p, q) =
k
j=1
(p
j
q
j
)
2
q
j
.
Remarquons que, faute de symtrie entre p et q, cet objet nest pas une distance au sens
mathmatique traditionnel du terme (on parle parfois de pseudo-distance du
2
).
On dmontre (nous ladmettrons) que, si lhypothse nulle est satisfaite, la loi de la v.a.
n.D(

P, p
0
) tend, quand n tend vers linni, vers la loi du chi-deux k 1 degrs de libert.
Ceci conduit, pour n assez grand (notion qui sera prcise empiriquement dans la suite),
Section 5.2 Tests du chi-deux 75
fonder sur n.D(

P, p
0
) le test, au niveau , de lhypothse H
0
= p = p
0
, le rejet ayant lieu
si
n
k
j=1
( p
j
p
0
j
)
2
p
0
j

2
k1,1
,
o q
1
(
2
k1
) dsigne le quantile dordre 1 de la loi du chi-deux k 1 degrs de libert,
disponible dans des tables ou via les ordinateurs. Cest ce que lon appelle le test du
2
.
Critre pratique. On considre souvent que lapproximation fournie par la loi du
2
k 1 degrs
de libert pour la loi de n.D(

P, p
0
) est valide si tous les produits np
0
j
(1 p
0
j
) sont suprieurs ou
gaux 5.
Remarque 5.2 (Pour les lecteurs de niveau avanc). Intressons nous maintenant la puissance
de ce test, cest--dire considrons les situations o p ,= p
0
. On dmontre (nous ladmettrons ) que,
si la loi commune des v.a. X
i
est caractrise par la valeur p du paramtre, alors la loi de n.D(

P, p
0
)
est bien approche, quand n tend vers linni, par la loi dite du
2
dcentr k 1 degrs de libert,
2
k1,
, avec pour coefcient dexcentricit = n.D(p, p
0
).
Il se produit alors une circonstance heureuse concernant la famille des lois
2
k1,
: elle est, nombre
de degrs de libert x (ici k 1) stochastiquement croissante avec le coefcient dexcentricit ,
cest--dire que, pour tout t > 0, la probabilit quune v.a. suivant la loi
2
k1,
dpasse t est fonction
croissante de . An dillustrer davantage le phnomne dexcentricit engendr par nous pouvons
rappeler que E[
2
k,
] = k + et Var(
2
k,
) = 2(k + 2).
5.2.2 Test dadquation une famille de lois discrtes
Prsentation gnrale
Le modle est ici le mme quen 5.2.1 : on observe n v.a. X
i
, indpendantes et de mme loi,
valeurs dans un espace ni, soit A = a
1
, . . . , a
k
. Cette loi, inconnue, est caractrise par la
suite p = (p
1
, . . . p
k
), o, pour tout j (avec 1 j k), p
j
dsigne la probabilit dobserver a
j
.
Ici lhypothse tester nest plus rduite une valeur bien dtermine p
0
, mais elle exprime
que le paramtre appartient une famille (p
, ), o lon note p
= (p
1,
, . . . , p
k,
)
un vecteur de poids de probabilit index par un paramtre . Attention : nest pas ici
lensemble des paramtres du modle tout entier mais paramtrise seulement lhypothse
nulle.
Une ide naturelle est de reprendre la mthode du test dadquation vue en 5.2.1 en y rem-
plaant p
0
par p
, o

est une estimation de . Cest ce que lon appelle un test du
2
adaptatif. On dmontre alors que si lensemble des valeurs possibles pour est une
partie ouverte dintrieur non vide de R
h
(avec h < k 1) la loi de nD(

P, p
) tend, sous
lhypothse nulle, vers la loi du
2
k h 1 degrs de libert, sous des conditions de r-
gularit que nous ne prciserons pas ici, mais qui sont satisfaites si

est une estimation par
maximum de vraisemblance. Donc on procde comme dans le test du
2
dadquation, en
remplaant seulement le nombre de degrs de libert k 1 par k h 1.
Exemple : test du
2
dindpendance
Les v.a. i.i.d. X
i
sont ici de la forme (Y
i
, Z
i
), o les premires composantes Y
i
sont va-
leurs dans A = a
1
, . . . , a
k
, et les secondes composantes Z
i
sont valeurs dans B =
b
1
, . . . , b
m
.
On note, pour tout j = 1, . . . , k, et tout = 1, . . . , m, p
j,
= P((Y
i
, Z
i
) = (a
j
, b
)). Le paramtre
est donc p = (p
j,
)
1jk,1m
.
On veut tester lhypothse que les 2 composantes sont indpendantes, autrement dit que la
loi commune des couples (Y
i
, Z
i
) est une loi produit, cest--dire encore que tous les p
j,
sont
de la forme :
(j, ) A B, p
j,
= P(Y
i
= a
j
, Z
i
= b
) = P(Y
i
= a
j
)P(Z
i
= b
) = q
j
r
,
o ncessairement, pour tout j, q
j
=
m
=1
p
j,
et, pour tout , r
=
k
j=1
p
j,
. Les q
j
caract-
risent la loi commune des v.a. Y
i
et les r
caractrisent la loi commune des v.a. Z

i
; ces lois
sont appeles aussi premire et seconde lois marginales des X
i
.
Ainsi, sous lhypothse nulle, le paramtre, caractris dune part par les k valeurs q
j
(de
somme gale 1) et dautre part par les m valeurs r
(aussi de somme gale 1), appartient

un espace de dimension h = k + m2. On supposera que les q
j
et les r
sont tous non nuls,

ce qui assure que, sous lhypothse nulle, lensemble de paramtrage est une partie ouverte
de R
k+m2
tant observ un chantillon de taille n, soit (y
i
, z
i
)
1in
, notons, pour tout couple (j, ), n
j,
leffectif des observations gales (a
j
, b
) et p
j,
leur frquence ( p
j,
=
n
j,
n
). On estime alors
chaque q
j
de la premire marge par la frquence marginale correspondante q
j
=
1
n
m
=1
n
j,
et de mme, pour la seconde marge, chaque r
par la frquence marginale correspondante

r
=
1
n
k
j=1
n
j,
.
Alors, si lhypothse nulle est satisfaite, on estime, pour tout couple (j, ), p
j,
, par le produit
des frquences marginales q
j
r
(pour mimer la formule dindpendance cite plus haut).

Nous admettons que les conditions de validit de la mthode sont satisfaites, q
j
et r
tant respective-
ment des estimateurs par maximum de vraisemblance de q
j
et r
. Le test, au seuil , consiste

donc rejeter lhypothse dindpendance si :
n
k
j=1
m
=1
( p
j,
q
j
r
)
2
q
j
r
q
1
(
2
(k1)(m1)
),
autrement dit
n
k
j=1
m
=1
(
n
j,
n

n
/
j
.n
//
n
2
)
2
n
/
j
.n
//
n
2
q
1
(
2
(k1)(m1)
),
o :
n
j,
est le nombre dobservations gales (a
j
, b
),
n
/
j
=
m
=1
n
j,
est le nombre dobservations dont la premire composante est gale a
j
,
n
//
=
k
j=1
n
j,
est le nombre dobservations dont la seconde composante est gale b
,
q
1
(
2
(k1)(m1)
) est le quantile dordre 1 de la loi du
2
(k 1)(m 1) degrs de
libert (en effet km(k + m2) 1 = (k 1)(m1)).
5.3 Test de Kolmogorov
Cest un test dajustement une loi, comme le test du
2
, mais qui sapplique une variable
continue. On veut tester lhypothse selon laquelle les donnes observes sont tires dune
loi dont la fonction de rpartition est F
0
. Dans toute cette section, on considre que la vraie
fonction de rpartion inconnue F
et F
0
sont continues.
Section 5.3 Test de Kolmogorov 77
Le test est bas sur la diffrence entre la fonction de rpartition F
0
de cette loi thorique et la
fonction de rpartition empirique

F
n
dont on rappelle la dnition :
Dnition 5.1. On dnit la fonction de rpartition empirique du n-chantillon (X
1
, ..., X
n
), par la
fonction en escalier suivante :
F
n
(t) =
Card(1 i n : X
i
t)
n
=
1
n
n
i=1
1
X
i
t
.
Remarque 5.3. Notons que

F
n
est continue droite.
Le test de Kolmogorov
1
permet de tester lhypothse H
0
: Les observations sont un chan-
tillon de la loi F
0
contre sa ngation. La statistique D
n
de ce test est alors base sur la distance
maximale entre F
0
et

F
n
, cest dire :
D
n
= sup
tR
F
0
(t)

F
n
(t)
.
Il sagit dun choix de distance raisonnable, car daprs le thorme de Glivenko-Cantelli,
sous H
0
, D
n
converge presque srement vers 0 lorsque n tend vers linni. La zone de rejet
est alors de la forme : D
n
> a. Notons que comme

F
n
est constante et gale i/n sur
lintervalle [X
(i)
, X
(i+1)
[ tandis que F
0
est croissante sur cet intervalle,
sup
t[X
(i)
,X
(i+1)
[
F
0
(t)

F
n
(t)
= max
_
F
0
(X
(i)
)
i
n
F
0
(X
(i+1)
)
i
n
_
.
On en dduit lexpression suivante trs utile en pratique
D
n
= max
1in
max
_
F
0
(X
(i)
)
i 1
n
F
0
(X
(i)
)
i
n
_
.
La lgitimit du choix de D
n
comme statistique de test repose sur la proposition suivante :
Proposition 5.1. Sous H
0
, la loi de D
n
ne dpend pas de F
. On dit alors que D

n
est une statistique
libre.
Dmonstration. On vrie facilement que
D
n
= sup
tR
F
0
(t)
1
n
n
i=1
1
U
i
F
0
(t)
o les variables U
i
= F
0
(X
i
) sont i.i.d. suivant la loi uniforme sur [0, 1]. Il suft ensuite de
faire le changement de variable u = F
0
(t) pour conclure.
La loi de D
n
sous H
0
a t tabule, ce qui donne des valeurs seuils a
ne pas dpasser
pour que H
0
soit acceptable au niveau . Les moyens actuels de calcul informatique per-
mettent galement dapprocher la loi de D
n
laide de simulations. Pour n grand, il existe
une approximation dcrite par la proposition suivante :
1. Ce test est galement appel test de Kolmogorov-Smirnov un chantillon
0
, en posant
n
=

nD
n
, on dispose du rsultat asymptotique suivant : la
suite (
n
, n 1) converge en loi et pour tout y > 0, on a
P(
n
y)
n
k=
(1)
k
exp
_
2k
2
y
2
_
.
Dmonstration. Comme pour t R,

F
n
(t) =
1
n
n
i=1
1
X
i
t
o les variables 1
X
i
t
sont
i.i.d. suivant la loi de Bernoulli B(F
0
(t)), le TCL entrane que

n(F
0
(t)

F
n
(t)) converge
en loi vers Y
t
de loi normale centre ^ (0, F
0
(t)(1 F
0
(t))). Plus gnralement, le tho-
rme de la limite centrale multidimensionnel assure que

n(F
0
(t
1
)

F
n
(t
1
), . . . , F
0
(t
k
)
F
n
(t
k
)) converge en loi vers un vecteur gaussien centr (Y
t
1
, . . . , Y
t
k
) de covariance don-
ne par Cov(Y
t
i
, Y
t
j
) = F
0
(min(t
i
, t
j
)) F
0
(t
i
)F
0
(t
j
). En fait on montre que le processus
n(F
0
(t)

F
n
(t))
tR
converge en loi vers un processus gaussien centr tel que Cov(Y
s
, Y
t
) =
F
0
(min(s, t)) F
0
(s)F
0
(t) et on montre que pour tout y > 0,
P
_
sup
tR
[Y
t
[ y
_
=
+
(1)
k
exp
_
2k
2
y
2
_
.
1
,
n
=

nD
n
tend p.s. vers + avec n.
Le test est donc ncessairement unilatral droite (rejet des valeurs trop grandes).
Dmonstration. Sous H
1
la fonction de rpartition commune des X
i
, note F est diffrente
de F
0
. Soit t
1
R tel que F
0
(t
1
) ,= F(t
1
). Daprs la loi forte des grands nombres

F
n
(t
1
) =
1
n
n
i=1
1
X
i
t
1
converge p.s. vers E

_
1
X
i
t
1
= F(t
1
). Donc

n[F
0
(t
1
)

F
n
(t
1
)[ tend p.s.
vers + de mme pour
nD
n
.
Remarque 5.4. Si F
0
est non continue (par exemple lorsquil sagit dune loi discrte), le test de
Kolmogorov sous sa forme classique nest pas valide (la proposition 5.2 nest valable que si F
0
est
continue) : on peut montrer que D
n
est alors plus concentre proximit de zro que quand F est
continue.
Remarque 5.5. On peut aussi envisager des contre-hypothses plus nes, du type unilatral : la
loi des donnes a une fontion de rpartition F telle que F F
0
au sens o t R, F(t) F
0
(t) et
t
0
R, F(t
0
) < F
0
(t
0
). Dans ce cas, la statistique de test scrit sans la valeur absolue (et sa loi
est diffrente).
5.3.1 Un exemple
On dispose des 10 donnes suivantes :
x = (2.2 , 3.3 , 5.3 , 1.8 , 4.3 , 6.3 , 4.5 , 3.8 , 6.4 , 5.5)
La question nave ces observations proviennent-elles dune loi normale de moyenne 4 et de
variance 4 ? va tre formalise sous lnonc : tester, au niveau de signication 0.05, lhy-
pothse nulle selon laquelle ces observations, supposes indpendantes et identiquement
distribues, ont pour loi commune la loi normale de moyenne 4 et variance 4 . On calcule
la fonction empirique dessine sur la gure 5.1. Elle montre que D
x
= 0.163, cart maximal
Section 5.4 Test de Kolmogorov 79
FIGURE 5.1 Le test de Kolmogorov sappuie sur la distance entre fonction de rpartition
empirique et thorique.
obtenu en t = 3.3. Cette valeur est-elle plausible, au niveau 0.05, sous lhypothse H
0
? Les
praticiens ont lhabitude de faire la transformation de laxe des abscisses u = F(t). Cette
transformation permet de travailler dans le carr [0, 1] [0, 1] (cf gure 5.2) o D
n
mesure
alors lcart de la fonction de rpartition empirique par rapport la premire bissectrice.
En utilisant une table ou bien en approchant les quantiles de la loi de D
n
sous H
0
par simula-
tion dun grand nombre de ralisations suivant cette loi, on remarque que la valeur observe
D
x
= 0.163 est infrieure au quantile dordre 0.95 de la loi de D
n
: 0.410. (La p-valeur est de
0.963.)
Lhypothse de rfrence H
0
est accepte.
5.3.2 Test de normalit
Revenons lexemple des mesures de taux dalcoolmie. On peut de la mme manire tes-
ter H
0
: Les donnes suivent une loi gaussienne de moyenne 23 et de variance 49 contre
lalternative : cest faux. On trouve D
x
= 0.132 donc on ne rejette pas H
0
pour les niveaux
habituellement utiliss (quantile asymptotique dordre 0.95 gal 0.242, et p-valeur asymp-
totique gale 0.637). Dans ce problme on pourrait tester H
0
: Les donnes suivent une loi
gaussienne contre lalternative : cest faux, laide du test de normalit de Lilliefors : ce
test utilise la statistique de Kolmogorov dtermine par la distance entre la loi empirique et
la loi gaussienne dont lesprance est la moyenne empirique et la variance, la variance em-
pirique. Les quantiles sont diffrents des quantiles du test de Kolmogorov et peuvent tre
calculs par simulation. Il existe de nombreux tests de normalit (test de Pearson construit
avec une approche de discrtisation et un test du
2
, test de Shapiro-Wilk, . . . ).
FIGURE 5.2 Prsentation usuelle de la distance de Kolmogorov.
5.4.1 Test dadquation une loi discrte : le test du
2
Lobjectif est de dterminer si les donnes discrtes observes proviennent dune loi donne
ou non.
1. Description du modle : (X
j
, 1 j n) est une suite de v.a. i.i.d. valeurs dans
A = a
1
, . . . , a
k
. Une loi P
p
sur A est dcrite par le paramtre p = (p
1
, . . . , p
k
), o
p
i
= P
p
(X
1
= a
i
).
2. Les hypothses : H
0
: p = p
0
et H
1
: p ,= p
0
, o p
0
est donn.
3. La statistique de test :
n
= n
k
i=1
( p
i
p
0
i
)
2
p
0
i
,
o p
i
est le nombre doccurrence de a
i
divis par n.
4. Sous H
0
, (
n
, n 1) converge en loi vers
2
(k 1).
5. Sous H
1
, (
n
, n 1) diverge vers +.
6. Rgion de critique du test asymptotique : [a, +[.
7. Niveau asymptotique du test gal : a est le quantile dordre 1 de la loi
2
(k 1).
9. La p-valeur asymptotique est donne par
p-valeur = P(Z
obs
n
),
o Z est de loi
2
(k 1), et
obs
n
est la statistique de test calcule avec les observations.
Le test asymptotique est considr valide si np
0
i
(1 p
0
i
) 5 pour tout i.
5.4.2 Test dindpendance entre deux variables qualitatives
Lobjectif est de vrier si deux variables catgorielles sont indpendantes ou non.
1. Description du modle : ((Y
i
, Z
i
), 1 i n) est une suite de v.a. i.i.d. respective-
ment valeurs dans A = a
1
, . . . , a
k
et B = b
1
, . . . , b
m
. Une loi commune P
p
des couples (Y
i
, Z
i
) sur (A, B) est dcrite par le paramtre p = (p
j,h
)
1jk,1lm
o
p
j,l
= P
p
((Y
i
, Z
i
) = (a
j
, b
l
)).
2. Les hypothses : H
0
= p
j,l
= q
j
r
l
1jk,1lm
et H
1
= j, l; p
j,l
,= q
j
r
l
, o q
j
=
m
l=1
p
j,l
et r
l
=
k
j=1
p
j,l
.
3. La statistique de test :
n
= n
k
j=1
m
l=1
( p
j,l
q
j
r
l
)
2
q
j
r
l
,
o p
j,l
, q
j
et r
l
sont respectivement les nombres doccurrence de (a
j
, b
l
), de a
j
et de b
l
divis par n.
4. Sous H
0
, (
n
, n 1) converge en loi vers
2
((k 1)(m1)).
5. Sous H
1
, (
n
, n 1) diverge vers +.
6. Rgion de critique du test asymptotique : [a, +[.
7. Niveau asymptotique du test gal : a est le quantile dordre 1 de la loi
2
((k
1)(m1)).
9. La p-valeur asymptotique est donne par
p-valeur = P(Z
obs
n
),
o Z est de loi
2
((k 1)(m 1)), et
obs
n
est la statistique de test calcule avec les
observations.
Le test asymptotique est considr valide si n q
j
r
l
(1 q
j
r
l
) 5 pour tout (j, l).
5.4.3 Test de Kolmogorov
1. Modle non paramtrique : (X
i
, 1 i n) i.i.d. de fonction de rpartition F continue.
2. Hypothses : H
0
: F
= F
0
et H
1
: F
,= F
0
3. Statistique de Kolmogorov
D
n
= max
1in
max
_
[F
0
(X
(i)
)
i 1
n
[, [F
0
(X
(i)
)
i
n
[
_
o X
(1)
X
(2)
. . . X
(n)
est le rordonnement croissant des X
i
.
Statistique de test :
n
=

nD
n
.
4. Sous H
0
, lorsque n tend vers linni,
n
converge en loi vers la loi de fonction de rpar-
tition 1
y>0
+
k=
(1)
k
exp(2k
2
y
2
).
5. Sous H
1
,
n
tend p.s. vers +.
6. Rgion critique : [a, +[, avec a > 0.
7. Test convergent pour n +.
8. Pour un niveau asymptotique , a est donn par
+
k=
(1)
k
exp(2k
2
a
2
) = 1 .
6
Tables numriques
6.1 Quantiles de la loi normale centre rduite
La table suivante donne les valeurs numriques des quantiles q
1z
(^) de la loi normale
centre rduite ^(0, 1). Rappelons que, par dnition, q
1z
(^) est lunique solution de
lquation (q) = 1 z, o () dsigne la fonction de rpartition de la loi normale cen-
tre rduite.
Utilisation de la table : si, par exemple, on souhaite dterminer q
0.975
(^),
on calcule z = 1 0.975 = 0.025 et on crit 0.025 = 0.02 + 0.005,
on cherche la ligne correspondant 0.02 et la colonne correspondant 0.005,
lintersection de la ligne et de la colonne trouve on lit 1.96. Donc q
0.975
(^) = 1.96.
84 Tables numriques Chapitre 6
z 0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009
0.00 + 3.090 2.878 2.748 2.652 2.576 2.512 2.457 2.409 2.366
0.01 2.326 2.290 2.257 2.226 2.197 2.170 2.144 2.120 2.097 2.075
0.02 2.054 2.034 2.014 1.995 1.977 1.960 1.943 1.927 1.911 1.896
0.03 1.881 1.866 1.852 1.838 1.825 1.812 1.799 1.787 1.774 1.762
0.04 1.751 1.739 1.728 1.717 1.706 1.695 1.685 1.675 1.665 1.655
0.05 1.645 1.635 1.626 1.616 1.607 1.598 1.589 1.580 1.572 1.563
0.06 1.555 1.546 1.538 1.530 1.522 1.514 1.506 1.499 1.491 1.483
0.07 1.476 1.468 1.461 1.454 1.447 1.440 1.433 1.426 1.419 1.412
0.08 1.405 1.398 1.392 1.385 1.379 1.372 1.366 1.359 1.353 1.347
0.09 1.341 1.335 1.329 1.323 1.317 1.311 1.305 1.299 1.293 1.287
0.10 1.282 1.276 1.270 1.265 1.259 1.254 1.248 1.243 1.237 1.232
0.11 1.227 1.221 1.216 1.211 1.206 1.200 1.195 1.190 1.185 1.180
0.12 1.175 1.170 1.165 1.160 1.155 1.150 1.146 1.141 1.136 1.131
0.13 1.126 1.122 1.117 1.112 1.108 1.103 1.098 1.094 1.089 1.085
0.14 1.080 1.076 1.071 1.067 1.063 1.058 1.054 1.049 1.045 1.041
0.15 1.036 1.032 1.028 1.024 1.019 1.015 1.011 1.007 1.003 0.999
0.16 0.994 0.990 0.986 0.982 0.978 0.974 0.970 0.966 0.962 0.958
0.17 0.954 0.950 0.946 0.942 0.938 0.935 0.931 0.927 0.923 0.919
0.18 0.915 0.912 0.908 0.904 0.900 0.896 0.893 0.889 0.885 0.881
0.19 0.878 0.874 0.870 0.867 0.863 0.860 0.856 0.852 0.849 0.845
0.20 0.842 0.838 0.834 0.831 0.827 0.824 0.820 0.817 0.813 0.810
0.21 0.806 0.803 0.799 0.796 0.792 0.789 0.786 0.782 0.779 0.776
0.22 0.772 0.769 0.765 0.762 0.759 0.755 0.752 0.749 0.745 0.742
0.23 0.739 0.736 0.732 0.729 0.726 0.722 0.719 0.716 0.713 0.709
0.24 0.706 0.703 0.700 0.697 0.693 0.690 0.687 0.684 0.681 0.678
0.25 0.674 0.671 0.668 0.665 0.662 0.659 0.656 0.653 0.649 0.646
0.26 0.643 0.640 0.637 0.634 0.631 0.628 0.625 0.622 0.619 0.616
0.27 0.613 0.610 0.607 0.604 0.601 0.598 0.595 0.592 0.589 0.586
0.28 0.583 0.580 0.577 0.574 0.571 0.568 0.565 0.562 0.559 0.556
0.29 0.553 0.550 0.548 0.545 0.542 0.539 0.536 0.533 0.530 0.527
0.30 0.524 0.521 0.519 0.516 0.513 0.510 0.507 0.504 0.501 0.499
0.31 0.496 0.493 0.490 0.487 0.484 0.482 0.479 0.476 0.473 0.470
0.32 0.468 0.465 0.462 0.459 0.456 0.454 0.451 0.448 0.445 0.443
0.33 0.440 0.437 0.434 0.432 0.429 0.426 0.423 0.421 0.418 0.415
0.34 0.413 0.410 0.407 0.404 0.402 0.399 0.396 0.393 0.391 0.388
0.35 0.385 0.383 0.380 0.377 0.374 0.372 0.369 0.366 0.364 0.361
0.36 0.358 0.356 0.353 0.350 0.348 0.345 0.342 0.340 0.337 0.334
0.37 0.332 0.329 0.327 0.324 0.321 0.319 0.316 0.313 0.311 0.308
0.38 0.305 0.303 0.300 0.298 0.295 0.292 0.290 0.287 0.284 0.282
0.39 0.279 0.277 0.274 0.271 0.269 0.266 0.264 0.261 0.258 0.256
0.40 0.253 0.251 0.248 0.246 0.243 0.240 0.238 0.235 0.233 0.230
0.41 0.227 0.225 0.222 0.220 0.217 0.215 0.212 0.210 0.207 0.204
0.42 0.202 0.199 0.197 0.194 0.192 0.189 0.187 0.184 0.181 0.179
0.43 0.176 0.174 0.171 0.169 0.166 0.164 0.161 0.159 0.156 0.153
0.44 0.151 0.148 0.146 0.143 0.141 0.138 0.136 0.133 0.131 0.128
0.45 0.126 0.123 0.121 0.118 0.116 0.113 0.110 0.108 0.105 0.103
0.46 0.100 0.098 0.095 0.093 0.090 0.088 0.085 0.083 0.080 0.078
0.47 0.075 0.073 0.070 0.068 0.065 0.063 0.060 0.058 0.055 0.053
0.48 0.050 0.048 0.045 0.043 0.040 0.038 0.035 0.033 0.030 0.028
0.49 0.025 0.023 0.020 0.017 0.015 0.012 0.010 0.007 0.005 0.002
Section 6.2 Table de la loi du khi-deux 85
6.2 Table de la loi du khi-deux
La table suivante donne la valeur du quantile dordre (1 z) de la loi du khi-deux k degrs
de libert. Par exemple, le quantile q
0.05
(t
19
) se trouve lintersection de la ligne 19 et de
la colonne 1 0.05 = 0.95, donc q
0.05
(t
19
) = 10.12. En dautres termes, si X t
19
, alors
P(X 10.12) = 5%.
k\z 0.995 0.990 0.975 0.950 0.900 0.100 0.050 0.025 0.010 0.005
1 0 0 0 0 0.02 2.71 3.84 5.02 6.63 7.88
2 0.01 0.02 0.05 0.10 0.21 4.61 5.99 7.38 9.21 10.60
3 0.07 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 12.84
4 0.21 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 14.86
5 0.41 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 16.75
6 0.68 0.87 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55
7 0.99 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28
8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95
9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59
10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19
11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.73 26.76
12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30
13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82
14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32
15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80
16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27
17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72
18 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16
19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58
20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00
21 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41.40
22 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.80
23 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44.18
24 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56
25 10.52 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 46.93
26 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29
27 11.81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 49.65
28 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99
29 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34
30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67
33 15.82 17.07 19.05 20.87 23.11 43.75 47.40 50.73 54.78 57.65
35 17.19 18.51 20.57 22.47 24.80 46.06 49.80 53.20 57.34 60.27
38 19.29 20.69 22.88 24.88 27.34 49.51 53.38 56.90 61.16 64.18
40 20.71 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.77
50 27.99 29.70 32.35 34.76 37.68 63.16 67.50 71.42 76.15 79.49
60 35.53 37.48 40.48 43.18 46.45 74.39 79.08 83.29 88.37 91.95
70 43.27 45.44 48.75 51.73 55.32 85.52 90.53 95.02 100.42 104.21
80 51.17 53.54 57.15 60.39 64.28 96.58 101.88 106.63 112.33 116.32
90 59.20 61.75 65.65 69.13 73.29 107.56 113.14 118.14 124.12 128.30
100 67.33 70.06 74.22 77.93 82.36 118.50 124.34 129.56 135.81 140.17
86 Tables numriques Chapitre 6
6.3 Table de la loi de Student
La table suivante donne la valeur du quantile dordre (1 z) de la loi de Student k degrs
de libert. Par exemple, le quantile q
0.6
(t
19
) se trouve lintersection de la ligne 19 et de la
colonne 1 0.6 = 0.4, donc q
0.6
(t
19
) = 0.2569.
k\z 0.450 0.400 0.300 0.200 0.100 0.050 0.025 0.010 0.005
8 0.1297 0.2619 0.5459 0.8889 1.3968 1.8595 2.3060 2.8965 3.3554
9 0.1293 0.2610 0.5435 0.8834 1.3830 1.8331 2.2622 2.8214 3.2498
10 0.1289 0.2602 0.5415 0.8791 1.3722 1.8125 2.2281 2.7638 3.1693
11 0.1286 0.2596 0.5399 0.8755 1.3634 1.7959 2.2010 2.7181 3.1058
12 0.1283 0.2590 0.5386 0.8726 1.3562 1.7823 2.1788 2.6810 3.0545
13 0.1281 0.2586 0.5375 0.8702 1.3502 1.7709 2.1604 2.6503 3.0123
14 0.1280 0.2582 0.5366 0.8681 1.3450 1.7613 2.1448 2.6245 2.9768
15 0.1278 0.2579 0.5357 0.8662 1.3406 1.7531 2.1314 2.6025 2.9467
16 0.1277 0.2576 0.5350 0.8647 1.3368 1.7459 2.1199 2.5835 2.9208
17 0.1276 0.2573 0.5344 0.8633 1.3334 1.7396 2.1098 2.5669 2.8982
18 0.1274 0.2571 0.5338 0.8620 1.3304 1.7341 2.1009 2.5524 2.8784
19 0.1274 0.2569 0.5333 0.8610 1.3277 1.7291 2.0930 2.5395 2.8609
20 0.1273 0.2567 0.5329 0.8600 1.3253 1.7247 2.0860 2.5280 2.8453
21 0.1272 0.2566 0.5325 0.8591 1.3232 1.7207 2.0796 2.5176 2.8314
22 0.1271 0.2564 0.5321 0.8583 1.3212 1.7171 2.0739 2.5083 2.8188
23 0.1271 0.2563 0.5317 0.8575 1.3195 1.7139 2.0687 2.4999 2.8073
24 0.1270 0.2562 0.5314 0.8569 1.3178 1.7109 2.0639 2.4922 2.7969
25 0.1269 0.2561 0.5312 0.8562 1.3163 1.7081 2.0595 2.4851 2.7874
26 0.1269 0.2560 0.5309 0.8557 1.3150 1.7056 2.0555 2.4786 2.7787
27 0.1268 0.2559 0.5306 0.8551 1.3137 1.7033 2.0518 2.4727 2.7707
28 0.1268 0.2558 0.5304 0.8546 1.3125 1.7011 2.0484 2.4671 2.7633
29 0.1268 0.2557 0.5302 0.8542 1.3114 1.6991 2.0452 2.4620 2.7564
30 0.1267 0.2556 0.5300 0.8538 1.3104 1.6973 2.0423 2.4573 2.7500
31 0.1267 0.2555 0.5298 0.8534 1.3095 1.6955 2.0395 2.4528 2.7440
32 0.1267 0.2555 0.5297 0.8530 1.3086 1.6939 2.0369 2.4487 2.7385
33 0.1266 0.2554 0.5295 0.8526 1.3077 1.6924 2.0345 2.4448 2.7333
34 0.1266 0.2553 0.5294 0.8523 1.3070 1.6909 2.0322 2.4411 2.7284
35 0.1266 0.2553 0.5292 0.8520 1.3062 1.6896 2.0301 2.4377 2.7238
36 0.1266 0.2552 0.5291 0.8517 1.3055 1.6883 2.0281 2.4345 2.7195
37 0.1265 0.2552 0.5289 0.8514 1.3049 1.6871 2.0262 2.4314 2.7154
38 0.1265 0.2551 0.5288 0.8512 1.3042 1.6860 2.0244 2.4286 2.7116
39 0.1265 0.2551 0.5287 0.8509 1.3036 1.6849 2.0227 2.4258 2.7079
40 0.1265 0.2550 0.5286 0.8507 1.3031 1.6839 2.0211 2.4233 2.7045
50 0.1263 0.2547 0.5278 0.8489 1.2987 1.6759 2.0086 2.4033 2.6778
60 0.1262 0.2545 0.5272 0.8477 1.2958 1.6706 2.0003 2.3901 2.6603
70 0.1261 0.2543 0.5268 0.8468 1.2938 1.6669 1.9944 2.3808 2.6479
80 0.1261 0.2542 0.5265 0.8461 1.2922 1.6641 1.9901 2.3739 2.6387
90 0.1260 0.2541 0.5263 0.8456 1.2910 1.6620 1.9867 2.3685 2.6316
100 0.1260 0.2540 0.5261 0.8452 1.2901 1.6602 1.9840 2.3642 2.6259
Section 6.4 Quantiles pour le test de Kolmogorov 87
6.4 Quantiles pour le test de Kolmogorov
La Table ci-dessous contient les quantiles dordre 1 de la loi de la statistique D
n
=
n sup
xR
[
F
n
(x) F
(x)[, utilise dans le test dadquation de Kolmogorov.

n = 10% = 5% = 1%
1 0.9500 0.9750 0.9950
2 0.7764 0.8419 0.9293
3 0.6360 0.7076 0.8290
4 0.5652 0.6239 0.7342
5 0.5094 0.5633 0.6685
6 0.4680 0.5193 0.6166
7 0.4361 0.4834 0.5758
8 0.4096 0.4543 0.5418
9 0.3875 0.4300 0.5133
10 0.3687 0.4093 0.4889
11 0.3524 0.3912 0.4677
12 0.3382 0.3754 0.4491
13 0.3255 0.3614 0.4325
14 0.3142 0.3489 0.4176
15 0.3040 0.3376 0.4042
16 0.2947 0.3273 0.3920
17 0.2863 0.3180 0.3809
18 0.2785 0.3094 0.3706
19 0.2714 0.3014 0.3612
20 0.2647 0.2941 0.3524
21 0.2587 0.2873 0.3443
22 0.2529 0.2809 0.3367
23 0.2475 0.2749 0.3296
24 0.2425 0.2693 0.3229
25 0.2377 0.2641 0.3166
26 0.2333 0.2591 0.3106
27 0.2290 0.2544 0.3050
28 0.2250 0.2500 0.2997
29 0.2212 0.2457 0.2947
30 0.2176 0.2417 0.2899
31 0.2142 0.2379 0.2853
32 0.2109 0.2343 0.2809
33 0.2078 0.2308 0.2768
34 0.2048 0.2275 0.2728
35 0.2019 0.2243 0.2690
36 0.1991 0.2212 0.2653
37 0.1965 0.2183 0.2618
38 0.1940 0.2155 0.2584
39 0.1915 0.2127 0.2552
40 0.1892 0.2101 0.2521
n = 10% = 5% = 1%
41 0.1869 0.2076 0.2490
42 0.1847 0.2052 0.2461
43 0.1826 0.2028 0.2433
44 0.1806 0.2006 0.2406
45 0.1786 0.1984 0.2380
46 0.1767 0.1963 0.2354
47 0.1748 0.1942 0.2330
48 0.1730 0.1922 0.2306
49 0.1713 0.1903 0.2283
50 0.1696 0.1884 0.2260
51 0.1680 0.1866 0.2239
52 0.1664 0.1848 0.2217
53 0.1648 0.1831 0.2197
54 0.1633 0.1814 0.2177
55 0.1619 0.1798 0.2157
56 0.1605 0.1782 0.2138
57 0.1591 0.1767 0.2120
58 0.1577 0.1752 0.2102
59 0.1564 0.1737 0.2084
60 0.1551 0.1723 0.2067
61 0.1539 0.1709 0.2051
62 0.1526 0.1696 0.2034
63 0.1515 0.1682 0.2018
64 0.1503 0.1669 0.2003
65 0.1492 0.1657 0.1988
66 0.1480 0.1644 0.1973
67 0.1469 0.1632 0.1958
68 0.1459 0.1620 0.1944
69 0.1448 0.1609 0.1930
70 0.1438 0.1598 0.1917
71 0.1428 0.1586 0.1903
72 0.1418 0.1576 0.1890
73 0.1409 0.1565 0.1878
74 0.1399 0.1554 0.1865
75 0.1390 0.1544 0.1853
76 0.1381 0.1534 0.1841
77 0.1372 0.1524 0.1829
78 0.1364 0.1515 0.1817
79 0.1355 0.1505 0.1806
80 0.1347 0.1496 0.1795
TABLE 6.1 Quantiles de la statistique de Kolmogorov

Poly 2

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Poly 2

Diunggah oleh

Hak Cipta:

Format Tersedia

Statistique Numrique et Analyse

). Elles sont donc combinaisons linaires des variables dintrt X

) est donne par le carr du cosinus de langle :

, la qualit de projection dun individu sur un sous-espace prin-

pour une valeur

]0, 1[ qui nous est inconnue. Cette valeur reprsente la frquence

nous permettrait de calculer une valeur

qui est sense contenir la loi P de X. Les deux

la vraie valeur du paramtre. La premire question quon se

en utilisant uniquement lchantillon

toute application mesurable

. Cependant, la dnition ci-

. On dit que lestimateur

calcule laide de lestimateur

et la loi asymptotique de la diffrence

est la loi gaussienne ^(0,

), on dit alors que

des variables alatoires et soit F

(x) pour tout x R tel que F

: est discret, sil existe un

(A) = 1 pour tout . En dautres

: est densit, si pour tout

([a, b]) = Proba(X

: un modle i.i.d. discret ou densit et soit p(, x) la

=]0, 1[. Il sagit dun modle discret avec A = 0, 1

=]0, +[. Il sagit dun modle densit avec :

= 1/2. Les valeurs estimes quon obtient pour ces

= 20. Les valeurs estimes quon obtient pour ces

= 1. Les valeurs estimes quon obtient pour ces chantillons

]). Le paramtre inconnu

est suppos appartenir lensemble R

) avec la vitesse 1/n, cest--dire

est fortement asymtrique, on remplace la seconde tape par la

]0, 1[. Nous avons dj vu que lEMV

]0, 1[. (3.6)

= 0.25 dans le modle de

= 5 dans le modle exponentiel. On remarque que

est la moyenne empirique X

Section 3.5 Test dhypothses 47

sur R est notre disposition, mais le paramtre

est inconnu. Le but des tests sta-

) est continue et ne sannule quen

) sera symtrique par rapport zro. On prendra alors

est un nombre rel appel seuil critique du test. Ici, on

est appele p-value

) et on cherche tester lhypothse

est absolument continue et ne dpend pas de

a pour densit la fonction

, ) est bien une densit de probabilit et prouver que la mdiane

, alors la mdiane empirique

que lon ignore), caractriser la loi P

I) 1 . Si cette ingalit est stricte, on parle dun intervalle de conance

est continue, alors

est la plus grande valeur de pour laquelle

augmente et on a tendance rejeter le test.

augmente et on a tendance rejeter le test. Cela traduit le

augmente et on a tendance rejeter le test. En effet, plus

caractrisent la loi commune des v.a. Z

(aussi de somme gale 1), appartient

sont tous non nuls,

par la frquence marginale correspondante

(pour mimer la formule dindpendance cite plus haut).

. Le test, au seuil , consiste