Ch12 Interprétation Des Tests Orientés Régression

Chapitre 12
Interprétation des Tests

Orientés Régression
12.1 Introduction
Dans les chapitres précédents, nous avons discuté d’un grand nombre de statis-
tiques de test pour les modèles de régression linéaire et non linéaire. La plu-
part de ces tests étaient orientés régression, c’est-à-dire qu’il s’agissait de tests
de spécification de la fonction de régression. L’usage du terme “orienté” dans
ce contexte peut paraı̂tre étrange a priori, mais il devrait se justifier au fur et
à mesure que le chapitre se déroulera. Fondamentalement, les tests orientés
régression sont des tests de la spécification de la fonction de régression, alors
que les tests orientés non-régression sont des tests destinés à d’autres aspects
de la modélisation, comme par exemple des tests d’hétéroscédasticité.
Il est désormais temps de connaı̂tre la signification des résultats des tests
d’hypothèses et la manière de les interpréter. Cette discussion nécessite un
certain appareillage technique, et en particulier le concept de dérive de DGP,
que nous introduirons dans la Section 12.3. L’ensemble des résultats issus
de cet appareillage est malgré tout extrêmement simple et intuitif, et il peut
être d’une grande utilité dans l’interprétation des statistiques de test que l’on
obtient concrètement dans les travaux empiriques. Dans ce chapitre, nous
ne discutons que des tests orientés régression pour des modèles de régression
estimés par NLS. Bien que cela soit limitatif, cela simplifie considérablement
l’exposé. Au cours du prochain chapitre, nous discuterons à la fois des tests
de modèles en dehors de la classe des régressions et des tests de modèles de
régression dans des directions de non-régression, dans le contexte des trois
tests classiques basés sur l’estimation ML, à savoir les tests de Wald, LR
et LM. Comme nous le verrons, les principaux résultats de ce chapitre sont
transposables sans modification au cas plus général. Ils le sont également,
avec quelques remaniements, à des modèles estimés par IV et par GLS.
Dans la Section 3.4, nous introduisions les concepts de niveau et de puis-
sance d’un test. Le niveau d’un test, comme nous le rappellerons, est la
probabilité qu’il rejette l’hypothèse nulle lorsque celle-ci est exacte, alors que
la puissance d’un test est la probabilité qu’il rejette l’hypothèse nulle lorsque
celle-ci est inexacte. A l’évidence, la puissance dépendra de la manière dont les
403
404 Interprétation des Tests Orientés Régression
données auront été générées. Ainsi nous ne pouvons pas parler de puissance
sans spécifier un processus générateur de données (ou éventuellement une
famille de DGP). En général, la puissance d’un test dépendra de l’hypothèse
nulle, H0 , de l’hypothèse alternative contre laquelle elle est testée, H1 , et du
DGP qui est supposé avoir généré les données. Nous discuterons de certains
concepts connexes au niveau et à la puissance des tests dans la Section 12.2.
La puissance d’un test peut dépendre des détails de la construction du
test, mais cela ne sera pas important si nous ne nous intéressons qu’aux analy-
ses asymptotiques. De nombreux tests sont asymptotiquement équivalents
sous l’hypothèse nulle et sous toutes les dérives de DGP, bien qu’ils puissent
différer substantiellement avec des échantillons finis. Deux tests sont dits
asymptotiquement équivalents s’ils tendent vers la même variable aléatoire.
Par exemple, les tests en F et du χ2 basés sur la même régression de Gauss-
Newton seront asymptotiquement équivalents, à condition bien sûr que le test
en F soit multiplié par le nombre de degrés de liberté de son numérateur. Ces
tests seront également équivalents aux tests en F ou du χ2 asymptotiques
contre la même alternative basés sur la comparaison des sommes des résidus
au carré des modèles contraint et non contraint.1 Nous n’essaierons pas de
démontrer ce résultat ici; c’est une conséquence de résultats plus généraux
démontrés par Davidson et MacKinnon (1987). Cependant, c’est un résultat
important, parce qu’il nous permet l’étude des seuls tests basés sur la GNR
pour affirmer que nos résultats sont beaucoup plus généralement applicables.
Alors, dans ce chapitre, nous discuterons de façon explicite ce qui détermine
la puissance asymptotique des tests orientés régression basés sur la GNR, et
de façon implicite ce qui détermine la puissance asymptotique de tous les tests
orientés régression.
On peut écrire l’hypothèse nulle sous la forme
H0 : y = x(β) + u, E(uu>) = σ 2 I. (12.01)
Soit β̃ le vecteur à k paramètres des estimations NLS de β. Alors plusieurs

statistiques de test équivalentes peuvent être calculées avec la GNR
y − x̃ = X̃b + Z̃c + résidus, (12.02)
où, comme d’habitude, x̃ désigne x(β̃), et où la matrice X̃ ≡ X(β̃) de dimen-

sion n × k a pour élément type ∂xt (β)/∂βi , et est évaluée en β̃. Comme nous
l’avons vu, la matrice Z̃ ≡ Z(β̃) de dimension n × r peut être spécifiée de
différentes façons, qui dépendent de l’alternative contre laquelle nous voulons
1
Tous ces tests sont également asymptotiquement équivalents à des tests basés
sur la régression de Gauss-Newton robuste à l’hétéroscédasticité discutée dans
la Section 11.6, mais uniquement s’il n’y a pas d’hétéroscédasticité. Consulter
l’article de Davidson et MacKinnon (1985b).
12.2 Niveau et Puissance 405
tester l’hypothèse nulle. La possibilité la plus simple est que x(β) soit un cas
particulier de x(β, γ) où γ = 0, ce qui nous permet d’écrire
H1 : y = x(β, γ) + u, E(uu>) = σ 2 I. (12.03)
Dans ce cas, Z̃ = X̃γ , où X̃γ a pour élément type ∂xt (β, γ)/∂γj , évaluée en
(β̃, 0). Cependant, comme nous l’avons vu dans le Chapitre 11, la construction
d’un test contre une alternative explicite telle que (12.03) n’est qu’un des
nombreux moyens de générer un test basé sur la GNR (12.02).
La statistique de test la plus simple basée sur (12.02) est
1 ¡ ¢−1
(y − x̃)>Z̃ Z̃>M̃X Z̃ Z̃>(y − x̃), (12.04)
s̃2
où M̃X ≡ I − X̃(X̃>X̃)−1X̃> et s̃2 ≡ (y − x̃)>(y − x̃)/(n − k). La statistique

de test (12.04) est 1/s̃2 fois la somme des carrés expliqués de (12.02). Par
souci de simplicité, nous ne considérerons que cette statistique de test tout au
long de ce chapitre. Parce que (12.04) est asymptotiquement équivalente aux
autres tests basés sur (12.02) mais aussi aux tests contre la même alternative
basés sur les principes de Wald, LR et LM, nos résultats restent malgré tout
assez généraux.
Au delà de la spécification de l’hypothèse nulle (12.01) et de la statis-
tique de test (12.04), il nous faut détailler la façon dont nous supposons que
les données ont été générées si nous avons l’intention de discuter de la puis-
sance d’un test. Cela nous conduit à considérer le nouveau concept important
de dérive de DGP, que nous avons déjà mentionné. Sans ce concept, il serait
extrêmement difficile d’analyser les propriétés asymptotiques des statistiques
de test lorsque l’hypothèse nulle n’a pas généré les données, et nous discutons
donc largement la dérive des DGP dans la Section 12.3. Dans les deux sec-
tions qui suivent, nous analysons les propriétés asymptotiques de la statistique
de test (12.04) sous certaines dérives de DGP et donnons une interprétation
géométrique de ces résultats. Dans la Section 12.6, nous expliquerons com-
ment on pourrait comparer la puissance des tests dont les distributions ne
sont connues qu’asymptotiquement. Dans la Section 12.7, nous exploitons les
résultats obtenus précédemment et discutons de l’interprétation des résultats
des tests orientés régression qui rejettent l’hypothèse nulle. Enfin, dans la
Section 12.8, nous verrons comment il faut interpréter les résultats des tests
qui ne rejettent pas l’hypothèse nulle.
12.2 Niveau et Puissance

Nous avons introduit les concepts de niveau et de puissance des tests d’hypo-
thèses lors de la Section 3.4. Un moyen de voir comment s’articulent ces
concepts est d’étudier la courbe de niveau-puissance pour n’importe quel test
Puissance
1.0 ...................................................................................................................
................................................ ...................
........
....
.... ............................ ..................
....
..........
.. ..
....... ..
.....
....... . . . .
Test 1 →................. . ........... ..... ...
.. .
.... ............
.
.......... . .
..
..
.... .......... . . . ..... ....
.. ....... ..... ..
.. .
.... .........
...... ...
............. ......... .....
0.8 ... .... ..
...
..... ....
..... ... ..... ......... . . ...
.. ... ..
... ..... ..... ...
..... ... .... ← Test 2 ... ..... .....
.. .. ..
.. .... ..... ...
.... . ....
. . ........ .......
. .. ..
0.6 ... ... .... ....
.... ..... ......... ......
... .. .
.. .. ..... ....
..... ..... ........ ..
. ....
.. .
. . ..... ....
... .. ..... ....
... .... .... ....
. ...
0.4 ... ... 45◦ line →.......... ....
.... ... . ... ....
.. ..
.. .
.. .. ..... ....
.... ..... ........ ..
. ....
..
..... .. ← Test biaisé
.. ....
.. .. ..... .....
... ..... ......
.. ...
..
.... .... .....
0.2 ....... ...
...... .........
.. ..
.
..... ..... .....
....... ........ .
. ..........
.....
. ......
.
.... ......... ........
. ......
...........
.. .... ......
. .. ...........
0.0 ........................ Niveau
0.0 0.2 0.4 0.6 0.8 1.0
Figure 12.1 Courbes de niveau-puissance
donné. Pour simplifier, considérons la statistique de test qui est toujours un

nombre positif (les statistiques de test qui sont asymptotiquement distribuées
suivant une Fisher ou une χ2 possèdent cette propriété). Si nous choisissons
une valeur critique nulle, le test rejettera constamment l’hypothèse nulle, que
le DGP soit véritablement un cas particulier de l’hypothèse nulle ou pas. Au
fur et à mesure que nous augmentons la valeur critique, la probabilité que
le test rejette l’hypothèse nulle décroı̂t. Si le test est utile, cette probabilité
diminuera à l’origine beaucoup moins rapidement lorsque l’hypothèse nulle
est fausse que lorsqu’elle est vraie. La courbe de niveau-puissance montre,
pour une taille d’échantillon donnée, ces deux probabilités simultanément.
L’axe des abscisses est celui du niveau calculé pour un DGP qui satisfait
l’hypothèse nulle, et l’axe des ordonnées est celui de la puissance, pour un
autre DGP donné qui ne satisfera pas en général l’hypothèse nulle. Ainsi la
courbe de niveau-puissance illustre ce qu’est la puissance du test contre le
DGP donné pour chaque niveau de test que l’on peut choisir.
Considérons à présent la Figure 12.1, qui illustre quelques courbes de
niveau-puissance pour différentes statistiques de test potentielles. L’axe des
abscisses mesure le niveau. L’axe des ordonnées mesure la puissance, lorsque
les données sont générées par un DGP fixé. La courbe de niveau-puissance
est générée en modifiant la valeur critique du test. L’angle du nord-est corre-
spond à une valeur critique nulle. La puissance et le niveau sont, en ce point,
12.2 Niveau et Puissance 407
unitaires. L’angle du sud-ouest correspond à une valeur critique très grande,

et tellement élevée que la statistique de test ne lui sera jamais supérieure. La
puissance et le niveau sont, en ce point, égaux à 0. Pour de nombreuses statis-
tiques de test, dont celles distribuées selon une χ2 sous l’hypothèse nulle, cette
valeur critique est en principe infinie. Cependant, nous pourrions sélectionner
une valeur critique finie telle que la statistique de test la dépasse avec une
probabilité aussi proche de 0 que l’on veut.
La courbe de niveau-puissance d’un test pour lequel le niveau égale la
puissance correspond à la première bissectrice. Cela sera le cas par définition si
le DGP pour lequel la courbe est construite satisfait véritablement l’hypothèse
nulle. En dehors de ce cas, un test qui donnerait ce résultat serait à l’évidence
peu utile. Normalement, nous nous attendons à ce que la puissance d’un test
soit supérieure à son niveau pour n’importe quelle valeur critique, excepté
dans le cas où le niveau et la puissance sont égaux soit à 1 soit à 0. Les
courbes désignées “Test 1” et “Test 2” sur la figure sont des exemples de tests
pour lesquels c’est le cas. Cependant, il existe des tests pour lesquels le niveau
est supérieur à la puissance pour certains DGP. Ces tests sont appelés tests
biaisés, et la courbe appelée “Test Biaisé” illustre ce phénomène. Pour une
discussion plus profonde sur les tests biaisés, qui sont évidemment très peu
utilisés, consulter Kendall et Stuart (1979, Chapitre 23).
Il est clair à partir de la Figure 12.1 que le Test 1 est plus utile que
le Test 2. A l’exception des deux extrémités, la courbe de niveau-puissance
pour le premier est partout au dessus de la courbe du second. Ainsi, pour
n’importe quel niveau, la puissance du Test 1 est plus forte que celle du Test
2. Si la taille augmente, nous nous attendons à ce que la courbe de niveau-
puissance d’un test qui a de bonnes propriétés s’améliore (c’est-à-dire qu’elle
s’éloigne de la première bissectrice). A la limite, lorsque n → ∞, la courbe
de niveau-puissance ressemblerait à Γ, passant par les points (0, 0), (0, 1),
et (1, 1).
On peut générer des courbes de niveau-puissance avec ce que l’on appelle
la fonction puissance d’un test. Cette fonction fournit la puissance d’un test
comme fonction de son niveau (ou de façon équivalente, de la valeur critique),
de la taille de l’échantillon, et du DGP. Habituellement, le DGP est contraint
à appartenir à une hypothèse alternative particulière caractérisée par un en-
semble fini de paramètres. Spanos (1986, Chapitre 14) donne une définition
formelle des fonctions puissance dans ce contexte. Supposons, pour être con-
crets, que nous nous intéressions à un unique paramètre θ et que l’hypothèse
nulle soit θ = 0. Lorsque θ = 0, la puissance du test sera bien évidemment
égale à son niveau. Pour toute autre valeur de θ, la puissance sera supérieure
au niveau si le test est sans biais. Pour un test possédant de bonnes propriétés,
nous espérons que, pour une taille d’échantillon raisonnable, la puissance aug-
mentera de façon monotone avec |θ| et convergera vers 1 lorsque |θ| → ∞.
De façon similaire, pour tout θ 6= 0, nous nous attendons à ce que la puis-
sance tende vers 1 lorsque la taille de l’échantillon tend vers l’infini. La Fi-
Puissance
1.0 ............................ .......... ........ .....................
..... ....
. ...... .
.........
.... ... .. .
.... ... ....
... . . .. .....
... ... ← n = 100 ...
... ... .. ..
0.8 ... ... ....
. .
... ... .. ..
... ...
. ...
.
. ...
.
... ... ... ...
... ... ... ..
.... .
. .
. .
0.6 ... .
... ... ... ..
... ... ... ...
... ...
... .. . ← n = 25
...
. ... ...
.
. ...
0.4 ... ... .
... ... ... ...
... ... ...
. ...
.
... ... .. .
... ... .
.... ....
... ... . .
0.2 ... .... ... ..
... ... .... .....
.
.... .. . .
..... ... .... .......
........... ...........
0.05 ...............................................................................................................
..
0.0 θ
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0
Figure 12.2 Fonctions puissance pour tests de θ = 0 au niveau de .05
gure 12.2 illustre deux fonctions puissance, pour un test identique mais des
tailles d’échantillon différentes. Les données sont générées à partir de la loi
N (θ, 1), et l’hypothèse nulle est θ = 0. Les fonctions puissance sont illustrées
pour des tests à un taux de 5% avec des tailles d’échantillon égales à 25 et
100. Ces fonctions puissance sont symétriques par rapport à 0. Comme nous
l’espérions, la fonction puissance pour n = 100 est partout supérieure à la
fonction puissance pour n = 25, sauf en θ = 0.
Si un test rejette une hypothèse nulle fausse avec une probabilité asymp-
totiquement nulle, on parle de test convergent. Le concept de convergence
pour un test fut introduit par Wald et Wolfowitz (1940). C’est un concept
simple et intuitif et c’est évidemment une propriété recherchée pour un test.
Le test illustré sur la Figure 12.2 est convergent. Par conséquent, lorsque
n → ∞, la fonction puissance tend vers la forme d’un >, avec une puissance
égale à 1 pour toute valeur de θ sauf θ = 0. Nous pouvons définir la conver-
gence d’un test d’hypothèses de façon formelle comme suit.
Définition 12.1.
Un test est convergent contre une certaine classe de DGP dont au-
cun ne satisfait l’hypothèse nulle si, lorsque les données sont générées
par un membre appartenant à cette classe, la probabilité de rejeter
l’hypothèse nulle tend vers 1 lorsque la taille de l’échantillon n tend
vers l’infini, pour n’importe quelle valeur critique associée à un niveau
non nul.
Remarquons que la propriété de convergence d’un test dépendra de la façon
dont sont générées les données. Un test qui est convergent contre certains
DGP peut ne pas l’être contre d’autres. Intuitivement, la raison pour la-
12.3 Dérive de DGP 409
quelle les tests sont souvent convergents est que lorsque n → ∞, la masse
d’informations portée par l’échantillon sur la validité de l’hypothèse nulle
s’accroı̂t sans limite. Ce faisant, l’information étouffe le bruit des données et
permet finalement de conclure avec une probabilité égale à 1 que la statistique
de test n’est pas un tirage de ce qui serait sa distribution sous l’hypothèse
nulle.
Ces préliminaires étant faits, nous pouvons considérer ce qui détermine la
puissance des tests orientés régression. Puisque nous traitons des modèles de
régression non linéaire, il nous faut nous baser sur une analyse asymptotique.
Cependant, cela soulève une difficulté technique de taille. Tous les tests con-
sidérés jusqu’à présent sont convergents lorsque les données sont générées par
un DGP fixé appartenant à l’ensemble des alternatives, et ils sont en réalité
plus convergents que cela. Si un test est convergent, la valeur de la statistique
de test tendra vers plus ou moins l’infini lorsque n → ∞. Cela nous empêche
de parler de la distribution asymptotique d’une telle statistique de test, mais
aussi de comparer les distributions asymptotiques de deux statistiques concur-
rentes lorsque les deux tests sont convergents, si le DGP est fixé. La solution
consiste à laisser dériver un DGP vers l’hypothèse nulle à un certain taux.
C’est dans la prochaine section que nous parlons de dérive de DGP.
12.3 Dérive de DGP

Afin de déterminer les propriétés d’une statistique de test, il faut spécifier le
processus qui génère les données. Puisque, dans ce chapitre, nous ne nous
intéressons qu’aux tests orientés régression, nous focaliserons nos efforts sur
les DGP qui ne diffèrent de l’hypothèse nulle que dans ces directions. Cette
limitation n’est en aucune manière anodine. Elle signifie que nous ne pouvons
rien dire sur la puissance des tests orientés régression lorsque le modèle est
mal spécifié ailleurs que dans la fonction de régression (par exemple, lorsque
les aléas sont sujets à une hétéroscédasticité non modélisée). Certains aspects
de ce thème seront abordés lors du Chapitre 16.
La manière naturelle de spécifier un DGP dans le but d’analyser la puis-
sance d’un test consiste à supposer que c’est un cas particulier de la classe
des DGP qui composent ensemble l’hypothèse alternative. Cependant, on
note deux problèmes relatifs à cette approche. En premier lieu, on peut par-
faitement s’intéresser à la puissance de certains tests lorsque les données sont
générées par un DGP qui n’appartient pas à l’hypothèse alternative. Il semble
peu pertinent d’éliminer d’office ce cas intéressant.
Le second problème, auquel nous avons fait allusion dans la section
précédente est que la plupart des statistiques de test qui nous intéressent
ne possédera pas de distribution asymptotique non dégénérée sous un DGP
fixé qui n’est pas un cas particulier de l’hypothèse nulle. Si c’était le cas, elles
ne seraient pas convergentes. Une solution éprouvée serait de considérer la
distribution de la statistique de test à laquelle nous nous intéressons sous ce

que l’on nomme une suite d’alternatives locales. Lorsque θ est le vecteur de
paramètres d’intérêt, on peut écrire une suite de ce type comme
θ n = θ0 + n−1/2 δ. (12.05)
Ici θ n est le vecteur de paramètres correspondant à une taille d’échantillon

égale à n, θ0 est un vecteur de paramètres qui satisfait l’hypothèse nulle,
et δ est un vecteur non nul. A l’évidence, θ n converge vers θ0 à un taux
proportionnel à n−1/2 . Le pionnier de cette approche est Neyman (1937).
Cependant, on l’attribue souvent à Pitman (1949) et on s’y réfère souvent
sous le nom de “suite de Pitman” ou “dérive de Pitman”; voir McManus
(1991). Cette technique a été abondamment employée en économétrie; voir,
par exemple, Gallant et Holly (1980) et Engle (1984).
Afin de ne pas éliminer le cas intéressant où les données sont générées par
un DGP qui n’appartient pas à l’hypothèse alternative, Davidson et MacKin-
non (1985a, 1987) ont généralisé l’idée de suites d’alternatives locales à l’idée
de dérive de DGP. Ce chapitre s’inspire largement de l’approche initiée par
les deux articles.2
Une classe de dérive de DGP adéquate pour l’étude de la puissance de la
statistique de test (12.04) est
y = x(β0 ) + αn−1/2 a + u, E(u) = 0, E(uu>) = σ02 I. (12.06)
Ici β0 et σ02 désignent des valeurs spécifiques pour β et σ 2, a est un vecteur

à n composantes qui peut dépendre de variables exogènes, du vecteur de
paramètres β0 , et éventuellement des valeurs passées de yt , et α est un
paramètre qui détermine la distance séparant le DGP de hypothèse nulle
simple
y = x(β0 ) + u, E(u) = 0, E(uu>) = σ02 I. (12.07)
La dérive de DGP (12.06) tend vers l’hypothèse nulle lorsque n → ∞. Nous
discuterons bientôt du sens précis à donner au vecteur a. Remarquons
que, lorsque n croı̂t, le vecteur y se rapproche de ce qu’il devrait être sous
l’hypothèse nulle simple (12.07) à un taux proportionnel à n−1/2.
Le fait que la dérive de DGP (12.06) converge vers l’hypothèse nulle sim-
ple (12.07) à un taux de n−1/2 n’est pas un hasard. Ce taux a été choisi
avec minutie de manière à ce que la statistique de test (12.04), et toutes
les statistiques de test asymptotiquement équivalentes, aient une distribution
asymptotique lorsque n → ∞. De façon similaire, pour un niveau de test fixé,
la valeur de la fonction puissance tend vers une limite qui n’est en général ni
2
Pour être exact, le terme employé par Davidson et MacKinnon (1985a, 1987)
était “suite de DGP locaux”. Cependant, notre préférence va désormais au
terme “dérive de DGP”.
12.4 Distribution Asymptotique des Statistiques 411
0 ni 1 lorsque n → ∞ et lorsque la dérive de DGP converge vers l’hypothèse

nulle au taux n−1/2. Cette fonction limite s’appelle fonction puissance asymp-
totique de la statistique de test.
La dérive de DGP (12.06) fournit une représentation locale parfaitement
générale de tout modèle de régression suffisamment proche de (12.07). Sup-
posons, par exemple, que l’on veuille connaı̂tre le comportement d’un test
lorsque les données sont générées par une alternative telle que (12.03), où
γ 6= 0. Nous pourrions spécifier une suite d’alternatives locales comme
y = x(β0 , αn−1/2 γ0 ) + u, (12.08)
où γ0 est fixé et peut être normalisé à une longueur arbitraire, et où α
détermine la distance qui sépare (12.08) de (12.07). Parce que (12.08) con-
verge vers (12.07) au même taux que n−1/2 converge vers 0, un développement
en série de Taylor au premier ordre de (12.08) autour de α = 0 doit donner
exactement les mêmes résultats, dans une analyse asymptotique, que (12.08)
elle-même. Cette approximation est
y = x(β0 , 0) + αn−1/2 Xγ (β0 , 0)γ0 + u, (12.09)

.
où Xγ (β0 , 0) a pour élément type ∂xt (β, γ)/∂γj évaluée en [β0 ... 0]. Si
nous définissons x(β0 ) par x(β0 , 0) et a par Xγ (β0 , 0)γ0 , nous voyons
immédiatement que (12.09) est simplement un cas particulier de la dérive
de DGP (12.06).
L’argument précédent devrait montrer clairement que (12.06) est une
manière tout à fait générale de spécifier une dérive de DGP correspondant
à n’importe quel modèle de régression alternatif qui comprend l’hypothèse
nulle (12.01). Toute alternative spécifique produit simplement un vecteur a
différent. Si a est un vecteur nul, le DGP est un cas particulier de l’hypothèse
nulle, et le test aura une puissance égale à son niveau et par conséquent, aura
une courbe de niveau-puissance confondue avec la première bissectrice (voir
la Figure 12.1). Si a est construit à partir de l’hypothèse alternative contre
laquelle le test est fondé, alors la dérive de DGP (12.06) est véritablement une
suite d’alternatives locales telle que (12.05). En général, cependant, aucun de
ces cas particuliers ne se produira.
12.4 Distribution Asymptotique des Statistiques

Nous sommes à présent parés pour trouver la distribution asymptotique de la
statistique de test (12.04) sous la famille de dérive de DGP (12.06). Afin de
valider notre analyse asymptotique, il nous faut supposer que des conditions
de régularité variées sont vérifiées. Ainsi, nous supposerons que n−1X0>X0 ,
n−1Z0>Z0 , et n−1Z0>X0 sont des matrices qui tendent toutes vers des matrices
limites finies de rangs k, r et min(k, r) respectivement lorsque n → ∞. Nous
supposerons ensuite qu’il existe un N tel que, pour tout n > N, le rang de
la matrice [X0 Z0 ] est k + r, que n−1 a>a tend vers un scalaire fini, et que
n−1 a>X0 et n−1 a>Z0 tendent vers des vecteurs limites finis de dimensions
1 × k et 1 × r respectivement. Ici X0 désigne X(β0 ) et Z0 désigne Z(β0 ).
La validité des conditions de régularité dépendra du vecteur a, de l’hypothèse
nulle (12.01), de l’hypothèse alternative (qu’elle soit exacte ou non), et de
l’hypothèse nulle simple (12.07).
Nous commençons par écrire la statistique de test (12.04) de façon à ce
qu’elle corresponde au produit de quatre facteurs, qui sont tous O(1):
1 ¡ −1/2 ¢¡ ¢−1¡ −1/2 > ¢

n (y − x̃)>Z̃ n−1Z̃>M̃X Z̃ n Z̃ (y − x̃) . (12.10)
s̃2
Il nous faut maintenant remplacer les quantités s̃, n−1/2 (y − x̃)>Z̃, et

n−1Z̃>M̃X Z̃ par leur limite asymptotique sous l’hypothèse (12.06). Nous
établissons les résultats suivants sans démonstration. Ils s’obtiennent tous
par une modification pertinente des arguments invoqués dans le Chapitre 5:
p
s̃2 −→ σ02 , (12.11)
p ¡ ¢
n−1Z̃>M̃X Z̃ −→ plim n−1Z0>MXZ0 , (12.12)
n→∞
et ¡ ¢
a
n−1/2 (y − x̃)>Z̃ = n−1/2 u + αn−1/2 a >MX Z0 , (12.13)
où MX ≡ I − X0 (X0>X0 )−1X0>.

L’intuition qui guide les résultats (12.11) et (12.12) est immédiate. La
dérive de DGP (12.06) converge vers l’hypothèse nulle simple (12.07) suffi-
samment vite pour que les limites de s̃2 et n−1Z̃>M̃X Z̃ soient ¡ exactement les
¢
mêmes que sous l’hypothèse (12.07). Ces limites, σ02 et plim n−1Z0>MXZ0 ,
sont déterministes parce que la différence entre β̃ et β0 , qui est O(n−1/2 ),
n’affecte ni s̃2 ni n−1Z̃>M̃X Z̃ asymptotiquement. Il est par conséquent peu
surprenant que la différence entre la dérive de DGP (12.06) et l’hypothèse
nulle simple (12.07), qui est également O(n−1/2 ), n’ait aucun effet sur s̃2 et
sur n−1Z̃>M̃X Z̃ asymptotiquement.
Par contraste, n−1/2 (y − x̃)>Z̃ tend vers une limite en probabilité
aléatoire. Le résultat (12.13) provient du fait que
¡ ¢
y − x̃ = MX u + αn−1/2 a + o(n−1/2 ),
qui est l’analogue du résultat qui nous est familier (5.57) dans le cas où
α = 0. La raison pour laquelle αn−1/2 a a un impact est que Z̃>M̃X u et
αn−1/2 Z̃>M̃X a sont du même ordre, O(n1/2 ). Ainsi, en spécifiant la dérive
de DGP (12.06) comme nous l’avons fait, nous garantissons que les quan-
tités qui sont asymptotiquement déterministes sous l’hypothèse nulle simple
(12.07) ne sont pas modifiées sous (12.06), alors que des quantités qui sont
asymptotiquement aléatoires le sont.
La substitution de (12.11), (12.12) et (12.13) dans (12.20) nous permet
de voir que la statistique de test (12.04) est asymptotiquement égale à
1 ¡ −1/2 ¢> ³ ´−1 ¡ −1/2 ¢

1 > >
αn a+u MX Z plim − Z MX Z Z MX αn a+u , (12.14)
nσ02 n→∞ n
où, pour simplifier la notation, Z désigne Z0 . Il reste à déterminer la dis-

tribution asymptotique de cette quantité. Premièrement, nous définissons ψ
comme une matrice triangulaire de dimension r × r telle que
³ ´−1
1 >
ψψ> ≡ plim − Z MX Z . (12.15)
n→∞ n
Nous définissons ensuite η le vecteur de dimension r tel que

1 > > ¡ ¢
η≡ ψ Z MX αn−1 a + n−1/2 u .
σ0
La quantité (12.14) prend désormais la forme simple η>η; il s’agit simplement

de la somme de r variables aléatoires au carré, les r éléments du vecteur η.
Il est aisé de voir que, asymptotiquement, l’espérance de η est le vecteur
³ ´
1 −1 > >
plim − n
ασ 0 ψ Z M X a (12.16)
n→∞
et que sa matrice de covariance est

³ ´ ³ ´
1 −2 > > > > 1 >
plim − σ ψ Z MX E(uu )MXZψ = ψ plim −
n 0 n
Z MXZ ψ = Ir .
n→∞ n→∞
La dernière égalité provient ici de la définition de ψ dans (12.15). Puisque η

est égal à la somme d’un terme qui tend vers la limite déterministe (12.16) et
de n−1/2 fois une somme pondérée de variables aléatoires de variances finies,
et puisque notre hypothèse conserve ces poids à l’intérieur de bornes inférieure
et supérieure, nous pouvons appliquer un théorème de la limite centrale. La
statistique de test (12.04) est ainsi asymptotiquement égale à une somme de
r variables aléatoires indépendantes normales au carré, toutes de variance
unitaire et d’espérance donnée par un élément du vecteur (12.16). Un telle
somme suit la distribution du chi-carré non centrée à r degrés de liberté et
dont le paramètre de non centralité, ou NCP, est égal à la norme au carré du
vecteur d’espérances (12.16).
La distribution du χ2 non centrée joue un rôle majeur dans l’analyse
de la puissance asymptotique de la plupart des tests économétriques. Cette
distribution est abordée brièvement dans l’Annexe B; pour une discussion
plus complète, les lecteurs devraient consulter Johnson et Kotz (1970b,
Chapitre 28). L’allure de cette distribution dépend de deux éléments: le nom-

bre de degrés de liberté et le NCP. Le NCP est toujours un nombre positif;
s’il est nul, nous aurions une distribution du χ2 centrale ordinaire.
Afin de développer notre intuition, il est révélateur de considérer le cas à
deux degrés de liberté. Supposons que ε1 et ε2 soient des variables aléatoires
indépendantes, distribuées selon une N (0, 1), et supposons par ailleurs que
ξ1 = µ1 + ε1 et ξ2 = µ2 + ε2 , où µ1 et µ2 sont des valeurs fixées. La statistique
ζ C ≡ ε21 + ε22
sera distribuée suivant une χ2 (2), alors que la statistique

¡ ¢ ¡ ¢ ¡ ¢
ζ N ≡ ξ12 + ξ22 = ε21 + ε22 + µ21 + µ22 + 2µ1 ε1 + 2µ2 ε2 (12.17)
sera distribuée selon une χ2 (2) non centrée et dont le NCP est égal à µ21 + µ22 .
Une notation standard pour la distribution du χ2 non centrée est χ2 (r, Λ), où
r est le nombre de degrés de liberté et Λ est le NCP. Ainsi, dans ce cas, nous
pourrions dire que ζ N est distribué selon une χ2 (2, µ21 + µ22 ). 3
L’espérance de ζ N est supérieure à celle de ζ C. Cette dernière est égale
à 2, alors que la première est égale à 2 + µ21 + µ22 . Ainsi, en moyenne, ζ N
sera supérieure à ζ C. Donc, si nous devions tester l’hypothèse (erronée) que
ζ N provient de la distribution du χ2 (2) centrée à l’aide d’un test de niveau δ,
nous rejetterions cette hypothèse dans plus de 100δ% des cas. La puissance
de ce test, puisque nous conservons un nombre de degrés de liberté constant,
ne dépendra que du NCP, µ21 + µ22 . Connaissant (12.17), cela peut paraı̂tre
étrange. Il semblerait que la distribution de ζ N dépende de µ1 et de µ2 indi-
viduellement plutôt que de la somme de leurs carrés. En réalité, les variations
de µ1 et µ2 qui ne modifient pas µ21 + µ22 sont sans effet sur la distribution de
ζ N. La démonstration serait un bon exercice.
On associe au χ2 non centré deux autres distributions, appelées F non
centrée et F doublement non centrée. Elles sont définies de façon analogue à
la distribution en F ordinaire (centrée), comme un rapport de deux variables
aléatoires indépendantes du χ2 , divisée chacune par son degré de liberté. Pour
la distribution en F non centrée, la variable aléatoire du numérateur obéit à
une distribution du χ2 non centrée, alors que celle du dénominateur obéit à
une χ2 centrée. Pour la distribution en F doublement non centrée, à la fois le
3
Remarquons que certains auteurs, et aussi certains logiciels informatiques,
utilisent la racine carrée de Λ, plutôt que Λ lui-même, en tant que NCP et
se réfèrent donc à cette racine carrée en tant que NCP. La paramétrisation de
la non centralité de la distribution du χ2 n’a pas d’importance. Cependant,
la paramétrisation employée ici est plus naturelle mais aussi plus répandue: si
x1 ∼ χ2 (r1 , Λ1 ) et x2 ∼ χ2 (r2 , Λ2 ) sont indépendantes, alors z = x1 + x2 est
distribuée selon une χ2 (r1 + r2 , Λ1 + Λ2 ). Cela devrait illustrer le fait que Λ,
plutôt que sa racine carrée, est un choix naturel pour le NCP.
Puissance
1.0 ...........................................
.................................................................................................................................. ........................ .......
............................................................................................ ..................................................................................
(1, 8) ......................................................... ... . ............... ..... .
...... ...... .
.................. .......................... ......
......
.....
. ... . ... .... . .
....
...... ...
..... ......... ............ ............
.......... .....
..
..... ......... ............
. ..... ... .......... .. .... ... ........... .....
...
............ ........
.. .....
. ..... ...... .....
..
... .... ........ .........
0.8 ..... ....... ... . ....... . .. .. ........ .........
....
.. .... .....
.
.
... ..
..
.... ..... .....
.... ..... ....... .
.. . .... . ...
... ..
. .
.. ... ...
. .... ............................................ (3, 4) .....
.... ... ...... .. .... . . . . ....
. ...
. .... .....
... . ................................................................................. (1, 4) .....
0.6 ..... .... .... .. ...
. . .... .....
.
... .. ... ... .....
..... ........................................................................... (3, 8) ......
... .. ... ...
. . .....
......... ..... ..... ........
...
. .
...... .. ... .....
.............. ..... ........
.
0.4 .
........ ... .....
............ ... . ... .....
..
....... ..
... .. .....
....... .... ...
.....
. ...
..... ... .....
............ . .
......
.. .
0.2 ...... .....
........... .. .......
.... ..
........ .....
..... . .....
... ........
. .. Nota: (a, b) signifie r = a, Λ = b
... ......
. .. .
0.0 ...... Niveau
0.0 0.2 0.4 0.6 0.8 1.0
Figure 12.3 Les courbes de niveau-puissance dépendent de r et Λ
numérateur et le dénominateur ont des distributions du χ2 non centrées. Si

l’on étudie la puissance d’un test en F ordinaire dans le modèle de régression à
aléas normaux, avec un DGP fixé plutôt qu’une dérive de DGP, on trouve que
la statistique de test est distribuée suivant une distribution de Fisher soit non
centrée (si le DGP est un cas particulier de l’alternative) soit doublement non
centrée (dans le cas contraire). La difficulté supplémentaire de la distribution
de Fisher doublement non centrée survient dans le second cas parce qu’il
n’implique pas de dérive de DGP. Par conséquent, l’estimation de σ 2 sous
l’alternative n’est pas d’espérance égale à σ02 , ce qui nous empêche de calculer
la limite lorsque n → ∞. Alors, à plusieurs titres, l’analyse asymptotique de
modèles non linéaires est plus simple que l’analyse de modèles linéaires avec
des échantillons finis. Pour une discussion des modèles linéaires, voir Thursby
et Schmidt (1977).
Si une statistique de test obéit à une distribution du χ2 (r) sous l’hypo-
thèse nulle et obéit à une distribution du χ2 (r, Λ) sous une dérive de DGP,
la puissance du test dépendra uniquement de r et Λ. En réalité, elle sera
strictement croissante en Λ et strictement décroissante en r; voir Das Gupta
et Perlman (1974). L’espérance de la statistique sera égale à r + Λ. Ainsi, si
Λ augmente, la chance de voir la statistique de test dépasser n’importe quelle
valeur critique utilisée doit augmenter. A la limite, lorsque Λ → ∞, la puis-
sance du test tend vers 1 pour n’importe quelle valeur critique sélectionnée. La
Figure 12.3 illustre la dépendance de la puissance à r et Λ, et nous observons

quatre cas différents de courbes de niveau-puissance. Ces quatre cas, ordonnés
par puissances décroissantes pour un niveau donné sont (1, 8), (3, 8), (1, 4), et
(3, 4), où le premier élément de chaque couple est r alors que le second est Λ.
Revenons à présent à la statistique de test (12.04). Nous avons vu qu’elle
est asymptotiquement distribuée selon la χ2 (r, Λ) avec un paramètre de non
centralité Λ égal à la norme au carré de (12.16). Typiquement,
α2 ³ ´ ³ ´−1 ³ ´
1 > 1 > 1 >
Λ= plim − a MX Z plim − Z MX Z plim − Z MX a . (12.18)
σ02 n→∞ n n→∞ n n→∞ n
Pour un test particulier d’un modèle donné, MX, Z, et r sont fixés. Le

seul élément variable est la dérive de DGP qui est supposée avoir généré
les observations. L’étude de (12.18) montre comment le scalaire α et le
vecteur a modifient Λ et donc indirectement la puissance du test. Nous
voyons immédiatement que Λ est proportionnel à α2. Ainsi α est simple-
ment un paramètre qui mesure la distance entre la dérive de DGP (12.06)
et l’hypothèse nulle simple (12.07). A contrario, a mesure la direction dans
laquelle le DGP s’éloigne de l’hypothèse nulle simple (12.07).
Afin de saisir l’essence de (12.18) et ses conséquences pour la puissance
d’un test, il est extrêmement révélateur de considérer l’aspect géométrique
des choses. C’est ce que nous faisons dans la section qui suit.
12.5 La Géométrie de la Puissance des Tests

La NCP (12.18) n’est guère parlant sous cette forme. Il est possible, toutefois,
de le récrire de façon plus claire. En premier lieu, considérons le vecteur
αn−1/2 MX a, dont la longueur au carré est asymptotiquement
³ ´
1 >
α2 plim − n
a MX a . (12.19)
n→∞
Cette quantité est α2 fois la limite en probabilité des résidus au carré de la

régression de n−1/2 a sur X0 . Supposons que pour une valeur fixée de n le
DGP correspondant à cette taille d’échantillon soit représenté par le vecteur
x(β0 ) + αn−1/2 a dans E n. Si l’hypothèse nulle est représentée comme dans la
Section 2.2 par la variété X générée par les vecteurs x(β) en faisant varier β,
la somme des résidus au carré considérée plus haut est le carré de la distance
euclidienne entre le point représentant de DGP et l’approximation linéaire
S(X0 ) à la variété X au point β0 . Elle fournit par conséquent une mesure de
la différence, pour un n donné, entre le modèle testé et le DGP.
Considérons à présent la régression artificielle
(α/σ0 )n−1/2 MX a = MXZd + résidus, (12.20)

12.5 La Géométrie de la Puissance des Tests 417
a
...........
..
..
..
..
..
............. ...
.........
.
.............
............. ...
MX a............................ .
..
..
. .
... .
.
.. .................
... .... ...
... .... ..
... ..... .
... ..... . S(X0 )
... ..... ..
. ............
...
................. ... . ...... . ............
............
..
................. ... ........
.................
................ ... ..... . ............
............
.
.....
................. ..............
.................
............. .. . . . ... . . ............
............
φ ........ ..
................ . ............
................. ...
... ............
.................
...................... ............
............
.......
................ ...................... .......................
................. ...........
.........
............ ................................
............
S(X , Z ) 0 0 ............................... O ................
................
................
..........
............. ................
................
........
....... ................
..
.......... ................
..
. .
.....
.. ................
..
..
..
.. ................
..
..
..
..
..
...... ................
................
..
..
..
..
..
..... ...
..
..
..
..
..
......
...........
Figure 12.4 Les hypothèses nulle et alternative, le DGP, et l’angle φ
où d est un vecteur à r composantes choisi par moindres carrés de façon à

ce que cette régression ait un ajustement aussi bon que possible. La limi-
te en probabilité de la somme des carrés totaux pour cette régression est
l’expression (12.19) divisée par σ02 . La limite en probabilité de la somme des
carrés expliqués est le NCP (12.18). Ainsi le R2 non centré de la régression
(12.20) est
¡ ¢ ¡ ¢−1 ¡ ¢
plim n−1 a>MXZ plim n−1Z>MXZ plim n−1Z>MX a
¡ ¢ . (12.21)
plim n−1 a>MX a
Comme tous les R2 , on peut l’interpréter comme le carré du cosinus d’un

certain angle. Dans ce cas, c’est le carré du cosinus de la limite en probabilité
de l’angle formé par le vecteur αn−1/2 MX a et la projection de ce vecteur sur
le sous-espace S(X0 , Z0 ). La limite en probabilité de cette projection est
³ ¡ ¢−1¡ −1 > ¢´
plim αn−1/2 MXZ n−1Z>MXZ n Z MX a . (12.22)
n→∞
Si nous notons φ la limite en probabilité de l’angle entre αn−1/2 MX a et

la projection (12.22), nous voyons clairement à partir de la définition d’un
cosinus que cos2 φ est égal au R2 (12.21). 4
Tout ceci est illustré sur la Figure 12.4, pour le cas où l’hypothèse nulle
ne possède qu’un seul paramètre et où une seule contrainte est testée. Le
sous-espace linéaire unidimensionnel S(X0 ) correspond à l’hypothèse nulle, et
le sous-espace linéaire bidimensionnel S(X0 , Z0 ) correspond à l’hypothèse al-
ternative. Si l’hypothèse nulle était non linéaire, nous pourrions la représenter
4
Souvenons-nous que si a et b sont des vecteurs arbitraires, le cosinus de l’angle
entre ces vecteurs est (a>b)/(kakkbk). Dans le cas particulier où a = P b, où
P est une matrice de projection, la formule de simplifie en kP bk/kbk.
sur la figure comme une variété incurvée unidimensionnelle tangente à S(X0 )

au point (β0 , 0). Si l’hypothèse alternative était non linéaire, nous pourrions
la représenter sur la figure comme une variété incurvée bidimensionnelle tan-
gente à S(X0 , Z0 ) au point (β0 , 0), incorporant la variété unidimensionnelle
correspondant à l’hypothèse nulle. Afin d’éviter toute complication sur la figu-
re, nous n’avons représenté aucune de ces variétés. Ainsi la figure représentée
suppose implicitement que les hypothèses nulle et alternative sont des modèles
de régression linéaire. Cette hypothèse, cependant, est sans aucun effet sur
la géométrie en cause, parce que tout dépend d’approximations linéaires quoi
qu’il en soit.
Nous avons noté a le DGP sur la figure. Bien sûr, le DGP est en réalité
x(β0 )+αn−1/2 a, mais nous pouvons traiter x(β0 ) comme l’origine, et puisque
le facteur αn−1/2 n’intervient pas dans les considérations géométriques, nous
le fixons arbitrairement à 1 pour l’instant. L’aspect important du DGP sur
la figure est qu’il n’appartient pas à l’hypothèse alternative S(X0 , Z0 ). Il
pourrait lui appartenir, bien sûr, mais comme la figure l’illustre, cela serait
un cas particulier. Sur la figure, nous projetons tout d’abord a sur S⊥ (X0 ),
ce qui nous donne le point MX a. Bien que a corresponde à la différence
entre l’hypothèse nulle simple x(β0 ) et le DGP, c’est véritablement MX a
qui est important pour le test, parce que c’est la différence entre a et le
point le plus proche appartenant à S(X0 ) (qui est bien sûr PX a). Sur la
figure, nous projetons ensuite MX a sur S(X0 , Z0 ). Tout ceci est équivalent
à l’exécution de la régression (12.20). Le carré du cosinus de l’angle φ entre
MX a et sa projection sur S(X0 , Z0 ) est alors l’équivalent en échantillon fini
de l’expression (12.21).
La raison pour laquelle nous parlons de tests orientés régression devrait
maintenant être claire. Si x(β0 ) est l’origine, tout modèle correspond à une
direction ou ensemble de directions. L’hypothèse nulle correspond à toutes
les directions dans lesquelles on peut s’éloigner de x(β0 ) tout en restant dans
S(X0 ). Dans la Figure 12.4 il n’y a que deux directions, parce que S(X0 )
est unidimensionnel, mais cela est un cas particulier. De manière similaire,
l’hypothèse alternative correspond à toutes les directions dans lesquelles on
peut s’éloigner de x(β0 ) tout en restant dans le sous-espace S(X0 , Z0 ). Enfin,
le DGP correspond à l’unique direction donnée par le vecteur a. L’ensemble
des directions de régression possibles est composé de toutes les directions
de E n. C’est, localement, l’ensemble de tous les DGP possibles qui laissent
inchangée la structure de régression du modèle.
Revenons à l’aspect algébrique du problème. Les résultats précédents
nous permettent de récrire de NCP (12.18) comme
¡ ¢
σ0−2 α2 plim n−1 a>MX a cos2 φ. (12.23)
n→∞
Nous avons déjà vu que, pour un nombre donné de degrés de liberté r, la

puissance asymptotique de la statistique de test (12.04) ne dépendra que de
ce NCP. Ainsi l’expression (12.23) nous enseigne tout ce qu’il est bon de
connaı̂tre sur ce qui détermine la puissance asymptotique des tests orientés
régression.
Le NCP (12.23) est le produit de deux facteurs. Le premier pourrait être
écrit comme ¡ ¢
α2 plim n−1 a>MX a
. (12.24)
σ02
Le numérateur de (12.24) est l’expression (12.19). C’est le carré de la limite
en probabilité de la distance séparant le DGP (12.06) du point le plus proche
sur une approximation linéaire de l’hypothèse nulle autour de l’hypothèse
nulle simple (12.07). Le dénominateur est la variance des innovations u dans
le DGP (12.06), rappelant que lorsque le DGP est plus parasité, il devient
plus difficile de rejeter n’importe quelle hypothèse nulle. Si nous doublons
le carré de la distance entre le DGP et l’hypothèse nulle, ainsi que σ02 , le
rapport (12.24) reste constant, ce qui indique que notre capacité à détecter
l’inexactitude de l’hypothèse nulle reste identique. Le résultat crucial de ce
rapport est qu’il ne dépend en aucun cas de Z. Il sera identique pour tous
les tests orientés régression de n’importe quelle hypothèse avec n’importe quel
ensemble de données.
Le facteur le plus intéressant dans l’expression (12.23) est le second,
cos2 φ. Ce n’est qu’à travers ce facteur que le choix de Z influence le NCP.
Un test aura une puissance maximale, pour un nombre de degrés de liberté
donné, lorsque cos2 φ est égal à 1, c’est-à-dire lorsque la régression artificielle
(12.20) a un R2 asymptotique égal à 1. Cela sera le cas chaque fois que le
vecteur a appartient au sous-espace S(X0 , Z0 ) mais pas à l’espace S(X0 ).
Autrement dit, cela sera le cas chaque fois que le DGP est un cas particulier
de l’hypothèse alternative contre laquelle le test est mené, mais ne satisfait
pas l’hypothèse nulle.
Par ailleurs, un test aura une puissance égale à son niveau (et par
conséquent aucune puissance utile) lorsque cos2 φ est nul. Cela surviendra
lorsque a appartient à S(X0 ), ce qui signifie que l’hypothèse nulle (ou au moins
une approximation linéaire de celle-ci) est exacte. Cela surviendra également
lorsque MX a est asymptotiquement orthogonal à MXZ, ce qui, en général,
peut paraı̂tre grandement improbable. Cependant, certaines caractéristiques
spéciales du modèle, ou de l’échantillon, rendent une telle situation moins rare
que ce que l’on pourrait imaginer. Quoi qu’il en soit, il est sans doute peu
trompeur d’affirmer que, lorsque l’hypothèse nulle est inexacte dans une direc-
tion de régression, on peut attendre de la plupart des tests orientés régression
qu’ils aient une certaine puissance, aussi faible fût-elle.
Lorsque cos2 φ est égal à 1, le NCP (12.23) est simplement
α2 ³ ´
1 >
plim − a MX a . (12.25)
σ02 n→∞ n
Puisque cos2 φ = 1 implique que MX a appartient à S(MXZ), cette expression

peut également s’écrire
α2 ³ ´
1 > >
plim − d Z MX Zd (12.26)
σ02 n→∞ n
pour un quelconque vecteur d. Dans une analyse conventionnelle de la

puissance basée sur des suites d’alternatives locales — par exemple Engle
(1984) — l’hypothèse nulle serait y = x(β, 0) + u, l’hypothèse alternative
serait y = x(β, γ) + u, et le DGP serait y = x(β0 , αn−1/2 γ0 ) + u. Alors Z
serait la matrice Xγ , avec un élément type ∂xt (β, γ)/∂γj , évaluée en (β0 , 0),
et d serait le vecteur γ0 . Le NCP (12.23) serait alors
α2 ³ ´
1 > >
plim − γ0 Xγ MXXγ γ0 .
σ02 n→∞ n
L’analyse conventionnelle est ainsi un cas particulier de l’analyse basée sur la

dérive de DGP.
Les résultats précédents nous permettent de définir deux concepts neufs,
qui sont quelquefois utiles dans la réflexion sur les tests. L’hypothèse alter-
native implicite d’un test est l’ensemble des DGP (c’est-à-dire le modèle ou
l’ensemble des modèles) pour lequel le test a un cos2 φ égal à l’unité. Locale-
ment, cet ensemble doit être de dimension k + r, c’est-à-dire la dimension de
l’hypothèse nulle plus le nombre de degrés de liberté de la statistique de test.
Remarquons que cela pourrait comprendre davantage que l’hypothèse alterna-
tive explicite contre laquelle le test est mené, parce qu’il peut exister un grand
nombre de modèles qui sont localement équivalents au voisinage de l’hypothèse
nulle; voir Godfrey (1981) et Godfrey et Wickens (1982). A titre d’exemple,
nous avons vu dans la Section 10.8 qu’une GNR, pour laquelle le régresseur
de test est un vecteur de résidus retardés une fois, peut être employée con-
tre l’hypothèse qu’un modèle de régression a des aléas AR(1) ou MA(1).
Etant donné que l’une ou l’autre de ces hypothèses en tant qu’hypothèse
nulle conduira exactement au même test, elles doivent appartenir toutes deux
à l’hypothèse alternative implicite de ce test.
A contrario, l’hypothèse nulle implicite d’un test est l’ensemble des DGP
contre lequel ce test aura un cos2 φ nul et n’aura par conséquent aucune puis-
sance utile asymptotiquement. L’hypothèse nulle implicite doit comprendre
l’hypothèse nulle de travail mais peut aussi comprendre d’autres DGP, puisque
cos2 φ ne sera nul que si a>MXZ = 0. Dans certains cas, cela peut se révéler
être une caractéristique souhaitable d’un test si une hypothèse implicite est
large, parce qu’alors le test n’aura de la puissance que dans certaines direc-
tions. Dans d’autres cas, cependant, nous voulons que les tests soient puissants
dans plusieurs directions et nous souhaiterions que l’hypothèse nulle implicite
soit aussi étroite que possible.
Ces résultats montrent clairement qu’il existe un équilibre lorsque nous

choisissons la direction de régression contre laquelle nous menons le test. D’un
côté, nous pouvons choisir de tester contre une hypothèse alternative très con-
traignante, à l’aide d’un test qui ne possède qu’un seul degré de liberté. A
l’opposé, nous pouvons choisir de tester contre une hypothèse alternative tout
à fait générale, à l’aide d’un test à plusieurs degrés de liberté. L’accroissement
du nombre de colonnes de Z nous permet toujours d’augmenter cos2 φ, ou au
pire de le laisser inchangé, ce qui augmentera la puissance de ce test. Mais
ce faisant, nous augmentons r, le nombre de degrés de liberté, ce qui réduit
la puissance du test. Ainsi la puissance peut soit augmenter soit diminuer
lorsque nous accroissons le nombre des directions avec lesquelles nous travail-
lons. Cet arbitrage est au cœur d’un nombre de controverses dans la littérature
consacrée aux tests d’hypothèses.
Considérons la puissance relative d’un test pour aléas AR(1) et d’un test
pour aléas AR(p). Le premier ne possède qu’un seul degré de liberté, alors
que le second en possède p. Le test contre des erreurs AR(1) a donc une
hypothèse alternative implicite plus étroite (c’est-à-dire une hypothèse de di-
mension plus faible) et une hypothèse nulle implicite plus large que le test
contre des erreurs AR(p). Si les aléas obéissent véritablement à un processus
AR(1), il est optimal de tester contre des aléas AR(1), parce qu’un tel test
aurait r = 1 et cos2 φ = 1. Le test contre des aléas AR(p) aurait également
cos2 φ = 1 dans ce cas, mais il serait moins puissant que le test contre des
aléas AR(1) parce que p > 1. Si les erreurs étaient générées par un processus
AR d’ordre supérieur à 1 mais au plus égal à p, la situation serait relative-
ment différente. A présent, cos2 φ serait inférieur à 1 pour le test contre des
aléas AR(1), mais égal à 1 pour le test d’aléas AR(p). La différence entre
les degrés de liberté pourrait encore rendre le premier test plus puissant que
le second dans certains cas. Dans d’autres cas, cependant, le DGP appar-
tiendrait véritablement à l’hypothèse nulle implicite de test d’aléas AR(1), et
le second test aurait donc un niveau égal à sa puissance, asymptotiquement.
La discussion du paragraphe précédent s’applique presque sans modi-

fication à de nombreuses circonstances différentes. Par exemple, il y a
eu une certaine controverse dans la littérature sur les mérites relatifs des
tests d’hypothèses non emboı̂tées à degré de liberté unique et des tests
d’englobement à degrés de liberté multiples, dont chacun a été discuté dans
la Section 11.3; voir Dastoor (1983) et Mizon et Richard (1986). Les tests
non emboı̂tés sont analogues aux tests d’aléas AR(1), les tests d’englobement
sont analogues aux tests d’aléas AR(p). Nous voyons immédiatement que les
tests non emboı̂tés doivent avoir une hypothèse alternative implicite plus pe-
tite et une hypothèse nulle implicite plus large que les tests d’englobement.
Ces premiers tests seront plus puissants que les seconds si les données étaient
véritablement générées par l’hypothèse non emboı̂tée contre laquelle le test
est élaboré, mais peuvent être plus ou moins puissants dans d’autres cas.
Si nous nous écartons provisoirement de notre hypothèse de dérive de

DGP et supposons que les résultats qui précèdent restent valides, nous voyons
que l’arbitrage entre cos2 φ et les degrés de liberté est influencé par la taille de
l’échantillon. Si n augmente parce que l’expérimentateur dispose de davantage
d’informations, on s’attend à ce que le NCP augmente, puisqu’alors le DGP ne
dérive pas vers l’hypothèse nulle lorsque la taille de l’échantillon augmente.
Ainsi, on peut attendre d’une modification de cos2 φ un effet d’autant plus
important sur la puissance que n est grand. D’autre part, l’effet de r sur la
valeur critique pour le test est indépendant de la taille de l’échantillon. Ainsi,
lorsque n est faible, il est particulièrement important d’employer des tests
avec un nombre de degrés de liberté faible, alors que lorsque n est élevé, il est
envisageable d’explorer plusieurs directions de façon à maximiser cos2 φ.
A proprement parler, l’analyse qui précède est incorrecte, puisque l’aban-
don de l’outil qu’est la dérive de DGP rend caducs les résultats sur lesquels elle
se base. Cependant, une analyse Monte Carlo suggère habituellement que ces
résultats correspondent assez bien en tant qu’approximations pour un DGP
fixé et une taille d’échantillon fixée, à condition que le DGP soit suffisamment
proche de l’hypothèse nulle et que n soit suffisamment important.5 Si on les
traite comme des approximations, alors on peut raisonnablement se demander
ce qu’il advient lorsque n varie alors que le DGP reste fixe.
Si nous étions sûrs que l’hypothèse nulle était fausse dans une seule di-
rection (c’est-à-dire si nous savions exactement ce que serait le vecteur a),
la procédure optimale serait de n’avoir qu’une seule colonne dans Z, cette
colonne étant proportionnelle à a. Dans la pratique, nous sommes rarement
dans cette position avantageuse. Nous repérons habituellement un grand nom-
bre d’éléments que nous supposons faux dans notre modèle et par conséquent
un grand nombre de directions de régression à tester. Face à cette situation,
il existe deux façons de procéder.
La première consiste à tester contre chaque type de mauvaise spécification
potentielle de façon séparée, avec des tests à un ou plusieurs degrés de liberté.
Si le modèle est faux dans une ou plusieurs directions de régression, cette
procédure a autant de chances de nous prévenir que n’importe quelle autre.
Cependant, l’expérimentateur doit rester prudent et contrôler le niveau global
du test, puisque si l’on réalise, par exemple, 10 tests différents au niveau 0.05,
le niveau global s’élèverait à 0.40; voir Savin (1980). De plus, il faudrait
éviter de conclure trop vite que le modèle est faux sur un point particulier,
simplement parce qu’une certaine statistique de test est significative. Il faut
garder à l’esprit que cos2 φ sera souvent bien supérieur à zéro pour de nombreux
tests, même si un seul élément est faux dans le modèle.
5
Voir, par exemple, Davidson et MacKinnon (1985c). Le cas qu’ils examinent
n’était pas véritablement un test orienté régression, mais comme nous le verrons
dans le Chapitre 13, la théorie de la puissance des tests en général est très
comparable à la théorie de la puissance des tests orientés régression.
12.6 Efficacité Asymptotique Relative 423
De façon alternative, il est possible de tester un grand nombre de mau-

vaises spécifications simultanément en augmentant la matrice Z de toutes les
directions de régression que nous désirons tester. Cela maximise cos2 φ et par
conséquent maximise l’opportunité d’obtenir un test convergent, et cela fa-
cilite le contrôle du niveau du test. Mais du fait que ce test aura de nombreux
degrés de liberté, la puissance peut être faible, sauf si la taille de l’échantillon
est élevée. De plus, si un tel test rejette l’hypothèse nulle, ce rejet nous pro-
cure peu d’information sur la nature de ce qui est faux dans le modèle. Bien
sûr, les coefficients des colonnes individuelles de Z dans la régression de test
peuvent fournir de l’information.
Cela soulève le problème de ce qu’il faut faire lorsqu’un ou plusieurs tests
rejettent l’hypothèse nulle. Il s’agit d’une question très difficile, et nous en
discuterons dans la Section 12.7.
12.6 Efficacité Asymptotique Relative

Puisque tous les tests convergents rejettent l’hypothèse nulle avec une proba-
bilité unitaire lorsque la taille de l’échantillon tend vers l’infini, il n’est pas
évident de comparer la puissance des tests dont nous ne connaissons pas les
distributions asymptotiques. Des approches variées ont été proposées dans
la littérature statistique, et celle qui est la plus connue est sans doute celle
qui repose sur le concept de l’efficacité asymptotique relative ou ARE. Ce
concept, qui est étroitement relié à l’idée d’alternatives locales, est dû à Pit-
man (1949), et a été développé depuis par de nombreux auteurs; consulter
Kendall et Stuart (1979, Chapitre 25). Supposons que nous disposions de
deux statistiques de test, disons τ1 et τ2 , dont les distributions asymptotiques
sont identiques, et toutes deux, comme toutes les statistiques de test abordées
dans ce chapitre, convergentes au taux n−1/2. Cela signifie que, pour que le
test ait une distribution asymptotique non dégénérée, la dérive de DGP doit
approcher l’hypothèse nulle simple à un taux proportionnel à n−1/2. Dans ce
cas, l’efficacité asymptotique de τ2 relativement à τ1 est définie par
µ ¶
n1
ARE21 = lim ,
n→∞ n2
où n1 et n2 sont les tailles d’échantillon telles que τ1 et τ2 ont une puissance
identique, et la limite est calculée lorsqu’à la fois n1 et n2 tendent vers l’infini.
Si, par exemple, ARE21 était égale à 0.25, τ2 nécessiterait asymptotiquement
4 fois plus d’observations que τ1 pour atteindre la même puissance.
Pour des tests qui ont un même nombre de degrés de liberté, on voit
aisément que
cos2 φ2
ARE21 = .
cos2 φ1
Tableau 12.1 ARE d’Autres Tests contre le Test Optimal
r cos2 φ: 1.0 0.8 0.5 0.2
1 1.000 0.800 0.500 0.200

1.000 0.800 0.500 0.200
2 0.830 0.664 0.415 0.166
0.775 0.620 0.388 0.155
5 0.638 0.510 0.319 0.128
0.549 0.440 0.275 0.110
10 0.512 0.409 0.256 0.102
0.418 0.334 0.209 0.084
20 0.402 0.322 0.201 0.080
0.313 0.251 0.157 0.063
50 0.283 0.227 0.142 0.057
0.210 0.168 0.105 0.042
Souvenons-nous à partir de (12.23) que le NCP est proportionnel à cos2 φ. Si

le DGP ne dérivait pas, il serait aussi proportionnel à la taille de l’échantillon.
Si nous voulons que τ1 et τ2 soient de puissances identiques dans ce cas, elles
doivent avoir le même NCP. Cela signifie que n1 /n2 doit être égal à l’inverse
de cos2 φ2 /cos2 φ1 . Supposons, par exemple, que cos2 φ1 = 1 et cos2 φ2 = 0.5.
Alors l’hypothèse alternative implicite pour τ1 doit comprendre le DGP, alors
que ce n’est pas le cas pour l’hypothèse alternative implicite pour τ2 . Ainsi
les directions de test de τ1 expliquent toutes les divergences entre l’hypothèse
nulle et le DGP, alors que celle de τ2 n’en expliquent que la moitié. Mais nous
pouvons compenser ce pouvoir explicatif réduit en choisissant n2 deux fois
plus important que n1 , de manière à rendre les deux tests de puissances iden-
tiques asymptotiquement. Ainsi ARE21 doit être égal à 0.5. Voir Davidson
et MacKinnon (1987) pour davantage de détails sur ce point.
Dans le cas plus général où τ1 et τ2 possèdent des degrés de liberté
différents, le calcul de ARE devient plus difficile. Le test optimal sera un
test pour lequel l’hypothèse alternative implicite comprend la dérive de DGP
(de sorte que cos2 φ = 1) et cela implique qu’il ne doit y avoir qu’un seul
degré de liberté. Il peut, bien évidemment, exister un grand nombre de tests
asymptotiques équivalents satisfaisant ce critère, mais il peut aussi ne pas en
exister du tout dans la pratique. Les tests qui impliquent plus d’un degré de
liberté, ou tels que cos2 φ < 1, seront asymptotiquement moins efficaces que
le test optimal et posséderont par conséquent des ARE inférieures à 1.
Les conséquences de l’usage de tests avec r > 1 et/ou cos2 φ < 1 sont
illustrées dans le Tableau 12.1. L’effet d’une modification de cos2 φ ne dépend
ni du niveau ni de la puissance du test, mais l’effet d’une modification de r
dépend de ces deux paramètres; voir Rothe (1981) et Saikkonen (1989). Le
tableau a été élaboré pour un niveau de 0.05 et des puissances de 0.90 (la
12.7 Interpréter le Rejet de l’Hypothèse Nulle 425
première donnée de chaque colonne) et 0.05 (la seconde donnée de chaque

colonne). Chaque composante du tableau est l’ARE pour le test relativement
au test optimal. Ainsi on peut interpréter chaque composante comme le fac-
teur de proportionnalité entre la taille d’échantillon du test optimal et celle
de l’autre test si tous deux doivent avoir une puissance identique asympto-
tiquement.
Du Tableau 12.1, nous voyons que le coût d’usage d’un test dont le nombre
de degré de liberté est inutilement élevé, ou avec un cos2 φ de valeur inférieure à
1, peut être modique dans certains cas comme très élevé dans d’autres. Dans
le pire des cas examinés, où le test non optimal est caractérisé par r = 50
et cos2 φ = 0.2, le test optimal est tellement plus puissant que l’autre qu’il
faudrait disposer d’un échantillon au moins 20 fois plus important pour le
test non optimal.
12.7 Interpréter le Rejet de l’Hypothèse Nulle

Supposons que l’on teste un modèle de régression dans une ou plusieurs di-
rections et que l’on obtienne une statistique de test qui rejette l’hypothèse
nulle quel que soit le niveau de signification retenu. Comment devons-nous
l’interpréter? Nous avons décidé que le DGP n’appartient pas à l’hypothèse
nulle implicite du test, puisque nous avons rejeté l’hypothèse nulle et donc
rejeté l’hypothèse que cos2 φ est nul. Alors le DGP appartient-il à l’hypothèse
alternative implicite? Cela est possible, mais en aucun cas obligatoire. Le
NCP est le produit de l’expression (12.24), qui ne dépend pas du tout de
l’hypothèse alternative du test, et de cos2 φ, qui lui en dépend. Pour une
valeur donnée de (12.24), le NCP sera maximum lorsque cos2 φ = 1. Mais
le fait que le NCP soit non nul (ce qui est la seule information livrée par la
statistique de test) implique seulement que ni cos2 φ ni (12.24) n’est nul. Ainsi
la seule conclusion que nous puissions tirer d’une seule statistique de test sig-
nificative est que le DGP n’est pas un cas particulier du modèle soumis au
test et que les directions représentées par Z ont un certain pouvoir explicatif
pour la direction a dans laquelle le modèle est véritablement inexact.
Si nous voulons faire une quelconque inférence sur les directions dans
lesquelles le modèle soumis au test est faux, nous devons à l’évidence calculer
plus d’une statistique de test. Puisque l’expression (12.24) est identique pour
tous les tests orientés régression, toutes les différences entre les valeurs des
diverses statistiques de test doivent provenir de différences entre les nombres
de degrés de liberté, entre les cos2 φ, ou tout simplement être aléatoires (et
parmi elles des différences entre les comportements avec des échantillons finis
et asymptotiques des tests). Supposons que l’on teste contre certains ensem-
bles de directions de régression, représentés par les matrices Z1 , Z2 , et ainsi
de suite. Supposons par ailleurs que la j ième matrice, Zj , possède rj colonnes
et génère une statistique de test Tj , distribuée asymptotiquement suivant une
χ2 (rj ) sous l’hypothèse nulle. On peut employer chacune des statistiques Tj
pour estimer le NCP correspondant, disons Λj . Puisque l’espérance d’une

variable aléatoire de la distribution χ2 non centrée à r degrés de liberté est la
somme de r et du NCP, l’estimation évidente de Λj est Tj − rj . Evidemment,
cet estimateur n’est pas convergent, puisque sous une dérive de DGP la statis-
tique de test est une variable aléatoire quelle que soit la taille de l’échantillon.
Quoi qu’il en soit, si Tl − rl est sensiblement inférieure à Tj − rj pour tout
j 6= l, on peut logiquement rechercher un meilleur modèle dans les directions
testées par Zl .
Il n’est pas du tout certain que Zl , la matrice de régresseurs avec le NCP
estimé le plus élevé, représente vraiment les directions omises. Après tout,
il est fort possible que nous ne testions pas du tout les bonnes directions,
auquel cas MX a peut ne pas appartenir au sous-espace S(X0 , Zj ) quel que
soit j. Cependant, la modification du modèle dans les directions représentées
par Zl sera une stratégie raisonnable dans bien des cas, en particulier lorsque
Zl possède peu de colonnes et que Tl − rl est sensiblement supérieure aux
autres NCP estimés. Une attitude possible consiste à construire une matrice
de régresseurs de test ZJ telle qu’elle engendre le sous-espace engendré par
toutes les Zj . Autrement dit, ZJ doit être la “réunion” de toutes les colonnes
des Zj . Ainsi la statistique de test TJ correspondant à ZJ doit être supérieure
à n’importe quelle autre statistique de test. Dans ce cas, si TJ était à peine
supérieure à Tl , et en particulier si elle n’en était pas supérieure de plus
que la différence entre les degrés de liberté, on pourrait penser à raison que
les directions représentées par Zl rendent compte de façon satisfaisante des
différences entre l’hypothèse nulle et le DGP.
L’examen d’un exemple simple et fréquent peut aider à fixer les idées
développées jusqu’à présent. Supposons que l’hypothèse nulle soit
H0 : yt = Xt β + ut , ut ∼ IID(0, σ 2 ),
où Xt est un vecteur ligne, et que nous nous intéressions à la tester contre
deux hypothèses alternatives distinctes,
H1 : yt = Xt β + ρ(yt−1 − Xt−1 β) + ut , ut ∼ IID(0, σ 2 ), et (12.27)

H2 : yt = Xt β + δyt−1 + ut , ut ∼ IID(0, σ 2 ). (12.28)
Ainsi l’hypothèse nulle H0 est emboı̂tée à la fois dans H1 et H2 . La première

alternative modifie H0 en lui associant des aléas AR(1) alors que la seconde
la modifie en lui associant la variable dépendante retardée.
Notre but est de calculer les NCP et les valeurs correspondantes de cos2 φ
pour les tests de H0 contre H1 et H2 lorsque les données sont générées par
(12.28). Ainsi nous supposerons que les données sont générées par une dérive
de DGP qui est un cas particulier de H2 . Cette dérive peut s’écrire comme
yt = Xt β0 + α0 n−1/2 (Xt−1 β0 + ut−1 ) + ut , ut ∼ IID(0, σ02 ). (12.29)

Notons que ce DGP n’implique pas le calcul récursif de yt , contrairement à

(12.28), parce que (12.29) est localement équivalente à (12.28) au voisinage
de δ = 0 et α0 = 0.
Lorsque nous testons H0 contre H2 , nous testerons dans la direction du
DGP et cos2 φ sera bien sûr égal à 1. A l’aide de l’expression (12.25), nous
voyons que le NCP pour ce test est
α02 ³ ¡ ¢> ¡ ¢´
1
Λ22 ≡ 2 plim − X−1 β0 + u−1 MX X−1 β0 + u−1 , (12.30)
σ0 n→∞ n
où u−1 et X−1 désignent respectivement le vecteur dont l’élément type est
ut−1 et la matrice dont la ligne type est Xt−1 . Ici, X−1 β0 + u−1 joue le rôle
du vecteur a dans l’expression (12.25). La notation Λ22 signifie que H2 est
l’alternative contre laquelle le test est mené et que le DGP appartient à H2 .
Le calcul de la limite en probabilité donne
α02 ³ 2 1°°
°2 ´
°
Λ22 = σ0 + plim − M X β
X −1 0
σ02 n→∞ n
³ °2 ´
1°°
2 −2
= α0 1 + σ0 plim − n
MXX−1 β0 ° .
n→∞
Examinons à présent ce qu’il advient lorsque nous testons H0 contre H1 .

Au voisinage de H0 , cette dernière est localement équivalente à
y = Xβ + ρu−1 + u, u ∼ IID(0, σ 2 I), (12.31)
ce qui évite le calcul récursif que (12.27) semble impliquer. Parce que les pro-
cessus AR(1) et MA(1) sont localement équivalents aux alentours du point où
leurs paramètres respectifs sont nuls, cela ressemble à un processus à erreurs
MA(1). Nous voyons à partir de (12.31) que u−1 remplace de Z. Comme
auparavant, X−1 β0 + u−1 remplace de a. Ainsi, à partir de (12.28), le NCP
est donné par
α02 ³ ´ ³ ´−1
1 > 1 >
Λ12 = 2 plim − (X−1 β0 + u−1 ) MX u−1 plim − u−1 MX u−1
σ0 n→∞ n n→∞ n
³ ´
1 >
−
× plim n u−1 MX (X−1 β0 + u−1 ) . (12.32)
n→∞
Parce que
³ ´
1 >
plim − (X β
−1 0 + u −1 ) M u
X −1
n→∞ n
³ ¡ ¢´
1
= plim − β X M u + u−1 MX u−1 = σ02 ,
> >
n 0 −1 X −1
>
n→∞
l’expression (12.32) se simplifie en
α02 2 −2 2
σ0 (σ0 )σ0 = α02 .
σ02
Comme les données ont été générées par un cas particulier de H2 , cos2 φ pour
le test contre H1 est simplement le rapport du NCP Λ12 au NCP Λ22 . Ainsi
µ ³ ¶
1° °2 ´ −1
2 2 2 −2
cos φ = α0 α0 1 + σ0 plim − °MXX−1 β0 °
n
µ ¶−1 (12.33)
plim n−1 kMXX−1 β0 k2
= 1+ .
σ02
La seconde ligne de (12.33) fournit une expression remarquablement sim-

ple pour cos2 φ dans ce cas spécial. Il ne dépend que du rapport de la limite en
probabilité de n−1 fois la norme au carré du vecteur MXX−1 β0 à la variance
des aléas dans le DGP (12.29). Lorsque ce rapport tend vers zéro, cos2 φ tend
vers un. A l’opposé, lorsque ce rapport tend vers l’infini, cos2 φ tend vers zéro.
L’intuition est assez simple. Lorsque le rapport de plim n−1 kMXX−1 β0 k2 à
σ02 tend vers zéro, parce que par exemple β0 tend vers zéro, MX y−1 (où y−1
est d’élément type yt−1 ) se confond avec MX u−1 . Lorsque c’est le cas, un test
contre H1 se confond avec un test contre H2 . D’autre part, lorsque le rapport
tend vers l’infini, la corrélation entre yt−1 et ut−1 tend vers zéro et les direc-
tions pour lesquelles H1 et H2 divergent de H0 tendent à être mutuellement
orthogonales.
L’analyse que nous venons de mener s’applique aussi aisément sous
l’hypothèse que les colonnes ont été générées par un cas particulier de H1 .
La dérive de DGP serait alors
yt = Xt β0 + ρ0 n−1/2 ut−1 + ut , ut ∼ IID(0, σ02 ).
Lorsque nous testons H0 contre H1 , cos2 φ est égal à 1, et par un argument

encore plus simple que celui qui nous a conduit à (12.32) nous voyons que le
NCP est ³ ´
ρ20 1
Λ11 = 2 plim − n
u−1 MX u−1 = ρ20 .
>
σ0 n→∞
De manière comparable, lorsque nous testons H0 contre H2 , le NCP est
ρ20 ³ ´
1 >
Λ21 = plim − u−1 M X (X −1 β 0 + u−1
σ02 n→∞ n
³ ´−1
1 >
× plim − n
(X β
−1 0 + u −1 ) M X (X β
−1 0 + u −1 )
n→∞
³ ´
1 >
× plim −n
(X−1 β0 + u−1 ) MX u−1 .
n→∞
Cette expression se simplifie finalement:
ρ20 2 ³ 2 1°°
°2 ´−1 2
°
2
σ 0 σ0 + plim −
n
M X β
X −1 0 σ0
σ0
³ °2 ´−1
1°°
2 −2
= ρ0 1 + σ0 plim − n
MXX−1 β0 ° .
Bien sûr, cos2 φ pour le test de H0 contre H2 est l’expression du membre de

droite divisé par ρ20 , soit
µ ¶−1
plim n−1 kMXX−1 β0 k2
1+ . (12.34)
σ02
Il est sans doute utile de commenter ce dernier résultat. Nous avons vu

que cos2 φ pour le test contre H2 lorsque les données ont été générées par H1 ,
l’expression (12.34), est identique à cos2 φ pour le test contre H1 lorsque les
données ont été générées par H2 , l’expression (12.33). Ce résultat n’est pas
spécifique à cet exemple, mais reste valable chaque fois que les alternatives
impliquent des tests à un seul degré de liberté. D’un point de vue géométrique,
cette équivalence reflète simplement le fait que lorsque z est un vecteur, l’angle
formé par αn−1/2 MX a et sa projection αn−1/2 MX a sur S(X, z), qui est
¡ ¢−1
αn−1/2 MX z z>MX z z>MX a,
est le même que l’angle formé par αn−1/2 MX a et αn−1/2 MX z. Cela provient
du fait que (z>MX z)−1 z>MX a est un scalaire lorsque z est un vecteur.
Donc, si nous inversons les positions de a et z, l’angle reste inchangé. Cette
propriété géométrique provient également de deux propriétés numériques.
Premièrement, dans les régressions
y = Xα + γz + résidus et
z = Xβ + δy + résidus,
le t de Student de z dans la première est égal à celui de y dans la seconde.

Ensuite, dans les régressions
MX y = γMX z + résidus et
MX z = δMX y + résidus,
les t de Student de γ et δ sont numériquement identiques ainsi que les R2 non

centrés.
L’analyse de la puissance pour cet exemple illustre la simplicité et la

généralité de l’idée de dérive de DGP. Bien que le cas considéré soit plutôt
simple, c’est un cas fréquent dans la pratique. Les modèles de régression
estimés à l’aide de données chronologiques manifestent souvent l’existence
d’une autocorrélation sous la forme de statistiques de Durbin-Watson faibles
ou d’autres statistiques de test pour aléas AR(1) significatives. Nous avons
vu que la présence d’une telle corrélation est presque aussi compatible avec
l’hypothèse que le modèle devrait comprendre une variable dépendante re-
tardée qu’avec l’hypothèse que les aléas suivent un processus AR(1) (excepté
lorsque plim n−1 kMXX−1 β0 k2 est relativement importante par rapport à σ02 ).
Ainsi il faudrait rester très prudent en interprétant les résultats d’un test
contre des aléas AR(1) qui rejette l’hypothèse nulle. On voudrait sûrement
envisager de nombreux modèles alternatifs en plus de l’alternative que les
aléas obéissent vraiment à un processus AR(1). En dernière limite, avant
même d’accepter provisoirement cette alternative, on voudrait la soumettre à
des tests des contraintes du facteur commun dont nous avons discuté dans la
Section 10.9.
Dans l’exemple précédent, il était facile d’évaluer de manière analytique
les valeurs de Λ et cos2 φ qui nous intéressaient. Cela ne sera pourtant pas
toujours le cas. Cependant, il est toujours possible de calculer des approxi-
mations à ces quantités. Pour cela, il suffit d’exécuter la régression (12.20),
en évaluant X(β), a, et Z avec les valeurs des paramètres supposées (ou es-
timées). Si a et/ou Z étaient stochastiques, il faudrait les générer de façon
aléatoire et employer un grand nombre d’observations (que l’on peut obtenir
en multipliant les observations disponibles aussi souvent que nécessaire) afin
d’approximer les limites en probabilité pertinentes. Le R2 non centré de la
régression fournit une approximation de cos2 φ et la somme des carrés expliqués
fournit une approximation de Λ.
12.8 Le Non Rejet de l’Hypothèse Nulle

Pour la grande part de ce chapitre, nous avons focalisé notre attention sur
l’interprétation des statistiques de test qui rejettent l’hypothèse nulle. Dans de
nombreuses circonstances, bien sûr, les statistiques de test ne la rejettent pas.
Ainsi, il est tout aussi important de maı̂triser l’interprétation du rejet que celle
du non rejet. Bien que nous employions quelquefois le terme “acceptation”
de l’hypothèse nulle lorsqu’une ou plusieurs statistiques de test ne la rejettent
pas, une telle acceptation ne peut être que provisoire et doit être modulée
avec précaution. L’intensité de notre précaution dépend de la puissance du
(des) test(s) qui n’a (n’ont) pas rejeté l’hypothèse nulle. Nous pouvons faire
davantage confiance en la validité de l’hypothèse nulle si les tests reconnus
pour leur grande puissance contre les alternatives ne la rejettent pas.
Comme nous l’avons vu, la puissance d’un test dépend de la manière
dont les données ont été générées. Dans un article récent, Andrews (1989) a
12.8 Le Non Rejet de l’Hypothèse Nulle 431
suggéré que, pour aider à l’interprétation du non rejet d’une hypothèse nulle
par un test particulier, il faudrait considérer la puissance qu’aurait le test sous
les DGP associés aux hypothèses alternatives d’intérêt. Il semble raisonnable
que de telles alternatives ne soient pas écartées à la faveur de l’hypothèse nulle
sur la base des tests qui auraient, sous ces alternatives, une probabilité faible
de rejeter l’hypothèse nulle. Autrement dit, on ne doit pas dire qu’un test
a discriminé contre une alternative en faveur de l’hypothèse nulle s’il aurait
une chance faible de rejeter l’hypothèse nulle même si l’hypothèse alternative
était exacte.
L’outil analytique employé par Andrews est la fonction puissance in-
verse qui, comme son nom l’indique, est reliée à la fonction puissance dont
nous avons discuté dans la Section 12.3. Pour nos besoins immédiats, nous
supposerons que les hypothèses alternatives d’intérêt peuvent s’exprimer en
termes d’un ensemble de paramètres et que l’hypothèse nulle correspond à un
ensemble de contraintes sur ces paramètres. Alors, pour un niveau de test α et
pour une puissance désirée π, la fonction puissance inverse pour une statistique
de test donnée spécifie les valeurs paramétriques qui caractérisent les DGP qui
ont une puissance π de rejeter l’hypothèse nulle pour un test de niveau α. Si les
valeurs paramétriques données par la fonction puissance inverse sont proches
des valeurs paramétriques issues des contraintes de l’hypothèse nulle, un non
rejet de l’hypothèse nulle peut s’interpréter comme le fait que l’hypothèse
nulle n’est pas véritablement fausse dans une direction quelconque correspon-
dant aux différentes alternatives. Si, autrement, la fonction puissance inverse
produit des valeurs paramétriques éloignées de l’hypothèse nulle, un non rejet
nous indique peu de choses sur l’exactitude de l’hypothèse nulle, puisque ce
non rejet est compatible avec de nombreuses alternatives possibles.
Andrews montre la procédure de calcul des fonctions puissance inverse
pour une large classe de tests asymptotiques pour des contraintes uniques et
multiples. Nous n’examinerons que le cas de la contrainte unique, parce qu’il
est beaucoup plus simple que l’autre cas. Supposons que l’hypothèse d’intérêt
est qu’un certain paramètre, disons θ, prend une valeur donnée, disons θ0 .
Pour être concret, nous pourrions supposer que θ est un paramètre d’une
fonction de régression non linéaire. Il existe de nombreuses statistiques de
test asymptotiquement équivalentes, parmi lesquelles la plus simple est
θ̂ − θ0
. (12.35)
σ̂θ
Puisque le dénominateur est ici une estimation de l’écart type de θ̂, (12.35)
est simplement un t de Student asymptotique. Cette statistique de test est
asymptotiquement équivalente à la racine carrée de (12.04).
En considérant (12.35), nous trahissons notre engagement de ne con-
sidérer que des statistiques asymptotiquement distribuées selon une χ2 . Cela
se justifie par les avantages de la simplicité. Considérons la dérive de DGP
a
pour laquelle θ = θ0 + n−1/2 δ, et supposons que sous ce DGP σ̂θ = n−1/2 τ ,
pour un quelconque τ = O(1) lorsque n → ∞, puisque θ̂ est convergent au
taux n−1/2 . Alors la distribution asymptotique de (12.35) est N (λ, 1), avec
λ = δ/τ . Cette simple propriété nous autorise à calculer la fonction puis-
sance asymptotique de la statistique (12.35). Si la valeur critique pour un
test bilatéral de niveau α basé sur la distribution N (0, 1) est désignée par
cα , la probabilité de rejeter l’hypothèse nulle sous notre dérive de DGP est
la probabilité qu’une variable aléatoire distribuée suivant une N (λ, 1) ait une
valeur absolue supérieure à cα . Soit Φ(·) la c.d.f. de la distribution normale
centrée et réduite, cette probabilité est
P (α, λ) ≡ 1 − Φ(cα − λ) + Φ(−cα − λ). (12.36)
Afin de trouver la fonction puissance inverse correspondant à (12.36), nous

posons P (α, λ) = π pour un niveau de puissance désiré π. Cette équation
définit implicitement la fonction puissance inverse. Il est aisé de vérifier à
partir de (12.36), que P (α, −λ) = P (α, λ). Ainsi, si P (α, λ) = π, alors
P (α, −λ) = π également. Cependant, la non unicité de λ disparaı̂trait si
nous calculions le carré de la statistique de test pour obtenir une forme χ2 .
Il n’existe aucune expression comparable donnant la valeur (absolue) de λ
comme une fonction de α et π dans l’exemple présent, mais pour des argu-
ments donnés, λ n’est pas difficile à calculer numériquement.
Quelle interprétation donner à la fonction λ(α, π)? Si nous élevons au
carré la statistique asymptotiquement normale (12.35) pour obtenir une forme
χ2 , le résultat aura une distribution limite χ2 (1, Λ) avec Λ = λ2. Alors il
apparaı̂t que Λ = (λ(α, π))2 est asymptotiquement le NCP le plus faible
nécessaire pour qu’un test de niveau α basé sur le carré de (12.35) ait une
probabilité de rejeter l’hypothèse nulle au moins égale à π.
Soit le modèle de régression non linéaire écrit sous sa forme habituelle
y = x(β) + u, (12.37)
où le paramètre d’intérêt θ est un élément du vecteur de paramètres β. Si

nous notons Xθ la dérivée du vecteur x(β) par rapport à θ, évaluée avec les
paramètres β0 , et MX la projection sur le complément orthogonal de l’espace
engendré par toutes les colonnes de X(β) autre que Xθ , alors la variance
asymptotique de l’estimateur des moindres carrés θ̂ est σ02 (Xθ>MX Xθ )−1, où
σ02 est la variance des composantes de u. Si nous considérons un DGP avec
un paramètre θ 6= θ0 , alors pour une taille d’échantillon n, le paramètre δ de
la dérive de DGP devient n1/2 (θ − θ0 ), et Λ = λ2 devient
1
Λ= (θ − θ0 )2 Xθ>MX Xθ . (12.38)
σ02
On peut comparer avec l’expression générale (12.36). Posons maintenant

θ(α, π) comme la valeur de θ qui égalise Λ dans (12.38) à (λ(α, π))2 . Nous
12.8 Le Non Rejet de l’Hypothèse Nulle 433
voyons que, à l’intérieur de cette approximation asymptotique, les DGP dont

les valeurs de θ sont plus proches du θ0 de l’hypothèse nulle que θ(α, π) au-
ront une probabilité inférieure à π de rejeter l’hypothèse nulle sur un test de
niveau α.
Nous souhaiterions ne pas considérer le non rejet de l’hypothèse nulle
comme une évidence contre d’autres DGP ou ensemble de DGP si, sous
ces derniers, la probabilité de rejeter l’hypothèse nulle n’est pas suffisam-
ment élevée. Qu’entendons-nous par “suffisamment élevée”? On peut exercer
l’intuition à ce sujet en considérant ce que nous apprendrions sur le contexte
présent en employant un outil ordinaire de l’inférence statistique convention-
nelle, à savoir l’intervalle de confiance. Armés de l’estimation de θ̂ et d’une
estimation
£ de son écart type,¤ σ̂θ , nous pouvons construire un intervalle de con-
fiance θ̂ − cα σ̂θ , θ̂ + cα σ̂θ . Sous l’hypothèse conventionnelle que le DGP est
obtenu en choisissant des valeurs spécifiques des paramètres de la régression
non linéaire (12.37), cet intervalle de confiance a une probabilité proche de
1−α, pour des échantillons importants, de comprendre le véritable paramètre.
Aucune hypothèse nulle caractérisée par θ0 à l’intérieur de l’intervalle de con-
fiance ne sera rejetée par un test de niveau α. Un intervalle de confiance
est aléatoire: il dépend de la valeur réalisée de l’estimation θ̂. Au contraire,
la fonction puissance inverse est déterministe, aussi devons-nous être pru-
dents dans nos analogies. Cependant, il semble raisonnable que, lorsque nous
désirons nous abstraire des ensembles de données réalisés, nous devrions re-
fuser de considérer l’éventualité du non rejet d’une hypothèse nulle comme
l’évidence contre tout DGP dont les paramètres appartiennent à la région de
confiance de taille comparable à l’intervalle de confiance.
Que cela implique-t-il pour le choix de la puissance désirée π? Une
réponse approximative à cette question est très facile à trouver. Supposons
que dans (12.38) nous réclamions que θ − θ0 divisée par l’écart type de θ̂
soit égale à cα . Cela signifie précisément que la différence entre θ et θ0 est
la moitié de la longueur de l’intervalle de confiance associé à un niveau α
pour la valeur donnée de l’écart type. Pour des paramètres α et π donnés, la
valeur de la fonction puissance inverse λ(α, π) implique une valeur de θ, selon
(12.38). Nous pourrions donc nous demander quelle valeur de π produira la
condition requise sur l’écart θ − θ0 . Cette valeur π est évidemment la solution
de l’équation λ(α, π) = cα , où, en termes de la fonction puissance inverse P
elle-même, P (α, cα ) = π. Si désormais nous remplaçons P par son expression
explicite provenant de (12.36), nous réclamons que
1
π = 1 − Φ(0) + Φ(−2cα ) = − + Φ(−2cα ).
2
Pour des choix raisonnables de α, le dernier terme sera extrêmement faible.

Par exemple, si α = .05, de sorte que cα ∼ = 1.96, un petit calcul nous mon-
tre que Φ(−3.92) = .0000443. Par conséquent, avec une approximation très
satisfaisante, nous obtenons π = 21 , indépendamment de α.
Ce résultat est compatible avec l’intuition. En s’éloignant de la valeur de

θ0 associée à une hypothèse nulle quelconque d’une quantité qui correspond à
la moitié de la longueur de l’intervalle de confiance pour tout niveau de test
raisonnable, nous obtenons les valeurs des paramètres associés aux DGP qui
ont une probabilité de 0.5 de rejeter l’hypothèse nulle sur un test de niveau
identique.
D’autres choix de π sont bien sûr envisageables. Un choix qui paraı̂t na-
turel dans certains contextes est π = 1 − α, ce qui rend le risque de première
espèce égal au risque de deuxième espèce dans un certain sens. Lors du choix
du niveau α, nous acceptons l’éventualité du rejet d’une hypothèse nulle ex-
acte avec une probabilité α. Lorsque nous refusons de traiter le non rejet d’une
hypothèse nulle par un test de niveau α comme l’évidence contre des valeurs
paramétriques qui génèrent des NCP plus faibles que la fonction puissance in-
verse évaluée en α et 1−α, nous acceptons le fait que ces valeurs paramétriques
que nous rejetons, sur la base du non rejet de l’hypothèse nulle, n’auraient
pas rejeté l’hypothèse nulle avec une probabilité α.
Il faut prendre d’infinies précautions à ce stade. La totalité de l’analyse
précédente se fonde sur l’hypothèse que le vrai DGP appartient à la classe des
DGP que l’on peut décrire par un modèle de régression non linéaire (12.37).
Il existe en général un grand nombre de DGP qui ne satisfont pas (12.37)
pour lesquels la probabilité de rejeter une hypothèse nulle donnée satisfaisant
(12.37) est faible. Typiquement, de tels DGP impliqueraient des variables
explicatives plus nombreuses ou plus pertinentes que dans (12.37). Hélas, un
rejet ou un non rejet d’une hypothèse nulle basée sur l’écriture (12.37) ne
nous dit rien sur la possible existence d’un meilleur modèle. C’est du talent
de l’économètre, plutôt que de procédures de test, que dépend l’élaboration
de modèles potentiellement meilleurs qui seront ultérieurement soumis à des
procédures de test formelles.
Bien que notre exposé théorique fût facilité par l’usage de la fonction
puissance (12.36) basée sur la distribution normale, dans la pratique, lorsque
l’on veut calculer des fonctions puissance inverses, il est plus aisé d’employer
les propriétés de la distribution du χ2 non centrée. Soit cα (r) la valeur critique
pour un test de niveau α basé sur la distribution du χ2 centrée à r degrés de
liberté. Alors la probabilité qu’une variable aléatoire suivant la distribution
χ2 (r, Λ) prenne une valeur supérieure à cα (r) peut s’exprimer en termes de la
c.d.f. F(r,Λ) (·) de cette distribution. La probabilité adéquate est simplement
1 − F(r,Λ) (cα (r)). Par conséquent, la fonction puissance inverse s’obtient en
résolvant l’équation en Λ en termes de r, α, et π:
¡ ¢
π = 1 − F(r,Λ) cα (r) .
La valeur de Λ solution de cette équation peut s’utiliser dans une formule

telle que (12.38) afin de déterminer les valeurs paramétriques qui ont vraiment
généré les NCP égaux à Λ.
12.9 Conclusion 435
Table 12.2 Quelques Valeurs de Λ(1, α, π)
α π: .50 .90 .95 .99
0.10 2.701 8.564 10.822 15.770

0.05 3.841 10.507 12.995 18.372
0.01 6.635 14.879 17.814 24.031
Andrews (1989) fournit des valeurs de la fonction puissance inverse, que

l’on peut noter Λ(r, α, π), pour une variété de valeurs de r, α, et π, mais les
ordinateurs modernes et leurs logiciels rendent caduc l’usage de ces tables.
Tout programme capable de calculer la c.d.f. de la distribution du χ2 non
centrée peut être utilisé également pour le calcul de la fonction puissance
inverse. Afin de ne pas pénaliser les lecteurs qui n’ont pas de programme
disponible pour l’instant, nous reportons des valeurs significatives dans le
Tableau 12.2.
Considérons à présent un exemple simple de l’usage de la fonction puis-
sance inverse. Supposons que θ0 soit égal à 1 et que l’écart type de θ̂ soit
0.60. Alors pour un test de niveau 0.05, les valeurs de θ données par la fonc-
tion puissance inverse pour π = .5 sont −0.176 et 2.176. Ainsi, pour tout θ
compris entre ces bornes, la probabilité que le test rejette l’hypothèse nulle
est inférieure à .5. Si au lieu de cela nous choisissons π = 1 − α = .95, les
valeurs données par la fonction puissance inverse seraient −0.974 et 2.974,
un intervalle plus large à l’intérieur duquel la probabilité que le test rejette
l’hypothèse nulle est inférieure à .95.
Cet exemple illustre la manière d’employer la fonction puissance inverse.
Elle offre un moyen simple de connaı̂tre les valeurs de θ pour lesquelles le
test a toutes les chances d’avoir une puissance faible ou forte. La fonction
puissance inverse est extrêmement facile à calculer, du moins pour les tests
de contrainte unique. Ainsi, il semble utile de la calculer chaque fois qu’un
test de contrainte unique conduit ou non au rejet de l’hypothèse nulle. Les
fonctions puissance inverse peuvent également être calculées pour des tests
de contraintes multiples, mais les calculs sont plus difficiles et l’interprétation
plus délicate. Les lecteurs devraient consulter l’article de Andrews pour les
détails.
12.9 Conclusion
L’analyse asymptotique est immanquablement une approximation, puisqu’elle
ignore tout ce qui n’est pas de l’ordre dominant par rapport à la taille de
l’échantillon. L’analyse de la puissance basée sur la dérive de DGP im-
plique une approximation supplémentaire, puisqu’elle suppose que le DGP
est “proche” de l’hypothèse nulle. Ainsi, bien que les résultats établis dans ce
chapitre aient les mérites de la simplicité et d’une application étendue, nous
ne pouvons pas attendre d’eux qu’ils fournissent de bonnes approximations
dans toutes les situations. En particulier, nous ne pourrions pas espérer des
performances de qualité si le DGP était très différent de l’hypothèse nulle.6
Dans ce cas, bien évidemment, on s’attend à ce que de nombreux tests rejet-
tent l’hypothèse nulle. La plupart des économètres recommenceraient alors
sur la base d’un modèle moins contraignant correspondant à une des alterna-
tives contre laquelle le modèle originel a été rejeté, et sans doute plus proche
du DGP.
L’objectif de ce chapitre n’est pas de fournir une technique infaillible pour
le choix d’un modèle correctement spécifié. Une telle technique n’existe pas.
Au lieu de cela, nous avons fourni les éléments d’une structure avec laquel-
le on peut interpréter les résultats des tests d’hypothèses. L’interprétation
d’une statistique de test significative en tant que garantie de validité de
l’hypothèse alternative est souvent très exagérée. Il suffit de dénombrer les fois
où l’observation d’un t de Student de 10, par exemple, nous conduit à conclure
que le paramètre associé est définitivement non nul. Comme nous l’avons vu,
cette conclusion est souvent non justifiée. Nous pouvons assurément conclure
que le modèle où ce paramètre est nul est mal spécifié, et, dans le cas linéaire,
nous pouvons suspecter que la variable associée au paramètre en question est
fortement corrélée à tout ce qui est vraiment absent du modèle sous sa forme
actuelle. Mais un t de Student significatif en tant que tel ne nous indique
jamais pourquoi le modèle est mal spécifié lorsque le paramètre est nul. Par
ailleurs, comme nous l’avons vu dans la Section 12.8, une statistique de test
non significative n’est pertinente que si le test avait une puissance importante
contre des hypothèses économiquement intéressantes.
Dans le prochain chapitre, nous aborderons le thème des tests d’hypo-
thèses, mais dans le contexte de l’estimation par maximum de vraisemblance.
La théorie du maximum de vraisemblance offre un support au développement
des nombreux tests orientés non-régression, c’est-à-dire des tests qui corre-
spondent à des aspects de la spécification autres que la fonction de régression.
Les tests d’hétéroscédasticité dont nous avons discuté dans la Section 11.5
sont des exemples de tels tests; ils sont orientés fonction scédastique au lieu
d’être orientés régression (voir la Section 16.5). La plupart des résultats
restent valables, moyennant une légère modification, pour les tests orientés
non-régression autant que pour les tests orientés régression; nous détaillerons
tout ceci dans le prochain chapitre. Ils sont également valables pour des
modèles estimés à l’aide de procédures GLS et/ou IV.
6
Nelson et Savin (1990) analysent un exemple simple pour lequel la puissance
locale asymptotique d’une statistique de test fournit un indice très mauvais de
sa vraie puissance lorsque le DGP diffère quelque peu de l’hypothèse nulle.
Termes et Concepts 437
Termes et Concepts
convergence (d’un test) fonction puissance inverse
courbe de niveau-puissance hypothèse alternative explicite
dérive de DGP hypothèse alternative implicite
directions de non-régression hypothèse nulle implicite
directions scédastiques hypothèse nulle simple
distribution asymptotique (d’une paramètre de non centralité (NCP)
statistique de test) puissance utile
distribution du χ2 non centrée suites d’alternatives locales
efficacité asymptotique relative (ARE) test biaisé
fonction puissance tests asymptotiquement équivalents

Ch12 Interprétation Des Tests Orientés Régression

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Ch12 Interprétation Des Tests Orientés Régression

Diunggah oleh

Hak Cipta:

Format Tersedia

Chapitre 12

Interprétation des Tests

H0 : y = x(β) + u, E(uu>) = σ 2 I. (12.01)

Soit β̃ le vecteur à k paramètres des estimations NLS de β. Alors plusieurs

y − x̃ = X̃b + Z̃c + résidus, (12.02)

où, comme d’habitude, x̃ désigne x(β̃), et où la matrice X̃ ≡ X(β̃) de dimen-

H1 : y = x(β, γ) + u, E(uu>) = σ 2 I. (12.03)

où M̃X ≡ I − X̃(X̃>X̃)−1X̃> et s̃2 ≡ (y − x̃)>(y − x̃)/(n − k). La statistique

12.2 Niveau et Puissance

Figure 12.1 Courbes de niveau-puissance

donné. Pour simplifier, considérons la statistique de test qui est toujours un

unitaires. L’angle du sud-ouest correspond à une valeur critique très grande,

Figure 12.2 Fonctions puissance pour tests de θ = 0 au niveau de .05

12.3 Dérive de DGP

distribution de la statistique de test à laquelle nous nous intéressons sous ce

Ici θ n est le vecteur de paramètres correspondant à une taille d’échantillon

y = x(β0 ) + αn−1/2 a + u, E(u) = 0, E(uu>) = σ02 I. (12.06)

Ici β0 et σ02 désignent des valeurs spécifiques pour β et σ 2, a est un vecteur

0 ni 1 lorsque n → ∞ et lorsque la dérive de DGP converge vers l’hypothèse

y = x(β0 , αn−1/2 γ0 ) + u, (12.08)

y = x(β0 , 0) + αn−1/2 Xγ (β0 , 0)γ0 + u, (12.09)

12.4 Distribution Asymptotique des Statistiques

1 ¡ −1/2 ¢¡ ¢−1¡ −1/2 > ¢

Il nous faut maintenant remplacer les quantités s̃, n−1/2 (y − x̃)>Z̃, et

où MX ≡ I − X0 (X0>X0 )−1X0>.

1 ¡ −1/2 ¢> ³ ´−1 ¡ −1/2 ¢

où, pour simplifier la notation, Z désigne Z0 . Il reste à déterminer la dis-

Nous définissons ensuite η le vecteur de dimension r tel que

La quantité (12.14) prend désormais la forme simple η>η; il s’agit simplement

et que sa matrice de covariance est

La dernière égalité provient ici de la définition de ψ dans (12.15). Puisque η

Chapitre 28). L’allure de cette distribution dépend de deux éléments: le nom-

sera distribuée suivant une χ2 (2), alors que la statistique

Figure 12.3 Les courbes de niveau-puissance dépendent de r et Λ

numérateur et le dénominateur ont des distributions du χ2 non centrées. Si

Figure 12.3 illustre la dépendance de la puissance à r et Λ, et nous observons

Pour un test particulier d’un modèle donné, MX, Z, et r sont fixés. Le

12.5 La Géométrie de la Puissance des Tests

Cette quantité est α2 fois la limite en probabilité des résidus au carré de la

(α/σ0 )n−1/2 MX a = MXZd + résidus, (12.20)

Figure 12.4 Les hypothèses nulle et alternative, le DGP, et l’angle φ

où d est un vecteur à r composantes choisi par moindres carrés de façon à

Comme tous les R2 , on peut l’interpréter comme le carré du cosinus d’un

Si nous notons φ la limite en probabilité de l’angle entre αn−1/2 MX a et

sur la figure comme une variété incurvée unidimensionnelle tangente à S(X0 )

Nous avons déjà vu que, pour un nombre donné de degrés de liberté r, la

Puisque cos2 φ = 1 implique que MX a appartient à S(MXZ), cette expression

pour un quelconque vecteur d. Dans une analyse conventionnelle de la

L’analyse conventionnelle est ainsi un cas particulier de l’analyse basée sur la

Ces résultats montrent clairement qu’il existe un équilibre lorsque nous

La discussion du paragraphe précédent s’applique presque sans modi-

Si nous nous écartons provisoirement de notre hypothèse de dérive de

De façon alternative, il est possible de tester un grand nombre de mau-

12.6 Efficacité Asymptotique Relative

Tableau 12.1 ARE d’Autres Tests contre le Test Optimal

r cos2 φ: 1.0 0.8 0.5 0.2

1 1.000 0.800 0.500 0.200

Souvenons-nous à partir de (12.23) que le NCP est proportionnel à cos2 φ. Si

première donnée de chaque colonne) et 0.05 (la seconde donnée de chaque

12.7 Interpréter le Rejet de l’Hypothèse Nulle

pour estimer le NCP correspondant, disons Λj . Puisque l’espérance d’une

H1 : yt = Xt β + ρ(yt−1 − Xt−1 β) + ut , ut ∼ IID(0, σ 2 ), et (12.27)

Ainsi l’hypothèse nulle H0 est emboı̂tée à la fois dans H1 et H2 . La première