Anda di halaman 1dari 35

Chapitre 12

Interprétation des Tests


Orientés Régression

12.1 Introduction
Dans les chapitres précédents, nous avons discuté d’un grand nombre de statis-
tiques de test pour les modèles de régression linéaire et non linéaire. La plu-
part de ces tests étaient orientés régression, c’est-à-dire qu’il s’agissait de tests
de spécification de la fonction de régression. L’usage du terme “orienté” dans
ce contexte peut paraı̂tre étrange a priori, mais il devrait se justifier au fur et
à mesure que le chapitre se déroulera. Fondamentalement, les tests orientés
régression sont des tests de la spécification de la fonction de régression, alors
que les tests orientés non-régression sont des tests destinés à d’autres aspects
de la modélisation, comme par exemple des tests d’hétéroscédasticité.
Il est désormais temps de connaı̂tre la signification des résultats des tests
d’hypothèses et la manière de les interpréter. Cette discussion nécessite un
certain appareillage technique, et en particulier le concept de dérive de DGP,
que nous introduirons dans la Section 12.3. L’ensemble des résultats issus
de cet appareillage est malgré tout extrêmement simple et intuitif, et il peut
être d’une grande utilité dans l’interprétation des statistiques de test que l’on
obtient concrètement dans les travaux empiriques. Dans ce chapitre, nous
ne discutons que des tests orientés régression pour des modèles de régression
estimés par NLS. Bien que cela soit limitatif, cela simplifie considérablement
l’exposé. Au cours du prochain chapitre, nous discuterons à la fois des tests
de modèles en dehors de la classe des régressions et des tests de modèles de
régression dans des directions de non-régression, dans le contexte des trois
tests classiques basés sur l’estimation ML, à savoir les tests de Wald, LR
et LM. Comme nous le verrons, les principaux résultats de ce chapitre sont
transposables sans modification au cas plus général. Ils le sont également,
avec quelques remaniements, à des modèles estimés par IV et par GLS.
Dans la Section 3.4, nous introduisions les concepts de niveau et de puis-
sance d’un test. Le niveau d’un test, comme nous le rappellerons, est la
probabilité qu’il rejette l’hypothèse nulle lorsque celle-ci est exacte, alors que
la puissance d’un test est la probabilité qu’il rejette l’hypothèse nulle lorsque
celle-ci est inexacte. A l’évidence, la puissance dépendra de la manière dont les

403
404 Interprétation des Tests Orientés Régression

données auront été générées. Ainsi nous ne pouvons pas parler de puissance
sans spécifier un processus générateur de données (ou éventuellement une
famille de DGP). En général, la puissance d’un test dépendra de l’hypothèse
nulle, H0 , de l’hypothèse alternative contre laquelle elle est testée, H1 , et du
DGP qui est supposé avoir généré les données. Nous discuterons de certains
concepts connexes au niveau et à la puissance des tests dans la Section 12.2.
La puissance d’un test peut dépendre des détails de la construction du
test, mais cela ne sera pas important si nous ne nous intéressons qu’aux analy-
ses asymptotiques. De nombreux tests sont asymptotiquement équivalents
sous l’hypothèse nulle et sous toutes les dérives de DGP, bien qu’ils puissent
différer substantiellement avec des échantillons finis. Deux tests sont dits
asymptotiquement équivalents s’ils tendent vers la même variable aléatoire.
Par exemple, les tests en F et du χ2 basés sur la même régression de Gauss-
Newton seront asymptotiquement équivalents, à condition bien sûr que le test
en F soit multiplié par le nombre de degrés de liberté de son numérateur. Ces
tests seront également équivalents aux tests en F ou du χ2 asymptotiques
contre la même alternative basés sur la comparaison des sommes des résidus
au carré des modèles contraint et non contraint.1 Nous n’essaierons pas de
démontrer ce résultat ici; c’est une conséquence de résultats plus généraux
démontrés par Davidson et MacKinnon (1987). Cependant, c’est un résultat
important, parce qu’il nous permet l’étude des seuls tests basés sur la GNR
pour affirmer que nos résultats sont beaucoup plus généralement applicables.
Alors, dans ce chapitre, nous discuterons de façon explicite ce qui détermine
la puissance asymptotique des tests orientés régression basés sur la GNR, et
de façon implicite ce qui détermine la puissance asymptotique de tous les tests
orientés régression.
On peut écrire l’hypothèse nulle sous la forme

H0 : y = x(β) + u, E(uu>) = σ 2 I. (12.01)

Soit β̃ le vecteur à k paramètres des estimations NLS de β. Alors plusieurs


statistiques de test équivalentes peuvent être calculées avec la GNR

y − x̃ = X̃b + Z̃c + résidus, (12.02)

où, comme d’habitude, x̃ désigne x(β̃), et où la matrice X̃ ≡ X(β̃) de dimen-


sion n × k a pour élément type ∂xt (β)/∂βi , et est évaluée en β̃. Comme nous
l’avons vu, la matrice Z̃ ≡ Z(β̃) de dimension n × r peut être spécifiée de
différentes façons, qui dépendent de l’alternative contre laquelle nous voulons

1
Tous ces tests sont également asymptotiquement équivalents à des tests basés
sur la régression de Gauss-Newton robuste à l’hétéroscédasticité discutée dans
la Section 11.6, mais uniquement s’il n’y a pas d’hétéroscédasticité. Consulter
l’article de Davidson et MacKinnon (1985b).
12.2 Niveau et Puissance 405

tester l’hypothèse nulle. La possibilité la plus simple est que x(β) soit un cas
particulier de x(β, γ) où γ = 0, ce qui nous permet d’écrire

H1 : y = x(β, γ) + u, E(uu>) = σ 2 I. (12.03)

Dans ce cas, Z̃ = X̃γ , où X̃γ a pour élément type ∂xt (β, γ)/∂γj , évaluée en
(β̃, 0). Cependant, comme nous l’avons vu dans le Chapitre 11, la construction
d’un test contre une alternative explicite telle que (12.03) n’est qu’un des
nombreux moyens de générer un test basé sur la GNR (12.02).
La statistique de test la plus simple basée sur (12.02) est

1 ¡ ¢−1
(y − x̃)>Z̃ Z̃>M̃X Z̃ Z̃>(y − x̃), (12.04)
s̃2

où M̃X ≡ I − X̃(X̃>X̃)−1X̃> et s̃2 ≡ (y − x̃)>(y − x̃)/(n − k). La statistique


de test (12.04) est 1/s̃2 fois la somme des carrés expliqués de (12.02). Par
souci de simplicité, nous ne considérerons que cette statistique de test tout au
long de ce chapitre. Parce que (12.04) est asymptotiquement équivalente aux
autres tests basés sur (12.02) mais aussi aux tests contre la même alternative
basés sur les principes de Wald, LR et LM, nos résultats restent malgré tout
assez généraux.
Au delà de la spécification de l’hypothèse nulle (12.01) et de la statis-
tique de test (12.04), il nous faut détailler la façon dont nous supposons que
les données ont été générées si nous avons l’intention de discuter de la puis-
sance d’un test. Cela nous conduit à considérer le nouveau concept important
de dérive de DGP, que nous avons déjà mentionné. Sans ce concept, il serait
extrêmement difficile d’analyser les propriétés asymptotiques des statistiques
de test lorsque l’hypothèse nulle n’a pas généré les données, et nous discutons
donc largement la dérive des DGP dans la Section 12.3. Dans les deux sec-
tions qui suivent, nous analysons les propriétés asymptotiques de la statistique
de test (12.04) sous certaines dérives de DGP et donnons une interprétation
géométrique de ces résultats. Dans la Section 12.6, nous expliquerons com-
ment on pourrait comparer la puissance des tests dont les distributions ne
sont connues qu’asymptotiquement. Dans la Section 12.7, nous exploitons les
résultats obtenus précédemment et discutons de l’interprétation des résultats
des tests orientés régression qui rejettent l’hypothèse nulle. Enfin, dans la
Section 12.8, nous verrons comment il faut interpréter les résultats des tests
qui ne rejettent pas l’hypothèse nulle.

12.2 Niveau et Puissance


Nous avons introduit les concepts de niveau et de puissance des tests d’hypo-
thèses lors de la Section 3.4. Un moyen de voir comment s’articulent ces
concepts est d’étudier la courbe de niveau-puissance pour n’importe quel test
406 Interprétation des Tests Orientés Régression

Puissance
1.0 ...................................................................................................................
................................................ ...................
........
....
.... ............................ ..................
....
..........
.. ..
....... ..
.....
....... . . . .
Test 1 →................. . ........... ..... ...
.. .
.... ............
.
.......... . .
..
..
.... .......... . . . ..... ....
.. ....... ..... ..
.. .
.... .........
...... ...
............. ......... .....
0.8 ... .... ..
...
..... ....
..... ... ..... ......... . . ...
.. ... ..
... ..... ..... ...
..... ... .... ← Test 2 ... ..... .....
.. .. ..
.. .... ..... ...
.... . ....
. . ........ .......
. .. ..
0.6 ... ... .... ....
.... ..... ......... ......
... .. .
.. .. ..... ....
..... ..... ........ ..
. ....
.. .
. . ..... ....
... .. ..... ....
... .... .... ....
. ...
0.4 ... ... 45◦ line →.......... ....
.... ... . ... ....
.. ..
.. .
.. .. ..... ....
.... ..... ........ ..
. ....
..
..... .. ← Test biaisé
.. ....
.. .. ..... .....
... ..... ......
.. ...
..
.... .... .....
0.2 ....... ...
...... .........
.. ..
.
..... ..... .....
....... ........ .
. ..........
.....
. ......
.
.... ......... ........
. ......
...........
.. .... ......
. .. ...........
0.0 ........................ Niveau
0.0 0.2 0.4 0.6 0.8 1.0

Figure 12.1 Courbes de niveau-puissance

donné. Pour simplifier, considérons la statistique de test qui est toujours un


nombre positif (les statistiques de test qui sont asymptotiquement distribuées
suivant une Fisher ou une χ2 possèdent cette propriété). Si nous choisissons
une valeur critique nulle, le test rejettera constamment l’hypothèse nulle, que
le DGP soit véritablement un cas particulier de l’hypothèse nulle ou pas. Au
fur et à mesure que nous augmentons la valeur critique, la probabilité que
le test rejette l’hypothèse nulle décroı̂t. Si le test est utile, cette probabilité
diminuera à l’origine beaucoup moins rapidement lorsque l’hypothèse nulle
est fausse que lorsqu’elle est vraie. La courbe de niveau-puissance montre,
pour une taille d’échantillon donnée, ces deux probabilités simultanément.
L’axe des abscisses est celui du niveau calculé pour un DGP qui satisfait
l’hypothèse nulle, et l’axe des ordonnées est celui de la puissance, pour un
autre DGP donné qui ne satisfera pas en général l’hypothèse nulle. Ainsi la
courbe de niveau-puissance illustre ce qu’est la puissance du test contre le
DGP donné pour chaque niveau de test que l’on peut choisir.
Considérons à présent la Figure 12.1, qui illustre quelques courbes de
niveau-puissance pour différentes statistiques de test potentielles. L’axe des
abscisses mesure le niveau. L’axe des ordonnées mesure la puissance, lorsque
les données sont générées par un DGP fixé. La courbe de niveau-puissance
est générée en modifiant la valeur critique du test. L’angle du nord-est corre-
spond à une valeur critique nulle. La puissance et le niveau sont, en ce point,
12.2 Niveau et Puissance 407

unitaires. L’angle du sud-ouest correspond à une valeur critique très grande,


et tellement élevée que la statistique de test ne lui sera jamais supérieure. La
puissance et le niveau sont, en ce point, égaux à 0. Pour de nombreuses statis-
tiques de test, dont celles distribuées selon une χ2 sous l’hypothèse nulle, cette
valeur critique est en principe infinie. Cependant, nous pourrions sélectionner
une valeur critique finie telle que la statistique de test la dépasse avec une
probabilité aussi proche de 0 que l’on veut.
La courbe de niveau-puissance d’un test pour lequel le niveau égale la
puissance correspond à la première bissectrice. Cela sera le cas par définition si
le DGP pour lequel la courbe est construite satisfait véritablement l’hypothèse
nulle. En dehors de ce cas, un test qui donnerait ce résultat serait à l’évidence
peu utile. Normalement, nous nous attendons à ce que la puissance d’un test
soit supérieure à son niveau pour n’importe quelle valeur critique, excepté
dans le cas où le niveau et la puissance sont égaux soit à 1 soit à 0. Les
courbes désignées “Test 1” et “Test 2” sur la figure sont des exemples de tests
pour lesquels c’est le cas. Cependant, il existe des tests pour lesquels le niveau
est supérieur à la puissance pour certains DGP. Ces tests sont appelés tests
biaisés, et la courbe appelée “Test Biaisé” illustre ce phénomène. Pour une
discussion plus profonde sur les tests biaisés, qui sont évidemment très peu
utilisés, consulter Kendall et Stuart (1979, Chapitre 23).
Il est clair à partir de la Figure 12.1 que le Test 1 est plus utile que
le Test 2. A l’exception des deux extrémités, la courbe de niveau-puissance
pour le premier est partout au dessus de la courbe du second. Ainsi, pour
n’importe quel niveau, la puissance du Test 1 est plus forte que celle du Test
2. Si la taille augmente, nous nous attendons à ce que la courbe de niveau-
puissance d’un test qui a de bonnes propriétés s’améliore (c’est-à-dire qu’elle
s’éloigne de la première bissectrice). A la limite, lorsque n → ∞, la courbe
de niveau-puissance ressemblerait à Γ, passant par les points (0, 0), (0, 1),
et (1, 1).
On peut générer des courbes de niveau-puissance avec ce que l’on appelle
la fonction puissance d’un test. Cette fonction fournit la puissance d’un test
comme fonction de son niveau (ou de façon équivalente, de la valeur critique),
de la taille de l’échantillon, et du DGP. Habituellement, le DGP est contraint
à appartenir à une hypothèse alternative particulière caractérisée par un en-
semble fini de paramètres. Spanos (1986, Chapitre 14) donne une définition
formelle des fonctions puissance dans ce contexte. Supposons, pour être con-
crets, que nous nous intéressions à un unique paramètre θ et que l’hypothèse
nulle soit θ = 0. Lorsque θ = 0, la puissance du test sera bien évidemment
égale à son niveau. Pour toute autre valeur de θ, la puissance sera supérieure
au niveau si le test est sans biais. Pour un test possédant de bonnes propriétés,
nous espérons que, pour une taille d’échantillon raisonnable, la puissance aug-
mentera de façon monotone avec |θ| et convergera vers 1 lorsque |θ| → ∞.
De façon similaire, pour tout θ 6= 0, nous nous attendons à ce que la puis-
sance tende vers 1 lorsque la taille de l’échantillon tend vers l’infini. La Fi-
408 Interprétation des Tests Orientés Régression

Puissance
1.0 ............................ .......... ........ .....................
..... ....
. ...... .
.........
.... ... .. .
.... ... ....
... . . .. .....
... ... ← n = 100 ...
... ... .. ..
0.8 ... ... ....
. .
... ... .. ..
... ...
. ...
.
. ...
.
... ... ... ...
... ... ... ..
.... .
. .
. .
0.6 ... .
... ... ... ..
... ... ... ...
... ...
... .. . ← n = 25
...
. ... ...
.
. ...
0.4 ... ... .
... ... ... ...
... ... ...
. ...
.
... ... .. .
... ... .
.... ....
... ... . .
0.2 ... .... ... ..
... ... .... .....
.
.... .. . .
..... ... .... .......
........... ...........
0.05 ...............................................................................................................
..
0.0 θ
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0

Figure 12.2 Fonctions puissance pour tests de θ = 0 au niveau de .05

gure 12.2 illustre deux fonctions puissance, pour un test identique mais des
tailles d’échantillon différentes. Les données sont générées à partir de la loi
N (θ, 1), et l’hypothèse nulle est θ = 0. Les fonctions puissance sont illustrées
pour des tests à un taux de 5% avec des tailles d’échantillon égales à 25 et
100. Ces fonctions puissance sont symétriques par rapport à 0. Comme nous
l’espérions, la fonction puissance pour n = 100 est partout supérieure à la
fonction puissance pour n = 25, sauf en θ = 0.
Si un test rejette une hypothèse nulle fausse avec une probabilité asymp-
totiquement nulle, on parle de test convergent. Le concept de convergence
pour un test fut introduit par Wald et Wolfowitz (1940). C’est un concept
simple et intuitif et c’est évidemment une propriété recherchée pour un test.
Le test illustré sur la Figure 12.2 est convergent. Par conséquent, lorsque
n → ∞, la fonction puissance tend vers la forme d’un >, avec une puissance
égale à 1 pour toute valeur de θ sauf θ = 0. Nous pouvons définir la conver-
gence d’un test d’hypothèses de façon formelle comme suit.
Définition 12.1.
Un test est convergent contre une certaine classe de DGP dont au-
cun ne satisfait l’hypothèse nulle si, lorsque les données sont générées
par un membre appartenant à cette classe, la probabilité de rejeter
l’hypothèse nulle tend vers 1 lorsque la taille de l’échantillon n tend
vers l’infini, pour n’importe quelle valeur critique associée à un niveau
non nul.
Remarquons que la propriété de convergence d’un test dépendra de la façon
dont sont générées les données. Un test qui est convergent contre certains
DGP peut ne pas l’être contre d’autres. Intuitivement, la raison pour la-
12.3 Dérive de DGP 409

quelle les tests sont souvent convergents est que lorsque n → ∞, la masse
d’informations portée par l’échantillon sur la validité de l’hypothèse nulle
s’accroı̂t sans limite. Ce faisant, l’information étouffe le bruit des données et
permet finalement de conclure avec une probabilité égale à 1 que la statistique
de test n’est pas un tirage de ce qui serait sa distribution sous l’hypothèse
nulle.
Ces préliminaires étant faits, nous pouvons considérer ce qui détermine la
puissance des tests orientés régression. Puisque nous traitons des modèles de
régression non linéaire, il nous faut nous baser sur une analyse asymptotique.
Cependant, cela soulève une difficulté technique de taille. Tous les tests con-
sidérés jusqu’à présent sont convergents lorsque les données sont générées par
un DGP fixé appartenant à l’ensemble des alternatives, et ils sont en réalité
plus convergents que cela. Si un test est convergent, la valeur de la statistique
de test tendra vers plus ou moins l’infini lorsque n → ∞. Cela nous empêche
de parler de la distribution asymptotique d’une telle statistique de test, mais
aussi de comparer les distributions asymptotiques de deux statistiques concur-
rentes lorsque les deux tests sont convergents, si le DGP est fixé. La solution
consiste à laisser dériver un DGP vers l’hypothèse nulle à un certain taux.
C’est dans la prochaine section que nous parlons de dérive de DGP.

12.3 Dérive de DGP


Afin de déterminer les propriétés d’une statistique de test, il faut spécifier le
processus qui génère les données. Puisque, dans ce chapitre, nous ne nous
intéressons qu’aux tests orientés régression, nous focaliserons nos efforts sur
les DGP qui ne diffèrent de l’hypothèse nulle que dans ces directions. Cette
limitation n’est en aucune manière anodine. Elle signifie que nous ne pouvons
rien dire sur la puissance des tests orientés régression lorsque le modèle est
mal spécifié ailleurs que dans la fonction de régression (par exemple, lorsque
les aléas sont sujets à une hétéroscédasticité non modélisée). Certains aspects
de ce thème seront abordés lors du Chapitre 16.
La manière naturelle de spécifier un DGP dans le but d’analyser la puis-
sance d’un test consiste à supposer que c’est un cas particulier de la classe
des DGP qui composent ensemble l’hypothèse alternative. Cependant, on
note deux problèmes relatifs à cette approche. En premier lieu, on peut par-
faitement s’intéresser à la puissance de certains tests lorsque les données sont
générées par un DGP qui n’appartient pas à l’hypothèse alternative. Il semble
peu pertinent d’éliminer d’office ce cas intéressant.
Le second problème, auquel nous avons fait allusion dans la section
précédente est que la plupart des statistiques de test qui nous intéressent
ne possédera pas de distribution asymptotique non dégénérée sous un DGP
fixé qui n’est pas un cas particulier de l’hypothèse nulle. Si c’était le cas, elles
ne seraient pas convergentes. Une solution éprouvée serait de considérer la
410 Interprétation des Tests Orientés Régression

distribution de la statistique de test à laquelle nous nous intéressons sous ce


que l’on nomme une suite d’alternatives locales. Lorsque θ est le vecteur de
paramètres d’intérêt, on peut écrire une suite de ce type comme

θ n = θ0 + n−1/2 δ. (12.05)

Ici θ n est le vecteur de paramètres correspondant à une taille d’échantillon


égale à n, θ0 est un vecteur de paramètres qui satisfait l’hypothèse nulle,
et δ est un vecteur non nul. A l’évidence, θ n converge vers θ0 à un taux
proportionnel à n−1/2 . Le pionnier de cette approche est Neyman (1937).
Cependant, on l’attribue souvent à Pitman (1949) et on s’y réfère souvent
sous le nom de “suite de Pitman” ou “dérive de Pitman”; voir McManus
(1991). Cette technique a été abondamment employée en économétrie; voir,
par exemple, Gallant et Holly (1980) et Engle (1984).
Afin de ne pas éliminer le cas intéressant où les données sont générées par
un DGP qui n’appartient pas à l’hypothèse alternative, Davidson et MacKin-
non (1985a, 1987) ont généralisé l’idée de suites d’alternatives locales à l’idée
de dérive de DGP. Ce chapitre s’inspire largement de l’approche initiée par
les deux articles.2
Une classe de dérive de DGP adéquate pour l’étude de la puissance de la
statistique de test (12.04) est

y = x(β0 ) + αn−1/2 a + u, E(u) = 0, E(uu>) = σ02 I. (12.06)

Ici β0 et σ02 désignent des valeurs spécifiques pour β et σ 2, a est un vecteur


à n composantes qui peut dépendre de variables exogènes, du vecteur de
paramètres β0 , et éventuellement des valeurs passées de yt , et α est un
paramètre qui détermine la distance séparant le DGP de hypothèse nulle
simple
y = x(β0 ) + u, E(u) = 0, E(uu>) = σ02 I. (12.07)
La dérive de DGP (12.06) tend vers l’hypothèse nulle lorsque n → ∞. Nous
discuterons bientôt du sens précis à donner au vecteur a. Remarquons
que, lorsque n croı̂t, le vecteur y se rapproche de ce qu’il devrait être sous
l’hypothèse nulle simple (12.07) à un taux proportionnel à n−1/2.
Le fait que la dérive de DGP (12.06) converge vers l’hypothèse nulle sim-
ple (12.07) à un taux de n−1/2 n’est pas un hasard. Ce taux a été choisi
avec minutie de manière à ce que la statistique de test (12.04), et toutes
les statistiques de test asymptotiquement équivalentes, aient une distribution
asymptotique lorsque n → ∞. De façon similaire, pour un niveau de test fixé,
la valeur de la fonction puissance tend vers une limite qui n’est en général ni

2
Pour être exact, le terme employé par Davidson et MacKinnon (1985a, 1987)
était “suite de DGP locaux”. Cependant, notre préférence va désormais au
terme “dérive de DGP”.
12.4 Distribution Asymptotique des Statistiques 411

0 ni 1 lorsque n → ∞ et lorsque la dérive de DGP converge vers l’hypothèse


nulle au taux n−1/2. Cette fonction limite s’appelle fonction puissance asymp-
totique de la statistique de test.
La dérive de DGP (12.06) fournit une représentation locale parfaitement
générale de tout modèle de régression suffisamment proche de (12.07). Sup-
posons, par exemple, que l’on veuille connaı̂tre le comportement d’un test
lorsque les données sont générées par une alternative telle que (12.03), où
γ 6= 0. Nous pourrions spécifier une suite d’alternatives locales comme

y = x(β0 , αn−1/2 γ0 ) + u, (12.08)

où γ0 est fixé et peut être normalisé à une longueur arbitraire, et où α
détermine la distance qui sépare (12.08) de (12.07). Parce que (12.08) con-
verge vers (12.07) au même taux que n−1/2 converge vers 0, un développement
en série de Taylor au premier ordre de (12.08) autour de α = 0 doit donner
exactement les mêmes résultats, dans une analyse asymptotique, que (12.08)
elle-même. Cette approximation est

y = x(β0 , 0) + αn−1/2 Xγ (β0 , 0)γ0 + u, (12.09)


.
où Xγ (β0 , 0) a pour élément type ∂xt (β, γ)/∂γj évaluée en [β0 ... 0]. Si
nous définissons x(β0 ) par x(β0 , 0) et a par Xγ (β0 , 0)γ0 , nous voyons
immédiatement que (12.09) est simplement un cas particulier de la dérive
de DGP (12.06).
L’argument précédent devrait montrer clairement que (12.06) est une
manière tout à fait générale de spécifier une dérive de DGP correspondant
à n’importe quel modèle de régression alternatif qui comprend l’hypothèse
nulle (12.01). Toute alternative spécifique produit simplement un vecteur a
différent. Si a est un vecteur nul, le DGP est un cas particulier de l’hypothèse
nulle, et le test aura une puissance égale à son niveau et par conséquent, aura
une courbe de niveau-puissance confondue avec la première bissectrice (voir
la Figure 12.1). Si a est construit à partir de l’hypothèse alternative contre
laquelle le test est fondé, alors la dérive de DGP (12.06) est véritablement une
suite d’alternatives locales telle que (12.05). En général, cependant, aucun de
ces cas particuliers ne se produira.

12.4 Distribution Asymptotique des Statistiques


Nous sommes à présent parés pour trouver la distribution asymptotique de la
statistique de test (12.04) sous la famille de dérive de DGP (12.06). Afin de
valider notre analyse asymptotique, il nous faut supposer que des conditions
de régularité variées sont vérifiées. Ainsi, nous supposerons que n−1X0>X0 ,
n−1Z0>Z0 , et n−1Z0>X0 sont des matrices qui tendent toutes vers des matrices
limites finies de rangs k, r et min(k, r) respectivement lorsque n → ∞. Nous
412 Interprétation des Tests Orientés Régression

supposerons ensuite qu’il existe un N tel que, pour tout n > N, le rang de
la matrice [X0 Z0 ] est k + r, que n−1 a>a tend vers un scalaire fini, et que
n−1 a>X0 et n−1 a>Z0 tendent vers des vecteurs limites finis de dimensions
1 × k et 1 × r respectivement. Ici X0 désigne X(β0 ) et Z0 désigne Z(β0 ).
La validité des conditions de régularité dépendra du vecteur a, de l’hypothèse
nulle (12.01), de l’hypothèse alternative (qu’elle soit exacte ou non), et de
l’hypothèse nulle simple (12.07).
Nous commençons par écrire la statistique de test (12.04) de façon à ce
qu’elle corresponde au produit de quatre facteurs, qui sont tous O(1):

1 ¡ −1/2 ¢¡ ¢−1¡ −1/2 > ¢


n (y − x̃)>Z̃ n−1Z̃>M̃X Z̃ n Z̃ (y − x̃) . (12.10)
s̃2

Il nous faut maintenant remplacer les quantités s̃, n−1/2 (y − x̃)>Z̃, et


n−1Z̃>M̃X Z̃ par leur limite asymptotique sous l’hypothèse (12.06). Nous
établissons les résultats suivants sans démonstration. Ils s’obtiennent tous
par une modification pertinente des arguments invoqués dans le Chapitre 5:
p
s̃2 −→ σ02 , (12.11)
p ¡ ¢
n−1Z̃>M̃X Z̃ −→ plim n−1Z0>MXZ0 , (12.12)
n→∞
et ¡ ¢
a
n−1/2 (y − x̃)>Z̃ = n−1/2 u + αn−1/2 a >MX Z0 , (12.13)

où MX ≡ I − X0 (X0>X0 )−1X0>.


L’intuition qui guide les résultats (12.11) et (12.12) est immédiate. La
dérive de DGP (12.06) converge vers l’hypothèse nulle simple (12.07) suffi-
samment vite pour que les limites de s̃2 et n−1Z̃>M̃X Z̃ soient ¡ exactement les
¢
mêmes que sous l’hypothèse (12.07). Ces limites, σ02 et plim n−1Z0>MXZ0 ,
sont déterministes parce que la différence entre β̃ et β0 , qui est O(n−1/2 ),
n’affecte ni s̃2 ni n−1Z̃>M̃X Z̃ asymptotiquement. Il est par conséquent peu
surprenant que la différence entre la dérive de DGP (12.06) et l’hypothèse
nulle simple (12.07), qui est également O(n−1/2 ), n’ait aucun effet sur s̃2 et
sur n−1Z̃>M̃X Z̃ asymptotiquement.
Par contraste, n−1/2 (y − x̃)>Z̃ tend vers une limite en probabilité
aléatoire. Le résultat (12.13) provient du fait que
¡ ¢
y − x̃ = MX u + αn−1/2 a + o(n−1/2 ),

qui est l’analogue du résultat qui nous est familier (5.57) dans le cas où
α = 0. La raison pour laquelle αn−1/2 a a un impact est que Z̃>M̃X u et
αn−1/2 Z̃>M̃X a sont du même ordre, O(n1/2 ). Ainsi, en spécifiant la dérive
de DGP (12.06) comme nous l’avons fait, nous garantissons que les quan-
tités qui sont asymptotiquement déterministes sous l’hypothèse nulle simple
12.4 Distribution Asymptotique des Statistiques 413

(12.07) ne sont pas modifiées sous (12.06), alors que des quantités qui sont
asymptotiquement aléatoires le sont.
La substitution de (12.11), (12.12) et (12.13) dans (12.20) nous permet
de voir que la statistique de test (12.04) est asymptotiquement égale à

1 ¡ −1/2 ¢> ³ ´−1 ¡ −1/2 ¢


1 > >
αn a+u MX Z plim − Z MX Z Z MX αn a+u , (12.14)
nσ02 n→∞ n

où, pour simplifier la notation, Z désigne Z0 . Il reste à déterminer la dis-


tribution asymptotique de cette quantité. Premièrement, nous définissons ψ
comme une matrice triangulaire de dimension r × r telle que
³ ´−1
1 >
ψψ> ≡ plim − Z MX Z . (12.15)
n→∞ n

Nous définissons ensuite η le vecteur de dimension r tel que


1 > > ¡ ¢
η≡ ψ Z MX αn−1 a + n−1/2 u .
σ0

La quantité (12.14) prend désormais la forme simple η>η; il s’agit simplement


de la somme de r variables aléatoires au carré, les r éléments du vecteur η.
Il est aisé de voir que, asymptotiquement, l’espérance de η est le vecteur
³ ´
1 −1 > >
plim − n
ασ 0 ψ Z M X a (12.16)
n→∞

et que sa matrice de covariance est


³ ´ ³ ´
1 −2 > > > > 1 >
plim − σ ψ Z MX E(uu )MXZψ = ψ plim −
n 0 n
Z MXZ ψ = Ir .
n→∞ n→∞

La dernière égalité provient ici de la définition de ψ dans (12.15). Puisque η


est égal à la somme d’un terme qui tend vers la limite déterministe (12.16) et
de n−1/2 fois une somme pondérée de variables aléatoires de variances finies,
et puisque notre hypothèse conserve ces poids à l’intérieur de bornes inférieure
et supérieure, nous pouvons appliquer un théorème de la limite centrale. La
statistique de test (12.04) est ainsi asymptotiquement égale à une somme de
r variables aléatoires indépendantes normales au carré, toutes de variance
unitaire et d’espérance donnée par un élément du vecteur (12.16). Un telle
somme suit la distribution du chi-carré non centrée à r degrés de liberté et
dont le paramètre de non centralité, ou NCP, est égal à la norme au carré du
vecteur d’espérances (12.16).
La distribution du χ2 non centrée joue un rôle majeur dans l’analyse
de la puissance asymptotique de la plupart des tests économétriques. Cette
distribution est abordée brièvement dans l’Annexe B; pour une discussion
plus complète, les lecteurs devraient consulter Johnson et Kotz (1970b,
414 Interprétation des Tests Orientés Régression

Chapitre 28). L’allure de cette distribution dépend de deux éléments: le nom-


bre de degrés de liberté et le NCP. Le NCP est toujours un nombre positif;
s’il est nul, nous aurions une distribution du χ2 centrale ordinaire.
Afin de développer notre intuition, il est révélateur de considérer le cas à
deux degrés de liberté. Supposons que ε1 et ε2 soient des variables aléatoires
indépendantes, distribuées selon une N (0, 1), et supposons par ailleurs que
ξ1 = µ1 + ε1 et ξ2 = µ2 + ε2 , où µ1 et µ2 sont des valeurs fixées. La statistique

ζ C ≡ ε21 + ε22

sera distribuée suivant une χ2 (2), alors que la statistique


¡ ¢ ¡ ¢ ¡ ¢
ζ N ≡ ξ12 + ξ22 = ε21 + ε22 + µ21 + µ22 + 2µ1 ε1 + 2µ2 ε2 (12.17)

sera distribuée selon une χ2 (2) non centrée et dont le NCP est égal à µ21 + µ22 .
Une notation standard pour la distribution du χ2 non centrée est χ2 (r, Λ), où
r est le nombre de degrés de liberté et Λ est le NCP. Ainsi, dans ce cas, nous
pourrions dire que ζ N est distribué selon une χ2 (2, µ21 + µ22 ). 3
L’espérance de ζ N est supérieure à celle de ζ C. Cette dernière est égale
à 2, alors que la première est égale à 2 + µ21 + µ22 . Ainsi, en moyenne, ζ N
sera supérieure à ζ C. Donc, si nous devions tester l’hypothèse (erronée) que
ζ N provient de la distribution du χ2 (2) centrée à l’aide d’un test de niveau δ,
nous rejetterions cette hypothèse dans plus de 100δ% des cas. La puissance
de ce test, puisque nous conservons un nombre de degrés de liberté constant,
ne dépendra que du NCP, µ21 + µ22 . Connaissant (12.17), cela peut paraı̂tre
étrange. Il semblerait que la distribution de ζ N dépende de µ1 et de µ2 indi-
viduellement plutôt que de la somme de leurs carrés. En réalité, les variations
de µ1 et µ2 qui ne modifient pas µ21 + µ22 sont sans effet sur la distribution de
ζ N. La démonstration serait un bon exercice.
On associe au χ2 non centré deux autres distributions, appelées F non
centrée et F doublement non centrée. Elles sont définies de façon analogue à
la distribution en F ordinaire (centrée), comme un rapport de deux variables
aléatoires indépendantes du χ2 , divisée chacune par son degré de liberté. Pour
la distribution en F non centrée, la variable aléatoire du numérateur obéit à
une distribution du χ2 non centrée, alors que celle du dénominateur obéit à
une χ2 centrée. Pour la distribution en F doublement non centrée, à la fois le

3
Remarquons que certains auteurs, et aussi certains logiciels informatiques,
utilisent la racine carrée de Λ, plutôt que Λ lui-même, en tant que NCP et
se réfèrent donc à cette racine carrée en tant que NCP. La paramétrisation de
la non centralité de la distribution du χ2 n’a pas d’importance. Cependant,
la paramétrisation employée ici est plus naturelle mais aussi plus répandue: si
x1 ∼ χ2 (r1 , Λ1 ) et x2 ∼ χ2 (r2 , Λ2 ) sont indépendantes, alors z = x1 + x2 est
distribuée selon une χ2 (r1 + r2 , Λ1 + Λ2 ). Cela devrait illustrer le fait que Λ,
plutôt que sa racine carrée, est un choix naturel pour le NCP.
12.4 Distribution Asymptotique des Statistiques 415

Puissance
1.0 ...........................................
.................................................................................................................................. ........................ .......
............................................................................................ ..................................................................................
(1, 8) ......................................................... ... . ............... ..... .
...... ...... .
.................. .......................... ......
......
.....
. ... . ... .... . .
....
...... ...
..... ......... ............ ............
.......... .....
..
..... ......... ............
. ..... ... .......... .. .... ... ........... .....
...
............ ........
.. .....
. ..... ...... .....
..
... .... ........ .........
0.8 ..... ....... ... . ....... . .. .. ........ .........
....
.. .... .....
.
.
... ..
..
.... ..... .....
.... ..... ....... .
.. . .... . ...
... ..
. .
.. ... ...
. .... ............................................ (3, 4) .....
.... ... ...... .. .... . . . . ....
. ...
. .... .....
... . ................................................................................. (1, 4) .....
0.6 ..... .... .... .. ...
. . .... .....
.
... .. ... ... .....
..... ........................................................................... (3, 8) ......
... .. ... ...
. . .....
......... ..... ..... ........
...
. .
...... .. ... .....
.............. ..... ........
.
0.4 .
........ ... .....
............ ... . ... .....
..
....... ..
... .. .....
....... .... ...
.....
. ...
..... ... .....
............ . .
......
.. .
0.2 ...... .....
........... .. .......
.... ..
........ .....
..... . .....
... ........
. .. Nota: (a, b) signifie r = a, Λ = b
... ......
. .. .
0.0 ...... Niveau
0.0 0.2 0.4 0.6 0.8 1.0

Figure 12.3 Les courbes de niveau-puissance dépendent de r et Λ

numérateur et le dénominateur ont des distributions du χ2 non centrées. Si


l’on étudie la puissance d’un test en F ordinaire dans le modèle de régression à
aléas normaux, avec un DGP fixé plutôt qu’une dérive de DGP, on trouve que
la statistique de test est distribuée suivant une distribution de Fisher soit non
centrée (si le DGP est un cas particulier de l’alternative) soit doublement non
centrée (dans le cas contraire). La difficulté supplémentaire de la distribution
de Fisher doublement non centrée survient dans le second cas parce qu’il
n’implique pas de dérive de DGP. Par conséquent, l’estimation de σ 2 sous
l’alternative n’est pas d’espérance égale à σ02 , ce qui nous empêche de calculer
la limite lorsque n → ∞. Alors, à plusieurs titres, l’analyse asymptotique de
modèles non linéaires est plus simple que l’analyse de modèles linéaires avec
des échantillons finis. Pour une discussion des modèles linéaires, voir Thursby
et Schmidt (1977).
Si une statistique de test obéit à une distribution du χ2 (r) sous l’hypo-
thèse nulle et obéit à une distribution du χ2 (r, Λ) sous une dérive de DGP,
la puissance du test dépendra uniquement de r et Λ. En réalité, elle sera
strictement croissante en Λ et strictement décroissante en r; voir Das Gupta
et Perlman (1974). L’espérance de la statistique sera égale à r + Λ. Ainsi, si
Λ augmente, la chance de voir la statistique de test dépasser n’importe quelle
valeur critique utilisée doit augmenter. A la limite, lorsque Λ → ∞, la puis-
sance du test tend vers 1 pour n’importe quelle valeur critique sélectionnée. La
416 Interprétation des Tests Orientés Régression

Figure 12.3 illustre la dépendance de la puissance à r et Λ, et nous observons


quatre cas différents de courbes de niveau-puissance. Ces quatre cas, ordonnés
par puissances décroissantes pour un niveau donné sont (1, 8), (3, 8), (1, 4), et
(3, 4), où le premier élément de chaque couple est r alors que le second est Λ.
Revenons à présent à la statistique de test (12.04). Nous avons vu qu’elle
est asymptotiquement distribuée selon la χ2 (r, Λ) avec un paramètre de non
centralité Λ égal à la norme au carré de (12.16). Typiquement,

α2 ³ ´ ³ ´−1 ³ ´
1 > 1 > 1 >
Λ= plim − a MX Z plim − Z MX Z plim − Z MX a . (12.18)
σ02 n→∞ n n→∞ n n→∞ n

Pour un test particulier d’un modèle donné, MX, Z, et r sont fixés. Le


seul élément variable est la dérive de DGP qui est supposée avoir généré
les observations. L’étude de (12.18) montre comment le scalaire α et le
vecteur a modifient Λ et donc indirectement la puissance du test. Nous
voyons immédiatement que Λ est proportionnel à α2. Ainsi α est simple-
ment un paramètre qui mesure la distance entre la dérive de DGP (12.06)
et l’hypothèse nulle simple (12.07). A contrario, a mesure la direction dans
laquelle le DGP s’éloigne de l’hypothèse nulle simple (12.07).
Afin de saisir l’essence de (12.18) et ses conséquences pour la puissance
d’un test, il est extrêmement révélateur de considérer l’aspect géométrique
des choses. C’est ce que nous faisons dans la section qui suit.

12.5 La Géométrie de la Puissance des Tests


La NCP (12.18) n’est guère parlant sous cette forme. Il est possible, toutefois,
de le récrire de façon plus claire. En premier lieu, considérons le vecteur
αn−1/2 MX a, dont la longueur au carré est asymptotiquement
³ ´
1 >
α2 plim − n
a MX a . (12.19)
n→∞

Cette quantité est α2 fois la limite en probabilité des résidus au carré de la


régression de n−1/2 a sur X0 . Supposons que pour une valeur fixée de n le
DGP correspondant à cette taille d’échantillon soit représenté par le vecteur
x(β0 ) + αn−1/2 a dans E n. Si l’hypothèse nulle est représentée comme dans la
Section 2.2 par la variété X générée par les vecteurs x(β) en faisant varier β,
la somme des résidus au carré considérée plus haut est le carré de la distance
euclidienne entre le point représentant de DGP et l’approximation linéaire
S(X0 ) à la variété X au point β0 . Elle fournit par conséquent une mesure de
la différence, pour un n donné, entre le modèle testé et le DGP.
Considérons à présent la régression artificielle

(α/σ0 )n−1/2 MX a = MXZd + résidus, (12.20)


12.5 La Géométrie de la Puissance des Tests 417

a
...........
..
..
..
..
..
............. ...
.........
.
.............
............. ...
MX a............................ .
..
..
. .
... .
.
.. .................
... .... ...
... .... ..
... ..... .
... ..... . S(X0 )
... ..... ..
. ............
...
................. ... . ...... . ............
............
..
................. ... ........
.................
................ ... ..... . ............
............
.
.....
................. ..............
.................
............. .. . . . ... . . ............
............

φ ........ ..
................ . ............
................. ...
... ............
.................
...................... ............
............
.......
................ ...................... .......................
................. ...........
.........
............ ................................
............
S(X , Z ) 0 0 ............................... O ................
................
................
..........
............. ................
................
........
....... ................
..
.......... ................
..
. .
.....
.. ................
..
..
..
.. ................
..
..
..
..
..
...... ................
................
..
..
..
..
..
..... ...
..
..
..
..
..
......
...........

Figure 12.4 Les hypothèses nulle et alternative, le DGP, et l’angle φ

où d est un vecteur à r composantes choisi par moindres carrés de façon à


ce que cette régression ait un ajustement aussi bon que possible. La limi-
te en probabilité de la somme des carrés totaux pour cette régression est
l’expression (12.19) divisée par σ02 . La limite en probabilité de la somme des
carrés expliqués est le NCP (12.18). Ainsi le R2 non centré de la régression
(12.20) est
¡ ¢ ¡ ¢−1 ¡ ¢
plim n−1 a>MXZ plim n−1Z>MXZ plim n−1Z>MX a
¡ ¢ . (12.21)
plim n−1 a>MX a

Comme tous les R2 , on peut l’interpréter comme le carré du cosinus d’un


certain angle. Dans ce cas, c’est le carré du cosinus de la limite en probabilité
de l’angle formé par le vecteur αn−1/2 MX a et la projection de ce vecteur sur
le sous-espace S(X0 , Z0 ). La limite en probabilité de cette projection est
³ ¡ ¢−1¡ −1 > ¢´
plim αn−1/2 MXZ n−1Z>MXZ n Z MX a . (12.22)
n→∞

Si nous notons φ la limite en probabilité de l’angle entre αn−1/2 MX a et


la projection (12.22), nous voyons clairement à partir de la définition d’un
cosinus que cos2 φ est égal au R2 (12.21). 4
Tout ceci est illustré sur la Figure 12.4, pour le cas où l’hypothèse nulle
ne possède qu’un seul paramètre et où une seule contrainte est testée. Le
sous-espace linéaire unidimensionnel S(X0 ) correspond à l’hypothèse nulle, et
le sous-espace linéaire bidimensionnel S(X0 , Z0 ) correspond à l’hypothèse al-
ternative. Si l’hypothèse nulle était non linéaire, nous pourrions la représenter
4
Souvenons-nous que si a et b sont des vecteurs arbitraires, le cosinus de l’angle
entre ces vecteurs est (a>b)/(kakkbk). Dans le cas particulier où a = P b, où
P est une matrice de projection, la formule de simplifie en kP bk/kbk.
418 Interprétation des Tests Orientés Régression

sur la figure comme une variété incurvée unidimensionnelle tangente à S(X0 )


au point (β0 , 0). Si l’hypothèse alternative était non linéaire, nous pourrions
la représenter sur la figure comme une variété incurvée bidimensionnelle tan-
gente à S(X0 , Z0 ) au point (β0 , 0), incorporant la variété unidimensionnelle
correspondant à l’hypothèse nulle. Afin d’éviter toute complication sur la figu-
re, nous n’avons représenté aucune de ces variétés. Ainsi la figure représentée
suppose implicitement que les hypothèses nulle et alternative sont des modèles
de régression linéaire. Cette hypothèse, cependant, est sans aucun effet sur
la géométrie en cause, parce que tout dépend d’approximations linéaires quoi
qu’il en soit.
Nous avons noté a le DGP sur la figure. Bien sûr, le DGP est en réalité
x(β0 )+αn−1/2 a, mais nous pouvons traiter x(β0 ) comme l’origine, et puisque
le facteur αn−1/2 n’intervient pas dans les considérations géométriques, nous
le fixons arbitrairement à 1 pour l’instant. L’aspect important du DGP sur
la figure est qu’il n’appartient pas à l’hypothèse alternative S(X0 , Z0 ). Il
pourrait lui appartenir, bien sûr, mais comme la figure l’illustre, cela serait
un cas particulier. Sur la figure, nous projetons tout d’abord a sur S⊥ (X0 ),
ce qui nous donne le point MX a. Bien que a corresponde à la différence
entre l’hypothèse nulle simple x(β0 ) et le DGP, c’est véritablement MX a
qui est important pour le test, parce que c’est la différence entre a et le
point le plus proche appartenant à S(X0 ) (qui est bien sûr PX a). Sur la
figure, nous projetons ensuite MX a sur S(X0 , Z0 ). Tout ceci est équivalent
à l’exécution de la régression (12.20). Le carré du cosinus de l’angle φ entre
MX a et sa projection sur S(X0 , Z0 ) est alors l’équivalent en échantillon fini
de l’expression (12.21).
La raison pour laquelle nous parlons de tests orientés régression devrait
maintenant être claire. Si x(β0 ) est l’origine, tout modèle correspond à une
direction ou ensemble de directions. L’hypothèse nulle correspond à toutes
les directions dans lesquelles on peut s’éloigner de x(β0 ) tout en restant dans
S(X0 ). Dans la Figure 12.4 il n’y a que deux directions, parce que S(X0 )
est unidimensionnel, mais cela est un cas particulier. De manière similaire,
l’hypothèse alternative correspond à toutes les directions dans lesquelles on
peut s’éloigner de x(β0 ) tout en restant dans le sous-espace S(X0 , Z0 ). Enfin,
le DGP correspond à l’unique direction donnée par le vecteur a. L’ensemble
des directions de régression possibles est composé de toutes les directions
de E n. C’est, localement, l’ensemble de tous les DGP possibles qui laissent
inchangée la structure de régression du modèle.
Revenons à l’aspect algébrique du problème. Les résultats précédents
nous permettent de récrire de NCP (12.18) comme
¡ ¢
σ0−2 α2 plim n−1 a>MX a cos2 φ. (12.23)
n→∞

Nous avons déjà vu que, pour un nombre donné de degrés de liberté r, la


puissance asymptotique de la statistique de test (12.04) ne dépendra que de
12.5 La Géométrie de la Puissance des Tests 419

ce NCP. Ainsi l’expression (12.23) nous enseigne tout ce qu’il est bon de
connaı̂tre sur ce qui détermine la puissance asymptotique des tests orientés
régression.
Le NCP (12.23) est le produit de deux facteurs. Le premier pourrait être
écrit comme ¡ ¢
α2 plim n−1 a>MX a
. (12.24)
σ02
Le numérateur de (12.24) est l’expression (12.19). C’est le carré de la limite
en probabilité de la distance séparant le DGP (12.06) du point le plus proche
sur une approximation linéaire de l’hypothèse nulle autour de l’hypothèse
nulle simple (12.07). Le dénominateur est la variance des innovations u dans
le DGP (12.06), rappelant que lorsque le DGP est plus parasité, il devient
plus difficile de rejeter n’importe quelle hypothèse nulle. Si nous doublons
le carré de la distance entre le DGP et l’hypothèse nulle, ainsi que σ02 , le
rapport (12.24) reste constant, ce qui indique que notre capacité à détecter
l’inexactitude de l’hypothèse nulle reste identique. Le résultat crucial de ce
rapport est qu’il ne dépend en aucun cas de Z. Il sera identique pour tous
les tests orientés régression de n’importe quelle hypothèse avec n’importe quel
ensemble de données.
Le facteur le plus intéressant dans l’expression (12.23) est le second,
cos2 φ. Ce n’est qu’à travers ce facteur que le choix de Z influence le NCP.
Un test aura une puissance maximale, pour un nombre de degrés de liberté
donné, lorsque cos2 φ est égal à 1, c’est-à-dire lorsque la régression artificielle
(12.20) a un R2 asymptotique égal à 1. Cela sera le cas chaque fois que le
vecteur a appartient au sous-espace S(X0 , Z0 ) mais pas à l’espace S(X0 ).
Autrement dit, cela sera le cas chaque fois que le DGP est un cas particulier
de l’hypothèse alternative contre laquelle le test est mené, mais ne satisfait
pas l’hypothèse nulle.
Par ailleurs, un test aura une puissance égale à son niveau (et par
conséquent aucune puissance utile) lorsque cos2 φ est nul. Cela surviendra
lorsque a appartient à S(X0 ), ce qui signifie que l’hypothèse nulle (ou au moins
une approximation linéaire de celle-ci) est exacte. Cela surviendra également
lorsque MX a est asymptotiquement orthogonal à MXZ, ce qui, en général,
peut paraı̂tre grandement improbable. Cependant, certaines caractéristiques
spéciales du modèle, ou de l’échantillon, rendent une telle situation moins rare
que ce que l’on pourrait imaginer. Quoi qu’il en soit, il est sans doute peu
trompeur d’affirmer que, lorsque l’hypothèse nulle est inexacte dans une direc-
tion de régression, on peut attendre de la plupart des tests orientés régression
qu’ils aient une certaine puissance, aussi faible fût-elle.
Lorsque cos2 φ est égal à 1, le NCP (12.23) est simplement

α2 ³ ´
1 >
plim − a MX a . (12.25)
σ02 n→∞ n
420 Interprétation des Tests Orientés Régression

Puisque cos2 φ = 1 implique que MX a appartient à S(MXZ), cette expression


peut également s’écrire

α2 ³ ´
1 > >
plim − d Z MX Zd (12.26)
σ02 n→∞ n

pour un quelconque vecteur d. Dans une analyse conventionnelle de la


puissance basée sur des suites d’alternatives locales — par exemple Engle
(1984) — l’hypothèse nulle serait y = x(β, 0) + u, l’hypothèse alternative
serait y = x(β, γ) + u, et le DGP serait y = x(β0 , αn−1/2 γ0 ) + u. Alors Z
serait la matrice Xγ , avec un élément type ∂xt (β, γ)/∂γj , évaluée en (β0 , 0),
et d serait le vecteur γ0 . Le NCP (12.23) serait alors

α2 ³ ´
1 > >
plim − γ0 Xγ MXXγ γ0 .
σ02 n→∞ n

L’analyse conventionnelle est ainsi un cas particulier de l’analyse basée sur la


dérive de DGP.
Les résultats précédents nous permettent de définir deux concepts neufs,
qui sont quelquefois utiles dans la réflexion sur les tests. L’hypothèse alter-
native implicite d’un test est l’ensemble des DGP (c’est-à-dire le modèle ou
l’ensemble des modèles) pour lequel le test a un cos2 φ égal à l’unité. Locale-
ment, cet ensemble doit être de dimension k + r, c’est-à-dire la dimension de
l’hypothèse nulle plus le nombre de degrés de liberté de la statistique de test.
Remarquons que cela pourrait comprendre davantage que l’hypothèse alterna-
tive explicite contre laquelle le test est mené, parce qu’il peut exister un grand
nombre de modèles qui sont localement équivalents au voisinage de l’hypothèse
nulle; voir Godfrey (1981) et Godfrey et Wickens (1982). A titre d’exemple,
nous avons vu dans la Section 10.8 qu’une GNR, pour laquelle le régresseur
de test est un vecteur de résidus retardés une fois, peut être employée con-
tre l’hypothèse qu’un modèle de régression a des aléas AR(1) ou MA(1).
Etant donné que l’une ou l’autre de ces hypothèses en tant qu’hypothèse
nulle conduira exactement au même test, elles doivent appartenir toutes deux
à l’hypothèse alternative implicite de ce test.
A contrario, l’hypothèse nulle implicite d’un test est l’ensemble des DGP
contre lequel ce test aura un cos2 φ nul et n’aura par conséquent aucune puis-
sance utile asymptotiquement. L’hypothèse nulle implicite doit comprendre
l’hypothèse nulle de travail mais peut aussi comprendre d’autres DGP, puisque
cos2 φ ne sera nul que si a>MXZ = 0. Dans certains cas, cela peut se révéler
être une caractéristique souhaitable d’un test si une hypothèse implicite est
large, parce qu’alors le test n’aura de la puissance que dans certaines direc-
tions. Dans d’autres cas, cependant, nous voulons que les tests soient puissants
dans plusieurs directions et nous souhaiterions que l’hypothèse nulle implicite
soit aussi étroite que possible.
12.5 La Géométrie de la Puissance des Tests 421

Ces résultats montrent clairement qu’il existe un équilibre lorsque nous


choisissons la direction de régression contre laquelle nous menons le test. D’un
côté, nous pouvons choisir de tester contre une hypothèse alternative très con-
traignante, à l’aide d’un test qui ne possède qu’un seul degré de liberté. A
l’opposé, nous pouvons choisir de tester contre une hypothèse alternative tout
à fait générale, à l’aide d’un test à plusieurs degrés de liberté. L’accroissement
du nombre de colonnes de Z nous permet toujours d’augmenter cos2 φ, ou au
pire de le laisser inchangé, ce qui augmentera la puissance de ce test. Mais
ce faisant, nous augmentons r, le nombre de degrés de liberté, ce qui réduit
la puissance du test. Ainsi la puissance peut soit augmenter soit diminuer
lorsque nous accroissons le nombre des directions avec lesquelles nous travail-
lons. Cet arbitrage est au cœur d’un nombre de controverses dans la littérature
consacrée aux tests d’hypothèses.

Considérons la puissance relative d’un test pour aléas AR(1) et d’un test
pour aléas AR(p). Le premier ne possède qu’un seul degré de liberté, alors
que le second en possède p. Le test contre des erreurs AR(1) a donc une
hypothèse alternative implicite plus étroite (c’est-à-dire une hypothèse de di-
mension plus faible) et une hypothèse nulle implicite plus large que le test
contre des erreurs AR(p). Si les aléas obéissent véritablement à un processus
AR(1), il est optimal de tester contre des aléas AR(1), parce qu’un tel test
aurait r = 1 et cos2 φ = 1. Le test contre des aléas AR(p) aurait également
cos2 φ = 1 dans ce cas, mais il serait moins puissant que le test contre des
aléas AR(1) parce que p > 1. Si les erreurs étaient générées par un processus
AR d’ordre supérieur à 1 mais au plus égal à p, la situation serait relative-
ment différente. A présent, cos2 φ serait inférieur à 1 pour le test contre des
aléas AR(1), mais égal à 1 pour le test d’aléas AR(p). La différence entre
les degrés de liberté pourrait encore rendre le premier test plus puissant que
le second dans certains cas. Dans d’autres cas, cependant, le DGP appar-
tiendrait véritablement à l’hypothèse nulle implicite de test d’aléas AR(1), et
le second test aurait donc un niveau égal à sa puissance, asymptotiquement.

La discussion du paragraphe précédent s’applique presque sans modi-


fication à de nombreuses circonstances différentes. Par exemple, il y a
eu une certaine controverse dans la littérature sur les mérites relatifs des
tests d’hypothèses non emboı̂tées à degré de liberté unique et des tests
d’englobement à degrés de liberté multiples, dont chacun a été discuté dans
la Section 11.3; voir Dastoor (1983) et Mizon et Richard (1986). Les tests
non emboı̂tés sont analogues aux tests d’aléas AR(1), les tests d’englobement
sont analogues aux tests d’aléas AR(p). Nous voyons immédiatement que les
tests non emboı̂tés doivent avoir une hypothèse alternative implicite plus pe-
tite et une hypothèse nulle implicite plus large que les tests d’englobement.
Ces premiers tests seront plus puissants que les seconds si les données étaient
véritablement générées par l’hypothèse non emboı̂tée contre laquelle le test
est élaboré, mais peuvent être plus ou moins puissants dans d’autres cas.
422 Interprétation des Tests Orientés Régression

Si nous nous écartons provisoirement de notre hypothèse de dérive de


DGP et supposons que les résultats qui précèdent restent valides, nous voyons
que l’arbitrage entre cos2 φ et les degrés de liberté est influencé par la taille de
l’échantillon. Si n augmente parce que l’expérimentateur dispose de davantage
d’informations, on s’attend à ce que le NCP augmente, puisqu’alors le DGP ne
dérive pas vers l’hypothèse nulle lorsque la taille de l’échantillon augmente.
Ainsi, on peut attendre d’une modification de cos2 φ un effet d’autant plus
important sur la puissance que n est grand. D’autre part, l’effet de r sur la
valeur critique pour le test est indépendant de la taille de l’échantillon. Ainsi,
lorsque n est faible, il est particulièrement important d’employer des tests
avec un nombre de degrés de liberté faible, alors que lorsque n est élevé, il est
envisageable d’explorer plusieurs directions de façon à maximiser cos2 φ.
A proprement parler, l’analyse qui précède est incorrecte, puisque l’aban-
don de l’outil qu’est la dérive de DGP rend caducs les résultats sur lesquels elle
se base. Cependant, une analyse Monte Carlo suggère habituellement que ces
résultats correspondent assez bien en tant qu’approximations pour un DGP
fixé et une taille d’échantillon fixée, à condition que le DGP soit suffisamment
proche de l’hypothèse nulle et que n soit suffisamment important.5 Si on les
traite comme des approximations, alors on peut raisonnablement se demander
ce qu’il advient lorsque n varie alors que le DGP reste fixe.
Si nous étions sûrs que l’hypothèse nulle était fausse dans une seule di-
rection (c’est-à-dire si nous savions exactement ce que serait le vecteur a),
la procédure optimale serait de n’avoir qu’une seule colonne dans Z, cette
colonne étant proportionnelle à a. Dans la pratique, nous sommes rarement
dans cette position avantageuse. Nous repérons habituellement un grand nom-
bre d’éléments que nous supposons faux dans notre modèle et par conséquent
un grand nombre de directions de régression à tester. Face à cette situation,
il existe deux façons de procéder.
La première consiste à tester contre chaque type de mauvaise spécification
potentielle de façon séparée, avec des tests à un ou plusieurs degrés de liberté.
Si le modèle est faux dans une ou plusieurs directions de régression, cette
procédure a autant de chances de nous prévenir que n’importe quelle autre.
Cependant, l’expérimentateur doit rester prudent et contrôler le niveau global
du test, puisque si l’on réalise, par exemple, 10 tests différents au niveau 0.05,
le niveau global s’élèverait à 0.40; voir Savin (1980). De plus, il faudrait
éviter de conclure trop vite que le modèle est faux sur un point particulier,
simplement parce qu’une certaine statistique de test est significative. Il faut
garder à l’esprit que cos2 φ sera souvent bien supérieur à zéro pour de nombreux
tests, même si un seul élément est faux dans le modèle.

5
Voir, par exemple, Davidson et MacKinnon (1985c). Le cas qu’ils examinent
n’était pas véritablement un test orienté régression, mais comme nous le verrons
dans le Chapitre 13, la théorie de la puissance des tests en général est très
comparable à la théorie de la puissance des tests orientés régression.
12.6 Efficacité Asymptotique Relative 423

De façon alternative, il est possible de tester un grand nombre de mau-


vaises spécifications simultanément en augmentant la matrice Z de toutes les
directions de régression que nous désirons tester. Cela maximise cos2 φ et par
conséquent maximise l’opportunité d’obtenir un test convergent, et cela fa-
cilite le contrôle du niveau du test. Mais du fait que ce test aura de nombreux
degrés de liberté, la puissance peut être faible, sauf si la taille de l’échantillon
est élevée. De plus, si un tel test rejette l’hypothèse nulle, ce rejet nous pro-
cure peu d’information sur la nature de ce qui est faux dans le modèle. Bien
sûr, les coefficients des colonnes individuelles de Z dans la régression de test
peuvent fournir de l’information.
Cela soulève le problème de ce qu’il faut faire lorsqu’un ou plusieurs tests
rejettent l’hypothèse nulle. Il s’agit d’une question très difficile, et nous en
discuterons dans la Section 12.7.

12.6 Efficacité Asymptotique Relative


Puisque tous les tests convergents rejettent l’hypothèse nulle avec une proba-
bilité unitaire lorsque la taille de l’échantillon tend vers l’infini, il n’est pas
évident de comparer la puissance des tests dont nous ne connaissons pas les
distributions asymptotiques. Des approches variées ont été proposées dans
la littérature statistique, et celle qui est la plus connue est sans doute celle
qui repose sur le concept de l’efficacité asymptotique relative ou ARE. Ce
concept, qui est étroitement relié à l’idée d’alternatives locales, est dû à Pit-
man (1949), et a été développé depuis par de nombreux auteurs; consulter
Kendall et Stuart (1979, Chapitre 25). Supposons que nous disposions de
deux statistiques de test, disons τ1 et τ2 , dont les distributions asymptotiques
sont identiques, et toutes deux, comme toutes les statistiques de test abordées
dans ce chapitre, convergentes au taux n−1/2. Cela signifie que, pour que le
test ait une distribution asymptotique non dégénérée, la dérive de DGP doit
approcher l’hypothèse nulle simple à un taux proportionnel à n−1/2. Dans ce
cas, l’efficacité asymptotique de τ2 relativement à τ1 est définie par
µ ¶
n1
ARE21 = lim ,
n→∞ n2

où n1 et n2 sont les tailles d’échantillon telles que τ1 et τ2 ont une puissance
identique, et la limite est calculée lorsqu’à la fois n1 et n2 tendent vers l’infini.
Si, par exemple, ARE21 était égale à 0.25, τ2 nécessiterait asymptotiquement
4 fois plus d’observations que τ1 pour atteindre la même puissance.
Pour des tests qui ont un même nombre de degrés de liberté, on voit
aisément que
cos2 φ2
ARE21 = .
cos2 φ1
424 Interprétation des Tests Orientés Régression

Tableau 12.1 ARE d’Autres Tests contre le Test Optimal

r cos2 φ: 1.0 0.8 0.5 0.2

1 1.000 0.800 0.500 0.200


1.000 0.800 0.500 0.200
2 0.830 0.664 0.415 0.166
0.775 0.620 0.388 0.155
5 0.638 0.510 0.319 0.128
0.549 0.440 0.275 0.110
10 0.512 0.409 0.256 0.102
0.418 0.334 0.209 0.084
20 0.402 0.322 0.201 0.080
0.313 0.251 0.157 0.063
50 0.283 0.227 0.142 0.057
0.210 0.168 0.105 0.042

Souvenons-nous à partir de (12.23) que le NCP est proportionnel à cos2 φ. Si


le DGP ne dérivait pas, il serait aussi proportionnel à la taille de l’échantillon.
Si nous voulons que τ1 et τ2 soient de puissances identiques dans ce cas, elles
doivent avoir le même NCP. Cela signifie que n1 /n2 doit être égal à l’inverse
de cos2 φ2 /cos2 φ1 . Supposons, par exemple, que cos2 φ1 = 1 et cos2 φ2 = 0.5.
Alors l’hypothèse alternative implicite pour τ1 doit comprendre le DGP, alors
que ce n’est pas le cas pour l’hypothèse alternative implicite pour τ2 . Ainsi
les directions de test de τ1 expliquent toutes les divergences entre l’hypothèse
nulle et le DGP, alors que celle de τ2 n’en expliquent que la moitié. Mais nous
pouvons compenser ce pouvoir explicatif réduit en choisissant n2 deux fois
plus important que n1 , de manière à rendre les deux tests de puissances iden-
tiques asymptotiquement. Ainsi ARE21 doit être égal à 0.5. Voir Davidson
et MacKinnon (1987) pour davantage de détails sur ce point.
Dans le cas plus général où τ1 et τ2 possèdent des degrés de liberté
différents, le calcul de ARE devient plus difficile. Le test optimal sera un
test pour lequel l’hypothèse alternative implicite comprend la dérive de DGP
(de sorte que cos2 φ = 1) et cela implique qu’il ne doit y avoir qu’un seul
degré de liberté. Il peut, bien évidemment, exister un grand nombre de tests
asymptotiques équivalents satisfaisant ce critère, mais il peut aussi ne pas en
exister du tout dans la pratique. Les tests qui impliquent plus d’un degré de
liberté, ou tels que cos2 φ < 1, seront asymptotiquement moins efficaces que
le test optimal et posséderont par conséquent des ARE inférieures à 1.
Les conséquences de l’usage de tests avec r > 1 et/ou cos2 φ < 1 sont
illustrées dans le Tableau 12.1. L’effet d’une modification de cos2 φ ne dépend
ni du niveau ni de la puissance du test, mais l’effet d’une modification de r
dépend de ces deux paramètres; voir Rothe (1981) et Saikkonen (1989). Le
tableau a été élaboré pour un niveau de 0.05 et des puissances de 0.90 (la
12.7 Interpréter le Rejet de l’Hypothèse Nulle 425

première donnée de chaque colonne) et 0.05 (la seconde donnée de chaque


colonne). Chaque composante du tableau est l’ARE pour le test relativement
au test optimal. Ainsi on peut interpréter chaque composante comme le fac-
teur de proportionnalité entre la taille d’échantillon du test optimal et celle
de l’autre test si tous deux doivent avoir une puissance identique asympto-
tiquement.
Du Tableau 12.1, nous voyons que le coût d’usage d’un test dont le nombre
de degré de liberté est inutilement élevé, ou avec un cos2 φ de valeur inférieure à
1, peut être modique dans certains cas comme très élevé dans d’autres. Dans
le pire des cas examinés, où le test non optimal est caractérisé par r = 50
et cos2 φ = 0.2, le test optimal est tellement plus puissant que l’autre qu’il
faudrait disposer d’un échantillon au moins 20 fois plus important pour le
test non optimal.

12.7 Interpréter le Rejet de l’Hypothèse Nulle


Supposons que l’on teste un modèle de régression dans une ou plusieurs di-
rections et que l’on obtienne une statistique de test qui rejette l’hypothèse
nulle quel que soit le niveau de signification retenu. Comment devons-nous
l’interpréter? Nous avons décidé que le DGP n’appartient pas à l’hypothèse
nulle implicite du test, puisque nous avons rejeté l’hypothèse nulle et donc
rejeté l’hypothèse que cos2 φ est nul. Alors le DGP appartient-il à l’hypothèse
alternative implicite? Cela est possible, mais en aucun cas obligatoire. Le
NCP est le produit de l’expression (12.24), qui ne dépend pas du tout de
l’hypothèse alternative du test, et de cos2 φ, qui lui en dépend. Pour une
valeur donnée de (12.24), le NCP sera maximum lorsque cos2 φ = 1. Mais
le fait que le NCP soit non nul (ce qui est la seule information livrée par la
statistique de test) implique seulement que ni cos2 φ ni (12.24) n’est nul. Ainsi
la seule conclusion que nous puissions tirer d’une seule statistique de test sig-
nificative est que le DGP n’est pas un cas particulier du modèle soumis au
test et que les directions représentées par Z ont un certain pouvoir explicatif
pour la direction a dans laquelle le modèle est véritablement inexact.
Si nous voulons faire une quelconque inférence sur les directions dans
lesquelles le modèle soumis au test est faux, nous devons à l’évidence calculer
plus d’une statistique de test. Puisque l’expression (12.24) est identique pour
tous les tests orientés régression, toutes les différences entre les valeurs des
diverses statistiques de test doivent provenir de différences entre les nombres
de degrés de liberté, entre les cos2 φ, ou tout simplement être aléatoires (et
parmi elles des différences entre les comportements avec des échantillons finis
et asymptotiques des tests). Supposons que l’on teste contre certains ensem-
bles de directions de régression, représentés par les matrices Z1 , Z2 , et ainsi
de suite. Supposons par ailleurs que la j ième matrice, Zj , possède rj colonnes
et génère une statistique de test Tj , distribuée asymptotiquement suivant une
χ2 (rj ) sous l’hypothèse nulle. On peut employer chacune des statistiques Tj
426 Interprétation des Tests Orientés Régression

pour estimer le NCP correspondant, disons Λj . Puisque l’espérance d’une


variable aléatoire de la distribution χ2 non centrée à r degrés de liberté est la
somme de r et du NCP, l’estimation évidente de Λj est Tj − rj . Evidemment,
cet estimateur n’est pas convergent, puisque sous une dérive de DGP la statis-
tique de test est une variable aléatoire quelle que soit la taille de l’échantillon.
Quoi qu’il en soit, si Tl − rl est sensiblement inférieure à Tj − rj pour tout
j 6= l, on peut logiquement rechercher un meilleur modèle dans les directions
testées par Zl .
Il n’est pas du tout certain que Zl , la matrice de régresseurs avec le NCP
estimé le plus élevé, représente vraiment les directions omises. Après tout,
il est fort possible que nous ne testions pas du tout les bonnes directions,
auquel cas MX a peut ne pas appartenir au sous-espace S(X0 , Zj ) quel que
soit j. Cependant, la modification du modèle dans les directions représentées
par Zl sera une stratégie raisonnable dans bien des cas, en particulier lorsque
Zl possède peu de colonnes et que Tl − rl est sensiblement supérieure aux
autres NCP estimés. Une attitude possible consiste à construire une matrice
de régresseurs de test ZJ telle qu’elle engendre le sous-espace engendré par
toutes les Zj . Autrement dit, ZJ doit être la “réunion” de toutes les colonnes
des Zj . Ainsi la statistique de test TJ correspondant à ZJ doit être supérieure
à n’importe quelle autre statistique de test. Dans ce cas, si TJ était à peine
supérieure à Tl , et en particulier si elle n’en était pas supérieure de plus
que la différence entre les degrés de liberté, on pourrait penser à raison que
les directions représentées par Zl rendent compte de façon satisfaisante des
différences entre l’hypothèse nulle et le DGP.
L’examen d’un exemple simple et fréquent peut aider à fixer les idées
développées jusqu’à présent. Supposons que l’hypothèse nulle soit

H0 : yt = Xt β + ut , ut ∼ IID(0, σ 2 ),

où Xt est un vecteur ligne, et que nous nous intéressions à la tester contre
deux hypothèses alternatives distinctes,

H1 : yt = Xt β + ρ(yt−1 − Xt−1 β) + ut , ut ∼ IID(0, σ 2 ), et (12.27)


H2 : yt = Xt β + δyt−1 + ut , ut ∼ IID(0, σ 2 ). (12.28)

Ainsi l’hypothèse nulle H0 est emboı̂tée à la fois dans H1 et H2 . La première


alternative modifie H0 en lui associant des aléas AR(1) alors que la seconde
la modifie en lui associant la variable dépendante retardée.
Notre but est de calculer les NCP et les valeurs correspondantes de cos2 φ
pour les tests de H0 contre H1 et H2 lorsque les données sont générées par
(12.28). Ainsi nous supposerons que les données sont générées par une dérive
de DGP qui est un cas particulier de H2 . Cette dérive peut s’écrire comme

yt = Xt β0 + α0 n−1/2 (Xt−1 β0 + ut−1 ) + ut , ut ∼ IID(0, σ02 ). (12.29)


12.7 Interpréter le Rejet de l’Hypothèse Nulle 427

Notons que ce DGP n’implique pas le calcul récursif de yt , contrairement à


(12.28), parce que (12.29) est localement équivalente à (12.28) au voisinage
de δ = 0 et α0 = 0.
Lorsque nous testons H0 contre H2 , nous testerons dans la direction du
DGP et cos2 φ sera bien sûr égal à 1. A l’aide de l’expression (12.25), nous
voyons que le NCP pour ce test est

α02 ³ ¡ ¢> ¡ ¢´
1
Λ22 ≡ 2 plim − X−1 β0 + u−1 MX X−1 β0 + u−1 , (12.30)
σ0 n→∞ n

où u−1 et X−1 désignent respectivement le vecteur dont l’élément type est
ut−1 et la matrice dont la ligne type est Xt−1 . Ici, X−1 β0 + u−1 joue le rôle
du vecteur a dans l’expression (12.25). La notation Λ22 signifie que H2 est
l’alternative contre laquelle le test est mené et que le DGP appartient à H2 .
Le calcul de la limite en probabilité donne

α02 ³ 2 1°°
°2 ´
°
Λ22 = σ0 + plim − M X β
X −1 0
σ02 n→∞ n
³ °2 ´
1°°
2 −2
= α0 1 + σ0 plim − n
MXX−1 β0 ° .
n→∞

Examinons à présent ce qu’il advient lorsque nous testons H0 contre H1 .


Au voisinage de H0 , cette dernière est localement équivalente à

y = Xβ + ρu−1 + u, u ∼ IID(0, σ 2 I), (12.31)

ce qui évite le calcul récursif que (12.27) semble impliquer. Parce que les pro-
cessus AR(1) et MA(1) sont localement équivalents aux alentours du point où
leurs paramètres respectifs sont nuls, cela ressemble à un processus à erreurs
MA(1). Nous voyons à partir de (12.31) que u−1 remplace de Z. Comme
auparavant, X−1 β0 + u−1 remplace de a. Ainsi, à partir de (12.28), le NCP
est donné par

α02 ³ ´ ³ ´−1
1 > 1 >
Λ12 = 2 plim − (X−1 β0 + u−1 ) MX u−1 plim − u−1 MX u−1
σ0 n→∞ n n→∞ n
³ ´
1 >

× plim n u−1 MX (X−1 β0 + u−1 ) . (12.32)
n→∞

Parce que
³ ´
1 >
plim − (X β
−1 0 + u −1 ) M u
X −1
n→∞ n
³ ¡ ¢´
1
= plim − β X M u + u−1 MX u−1 = σ02 ,
> >
n 0 −1 X −1
>
n→∞
428 Interprétation des Tests Orientés Régression

l’expression (12.32) se simplifie en

α02 2 −2 2
σ0 (σ0 )σ0 = α02 .
σ02

Comme les données ont été générées par un cas particulier de H2 , cos2 φ pour
le test contre H1 est simplement le rapport du NCP Λ12 au NCP Λ22 . Ainsi
µ ³ ¶
1° °2 ´ −1
2 2 2 −2
cos φ = α0 α0 1 + σ0 plim − °MXX−1 β0 °
n
µ ¶−1 (12.33)
plim n−1 kMXX−1 β0 k2
= 1+ .
σ02

La seconde ligne de (12.33) fournit une expression remarquablement sim-


ple pour cos2 φ dans ce cas spécial. Il ne dépend que du rapport de la limite en
probabilité de n−1 fois la norme au carré du vecteur MXX−1 β0 à la variance
des aléas dans le DGP (12.29). Lorsque ce rapport tend vers zéro, cos2 φ tend
vers un. A l’opposé, lorsque ce rapport tend vers l’infini, cos2 φ tend vers zéro.
L’intuition est assez simple. Lorsque le rapport de plim n−1 kMXX−1 β0 k2 à
σ02 tend vers zéro, parce que par exemple β0 tend vers zéro, MX y−1 (où y−1
est d’élément type yt−1 ) se confond avec MX u−1 . Lorsque c’est le cas, un test
contre H1 se confond avec un test contre H2 . D’autre part, lorsque le rapport
tend vers l’infini, la corrélation entre yt−1 et ut−1 tend vers zéro et les direc-
tions pour lesquelles H1 et H2 divergent de H0 tendent à être mutuellement
orthogonales.
L’analyse que nous venons de mener s’applique aussi aisément sous
l’hypothèse que les colonnes ont été générées par un cas particulier de H1 .
La dérive de DGP serait alors

yt = Xt β0 + ρ0 n−1/2 ut−1 + ut , ut ∼ IID(0, σ02 ).

Lorsque nous testons H0 contre H1 , cos2 φ est égal à 1, et par un argument


encore plus simple que celui qui nous a conduit à (12.32) nous voyons que le
NCP est ³ ´
ρ20 1
Λ11 = 2 plim − n
u−1 MX u−1 = ρ20 .
>
σ0 n→∞
De manière comparable, lorsque nous testons H0 contre H2 , le NCP est

ρ20 ³ ´
1 >
Λ21 = plim − u−1 M X (X −1 β 0 + u−1
σ02 n→∞ n
³ ´−1
1 >
× plim − n
(X β
−1 0 + u −1 ) M X (X β
−1 0 + u −1 )
n→∞
³ ´
1 >
× plim −n
(X−1 β0 + u−1 ) MX u−1 .
n→∞
12.7 Interpréter le Rejet de l’Hypothèse Nulle 429

Cette expression se simplifie finalement:

ρ20 2 ³ 2 1°°
°2 ´−1 2
°
2
σ 0 σ0 + plim −
n
M X β
X −1 0 σ0
σ0
³ °2 ´−1
1°°
2 −2
= ρ0 1 + σ0 plim − n
MXX−1 β0 ° .

Bien sûr, cos2 φ pour le test de H0 contre H2 est l’expression du membre de


droite divisé par ρ20 , soit

µ ¶−1
plim n−1 kMXX−1 β0 k2
1+ . (12.34)
σ02

Il est sans doute utile de commenter ce dernier résultat. Nous avons vu


que cos2 φ pour le test contre H2 lorsque les données ont été générées par H1 ,
l’expression (12.34), est identique à cos2 φ pour le test contre H1 lorsque les
données ont été générées par H2 , l’expression (12.33). Ce résultat n’est pas
spécifique à cet exemple, mais reste valable chaque fois que les alternatives
impliquent des tests à un seul degré de liberté. D’un point de vue géométrique,
cette équivalence reflète simplement le fait que lorsque z est un vecteur, l’angle
formé par αn−1/2 MX a et sa projection αn−1/2 MX a sur S(X, z), qui est

¡ ¢−1
αn−1/2 MX z z>MX z z>MX a,

est le même que l’angle formé par αn−1/2 MX a et αn−1/2 MX z. Cela provient
du fait que (z>MX z)−1 z>MX a est un scalaire lorsque z est un vecteur.
Donc, si nous inversons les positions de a et z, l’angle reste inchangé. Cette
propriété géométrique provient également de deux propriétés numériques.
Premièrement, dans les régressions

y = Xα + γz + résidus et
z = Xβ + δy + résidus,

le t de Student de z dans la première est égal à celui de y dans la seconde.


Ensuite, dans les régressions

MX y = γMX z + résidus et
MX z = δMX y + résidus,

les t de Student de γ et δ sont numériquement identiques ainsi que les R2 non


centrés.
430 Interprétation des Tests Orientés Régression

L’analyse de la puissance pour cet exemple illustre la simplicité et la


généralité de l’idée de dérive de DGP. Bien que le cas considéré soit plutôt
simple, c’est un cas fréquent dans la pratique. Les modèles de régression
estimés à l’aide de données chronologiques manifestent souvent l’existence
d’une autocorrélation sous la forme de statistiques de Durbin-Watson faibles
ou d’autres statistiques de test pour aléas AR(1) significatives. Nous avons
vu que la présence d’une telle corrélation est presque aussi compatible avec
l’hypothèse que le modèle devrait comprendre une variable dépendante re-
tardée qu’avec l’hypothèse que les aléas suivent un processus AR(1) (excepté
lorsque plim n−1 kMXX−1 β0 k2 est relativement importante par rapport à σ02 ).
Ainsi il faudrait rester très prudent en interprétant les résultats d’un test
contre des aléas AR(1) qui rejette l’hypothèse nulle. On voudrait sûrement
envisager de nombreux modèles alternatifs en plus de l’alternative que les
aléas obéissent vraiment à un processus AR(1). En dernière limite, avant
même d’accepter provisoirement cette alternative, on voudrait la soumettre à
des tests des contraintes du facteur commun dont nous avons discuté dans la
Section 10.9.
Dans l’exemple précédent, il était facile d’évaluer de manière analytique
les valeurs de Λ et cos2 φ qui nous intéressaient. Cela ne sera pourtant pas
toujours le cas. Cependant, il est toujours possible de calculer des approxi-
mations à ces quantités. Pour cela, il suffit d’exécuter la régression (12.20),
en évaluant X(β), a, et Z avec les valeurs des paramètres supposées (ou es-
timées). Si a et/ou Z étaient stochastiques, il faudrait les générer de façon
aléatoire et employer un grand nombre d’observations (que l’on peut obtenir
en multipliant les observations disponibles aussi souvent que nécessaire) afin
d’approximer les limites en probabilité pertinentes. Le R2 non centré de la
régression fournit une approximation de cos2 φ et la somme des carrés expliqués
fournit une approximation de Λ.

12.8 Le Non Rejet de l’Hypothèse Nulle


Pour la grande part de ce chapitre, nous avons focalisé notre attention sur
l’interprétation des statistiques de test qui rejettent l’hypothèse nulle. Dans de
nombreuses circonstances, bien sûr, les statistiques de test ne la rejettent pas.
Ainsi, il est tout aussi important de maı̂triser l’interprétation du rejet que celle
du non rejet. Bien que nous employions quelquefois le terme “acceptation”
de l’hypothèse nulle lorsqu’une ou plusieurs statistiques de test ne la rejettent
pas, une telle acceptation ne peut être que provisoire et doit être modulée
avec précaution. L’intensité de notre précaution dépend de la puissance du
(des) test(s) qui n’a (n’ont) pas rejeté l’hypothèse nulle. Nous pouvons faire
davantage confiance en la validité de l’hypothèse nulle si les tests reconnus
pour leur grande puissance contre les alternatives ne la rejettent pas.
Comme nous l’avons vu, la puissance d’un test dépend de la manière
dont les données ont été générées. Dans un article récent, Andrews (1989) a
12.8 Le Non Rejet de l’Hypothèse Nulle 431

suggéré que, pour aider à l’interprétation du non rejet d’une hypothèse nulle
par un test particulier, il faudrait considérer la puissance qu’aurait le test sous
les DGP associés aux hypothèses alternatives d’intérêt. Il semble raisonnable
que de telles alternatives ne soient pas écartées à la faveur de l’hypothèse nulle
sur la base des tests qui auraient, sous ces alternatives, une probabilité faible
de rejeter l’hypothèse nulle. Autrement dit, on ne doit pas dire qu’un test
a discriminé contre une alternative en faveur de l’hypothèse nulle s’il aurait
une chance faible de rejeter l’hypothèse nulle même si l’hypothèse alternative
était exacte.
L’outil analytique employé par Andrews est la fonction puissance in-
verse qui, comme son nom l’indique, est reliée à la fonction puissance dont
nous avons discuté dans la Section 12.3. Pour nos besoins immédiats, nous
supposerons que les hypothèses alternatives d’intérêt peuvent s’exprimer en
termes d’un ensemble de paramètres et que l’hypothèse nulle correspond à un
ensemble de contraintes sur ces paramètres. Alors, pour un niveau de test α et
pour une puissance désirée π, la fonction puissance inverse pour une statistique
de test donnée spécifie les valeurs paramétriques qui caractérisent les DGP qui
ont une puissance π de rejeter l’hypothèse nulle pour un test de niveau α. Si les
valeurs paramétriques données par la fonction puissance inverse sont proches
des valeurs paramétriques issues des contraintes de l’hypothèse nulle, un non
rejet de l’hypothèse nulle peut s’interpréter comme le fait que l’hypothèse
nulle n’est pas véritablement fausse dans une direction quelconque correspon-
dant aux différentes alternatives. Si, autrement, la fonction puissance inverse
produit des valeurs paramétriques éloignées de l’hypothèse nulle, un non rejet
nous indique peu de choses sur l’exactitude de l’hypothèse nulle, puisque ce
non rejet est compatible avec de nombreuses alternatives possibles.
Andrews montre la procédure de calcul des fonctions puissance inverse
pour une large classe de tests asymptotiques pour des contraintes uniques et
multiples. Nous n’examinerons que le cas de la contrainte unique, parce qu’il
est beaucoup plus simple que l’autre cas. Supposons que l’hypothèse d’intérêt
est qu’un certain paramètre, disons θ, prend une valeur donnée, disons θ0 .
Pour être concret, nous pourrions supposer que θ est un paramètre d’une
fonction de régression non linéaire. Il existe de nombreuses statistiques de
test asymptotiquement équivalentes, parmi lesquelles la plus simple est

θ̂ − θ0
. (12.35)
σ̂θ

Puisque le dénominateur est ici une estimation de l’écart type de θ̂, (12.35)
est simplement un t de Student asymptotique. Cette statistique de test est
asymptotiquement équivalente à la racine carrée de (12.04).
En considérant (12.35), nous trahissons notre engagement de ne con-
sidérer que des statistiques asymptotiquement distribuées selon une χ2 . Cela
se justifie par les avantages de la simplicité. Considérons la dérive de DGP
432 Interprétation des Tests Orientés Régression
a
pour laquelle θ = θ0 + n−1/2 δ, et supposons que sous ce DGP σ̂θ = n−1/2 τ ,
pour un quelconque τ = O(1) lorsque n → ∞, puisque θ̂ est convergent au
taux n−1/2 . Alors la distribution asymptotique de (12.35) est N (λ, 1), avec
λ = δ/τ . Cette simple propriété nous autorise à calculer la fonction puis-
sance asymptotique de la statistique (12.35). Si la valeur critique pour un
test bilatéral de niveau α basé sur la distribution N (0, 1) est désignée par
cα , la probabilité de rejeter l’hypothèse nulle sous notre dérive de DGP est
la probabilité qu’une variable aléatoire distribuée suivant une N (λ, 1) ait une
valeur absolue supérieure à cα . Soit Φ(·) la c.d.f. de la distribution normale
centrée et réduite, cette probabilité est

P (α, λ) ≡ 1 − Φ(cα − λ) + Φ(−cα − λ). (12.36)

Afin de trouver la fonction puissance inverse correspondant à (12.36), nous


posons P (α, λ) = π pour un niveau de puissance désiré π. Cette équation
définit implicitement la fonction puissance inverse. Il est aisé de vérifier à
partir de (12.36), que P (α, −λ) = P (α, λ). Ainsi, si P (α, λ) = π, alors
P (α, −λ) = π également. Cependant, la non unicité de λ disparaı̂trait si
nous calculions le carré de la statistique de test pour obtenir une forme χ2 .
Il n’existe aucune expression comparable donnant la valeur (absolue) de λ
comme une fonction de α et π dans l’exemple présent, mais pour des argu-
ments donnés, λ n’est pas difficile à calculer numériquement.
Quelle interprétation donner à la fonction λ(α, π)? Si nous élevons au
carré la statistique asymptotiquement normale (12.35) pour obtenir une forme
χ2 , le résultat aura une distribution limite χ2 (1, Λ) avec Λ = λ2. Alors il
apparaı̂t que Λ = (λ(α, π))2 est asymptotiquement le NCP le plus faible
nécessaire pour qu’un test de niveau α basé sur le carré de (12.35) ait une
probabilité de rejeter l’hypothèse nulle au moins égale à π.
Soit le modèle de régression non linéaire écrit sous sa forme habituelle

y = x(β) + u, (12.37)

où le paramètre d’intérêt θ est un élément du vecteur de paramètres β. Si


nous notons Xθ la dérivée du vecteur x(β) par rapport à θ, évaluée avec les
paramètres β0 , et MX la projection sur le complément orthogonal de l’espace
engendré par toutes les colonnes de X(β) autre que Xθ , alors la variance
asymptotique de l’estimateur des moindres carrés θ̂ est σ02 (Xθ>MX Xθ )−1, où
σ02 est la variance des composantes de u. Si nous considérons un DGP avec
un paramètre θ 6= θ0 , alors pour une taille d’échantillon n, le paramètre δ de
la dérive de DGP devient n1/2 (θ − θ0 ), et Λ = λ2 devient
1
Λ= (θ − θ0 )2 Xθ>MX Xθ . (12.38)
σ02

On peut comparer avec l’expression générale (12.36). Posons maintenant


θ(α, π) comme la valeur de θ qui égalise Λ dans (12.38) à (λ(α, π))2 . Nous
12.8 Le Non Rejet de l’Hypothèse Nulle 433

voyons que, à l’intérieur de cette approximation asymptotique, les DGP dont


les valeurs de θ sont plus proches du θ0 de l’hypothèse nulle que θ(α, π) au-
ront une probabilité inférieure à π de rejeter l’hypothèse nulle sur un test de
niveau α.
Nous souhaiterions ne pas considérer le non rejet de l’hypothèse nulle
comme une évidence contre d’autres DGP ou ensemble de DGP si, sous
ces derniers, la probabilité de rejeter l’hypothèse nulle n’est pas suffisam-
ment élevée. Qu’entendons-nous par “suffisamment élevée”? On peut exercer
l’intuition à ce sujet en considérant ce que nous apprendrions sur le contexte
présent en employant un outil ordinaire de l’inférence statistique convention-
nelle, à savoir l’intervalle de confiance. Armés de l’estimation de θ̂ et d’une
estimation
£ de son écart type,¤ σ̂θ , nous pouvons construire un intervalle de con-
fiance θ̂ − cα σ̂θ , θ̂ + cα σ̂θ . Sous l’hypothèse conventionnelle que le DGP est
obtenu en choisissant des valeurs spécifiques des paramètres de la régression
non linéaire (12.37), cet intervalle de confiance a une probabilité proche de
1−α, pour des échantillons importants, de comprendre le véritable paramètre.
Aucune hypothèse nulle caractérisée par θ0 à l’intérieur de l’intervalle de con-
fiance ne sera rejetée par un test de niveau α. Un intervalle de confiance
est aléatoire: il dépend de la valeur réalisée de l’estimation θ̂. Au contraire,
la fonction puissance inverse est déterministe, aussi devons-nous être pru-
dents dans nos analogies. Cependant, il semble raisonnable que, lorsque nous
désirons nous abstraire des ensembles de données réalisés, nous devrions re-
fuser de considérer l’éventualité du non rejet d’une hypothèse nulle comme
l’évidence contre tout DGP dont les paramètres appartiennent à la région de
confiance de taille comparable à l’intervalle de confiance.
Que cela implique-t-il pour le choix de la puissance désirée π? Une
réponse approximative à cette question est très facile à trouver. Supposons
que dans (12.38) nous réclamions que θ − θ0 divisée par l’écart type de θ̂
soit égale à cα . Cela signifie précisément que la différence entre θ et θ0 est
la moitié de la longueur de l’intervalle de confiance associé à un niveau α
pour la valeur donnée de l’écart type. Pour des paramètres α et π donnés, la
valeur de la fonction puissance inverse λ(α, π) implique une valeur de θ, selon
(12.38). Nous pourrions donc nous demander quelle valeur de π produira la
condition requise sur l’écart θ − θ0 . Cette valeur π est évidemment la solution
de l’équation λ(α, π) = cα , où, en termes de la fonction puissance inverse P
elle-même, P (α, cα ) = π. Si désormais nous remplaçons P par son expression
explicite provenant de (12.36), nous réclamons que

1
π = 1 − Φ(0) + Φ(−2cα ) = − + Φ(−2cα ).
2

Pour des choix raisonnables de α, le dernier terme sera extrêmement faible.


Par exemple, si α = .05, de sorte que cα ∼ = 1.96, un petit calcul nous mon-
tre que Φ(−3.92) = .0000443. Par conséquent, avec une approximation très
satisfaisante, nous obtenons π = 21 , indépendamment de α.
434 Interprétation des Tests Orientés Régression

Ce résultat est compatible avec l’intuition. En s’éloignant de la valeur de


θ0 associée à une hypothèse nulle quelconque d’une quantité qui correspond à
la moitié de la longueur de l’intervalle de confiance pour tout niveau de test
raisonnable, nous obtenons les valeurs des paramètres associés aux DGP qui
ont une probabilité de 0.5 de rejeter l’hypothèse nulle sur un test de niveau
identique.
D’autres choix de π sont bien sûr envisageables. Un choix qui paraı̂t na-
turel dans certains contextes est π = 1 − α, ce qui rend le risque de première
espèce égal au risque de deuxième espèce dans un certain sens. Lors du choix
du niveau α, nous acceptons l’éventualité du rejet d’une hypothèse nulle ex-
acte avec une probabilité α. Lorsque nous refusons de traiter le non rejet d’une
hypothèse nulle par un test de niveau α comme l’évidence contre des valeurs
paramétriques qui génèrent des NCP plus faibles que la fonction puissance in-
verse évaluée en α et 1−α, nous acceptons le fait que ces valeurs paramétriques
que nous rejetons, sur la base du non rejet de l’hypothèse nulle, n’auraient
pas rejeté l’hypothèse nulle avec une probabilité α.
Il faut prendre d’infinies précautions à ce stade. La totalité de l’analyse
précédente se fonde sur l’hypothèse que le vrai DGP appartient à la classe des
DGP que l’on peut décrire par un modèle de régression non linéaire (12.37).
Il existe en général un grand nombre de DGP qui ne satisfont pas (12.37)
pour lesquels la probabilité de rejeter une hypothèse nulle donnée satisfaisant
(12.37) est faible. Typiquement, de tels DGP impliqueraient des variables
explicatives plus nombreuses ou plus pertinentes que dans (12.37). Hélas, un
rejet ou un non rejet d’une hypothèse nulle basée sur l’écriture (12.37) ne
nous dit rien sur la possible existence d’un meilleur modèle. C’est du talent
de l’économètre, plutôt que de procédures de test, que dépend l’élaboration
de modèles potentiellement meilleurs qui seront ultérieurement soumis à des
procédures de test formelles.
Bien que notre exposé théorique fût facilité par l’usage de la fonction
puissance (12.36) basée sur la distribution normale, dans la pratique, lorsque
l’on veut calculer des fonctions puissance inverses, il est plus aisé d’employer
les propriétés de la distribution du χ2 non centrée. Soit cα (r) la valeur critique
pour un test de niveau α basé sur la distribution du χ2 centrée à r degrés de
liberté. Alors la probabilité qu’une variable aléatoire suivant la distribution
χ2 (r, Λ) prenne une valeur supérieure à cα (r) peut s’exprimer en termes de la
c.d.f. F(r,Λ) (·) de cette distribution. La probabilité adéquate est simplement
1 − F(r,Λ) (cα (r)). Par conséquent, la fonction puissance inverse s’obtient en
résolvant l’équation en Λ en termes de r, α, et π:
¡ ¢
π = 1 − F(r,Λ) cα (r) .

La valeur de Λ solution de cette équation peut s’utiliser dans une formule


telle que (12.38) afin de déterminer les valeurs paramétriques qui ont vraiment
généré les NCP égaux à Λ.
12.9 Conclusion 435

Table 12.2 Quelques Valeurs de Λ(1, α, π)

α π: .50 .90 .95 .99

0.10 2.701 8.564 10.822 15.770


0.05 3.841 10.507 12.995 18.372
0.01 6.635 14.879 17.814 24.031

Andrews (1989) fournit des valeurs de la fonction puissance inverse, que


l’on peut noter Λ(r, α, π), pour une variété de valeurs de r, α, et π, mais les
ordinateurs modernes et leurs logiciels rendent caduc l’usage de ces tables.
Tout programme capable de calculer la c.d.f. de la distribution du χ2 non
centrée peut être utilisé également pour le calcul de la fonction puissance
inverse. Afin de ne pas pénaliser les lecteurs qui n’ont pas de programme
disponible pour l’instant, nous reportons des valeurs significatives dans le
Tableau 12.2.
Considérons à présent un exemple simple de l’usage de la fonction puis-
sance inverse. Supposons que θ0 soit égal à 1 et que l’écart type de θ̂ soit
0.60. Alors pour un test de niveau 0.05, les valeurs de θ données par la fonc-
tion puissance inverse pour π = .5 sont −0.176 et 2.176. Ainsi, pour tout θ
compris entre ces bornes, la probabilité que le test rejette l’hypothèse nulle
est inférieure à .5. Si au lieu de cela nous choisissons π = 1 − α = .95, les
valeurs données par la fonction puissance inverse seraient −0.974 et 2.974,
un intervalle plus large à l’intérieur duquel la probabilité que le test rejette
l’hypothèse nulle est inférieure à .95.
Cet exemple illustre la manière d’employer la fonction puissance inverse.
Elle offre un moyen simple de connaı̂tre les valeurs de θ pour lesquelles le
test a toutes les chances d’avoir une puissance faible ou forte. La fonction
puissance inverse est extrêmement facile à calculer, du moins pour les tests
de contrainte unique. Ainsi, il semble utile de la calculer chaque fois qu’un
test de contrainte unique conduit ou non au rejet de l’hypothèse nulle. Les
fonctions puissance inverse peuvent également être calculées pour des tests
de contraintes multiples, mais les calculs sont plus difficiles et l’interprétation
plus délicate. Les lecteurs devraient consulter l’article de Andrews pour les
détails.

12.9 Conclusion
L’analyse asymptotique est immanquablement une approximation, puisqu’elle
ignore tout ce qui n’est pas de l’ordre dominant par rapport à la taille de
l’échantillon. L’analyse de la puissance basée sur la dérive de DGP im-
plique une approximation supplémentaire, puisqu’elle suppose que le DGP
436 Interprétation des Tests Orientés Régression

est “proche” de l’hypothèse nulle. Ainsi, bien que les résultats établis dans ce
chapitre aient les mérites de la simplicité et d’une application étendue, nous
ne pouvons pas attendre d’eux qu’ils fournissent de bonnes approximations
dans toutes les situations. En particulier, nous ne pourrions pas espérer des
performances de qualité si le DGP était très différent de l’hypothèse nulle.6
Dans ce cas, bien évidemment, on s’attend à ce que de nombreux tests rejet-
tent l’hypothèse nulle. La plupart des économètres recommenceraient alors
sur la base d’un modèle moins contraignant correspondant à une des alterna-
tives contre laquelle le modèle originel a été rejeté, et sans doute plus proche
du DGP.
L’objectif de ce chapitre n’est pas de fournir une technique infaillible pour
le choix d’un modèle correctement spécifié. Une telle technique n’existe pas.
Au lieu de cela, nous avons fourni les éléments d’une structure avec laquel-
le on peut interpréter les résultats des tests d’hypothèses. L’interprétation
d’une statistique de test significative en tant que garantie de validité de
l’hypothèse alternative est souvent très exagérée. Il suffit de dénombrer les fois
où l’observation d’un t de Student de 10, par exemple, nous conduit à conclure
que le paramètre associé est définitivement non nul. Comme nous l’avons vu,
cette conclusion est souvent non justifiée. Nous pouvons assurément conclure
que le modèle où ce paramètre est nul est mal spécifié, et, dans le cas linéaire,
nous pouvons suspecter que la variable associée au paramètre en question est
fortement corrélée à tout ce qui est vraiment absent du modèle sous sa forme
actuelle. Mais un t de Student significatif en tant que tel ne nous indique
jamais pourquoi le modèle est mal spécifié lorsque le paramètre est nul. Par
ailleurs, comme nous l’avons vu dans la Section 12.8, une statistique de test
non significative n’est pertinente que si le test avait une puissance importante
contre des hypothèses économiquement intéressantes.
Dans le prochain chapitre, nous aborderons le thème des tests d’hypo-
thèses, mais dans le contexte de l’estimation par maximum de vraisemblance.
La théorie du maximum de vraisemblance offre un support au développement
des nombreux tests orientés non-régression, c’est-à-dire des tests qui corre-
spondent à des aspects de la spécification autres que la fonction de régression.
Les tests d’hétéroscédasticité dont nous avons discuté dans la Section 11.5
sont des exemples de tels tests; ils sont orientés fonction scédastique au lieu
d’être orientés régression (voir la Section 16.5). La plupart des résultats
restent valables, moyennant une légère modification, pour les tests orientés
non-régression autant que pour les tests orientés régression; nous détaillerons
tout ceci dans le prochain chapitre. Ils sont également valables pour des
modèles estimés à l’aide de procédures GLS et/ou IV.

6
Nelson et Savin (1990) analysent un exemple simple pour lequel la puissance
locale asymptotique d’une statistique de test fournit un indice très mauvais de
sa vraie puissance lorsque le DGP diffère quelque peu de l’hypothèse nulle.
Termes et Concepts 437

Termes et Concepts
convergence (d’un test) fonction puissance inverse
courbe de niveau-puissance hypothèse alternative explicite
dérive de DGP hypothèse alternative implicite
directions de non-régression hypothèse nulle implicite
directions scédastiques hypothèse nulle simple
distribution asymptotique (d’une paramètre de non centralité (NCP)
statistique de test) puissance utile
distribution du χ2 non centrée suites d’alternatives locales
efficacité asymptotique relative (ARE) test biaisé
fonction puissance tests asymptotiquement équivalents

Anda mungkin juga menyukai