12.1 Introduction
Dans les chapitres précédents, nous avons discuté d’un grand nombre de statis-
tiques de test pour les modèles de régression linéaire et non linéaire. La plu-
part de ces tests étaient orientés régression, c’est-à-dire qu’il s’agissait de tests
de spécification de la fonction de régression. L’usage du terme “orienté” dans
ce contexte peut paraı̂tre étrange a priori, mais il devrait se justifier au fur et
à mesure que le chapitre se déroulera. Fondamentalement, les tests orientés
régression sont des tests de la spécification de la fonction de régression, alors
que les tests orientés non-régression sont des tests destinés à d’autres aspects
de la modélisation, comme par exemple des tests d’hétéroscédasticité.
Il est désormais temps de connaı̂tre la signification des résultats des tests
d’hypothèses et la manière de les interpréter. Cette discussion nécessite un
certain appareillage technique, et en particulier le concept de dérive de DGP,
que nous introduirons dans la Section 12.3. L’ensemble des résultats issus
de cet appareillage est malgré tout extrêmement simple et intuitif, et il peut
être d’une grande utilité dans l’interprétation des statistiques de test que l’on
obtient concrètement dans les travaux empiriques. Dans ce chapitre, nous
ne discutons que des tests orientés régression pour des modèles de régression
estimés par NLS. Bien que cela soit limitatif, cela simplifie considérablement
l’exposé. Au cours du prochain chapitre, nous discuterons à la fois des tests
de modèles en dehors de la classe des régressions et des tests de modèles de
régression dans des directions de non-régression, dans le contexte des trois
tests classiques basés sur l’estimation ML, à savoir les tests de Wald, LR
et LM. Comme nous le verrons, les principaux résultats de ce chapitre sont
transposables sans modification au cas plus général. Ils le sont également,
avec quelques remaniements, à des modèles estimés par IV et par GLS.
Dans la Section 3.4, nous introduisions les concepts de niveau et de puis-
sance d’un test. Le niveau d’un test, comme nous le rappellerons, est la
probabilité qu’il rejette l’hypothèse nulle lorsque celle-ci est exacte, alors que
la puissance d’un test est la probabilité qu’il rejette l’hypothèse nulle lorsque
celle-ci est inexacte. A l’évidence, la puissance dépendra de la manière dont les
403
404 Interprétation des Tests Orientés Régression
données auront été générées. Ainsi nous ne pouvons pas parler de puissance
sans spécifier un processus générateur de données (ou éventuellement une
famille de DGP). En général, la puissance d’un test dépendra de l’hypothèse
nulle, H0 , de l’hypothèse alternative contre laquelle elle est testée, H1 , et du
DGP qui est supposé avoir généré les données. Nous discuterons de certains
concepts connexes au niveau et à la puissance des tests dans la Section 12.2.
La puissance d’un test peut dépendre des détails de la construction du
test, mais cela ne sera pas important si nous ne nous intéressons qu’aux analy-
ses asymptotiques. De nombreux tests sont asymptotiquement équivalents
sous l’hypothèse nulle et sous toutes les dérives de DGP, bien qu’ils puissent
différer substantiellement avec des échantillons finis. Deux tests sont dits
asymptotiquement équivalents s’ils tendent vers la même variable aléatoire.
Par exemple, les tests en F et du χ2 basés sur la même régression de Gauss-
Newton seront asymptotiquement équivalents, à condition bien sûr que le test
en F soit multiplié par le nombre de degrés de liberté de son numérateur. Ces
tests seront également équivalents aux tests en F ou du χ2 asymptotiques
contre la même alternative basés sur la comparaison des sommes des résidus
au carré des modèles contraint et non contraint.1 Nous n’essaierons pas de
démontrer ce résultat ici; c’est une conséquence de résultats plus généraux
démontrés par Davidson et MacKinnon (1987). Cependant, c’est un résultat
important, parce qu’il nous permet l’étude des seuls tests basés sur la GNR
pour affirmer que nos résultats sont beaucoup plus généralement applicables.
Alors, dans ce chapitre, nous discuterons de façon explicite ce qui détermine
la puissance asymptotique des tests orientés régression basés sur la GNR, et
de façon implicite ce qui détermine la puissance asymptotique de tous les tests
orientés régression.
On peut écrire l’hypothèse nulle sous la forme
1
Tous ces tests sont également asymptotiquement équivalents à des tests basés
sur la régression de Gauss-Newton robuste à l’hétéroscédasticité discutée dans
la Section 11.6, mais uniquement s’il n’y a pas d’hétéroscédasticité. Consulter
l’article de Davidson et MacKinnon (1985b).
12.2 Niveau et Puissance 405
tester l’hypothèse nulle. La possibilité la plus simple est que x(β) soit un cas
particulier de x(β, γ) où γ = 0, ce qui nous permet d’écrire
Dans ce cas, Z̃ = X̃γ , où X̃γ a pour élément type ∂xt (β, γ)/∂γj , évaluée en
(β̃, 0). Cependant, comme nous l’avons vu dans le Chapitre 11, la construction
d’un test contre une alternative explicite telle que (12.03) n’est qu’un des
nombreux moyens de générer un test basé sur la GNR (12.02).
La statistique de test la plus simple basée sur (12.02) est
1 ¡ ¢−1
(y − x̃)>Z̃ Z̃>M̃X Z̃ Z̃>(y − x̃), (12.04)
s̃2
Puissance
1.0 ...................................................................................................................
................................................ ...................
........
....
.... ............................ ..................
....
..........
.. ..
....... ..
.....
....... . . . .
Test 1 →................. . ........... ..... ...
.. .
.... ............
.
.......... . .
..
..
.... .......... . . . ..... ....
.. ....... ..... ..
.. .
.... .........
...... ...
............. ......... .....
0.8 ... .... ..
...
..... ....
..... ... ..... ......... . . ...
.. ... ..
... ..... ..... ...
..... ... .... ← Test 2 ... ..... .....
.. .. ..
.. .... ..... ...
.... . ....
. . ........ .......
. .. ..
0.6 ... ... .... ....
.... ..... ......... ......
... .. .
.. .. ..... ....
..... ..... ........ ..
. ....
.. .
. . ..... ....
... .. ..... ....
... .... .... ....
. ...
0.4 ... ... 45◦ line →.......... ....
.... ... . ... ....
.. ..
.. .
.. .. ..... ....
.... ..... ........ ..
. ....
..
..... .. ← Test biaisé
.. ....
.. .. ..... .....
... ..... ......
.. ...
..
.... .... .....
0.2 ....... ...
...... .........
.. ..
.
..... ..... .....
....... ........ .
. ..........
.....
. ......
.
.... ......... ........
. ......
...........
.. .... ......
. .. ...........
0.0 ........................ Niveau
0.0 0.2 0.4 0.6 0.8 1.0
Puissance
1.0 ............................ .......... ........ .....................
..... ....
. ...... .
.........
.... ... .. .
.... ... ....
... . . .. .....
... ... ← n = 100 ...
... ... .. ..
0.8 ... ... ....
. .
... ... .. ..
... ...
. ...
.
. ...
.
... ... ... ...
... ... ... ..
.... .
. .
. .
0.6 ... .
... ... ... ..
... ... ... ...
... ...
... .. . ← n = 25
...
. ... ...
.
. ...
0.4 ... ... .
... ... ... ...
... ... ...
. ...
.
... ... .. .
... ... .
.... ....
... ... . .
0.2 ... .... ... ..
... ... .... .....
.
.... .. . .
..... ... .... .......
........... ...........
0.05 ...............................................................................................................
..
0.0 θ
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0
gure 12.2 illustre deux fonctions puissance, pour un test identique mais des
tailles d’échantillon différentes. Les données sont générées à partir de la loi
N (θ, 1), et l’hypothèse nulle est θ = 0. Les fonctions puissance sont illustrées
pour des tests à un taux de 5% avec des tailles d’échantillon égales à 25 et
100. Ces fonctions puissance sont symétriques par rapport à 0. Comme nous
l’espérions, la fonction puissance pour n = 100 est partout supérieure à la
fonction puissance pour n = 25, sauf en θ = 0.
Si un test rejette une hypothèse nulle fausse avec une probabilité asymp-
totiquement nulle, on parle de test convergent. Le concept de convergence
pour un test fut introduit par Wald et Wolfowitz (1940). C’est un concept
simple et intuitif et c’est évidemment une propriété recherchée pour un test.
Le test illustré sur la Figure 12.2 est convergent. Par conséquent, lorsque
n → ∞, la fonction puissance tend vers la forme d’un >, avec une puissance
égale à 1 pour toute valeur de θ sauf θ = 0. Nous pouvons définir la conver-
gence d’un test d’hypothèses de façon formelle comme suit.
Définition 12.1.
Un test est convergent contre une certaine classe de DGP dont au-
cun ne satisfait l’hypothèse nulle si, lorsque les données sont générées
par un membre appartenant à cette classe, la probabilité de rejeter
l’hypothèse nulle tend vers 1 lorsque la taille de l’échantillon n tend
vers l’infini, pour n’importe quelle valeur critique associée à un niveau
non nul.
Remarquons que la propriété de convergence d’un test dépendra de la façon
dont sont générées les données. Un test qui est convergent contre certains
DGP peut ne pas l’être contre d’autres. Intuitivement, la raison pour la-
12.3 Dérive de DGP 409
quelle les tests sont souvent convergents est que lorsque n → ∞, la masse
d’informations portée par l’échantillon sur la validité de l’hypothèse nulle
s’accroı̂t sans limite. Ce faisant, l’information étouffe le bruit des données et
permet finalement de conclure avec une probabilité égale à 1 que la statistique
de test n’est pas un tirage de ce qui serait sa distribution sous l’hypothèse
nulle.
Ces préliminaires étant faits, nous pouvons considérer ce qui détermine la
puissance des tests orientés régression. Puisque nous traitons des modèles de
régression non linéaire, il nous faut nous baser sur une analyse asymptotique.
Cependant, cela soulève une difficulté technique de taille. Tous les tests con-
sidérés jusqu’à présent sont convergents lorsque les données sont générées par
un DGP fixé appartenant à l’ensemble des alternatives, et ils sont en réalité
plus convergents que cela. Si un test est convergent, la valeur de la statistique
de test tendra vers plus ou moins l’infini lorsque n → ∞. Cela nous empêche
de parler de la distribution asymptotique d’une telle statistique de test, mais
aussi de comparer les distributions asymptotiques de deux statistiques concur-
rentes lorsque les deux tests sont convergents, si le DGP est fixé. La solution
consiste à laisser dériver un DGP vers l’hypothèse nulle à un certain taux.
C’est dans la prochaine section que nous parlons de dérive de DGP.
θ n = θ0 + n−1/2 δ. (12.05)
2
Pour être exact, le terme employé par Davidson et MacKinnon (1985a, 1987)
était “suite de DGP locaux”. Cependant, notre préférence va désormais au
terme “dérive de DGP”.
12.4 Distribution Asymptotique des Statistiques 411
où γ0 est fixé et peut être normalisé à une longueur arbitraire, et où α
détermine la distance qui sépare (12.08) de (12.07). Parce que (12.08) con-
verge vers (12.07) au même taux que n−1/2 converge vers 0, un développement
en série de Taylor au premier ordre de (12.08) autour de α = 0 doit donner
exactement les mêmes résultats, dans une analyse asymptotique, que (12.08)
elle-même. Cette approximation est
supposerons ensuite qu’il existe un N tel que, pour tout n > N, le rang de
la matrice [X0 Z0 ] est k + r, que n−1 a>a tend vers un scalaire fini, et que
n−1 a>X0 et n−1 a>Z0 tendent vers des vecteurs limites finis de dimensions
1 × k et 1 × r respectivement. Ici X0 désigne X(β0 ) et Z0 désigne Z(β0 ).
La validité des conditions de régularité dépendra du vecteur a, de l’hypothèse
nulle (12.01), de l’hypothèse alternative (qu’elle soit exacte ou non), et de
l’hypothèse nulle simple (12.07).
Nous commençons par écrire la statistique de test (12.04) de façon à ce
qu’elle corresponde au produit de quatre facteurs, qui sont tous O(1):
qui est l’analogue du résultat qui nous est familier (5.57) dans le cas où
α = 0. La raison pour laquelle αn−1/2 a a un impact est que Z̃>M̃X u et
αn−1/2 Z̃>M̃X a sont du même ordre, O(n1/2 ). Ainsi, en spécifiant la dérive
de DGP (12.06) comme nous l’avons fait, nous garantissons que les quan-
tités qui sont asymptotiquement déterministes sous l’hypothèse nulle simple
12.4 Distribution Asymptotique des Statistiques 413
(12.07) ne sont pas modifiées sous (12.06), alors que des quantités qui sont
asymptotiquement aléatoires le sont.
La substitution de (12.11), (12.12) et (12.13) dans (12.20) nous permet
de voir que la statistique de test (12.04) est asymptotiquement égale à
ζ C ≡ ε21 + ε22
sera distribuée selon une χ2 (2) non centrée et dont le NCP est égal à µ21 + µ22 .
Une notation standard pour la distribution du χ2 non centrée est χ2 (r, Λ), où
r est le nombre de degrés de liberté et Λ est le NCP. Ainsi, dans ce cas, nous
pourrions dire que ζ N est distribué selon une χ2 (2, µ21 + µ22 ). 3
L’espérance de ζ N est supérieure à celle de ζ C. Cette dernière est égale
à 2, alors que la première est égale à 2 + µ21 + µ22 . Ainsi, en moyenne, ζ N
sera supérieure à ζ C. Donc, si nous devions tester l’hypothèse (erronée) que
ζ N provient de la distribution du χ2 (2) centrée à l’aide d’un test de niveau δ,
nous rejetterions cette hypothèse dans plus de 100δ% des cas. La puissance
de ce test, puisque nous conservons un nombre de degrés de liberté constant,
ne dépendra que du NCP, µ21 + µ22 . Connaissant (12.17), cela peut paraı̂tre
étrange. Il semblerait que la distribution de ζ N dépende de µ1 et de µ2 indi-
viduellement plutôt que de la somme de leurs carrés. En réalité, les variations
de µ1 et µ2 qui ne modifient pas µ21 + µ22 sont sans effet sur la distribution de
ζ N. La démonstration serait un bon exercice.
On associe au χ2 non centré deux autres distributions, appelées F non
centrée et F doublement non centrée. Elles sont définies de façon analogue à
la distribution en F ordinaire (centrée), comme un rapport de deux variables
aléatoires indépendantes du χ2 , divisée chacune par son degré de liberté. Pour
la distribution en F non centrée, la variable aléatoire du numérateur obéit à
une distribution du χ2 non centrée, alors que celle du dénominateur obéit à
une χ2 centrée. Pour la distribution en F doublement non centrée, à la fois le
3
Remarquons que certains auteurs, et aussi certains logiciels informatiques,
utilisent la racine carrée de Λ, plutôt que Λ lui-même, en tant que NCP et
se réfèrent donc à cette racine carrée en tant que NCP. La paramétrisation de
la non centralité de la distribution du χ2 n’a pas d’importance. Cependant,
la paramétrisation employée ici est plus naturelle mais aussi plus répandue: si
x1 ∼ χ2 (r1 , Λ1 ) et x2 ∼ χ2 (r2 , Λ2 ) sont indépendantes, alors z = x1 + x2 est
distribuée selon une χ2 (r1 + r2 , Λ1 + Λ2 ). Cela devrait illustrer le fait que Λ,
plutôt que sa racine carrée, est un choix naturel pour le NCP.
12.4 Distribution Asymptotique des Statistiques 415
Puissance
1.0 ...........................................
.................................................................................................................................. ........................ .......
............................................................................................ ..................................................................................
(1, 8) ......................................................... ... . ............... ..... .
...... ...... .
.................. .......................... ......
......
.....
. ... . ... .... . .
....
...... ...
..... ......... ............ ............
.......... .....
..
..... ......... ............
. ..... ... .......... .. .... ... ........... .....
...
............ ........
.. .....
. ..... ...... .....
..
... .... ........ .........
0.8 ..... ....... ... . ....... . .. .. ........ .........
....
.. .... .....
.
.
... ..
..
.... ..... .....
.... ..... ....... .
.. . .... . ...
... ..
. .
.. ... ...
. .... ............................................ (3, 4) .....
.... ... ...... .. .... . . . . ....
. ...
. .... .....
... . ................................................................................. (1, 4) .....
0.6 ..... .... .... .. ...
. . .... .....
.
... .. ... ... .....
..... ........................................................................... (3, 8) ......
... .. ... ...
. . .....
......... ..... ..... ........
...
. .
...... .. ... .....
.............. ..... ........
.
0.4 .
........ ... .....
............ ... . ... .....
..
....... ..
... .. .....
....... .... ...
.....
. ...
..... ... .....
............ . .
......
.. .
0.2 ...... .....
........... .. .......
.... ..
........ .....
..... . .....
... ........
. .. Nota: (a, b) signifie r = a, Λ = b
... ......
. .. .
0.0 ...... Niveau
0.0 0.2 0.4 0.6 0.8 1.0
α2 ³ ´ ³ ´−1 ³ ´
1 > 1 > 1 >
Λ= plim − a MX Z plim − Z MX Z plim − Z MX a . (12.18)
σ02 n→∞ n n→∞ n n→∞ n
a
...........
..
..
..
..
..
............. ...
.........
.
.............
............. ...
MX a............................ .
..
..
. .
... .
.
.. .................
... .... ...
... .... ..
... ..... .
... ..... . S(X0 )
... ..... ..
. ............
...
................. ... . ...... . ............
............
..
................. ... ........
.................
................ ... ..... . ............
............
.
.....
................. ..............
.................
............. .. . . . ... . . ............
............
φ ........ ..
................ . ............
................. ...
... ............
.................
...................... ............
............
.......
................ ...................... .......................
................. ...........
.........
............ ................................
............
S(X , Z ) 0 0 ............................... O ................
................
................
..........
............. ................
................
........
....... ................
..
.......... ................
..
. .
.....
.. ................
..
..
..
.. ................
..
..
..
..
..
...... ................
................
..
..
..
..
..
..... ...
..
..
..
..
..
......
...........
ce NCP. Ainsi l’expression (12.23) nous enseigne tout ce qu’il est bon de
connaı̂tre sur ce qui détermine la puissance asymptotique des tests orientés
régression.
Le NCP (12.23) est le produit de deux facteurs. Le premier pourrait être
écrit comme ¡ ¢
α2 plim n−1 a>MX a
. (12.24)
σ02
Le numérateur de (12.24) est l’expression (12.19). C’est le carré de la limite
en probabilité de la distance séparant le DGP (12.06) du point le plus proche
sur une approximation linéaire de l’hypothèse nulle autour de l’hypothèse
nulle simple (12.07). Le dénominateur est la variance des innovations u dans
le DGP (12.06), rappelant que lorsque le DGP est plus parasité, il devient
plus difficile de rejeter n’importe quelle hypothèse nulle. Si nous doublons
le carré de la distance entre le DGP et l’hypothèse nulle, ainsi que σ02 , le
rapport (12.24) reste constant, ce qui indique que notre capacité à détecter
l’inexactitude de l’hypothèse nulle reste identique. Le résultat crucial de ce
rapport est qu’il ne dépend en aucun cas de Z. Il sera identique pour tous
les tests orientés régression de n’importe quelle hypothèse avec n’importe quel
ensemble de données.
Le facteur le plus intéressant dans l’expression (12.23) est le second,
cos2 φ. Ce n’est qu’à travers ce facteur que le choix de Z influence le NCP.
Un test aura une puissance maximale, pour un nombre de degrés de liberté
donné, lorsque cos2 φ est égal à 1, c’est-à-dire lorsque la régression artificielle
(12.20) a un R2 asymptotique égal à 1. Cela sera le cas chaque fois que le
vecteur a appartient au sous-espace S(X0 , Z0 ) mais pas à l’espace S(X0 ).
Autrement dit, cela sera le cas chaque fois que le DGP est un cas particulier
de l’hypothèse alternative contre laquelle le test est mené, mais ne satisfait
pas l’hypothèse nulle.
Par ailleurs, un test aura une puissance égale à son niveau (et par
conséquent aucune puissance utile) lorsque cos2 φ est nul. Cela surviendra
lorsque a appartient à S(X0 ), ce qui signifie que l’hypothèse nulle (ou au moins
une approximation linéaire de celle-ci) est exacte. Cela surviendra également
lorsque MX a est asymptotiquement orthogonal à MXZ, ce qui, en général,
peut paraı̂tre grandement improbable. Cependant, certaines caractéristiques
spéciales du modèle, ou de l’échantillon, rendent une telle situation moins rare
que ce que l’on pourrait imaginer. Quoi qu’il en soit, il est sans doute peu
trompeur d’affirmer que, lorsque l’hypothèse nulle est inexacte dans une direc-
tion de régression, on peut attendre de la plupart des tests orientés régression
qu’ils aient une certaine puissance, aussi faible fût-elle.
Lorsque cos2 φ est égal à 1, le NCP (12.23) est simplement
α2 ³ ´
1 >
plim − a MX a . (12.25)
σ02 n→∞ n
420 Interprétation des Tests Orientés Régression
α2 ³ ´
1 > >
plim − d Z MX Zd (12.26)
σ02 n→∞ n
α2 ³ ´
1 > >
plim − γ0 Xγ MXXγ γ0 .
σ02 n→∞ n
Considérons la puissance relative d’un test pour aléas AR(1) et d’un test
pour aléas AR(p). Le premier ne possède qu’un seul degré de liberté, alors
que le second en possède p. Le test contre des erreurs AR(1) a donc une
hypothèse alternative implicite plus étroite (c’est-à-dire une hypothèse de di-
mension plus faible) et une hypothèse nulle implicite plus large que le test
contre des erreurs AR(p). Si les aléas obéissent véritablement à un processus
AR(1), il est optimal de tester contre des aléas AR(1), parce qu’un tel test
aurait r = 1 et cos2 φ = 1. Le test contre des aléas AR(p) aurait également
cos2 φ = 1 dans ce cas, mais il serait moins puissant que le test contre des
aléas AR(1) parce que p > 1. Si les erreurs étaient générées par un processus
AR d’ordre supérieur à 1 mais au plus égal à p, la situation serait relative-
ment différente. A présent, cos2 φ serait inférieur à 1 pour le test contre des
aléas AR(1), mais égal à 1 pour le test d’aléas AR(p). La différence entre
les degrés de liberté pourrait encore rendre le premier test plus puissant que
le second dans certains cas. Dans d’autres cas, cependant, le DGP appar-
tiendrait véritablement à l’hypothèse nulle implicite de test d’aléas AR(1), et
le second test aurait donc un niveau égal à sa puissance, asymptotiquement.
5
Voir, par exemple, Davidson et MacKinnon (1985c). Le cas qu’ils examinent
n’était pas véritablement un test orienté régression, mais comme nous le verrons
dans le Chapitre 13, la théorie de la puissance des tests en général est très
comparable à la théorie de la puissance des tests orientés régression.
12.6 Efficacité Asymptotique Relative 423
où n1 et n2 sont les tailles d’échantillon telles que τ1 et τ2 ont une puissance
identique, et la limite est calculée lorsqu’à la fois n1 et n2 tendent vers l’infini.
Si, par exemple, ARE21 était égale à 0.25, τ2 nécessiterait asymptotiquement
4 fois plus d’observations que τ1 pour atteindre la même puissance.
Pour des tests qui ont un même nombre de degrés de liberté, on voit
aisément que
cos2 φ2
ARE21 = .
cos2 φ1
424 Interprétation des Tests Orientés Régression
H0 : yt = Xt β + ut , ut ∼ IID(0, σ 2 ),
où Xt est un vecteur ligne, et que nous nous intéressions à la tester contre
deux hypothèses alternatives distinctes,
α02 ³ ¡ ¢> ¡ ¢´
1
Λ22 ≡ 2 plim − X−1 β0 + u−1 MX X−1 β0 + u−1 , (12.30)
σ0 n→∞ n
où u−1 et X−1 désignent respectivement le vecteur dont l’élément type est
ut−1 et la matrice dont la ligne type est Xt−1 . Ici, X−1 β0 + u−1 joue le rôle
du vecteur a dans l’expression (12.25). La notation Λ22 signifie que H2 est
l’alternative contre laquelle le test est mené et que le DGP appartient à H2 .
Le calcul de la limite en probabilité donne
α02 ³ 2 1°°
°2 ´
°
Λ22 = σ0 + plim − M X β
X −1 0
σ02 n→∞ n
³ °2 ´
1°°
2 −2
= α0 1 + σ0 plim − n
MXX−1 β0 ° .
n→∞
ce qui évite le calcul récursif que (12.27) semble impliquer. Parce que les pro-
cessus AR(1) et MA(1) sont localement équivalents aux alentours du point où
leurs paramètres respectifs sont nuls, cela ressemble à un processus à erreurs
MA(1). Nous voyons à partir de (12.31) que u−1 remplace de Z. Comme
auparavant, X−1 β0 + u−1 remplace de a. Ainsi, à partir de (12.28), le NCP
est donné par
α02 ³ ´ ³ ´−1
1 > 1 >
Λ12 = 2 plim − (X−1 β0 + u−1 ) MX u−1 plim − u−1 MX u−1
σ0 n→∞ n n→∞ n
³ ´
1 >
−
× plim n u−1 MX (X−1 β0 + u−1 ) . (12.32)
n→∞
Parce que
³ ´
1 >
plim − (X β
−1 0 + u −1 ) M u
X −1
n→∞ n
³ ¡ ¢´
1
= plim − β X M u + u−1 MX u−1 = σ02 ,
> >
n 0 −1 X −1
>
n→∞
428 Interprétation des Tests Orientés Régression
α02 2 −2 2
σ0 (σ0 )σ0 = α02 .
σ02
Comme les données ont été générées par un cas particulier de H2 , cos2 φ pour
le test contre H1 est simplement le rapport du NCP Λ12 au NCP Λ22 . Ainsi
µ ³ ¶
1° °2 ´ −1
2 2 2 −2
cos φ = α0 α0 1 + σ0 plim − °MXX−1 β0 °
n
µ ¶−1 (12.33)
plim n−1 kMXX−1 β0 k2
= 1+ .
σ02
ρ20 ³ ´
1 >
Λ21 = plim − u−1 M X (X −1 β 0 + u−1
σ02 n→∞ n
³ ´−1
1 >
× plim − n
(X β
−1 0 + u −1 ) M X (X β
−1 0 + u −1 )
n→∞
³ ´
1 >
× plim −n
(X−1 β0 + u−1 ) MX u−1 .
n→∞
12.7 Interpréter le Rejet de l’Hypothèse Nulle 429
ρ20 2 ³ 2 1°°
°2 ´−1 2
°
2
σ 0 σ0 + plim −
n
M X β
X −1 0 σ0
σ0
³ °2 ´−1
1°°
2 −2
= ρ0 1 + σ0 plim − n
MXX−1 β0 ° .
µ ¶−1
plim n−1 kMXX−1 β0 k2
1+ . (12.34)
σ02
¡ ¢−1
αn−1/2 MX z z>MX z z>MX a,
est le même que l’angle formé par αn−1/2 MX a et αn−1/2 MX z. Cela provient
du fait que (z>MX z)−1 z>MX a est un scalaire lorsque z est un vecteur.
Donc, si nous inversons les positions de a et z, l’angle reste inchangé. Cette
propriété géométrique provient également de deux propriétés numériques.
Premièrement, dans les régressions
y = Xα + γz + résidus et
z = Xβ + δy + résidus,
MX y = γMX z + résidus et
MX z = δMX y + résidus,
suggéré que, pour aider à l’interprétation du non rejet d’une hypothèse nulle
par un test particulier, il faudrait considérer la puissance qu’aurait le test sous
les DGP associés aux hypothèses alternatives d’intérêt. Il semble raisonnable
que de telles alternatives ne soient pas écartées à la faveur de l’hypothèse nulle
sur la base des tests qui auraient, sous ces alternatives, une probabilité faible
de rejeter l’hypothèse nulle. Autrement dit, on ne doit pas dire qu’un test
a discriminé contre une alternative en faveur de l’hypothèse nulle s’il aurait
une chance faible de rejeter l’hypothèse nulle même si l’hypothèse alternative
était exacte.
L’outil analytique employé par Andrews est la fonction puissance in-
verse qui, comme son nom l’indique, est reliée à la fonction puissance dont
nous avons discuté dans la Section 12.3. Pour nos besoins immédiats, nous
supposerons que les hypothèses alternatives d’intérêt peuvent s’exprimer en
termes d’un ensemble de paramètres et que l’hypothèse nulle correspond à un
ensemble de contraintes sur ces paramètres. Alors, pour un niveau de test α et
pour une puissance désirée π, la fonction puissance inverse pour une statistique
de test donnée spécifie les valeurs paramétriques qui caractérisent les DGP qui
ont une puissance π de rejeter l’hypothèse nulle pour un test de niveau α. Si les
valeurs paramétriques données par la fonction puissance inverse sont proches
des valeurs paramétriques issues des contraintes de l’hypothèse nulle, un non
rejet de l’hypothèse nulle peut s’interpréter comme le fait que l’hypothèse
nulle n’est pas véritablement fausse dans une direction quelconque correspon-
dant aux différentes alternatives. Si, autrement, la fonction puissance inverse
produit des valeurs paramétriques éloignées de l’hypothèse nulle, un non rejet
nous indique peu de choses sur l’exactitude de l’hypothèse nulle, puisque ce
non rejet est compatible avec de nombreuses alternatives possibles.
Andrews montre la procédure de calcul des fonctions puissance inverse
pour une large classe de tests asymptotiques pour des contraintes uniques et
multiples. Nous n’examinerons que le cas de la contrainte unique, parce qu’il
est beaucoup plus simple que l’autre cas. Supposons que l’hypothèse d’intérêt
est qu’un certain paramètre, disons θ, prend une valeur donnée, disons θ0 .
Pour être concret, nous pourrions supposer que θ est un paramètre d’une
fonction de régression non linéaire. Il existe de nombreuses statistiques de
test asymptotiquement équivalentes, parmi lesquelles la plus simple est
θ̂ − θ0
. (12.35)
σ̂θ
Puisque le dénominateur est ici une estimation de l’écart type de θ̂, (12.35)
est simplement un t de Student asymptotique. Cette statistique de test est
asymptotiquement équivalente à la racine carrée de (12.04).
En considérant (12.35), nous trahissons notre engagement de ne con-
sidérer que des statistiques asymptotiquement distribuées selon une χ2 . Cela
se justifie par les avantages de la simplicité. Considérons la dérive de DGP
432 Interprétation des Tests Orientés Régression
a
pour laquelle θ = θ0 + n−1/2 δ, et supposons que sous ce DGP σ̂θ = n−1/2 τ ,
pour un quelconque τ = O(1) lorsque n → ∞, puisque θ̂ est convergent au
taux n−1/2 . Alors la distribution asymptotique de (12.35) est N (λ, 1), avec
λ = δ/τ . Cette simple propriété nous autorise à calculer la fonction puis-
sance asymptotique de la statistique (12.35). Si la valeur critique pour un
test bilatéral de niveau α basé sur la distribution N (0, 1) est désignée par
cα , la probabilité de rejeter l’hypothèse nulle sous notre dérive de DGP est
la probabilité qu’une variable aléatoire distribuée suivant une N (λ, 1) ait une
valeur absolue supérieure à cα . Soit Φ(·) la c.d.f. de la distribution normale
centrée et réduite, cette probabilité est
y = x(β) + u, (12.37)
1
π = 1 − Φ(0) + Φ(−2cα ) = − + Φ(−2cα ).
2
12.9 Conclusion
L’analyse asymptotique est immanquablement une approximation, puisqu’elle
ignore tout ce qui n’est pas de l’ordre dominant par rapport à la taille de
l’échantillon. L’analyse de la puissance basée sur la dérive de DGP im-
plique une approximation supplémentaire, puisqu’elle suppose que le DGP
436 Interprétation des Tests Orientés Régression
est “proche” de l’hypothèse nulle. Ainsi, bien que les résultats établis dans ce
chapitre aient les mérites de la simplicité et d’une application étendue, nous
ne pouvons pas attendre d’eux qu’ils fournissent de bonnes approximations
dans toutes les situations. En particulier, nous ne pourrions pas espérer des
performances de qualité si le DGP était très différent de l’hypothèse nulle.6
Dans ce cas, bien évidemment, on s’attend à ce que de nombreux tests rejet-
tent l’hypothèse nulle. La plupart des économètres recommenceraient alors
sur la base d’un modèle moins contraignant correspondant à une des alterna-
tives contre laquelle le modèle originel a été rejeté, et sans doute plus proche
du DGP.
L’objectif de ce chapitre n’est pas de fournir une technique infaillible pour
le choix d’un modèle correctement spécifié. Une telle technique n’existe pas.
Au lieu de cela, nous avons fourni les éléments d’une structure avec laquel-
le on peut interpréter les résultats des tests d’hypothèses. L’interprétation
d’une statistique de test significative en tant que garantie de validité de
l’hypothèse alternative est souvent très exagérée. Il suffit de dénombrer les fois
où l’observation d’un t de Student de 10, par exemple, nous conduit à conclure
que le paramètre associé est définitivement non nul. Comme nous l’avons vu,
cette conclusion est souvent non justifiée. Nous pouvons assurément conclure
que le modèle où ce paramètre est nul est mal spécifié, et, dans le cas linéaire,
nous pouvons suspecter que la variable associée au paramètre en question est
fortement corrélée à tout ce qui est vraiment absent du modèle sous sa forme
actuelle. Mais un t de Student significatif en tant que tel ne nous indique
jamais pourquoi le modèle est mal spécifié lorsque le paramètre est nul. Par
ailleurs, comme nous l’avons vu dans la Section 12.8, une statistique de test
non significative n’est pertinente que si le test avait une puissance importante
contre des hypothèses économiquement intéressantes.
Dans le prochain chapitre, nous aborderons le thème des tests d’hypo-
thèses, mais dans le contexte de l’estimation par maximum de vraisemblance.
La théorie du maximum de vraisemblance offre un support au développement
des nombreux tests orientés non-régression, c’est-à-dire des tests qui corre-
spondent à des aspects de la spécification autres que la fonction de régression.
Les tests d’hétéroscédasticité dont nous avons discuté dans la Section 11.5
sont des exemples de tels tests; ils sont orientés fonction scédastique au lieu
d’être orientés régression (voir la Section 16.5). La plupart des résultats
restent valables, moyennant une légère modification, pour les tests orientés
non-régression autant que pour les tests orientés régression; nous détaillerons
tout ceci dans le prochain chapitre. Ils sont également valables pour des
modèles estimés à l’aide de procédures GLS et/ou IV.
6
Nelson et Savin (1990) analysent un exemple simple pour lequel la puissance
locale asymptotique d’une statistique de test fournit un indice très mauvais de
sa vraie puissance lorsque le DGP diffère quelque peu de l’hypothèse nulle.
Termes et Concepts 437
Termes et Concepts
convergence (d’un test) fonction puissance inverse
courbe de niveau-puissance hypothèse alternative explicite
dérive de DGP hypothèse alternative implicite
directions de non-régression hypothèse nulle implicite
directions scédastiques hypothèse nulle simple
distribution asymptotique (d’une paramètre de non centralité (NCP)
statistique de test) puissance utile
distribution du χ2 non centrée suites d’alternatives locales
efficacité asymptotique relative (ARE) test biaisé
fonction puissance tests asymptotiquement équivalents