Econometrie

Econometrie
Inspire du cours de Bruno Crepon

21 fevrier 2003
1
2 1 INTRODUCTION : LE MOD
`
ELE LIN
EAIRE
1 Introduction : le modèle lineaire
On considère le modèle :
y = b
0
+x
1
b
1
+ +x
k
b
k
+u
O` u
_
_
y = variable dependante
x = variables explicatives
u = terme derreur
b = inconnue du problème
Le but de leconometrie est destimer ce modèle, cest-à-dire de trouver une
fonction

b = b(Y, X) qui satisfasse les conditions suivantes :
sans biais : E(
b) = b ;
obeissance à un principe, comme le maximum de vraisemblance : si la loi
des residus est connue, on connat la loi conditionnelle Y [X et on choisit
b ;
optimisation dun critère, comme min
_
(y xb)
2
_
;
minimisation de Var(
b).
On travaille sur des donnees appartenant à trois grands types :
Donnees temporelles, par observation du meme phenomène dans le temps,
cest-à-dire des variables y
t
, x
t
, u
t
, t [1, . . . , T]. T doit alors etre moyen-
nement grand, de lordre de 50 periodes.
Exemple (Consommation et revenu). C
t
= +R
t
+
t
+u
Donnees en coupe :y
i
, x
i
, u
i
, i = 1, ..., N. N peut etre grand, voire très
grand (plusieurs milliers dobservations).
Lajustement est en general beaucoup moins bon que dans le cas des don-
nees temporelles.
Exemple (Enquete-emploi). On a plus de 150000 personnes enquetees,
avec un grand nombre de questions.
i
=
0
+
1
sco
i
+
1
exp
i
+
2
exp
2
i
+u
i
Cest le type de donnees le plus adapte au calibrage macro-economique.
Donnees de panel, doublement indicees :
y
i,t
, x
i,t
, i = 1, ..., Ngrand(> 100), t = 1, ..., Tpetit(< 10).
Exemple (Fonctions de production dentreprises).
Y
it
= A
it
K
it
L
it
y
it
= a
it
+k
it
+l
it
Le residu, dit residu de Solow, est alors a
it
, et lobservation unitaire, ou
unite statistique le T-uplet (y
i1
, ..., y
iT
).
1.1
`
A quoi sert lestimation?
Il sagit de verier quune variable X a bien un eet sur la variable Y , et de
quantier cet eet.
Lestimation peut aussi avoir un but de simulation. Si la consommation des
bien modelisee par C
t
=
0
+
1
R
t
+
2
T
t
+u
t
, quel est leet de prelèvements
scaux T sur la consommation, autrement dit, quel est le signe de
2
? La theorie
de lequivalence ricardienne dit que
2
= 0.
On peut enn vouloir faire de la prevision : si Y
t
=

bX
t
, alors il y a une
probabilite, à determiner, pour que Y
t+1
=
bX
t+1
.
1.2 Do` u vient le modèle ? 3
1.2 Do` u vient le modèle ?
Le modèle vient de la theorie economique ;
Exemple. Fonction de production Y = F(X), la theorie donnant une
idee de la modelisation, comme Y =

K
k=1
X
k
k
.
fonction translog : log C = log Q+
log P
X
+ log P
X
log P
X
.
Pour pouvoir evaluer le modèle, il faut souvent imposer une restriction sto-
chastique.
Exemple. On specie la loi de u[X (en general une loi Normale), ce qui permet
destimer le modèle, puisque cela donne la loi de Y [X.
Comme E(u[X) = 0 est une hypothèse forte, on prefère en general faire des
hypothèses moins fortes.
Exemple. Y
d
= p +X
d
d
+u
d
, Y
0
=
p
+X
0
0
+u
0
. On observe (Y, P, X),
et on sinteresse principalement à la première equation avec un choc u
d
= 0.
Si p = f(u), la connaissance du prix donne une information sur le residu,
donc E(u[X) ,= 0.
On doit donc faire la reduction sctochastique E(u
d
[X
d
, X
0
) = 0.
On peut egalement essayer de specier la loi des observations. Cependant,
specier la loi de u
i
[X
i
ne sut pas. Il faut une hypothèse supplementaire pour
passer à L(y
1
, ..., y
N
[x
1
, ..., x
N
). On peut par exemple supposer que les (y
i
, x
i
)
sont iid.
4 TABLE DES MATI
`
ERES
Table des matières
1 Introduction : le modèle lineaire 2
1.1
`
A quoi sert lestimation? . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Do` u vient le modèle ? . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Le Modèle lineaire standard 7
2.1 Hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 LEstimateur des MCO . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.2 Interpretation geometrique . . . . . . . . . . . . . . . . . 8
2.3 Proprietes algebriques de lestimateur des MCO . . . . . . . . . . 9
2.4 Proprietes statistiques de lestimateur MCO . . . . . . . . . . . . 11
2.5 Optimalite de

b
MCO
. . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Estimation de
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.7 Application à la prevision . . . . . . . . . . . . . . . . . . . . . . 13
2.8 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . 14
2.9 Le Modèle lineaire statistique . . . . . . . . . . . . . . . . . . . . 15
2.9.1 Intervalles de conance . . . . . . . . . . . . . . . . . . . 16
2.10 Test dhypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.11 MCO et EMV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Estimation sous contraintes lineaires 19
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.1 Questions : . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.2 Formulation : Exemple . . . . . . . . . . . . . . . . . . . . 19
3.1.3 Reecriture sous forme matricielle : . . . . . . . . . . . . . 19
3.1.4 Formulation generale . . . . . . . . . . . . . . . . . . . . . 20
3.2 LEstimateur des Moindres Carres Contraints (MCC) . . . . . . 20
3.2.1 Expression de lestimateur des MCC . . . . . . . . . . . . 20
3.2.2 Proprietes Statistiques de

b
mcc
. . . . . . . . . . . . . . . 21
3.2.3 Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Estimateur de la Variance des residus
2
. . . . . . . . . . . . . 23
3.4 Estimation par integration des contraintes . . . . . . . . . . . . . 24
3.5 Test dun Ensemble de Contraintes . . . . . . . . . . . . . . . . . 25
3.5.1 Expression simpliee de la statistique . . . . . . . . . . . 26
3.5.2 Mise en oeuvre du test . . . . . . . . . . . . . . . . . . . . 26
3.5.3 Application : Test de legalite à une valeur donnee de plu-
sieurs coecicents : . . . . . . . . . . . . . . . . . . . . . 27
3.6 Test de la signicativite globale des coecients dune regression . 27
3.7 Le Test de Chow . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.7.1 Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.7.2 Principe dapplication du test de Chow (sous hypothèse
dhomosc edasticite et non-correlation des residus). . . . . 29
4 Proprietes asymptotiques de lestimateur des MCO 30
4.1 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . 30
4.1.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . 30
4.1.2 Convergence en probabilite . . . . . . . . . . . . . . . . . 30
4.1.3 Dierents resultats . . . . . . . . . . . . . . . . . . . . . . 30
TABLE DES MATI
`
ERES 5
4.1.4 Theorème central limite (Lindeberg-Levy) . . . . . . . . . 31
4.2 Proprietes asymptotiques de lestimateur des MCO . . . . . . . . 32
4.3 Estimation de la variance de lestimateur . . . . . . . . . . . . . 35
5 Tests asymptotiques 35
5.0.1 p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.1 Test dhypothèses lineaires . . . . . . . . . . . . . . . . . . . . . . 36
5.1.1 Cas dune seule contrainte, p = 1 : test de Student. . . . . 36
5.1.2 Cas de plusieurs contraintes, p K : test de Wald. . . . . 37
5.2 Test dhypothèses non lineaires . . . . . . . . . . . . . . . . . . . 38
6 Le modèle lineaire sans lhypothèse IID 39
6.1 Presentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.2 Exemples : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.3 Conclusion des exemples . . . . . . . . . . . . . . . . . . . . . . . 42
6.4 Le modèle lineaire heteroscedastique . . . . . . . . . . . . . . . . 43
6.4.1 Denition et hypothèses . . . . . . . . . . . . . . . . . . . 43
6.5 Estimation par les MCO . . . . . . . . . . . . . . . . . . . . . . . 43
6.6 La methode des Moindres Carres Generalises (MCG) . . . . . . . 44
6.7 Proprietes statistiques de lesperance et de la variance condition-
nelle des MCG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7 Lestimateur des MCQG 47
7.0.1 Cas o` u = () et de dimension nie . . . . . . . . . . 47
7.0.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.0.3 Retour sur les regressions SUR . . . . . . . . . . . . . . . 51
7.0.4 Cas o` u = (, X) et de dimension nie . . . . . . . . 52
7.0.5 Application : . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.0.6 Cas o` u = () et de dimension quelconque . . . . . . 54
7.0.7 Application . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.1 Tests dheteroscedasticite . . . . . . . . . . . . . . . . . . . . . . 55
7.1.1 Test de Goldfeld-Quandt . . . . . . . . . . . . . . . . . . 55
7.1.2 Test de Breusch-Pagan . . . . . . . . . . . . . . . . . . . . 56
8 Autocorrelation des residus 58
8.1 Les diverses formes dautocorrelation des perturbations . . . . . 58
8.1.1 Perturbations suivant un processus autoregressif dordre
1 (AR1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.1.2 Stationnarite au premier et au second ordre dun proces-
sus AR1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.1.3 Covariance entre deux perturbations dun processus AR(1) 59
8.1.4 Matrice de variances-covariances des perturbations . . . . 60
8.1.5 Perturbations suivant un processus AR(p) . . . . . . . . 60
8.1.6 Perturbations suivant un processus de moyenne mobile
dordre q MA(q) . . . . . . . . . . . . . . . . . . . . . . . 61
8.1.7 Perturbation suivant un processus ARMA(p,q) . . . . . . 62
8.1.8 Detection de lautocorrelation : le test de Durbin et Wat-
son (1950, 1951) . . . . . . . . . . . . . . . . . . . . . . . 63
8.2 Estimateurs des MCO, des MCG et des MCQG dans un modèle
dont les perturbations sont autocorrelees . . . . . . . . . . . . . . 65
6 TABLE DES MATI
`
ERES
8.2.1 Estimation de la matrice de variance . . . . . . . . . . . . 65
9 Introduction aux variables instrumentales 69
9.0.2 Erreur de mesure sur les variables . . . . . . . . . . . . . 69
9.0.3 Omission de regresseur, heterogeneite inobservee . . . . . 70
9.0.4 La simultaneite . . . . . . . . . . . . . . . . . . . . . . . . 70
9.0.5 La methode des variables instrumentales . . . . . . . . . . 71
9.1 Instruments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
9.1.1 Identication . . . . . . . . . . . . . . . . . . . . . . . . . 73
9.2 Moindres carres indirects . . . . . . . . . . . . . . . . . . . . . . 73
9.2.1 Propriete asymptotiques des estimateurs des MCI . . . . 74
9.2.2 Estimation robuste de la matrice de variance . . . . . . . 75
9.2.3 Estimateur à variables instrumentales optimal ou estima-
teur des doubles moindres carres . . . . . . . . . . . . . . 75
9.2.4 Expression de lestimateur optimal . . . . . . . . . . . . . 76
9.2.5 Cas des residus heteroscedastiques . . . . . . . . . . . . . 77
9.2.6 Interpretation de la condition rangE (z
i
x
i
) = K + 1 . . . 78
9.2.7 Test de suridentication . . . . . . . . . . . . . . . . . . . 78
9.2.8 Test dexogeneite des variables explicatives . . . . . . . . 83
10 La Methode des moments generalisee 86
10.1 Modèle structurel et contrainte identiante : restriction sur les
moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
10.2 La methode des moments generalisee . . . . . . . . . . . . . . . . 86
10.3 Principe de la methode : . . . . . . . . . . . . . . . . . . . . . . . 88
10.4 Convergence et proprietes asymptotiques . . . . . . . . . . . . . . 89
10.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . 90
10.6 Mise en oeuvre : deux etapes . . . . . . . . . . . . . . . . . . . . 91
10.7 Application : instruments dans un système dequations . . . . . . 92
10.7.1 Regressions à variables instrumentales dans un système
homoscedastique . . . . . . . . . . . . . . . . . . . . . . . 93
10.7.2 Estimateur à variables instrumentales optimal dans le cas
univarie et heteroscedastique . . . . . . . . . . . . . . . . 94
10.8 Test de specication. . . . . . . . . . . . . . . . . . . . . . . . . . 95
10.8.1 Application test de suridentication pour un estimateur à
variables instrumentales dans le cas univarie et heterosce-
dastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
11 Variables dependantes limitees 98
11.1 Modèle dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . 98
11.1.1 Modèle à probabilites lineaires . . . . . . . . . . . . . . . 98
11.1.2 Les modèles probit et logit. . . . . . . . . . . . . . . . . . 99
11.1.3 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . 101
11.1.4 Estimation des modèles dichotomiques . . . . . . . . . . . 102
11.2 Modèles de choix discrets : le Modèle Logit Multinomial . . . . . 105
11.2.1 Estimation du modèle logit multinomial : . . . . . . . . . 107
11.3 Selectivite, le modèle Tobit . . . . . . . . . . . . . . . . . . . . . 108
11.3.1 Rappels sur les lois normales conditionnelles. . . . . . . . 112
11.3.2 Pourquoi ne pas estimer un modèle Tobit par les MCO? . 115
11.3.3 Estimation par le maximum de vraisemblance . . . . . . . 115
7
2 Le Modèle lineaire standard
Modèle : y
i
= b
0
+b
1
x
1i
+ +b
K
x
ki
+u
i
2.1 Hypothèses
Hypothèse (H
1
). E(u
i
) = 0
Hypothèse (H
2
). Var(u
i
) =
2
Hypothèse (H
3
). i ,= i
Cov(u
i
, u
i
) = 0
Ces hypothèses reviennent à dire que les observations sont independantes les
unes des autres.
Hypothèse (H
4
). La matrice des observations X est connue.
Cette hypothèse est etrange : tout se passe comme si on pouvait modier
X à sa guise. Elle nest cependant pas indispensable sous sa forme forte. On
peut en eet lassouplir en formulant les autres hypothèses parametrees par la
connaissance de X, comme E(u
i
[X) = 0.
Hypothèse (H
5
). Les vecteurs dobservation X
i
sont non colineaires.
Matriciellement, on ecrit ce modèle :
y =
_
_
_
y
1
.
.
.
y
N
_
_
_X =
_
_
_
1 x
11
. . . x
K1
.
.
.
.
.
.
.
.
.
1 x
1N
. . . x
KN
_
_
_u =
_
_
_
u
1
.
.
.
u
N
_
_
_
Y = Xb +u
Avec les hypothèses :
Hypothèse (H
1
). E(u) = 0
Hypothèse (H
2
et H
3
). Var(u) =
2
I
N
Hypothèse (H
4
). La matrice des observations X est connue.
Hypothèse (H
5
). Rang(X) = K +1, ce qui revient à dire que X
X est inver-
sible.
Demonstration. Supposons X
X non inversible. Alors,

,= 0/X
X = 0
X = 0 |X|
2
= 0 X = 0
Il existe donc une combinaison lineaire nulle des X
i
, ce qui est contraire à
notre hypothèse.
2.2 LEstimateur des moindres carres ordinaires
2.2.1 Denition
Denition 2.1 (Estimateur MCO). On denit lestimateur des moindres
carrees ordinaires comme :
b
mco
= Arg min
b
_
N
i=1
(y
i
x
i
b)
2
_
= Arg min
_
N
i=1
(u
i
(b))
2
_
8 2 LE MOD
`
ELE LIN
EAIRE STANDARD
Comme u
i
(b) = y
i
x
i
b, on a
b
mco
= Arg min
b
((Y Xb)
(Y Xb))
On dit que lestimateur mco minimise le critère c = (Y Xb)
(Y Xb).
Demonstration.
dc
db
= 2(Y Xb)
X = 0
dc
e = 2c
dc
dXb = db d(Y Xb) = Xdb
On optimise le critère :
b tel que 2(Y X
b
MCO
)
X = 0 : K + 1 equations et K + 1 inconnues
(Y Xb)
x = 0 (Y
)X = 0
Y
X = b
(X
X)
(X
X)
b = X
Y
H
5
b = (X
X)
1
(X
Y )
NB : (Y X
b)
X = 0 les residus sont orthogonaux à X.

2.2.2 Interpretation geometrique
Denition 2.2 (Valeurs predites). Soit
y =
bX la valeur predite par le modèle ;

u = y y les residus estimes par le modèle.
Proposition 2.1.

Etant donnees ces denitions,
y est la projection orthogonale de y sur Vect(X) ;
matriciellement,

Y = X
b = X(X
X)
1
X
Y .
Proposition 2.2. On a alors :
1. On pose : P
X
= X(X
X)
1
X
la matrice de projection orthogonale sur

Vect(X). Elle verie :
P
X
= P
X
;
P
2
X
= P
X
.
2. On a alors, en notant M
X
la matrice de projection orthogonale sur lor-
thogonal de Vect(X), avec

U = Y P
X
Y = (I P
X
)Y = M
X
Y . Elle
verie :
M
X
= M
X
;
M
2
X
= M
X
.
Proposition 2.3. Il sensuit :
1. P
X
M
X
= 0 ;
2.

U
X = 0 ;
3.

Y
u = 0 : valeur predite et residus estimes sont orthogonaux.

Demonstration.
1. Vect(X) et Vect(X)
sont orthogonaux et supplementaires ;

2. idem ;
2.3 Proprietes algebriques de lestimateur des MCO 9
3.

Y
U = Y
X
M
X
Y .
Proposition 2.4. Dans le cas dun modèle avec terme constant, soit :
Y =
1
N
N
i=1
Y
i
Y =
1
N
N
i=1
Y
i
On a alors : Y =

Y
De plus,
U =
1
N
N
i=1
u
i
= 0
.
Demonstration.
Soit e
= (1, . . . , 1), e /
N,1
Y =
1
N
e
Y =
1
N
e
Y = P
X
Y , donc

Y =
1
N
e
P
X
Y , puisque P
X
e = e, donc
Y =
1
N
P
X
e
Y =
1
N
e
Y = Y
De plus, Y =

Y +

U
2.3 Proprietes algebriques de lestimateur des MCO
Theorème 2.5 (Theorème de Frish et Waught). Soit Y = Xb + u le
modèle.
On pose X = [X
1
X
2
] X /
N,K+1
X
1
/
N,K
1
X
2
/
N,K
2
On ecrit donc le modèle : Y = X
1
b
1
+X
2
b
2
+u
On a alors :
_

b
1
= (X
1
M
X
2
X
1
)
1
X
1
M
X
2
Y
b
2
= (X
2
X
2
)
1
X
2
(Y X
1
b
1
)
Do` u :
b
1
= (X
1
M
X
2
M
X
2
X
1
)
1
M
X
2
Y
= [(M
X
2
X
1
)
M
X
2
X
1
]
1
(M
X
2
X
1
)
M
X
2
Y
Donc
b
1
est lestimateur mco de la regression de M
X
2
Y , residu de la regression
de Y sur X
2
, sur M
X
2
X
1
, matrice des residus de la regression de X
1
sur X
2
.
10 2 LE MOD
`
ELE LIN
EAIRE STANDARD
En dautres termes, lestimateur
b
1
peut etre obtenu comme la regression du
residu de la regression de Y sur X
2
sur les residus des regressions des variables
presentes dans X
1
sur X
2
.
Exemple. Soit le modèle : Y
it
= X
it
b + u
i
+ u
it
(donnees de panel), o` u u
i
est
un paramètre propre à chaque entreprise.
Pour le modèle complet,
b
c
=
_
_
_
_
_
b
u
1
.
.
.
u
N
_
_
_
_
_
/
N+K,1
X
c
= [X, I
N
e
T
]
Le theorème de Frish-Waught dit qui si
on regresse Y sur I
N
e
T
;
on regresse chacun des x
k
sur I
N
e
T
et on recupère les dierents residus,
qui sont orthogonaux à I
N
e
T
,
On a alors, en notant x
i
=
1
N
T
t=1
x
it
, on peut sans perte dinformation consi-
derer y
it
y
i
= (x
it
x
i
)b + u
it
+ u
i
, les ecarts à la moyenne temporelle pour
chaque individu.
Autrement dit, le theorème indique que quand on a une foultitude dindica-
teurs, on peut se simplier la vie en regressant dabord les variables explicatives
sur les indicatrices.
Demonstration. On part des equations normales pour ce modèle :
X
(Y Xb) = 0 (X
1
X
2
)
(Y X
1
b
1
X
2
b
2
) = 0
Do` u
X
1
(Y X
1
b
1
X
2
b
2
) = 0 (1)
X
2
(Y X
1
b
1
X
2
b
2
) = 0 (2)
On considère dabord (2) :
X
2
(Y X
1
b
1
) (X
2
X
2
)
b
2
= 0

b
2
= (X
2
X
2
)
1
X
2
(Y X
1
b
1
)
X
b
2
= X
2
(X
2
X
2
)
1
X
2
(Y X
1
b
1
)
X
b
2
= P
X
2
(Y X
1
b
1
)
On reintègre cela dans (1) :
X
1
(Y X
1
b
1
P
X
2
(Y X
1
b
1
)) = 0 X
1
(I P
X
2
)(Y X
1
b
1
) = 0
X
1
M
X
2
(Y X
1
b
1
) = 0

b
1
= (X
1
M
X
2
X
1
)
1
X
1
M
X
2
Y

b
1
= [(M
X
2
x
1
)
(M
X
2
X
1
)]
1
(M
X
2
X
1
)
M
X
2
Y
On purge ainsi X
1
des variables de X
2
correlees avec X
1
.
Remarque. Soient les modèles : Y = X
1
b
1
+X
2
b
2
+u et Y = X
1
b
1
+v Lestima-
teur

b
1
issu du seul second modèle est non biaise M
X
2
X
1
= X
1
, cest-à-dire
X
1
X
2
. Cest pourquoi on commence par regresser X
1
sur X
2
et quon prend
le residu.
2.4 Proprietes statistiques de lestimateur MCO 11
2.4 Proprietes statistiques de lestimateur MCO
Proposition 2.6.

b
MCO
est sans biais.
Demonstration.
Si X est connu :
b
MCO
= (X
X)
1
X
Y
= (X
X)
1
(X
Xb +X
u)
= b + (X
X)
1
X
u
Donc :
E(
b
MCO
) = E
_
(X
X)
1
X
u)
_
H
1
= E(b)
Si X est inconnu, on a par le meme calcul, E(
b
MCO
[X) = b.
Proposition 2.7. Var(
b
MCO
) =
2
(X
X)
1
Demonstration.
Var(
b) = E
_
(
b b)(
b b)
_
Comme

b = (X
X)
1
X
Y ,

b b = (X
X)
1
X
u.
Donc Var(
b[X) = E
_
(X
X)
1
X
uu
X(X
X)
1
[X
. Or, daprès H
2
et H
3
,
E(uu
) =
2
I.
Si X est aleatoire, on a : Var(
b) =
2
E
X
_
(X
X)
1
_
.
Exemple (Le modèle lineaire simple y = xb +u). Supposons les variables
centrees : E(y) = E(x) = 0.
On a alors : x
x =

x
2
i
=
1
N
x
2
i
N
= N
2
x
Donc, Var(
b) =

2
N
2
x
, donc quand
N augmente, Var(
b) decrot au rythme de 1/N, ce qui signie que decrot en

1/
N, qui est la vitesse standard de convergence des estimateurs.

En outre,
2
x
joue un r ole essentiel. Si
2
x
= 0,
b
MCO
na pas de sens : il faut
que la variable explicative soit susemment dispersee.
Exemple (Modèle à deux variables explicatives). On a x
1
et x
2
, avec
2
x
1
=
2
x
2
et Cov(x
1
, x
2
) =
2
.
(X
X)
1
=
1
N
2
(1
2
)
_
1
1
_
Si est proche de 1, les estimateurs sont très imprecis.
2.5 Optimalite de

b
MCO
Denition 2.3 (Critère doptimalite). On prend comme critère doptimalite
la minimisation de la variance.
Soit
b un estimateur de b. On dit que
b est optimal ssi , Var(
b) est mini-
male, cest-à-dire que la variance de toute compostion lineaire des composantes
est minimale.
Theorème 2.8 (Theorème de Gauss-Markov). Sous les hypothèses H
1
` a
H
5
, dans la classe des estimateurs de b lineaires dans les variables ` a expliquer et
sans biais,
b
MCO
est optimal au sens du critère de minimisation de la variance.
12 2 LE MOD
`
ELE LIN
EAIRE STANDARD
Demonstration.
b lineaire en Y
b = AY
b sans biais E(AXb +Au) = b

Comme E(u) = 0, AXb = b, b, AX = I.
En outre,

b b = AY b = AXb +Au b = Au,
donc Var(
b) = E
_
(
b b)(
b b)
_
= E(Auu
) = AE(uu
)A
.
Or, on a suppose que E(uu
) =
2
I, donc Var(
b) =
2
AIA
Ecrivons
I = P
X
+M
X
_
P
X
= X
(X
X)
1
X
M
X
= I P
X
Var(
(b)) =
2
(AP
X
A
+AM
X
A
)
Or,
2
AP
X
A
=
2
AX(X
X)
1
X
.
Comme

(b) est sans biais, AX = I = X
, donc
2
AP
X
A
=
2
(X
X)
1
,
et donc :
Var(
b) =
2
(X
X)
1
. .
Var(
b
MCO)
+AM
X
A
Comme, AM
X
A
est symetrique denie positive, on a :

, Var(
b) = Var(
b
MCO
) +
2
(A
)M
X
(A
)
Donc Var(
b) Var(
b
MCO
).
Il faut noter que cette demonstration repose très fortement sur lhomosce-
dasticite de u.
2.6 Estimation de
2
Il est important de bien estimer ce paramètre, car Var(
b
MCO
) =
2
(X
X)
1
en depend. On va avoir :
Var(
b) =

2
(X
X)
1
Dautre part,

2
= Var(u), et donc constitue une mesure de la qualite de lajus-
tement.
Denition 2.4.
2
MCO
=
u
2
i
N K 1
=
u
u
N K 1
Proposition 2.9 (Proprietes de

2
MCO
).

2
MCO
verie :
1. E(
2
MCO
) =

2
:

2
MCO
est sans biais ;
2. u et

b
MCO
sont non correles.
Demonstration.
2.7 Application à la prevision 13
1. Sans biais :
2
MCO
=
u
u
N K 1
=
u
M
X
u
N K 1
Or, u
M
X
u est un scalaire, donc u
M
X
u = Tr(u
M
X
u) = Tr(M
X
uu
).
Donc,
E
X
(
2
MCO
) =
E(Tr(M
X
u
u))
N K 1
=
Tr(M
X
E(uu
[X))
N K 1
Or, E(uu
[X) =
2
I, donc E
X
(
2
MCO
) =

2
Tr(M
X
)
NK1
.
Comme M
X
est la matrice de projection sur un espace de dimension N
K 1, Tr(M
X
) = N K 1, donc E
X
(
2
MCO
) =
2
.
2. Non-correlation :
E
X
( u (
b b)
. .
on centre
) = E
X
(M
X
uu
X(X
X)
1
)
= M
X
E
X
(u
u)X(X
X)
1
=
2
M
X
X(X
X)
1
Comme M
X
X = 0, E
X
= (u
b b)
) = 0.
Les paramètres du premier et du second ordre sont donc independants.
2.7 Application à la prevision
Modèle :
_
_
_
Y
i
= bX
i
+u
i
H
1
à H
5
N observations
On suppose que pour une observation N + 1, le modèle reste vrai :
Y
N+1
= bX
N+1
+u
N+1
H
1
àH
5
:
_
E(U
n+1
) = 0
Cov(u
N+1
, u
i
) = 0 i = 1 . . . N
On connat donc X
N+1
, et on veut prevoir Y
N+1
.
Denition 2.5. La prevision mco de Y est :
Y
p
N+1
= X
N+1
b
MCO
Proposition 2.10. Y
p
N+1
= X
N+1
b
MCO
est le meilleur predicteur lineaire en
Y sans biais de Y
N+1
.
Demonstration.
Sans biais :
E(Y
p
N+1
Y
N+1
) = E(X
N+1
b
MCO
X
N+1
b u
N+1
= X
N+1
E(
b
MCO
b) E(u
N+1
)
= 0
14 2 LE MOD
`
ELE LIN
EAIRE STANDARD
Soit

Y
N+1
predicteur lineaire sans biais de Y
N+1
.
E
_
(
Y
N+1
Y
N+1
)
2
_
= E
_
(
Y
N+1
X
N+1
b +u
i
)
_
Comme

Y
N+1
est une combinaison lineaire des y
1
, . . . , y
N
, cen est une des
u
1
, . . . , u
N
, donc (
Y
N+1
X
N+1
b) et u
N+1
ne sont pas correles, do` u
E
_
(
Y
N+1
Y
N+1
)
2
_
= E
_
(
Y
N+1
X
N+1
b)
2
_
+E
_
(u
N+1
)
2
_
En raison du theorème de Gauss-Markov (2.8), le meilleur estimateur

Y
N+1
de X
N+1
b est X
N+1
b
MCO
.
On peut calculer la variance de la prevision :
Var(Y
N+1
X
N+1
b
MCO
) = Var(X
N+1
(b
b
MCO
) +u
N+I
)
= Var
_
X
N+1
(
b
MCO
b)
_
+Var(u
N+1
)
=
2
X
N+1
(X
X)
1
X
N+1
+
2
Le second terme est lerreur standard du modèle, le premier represente lerreur
due à lestimation de b sur les seuls x
1
, . . . , x
N
.
2.8 Analyse de la variance
Hypothèse. On suppose que la constante est incluse dans les variables expli-
catives
Theorème 2.11 (Decomposition de la variance). Si la constante est incluse
dans les variables explicatives, la variance se decompose comme :
1
N
_
(y
i
y)
2
_
. .
Variance totale
=
1
N
_
( y
i
y)
2
_
. .
Variance expliquee
+
1
N
u
2
i
. .
Variance residuelle
Demonstration.
On a : y = y + u. Comme la constante est incluse dans la regression, y =

y,
et

u = 0. Do` u :
y ye = y
ye + u
(y ye)
(y ye) =
N
i=1
_
(y
i
y
2
_
_
( y
ye) + u
_
_
( y
ye) + u
_
= ( y
ye)
( y
ye) + u
( y
ye) + u
u
Or, u = M
X
u, y = P
X
y et e X u
( y
y) = u
M
X
(P
X
y e
y)
Or, M
X
P
X
= 0, do` u le resulat.
Cette equation permet de denir une mesure synthetique de lajustement du
modèle :
Denition 2.6 (R
2
).
R
2
=
Variance expliquee
Variance totale
=
_
( y
i
y)
2
_
((y
i
y)
2
)
2.9 Le Modèle lineaire statistique 15
Du fait du theorème de decomposition, R
2
[0, 1], et
R
2
= 1
u
2
i
((y
i
y)
2
)
Comme R
2
fait intervenir la variance de Y , il est sensible à la forme de la
modelisation. Ainsi, si on compare les deux modèles :
y = log(L) + log(K) +u (3)
y l = ( 1 = log L + log K +u (4)
Le modèle (3) aura une variance beaucoup plus importante que le modèle (4),
alors que les deux modelisations (en production ou en productivite par tete)
sont equivalentes en termes de theorie economique.
En outre, on a le problème que le R
2
augmente mecaniquement quand la liste
des variables explicatives augmentent. On peut cependant essayer de lamelio-
rer :
R
2
= 1
| u|
2
|y ye|
2
| u|
2
=
u
i
2
=

2
MCO
(N K 1)
Donc :
R
2
= 1
2
MCO
(N K 1)
2
y
(N 1)
O` u :

2
y
=
y ye
2
N1
est un estimateur non biaise de Var(Y ). En consequence :
Denition 2.7 (R
2
ajuste).
R
2
ajsute
= 1
2
y
On se debarasse ainsi de linuence des degres de liberte.
2.9 Le Modèle lineaire statistique
On part du modèle et du jey dhypothèses de la section precedente. On
suppose en outre :
Hypothèse (H
6
).
u ^(0,
2
)
Proposition 2.12 (Proprietes). Sous H
6
, les estimateurs mco verient les
proprietes suivantes :
1.

b
MCO
^(b,
2
(X
X)
1
)
2. Loi de

2
:
u = M
X
u u ^(., .), do` u :
_

b
u
_
=
_
(X
X)
1
X
Y
M
X
u
_
=
_
b
0
_
+
_
(X
X)
1
X
M
X
u
_
u
16 2 LE MOD
`
ELE LIN
EAIRE STANDARD
La loi jointe de (
b, u) est une loi normale, or

b et u ne sont pas correles,
donc

b est independant de u.
Or,

2
=
u
2
NK1
et u
b, donc

2
est independant de

b.
Alors,
(N K 1)
2

2
(N K 1)
Demonstration de la loi de

2
.
Lemme. Si Z ^(0, I
L
) Z
1
2
+ +Z
L
2

2
(L).
Soit P un projecteur sur un espace de dimensionL
1
, alors :
Z
PZ
2
(L
1
)
Demonstration. P est diagonalisable dans le groupe orthogonal : D dia-
gonale et Q orthogonale lettes que P = Q
DQ, avec :
D =
_
I
L
1
0
0 0
_
Do` u : Z
PZ = Z
DQZ. On pose : Z
= QZ, et donc Z
PZ = Z
DZ
.
Var(Z
= E(Z
) = QE(ZZ
)Q
= QQ
= I Z
^(0, I)
Donc Z
DZ
= Z
1
+ +Z
L
1

2
(L
1
).
(N K 1)
2
MCO
2
= (N K 1)
u
2
= (N K 1)
u
M
X
u
2
u ^(0,
2
I) v =
u
^(0, 1)
(N K 1)
2
MCO
2
= (N K 1)
v
M
X
v
N K 1
= v
M
X
v
Le lemme donne le resultat voulu.
2.9.1 Intervalles de conance
Denition 2.8 (Intervalle de conance). Un intervalle de conance au seuil
(1 ) pour un paramètre b
k
est la donnees dun intervalle [a
1
, a
2
] tel que :
P (b
k
[a
1
, a
2
]) = (1 ).
Proposition 2.13. Soit v
k
x
le k
ième
element de la diagonale de (X
X)
1
.
b
k
b
k

_
v
k
x
ot(N K 1)
Demonstration.
On sait que

b ^(b,
2
(X
X)
1
), donc

b
k
^(b
k
,
2
v
k
x
) et
b
k
b
k
v
k
x
^(0, 1).
2.10 Test dhypothèses 17
Seulement, est un paramètre inconnu, mais on sait que :
2
(N K 1)
2
(N K 1)
.
Or,
X ^(0, 1)
Y
2
(L)
X, Y independantes
_
_
_
X
_
V/L
ot(L)
Donc,
b
k
b
k
v
k
x
_
(NK1)
2
(NK1)
2
ot(N K 1).
Donc si on cherche un intervalle de conance au seuil (1), on va charcher
des bornes [t
1/2
, t
1/2
] telles que lintegrale hors de ces bornes soit egale à
.
Si S ot(L), P
_
s [t
1/2
, t
1/2
]
_
= 1 .
Donc, on connat [t
1/2
, t
1/2
] par la lecture dune table des quantiles
de ot.
P
_
t
1/2
<
b
k
b
k
_
v
k
x
< t
1/2
_
= 1
P
_
b
k
_
v
k
x
t
1/2
< b
k
<
b
k
+
_
v
k
x
t
1/2
_
= 1
On peut se demander quelle est linuence du nombre de degres de liberte.
Graphiquement, on voit que moins il y a de degres de liberte, plus la courbe est
etalee. Au contraire, quand le nombre de degres de liberte est très grand, elle
tend vers une ^(0, 1).
De meme, si on considère une combinaison lineaire des paramètres,
b,
b ^(
b,
2
(X
X)
1
), donc :
2
_
(X
X)
1
ot(N K 1)
2.10 Test dhypothèses
On a une hypothèse H
0
: b
k
= b
0
k
avec b
0
k
une valeur donnee, et H
1
=

H
0
.
On denit une region critique W à un seuil 1 donne telle que :
b
k
W on rejette H
0
et
P(
b
k
W[b
k
= b
0
k
) =
represente donc le risque de rejeter à tort H
0
.
18 2 LE MOD
`
ELE LIN
EAIRE STANDARD
On utilise le resultat precedent : sous H
0
,
b
k
b
0
k

_
v
k
x
ot(N K 1)
Do` u la region critique :
W telle que :
b
k
b
0
k

_
v
k
x
> avec tel que : P

_
b
k
b
0
k

_
v
k
x
>
_
=
est le quantile dordre 1 /2 = t
1/2
dune ot(N K 1). Do` u :
W =
_

b
k
> b
0
k
+
_
v
k
x
t
1/2
(N K 1)
b
k
< b
0
k

_
v
k
x
t
1/2
(N K 1)
2.11 Estimateurs MCO et estimateurs du maximum de
vraisemblance
On sait que :
L(y
i
[x
i
; b) =
e
(y
i
x
i
b)
2
2
2
2
Par independance des observations,
L(y[x, b) =
i
l(y
i
[x
i
, b)
L(y[x, b) =
e
(y
i
x
i
b)
2
2
2
(
2)
N
ln (L(y[x, b)) =
N
2
log(
2
)
1
2
2
(y
i
x
i
b)
2
N ln
_
2
_
Lestimateur du maximum de vraisemblance de b realise donc le programme :
max
b
_
1
2
2
(y
i
x
i
b)
2
_
Il sagit donc de lestimateur mco.
Lestimateur de

2
est obtenu par :
max
2
_
_
_
N
2
ln
2
_
(y
i
x
i
b)
2
_
2
2
_
_
_
Do` u :
2
MV
=
_
(y
i
x
i
b)
2
_
N
=
N K 1
N
2
MCO
19
3 Estimation sous contraintes lineaires
3.1 Introduction
On souhaite estimer un modèle econometrique lineaire en incorporant une
information a priori sur les paramètres prenant la forme de contraintes lineaires.
Exemple. Fonction de production Cobb-Douglas à k facteurs, et à rendements
dechelle constants :
log y = log +
1
log x
1
+... +
k
log x
k
+u
c.a.d un modèle lineaire standard
mais avec

k
j=1

j
= 1
3.1.1 Questions :
1. Comment tenir compte de cette information a priori dans la procedure
destimation des paramètres du modèle ?
On va introduire un nouvel estimateur : lestimateur des moindres carres
contraints :

b
c
2. Quelles sont les consequences de cette prise en compte pour les estimations
obtenues ? Les estimations sont-elles biaisees, sont elles plus precises ?
On va voir quil y a un arbitrage entre robustesse et ecacite
3. Peut-on tester linformation a priori ?
On va introduire un test très courant : Le test de Fisher
3.1.2 Formulation : Exemple
Supposons quon souhaite estimer le modèle :
y
n
= b
0
+b
1
x
1n
+b
2
x
2n
+b
3
x
3n
+b
4
x
4n
+b
5
x
5n
+b
6
x
6n
+u
n
,
avec les hypothèses habituelles
H
1
: E (u
n
[X) = 0, H
2
: V (u
n
[X) =
2
, n,
H
3
: E(u
n
u
n
[X) = 0, n
,= n,
H
4
: X de plein rang
avec des contraintes lineaires sur les paramètres :
C
1
: b
1
+b
2
+b
3
= 1
C
2
: b
4
= b
5
soit b
4
b
5
= 0
3.1.3 Reecriture sous forme matricielle :
_
0 1 1 1 0 0 0 0
0 0 0 0 0 1 1 0
_
_
_
_
_
_
_
_
_
_
_
b
0
b
1
b
2
b
3
b
4
b
5
b
6
_
_
_
_
_
_
_
_
_
_
=
_
1
0
_
soit
20 3 ESTIMATION SOUS CONTRAINTES LIN
EAIRES
R b = r
avec R une matrice 2 (6 + 1) et r un vecteur 2 1
3.1.4 Formulation generale
On considère le modèle lineaire :
y = X b +u
sous les contraintes
R b = r
(p, k + 1) (k + 1, p) (p, 1)
Le nombre de contraintes p doit etre au maximum egal ` a (k + 1) 1. Si on
en a k +1 ou plus, on en selectionne k +1 et on peut alors calculer le paramètre
b = R
1
r
3.2 LEstimateur des Moindres Carres Contraints (MCC)
Lestimateur
b
mcc
de b est deni comme celui minimisant la somme des carres
des residus sous les contraintes :
min
b
((y Xb)
(Y Xb))
Sous les contraintes Rb = r
Lagrangien :
min
b,
L = (Y Xb)
(Y Xb) + 2(Rb r)
multiplicateur de Lagrange : vecteur de dimension p 1

3.2.1 Expression de lestimateur des MCC
Lestimateur des MCC a pour expresssion
b
mcc
= (X
X)
1
X
Y (X
X)
1
R
_
R(X
X)
1
R
1
_
R(X
X)
1
X
Y r
Il sexprime simplement à partir de

b
mco
b
mcc
=

b
mco
(X
X)
1
R
_
R(X
X)
1
R
1
_
R

b
mco
r
_
3.2 LEstimateur des Moindres Carres Contraints (MCC) 21
Lestimateur des MCC apporte une correction à lestimateur

b
mco
dautant
plus importante que R
b
mco
r ,= 0.
Si R
b
mco
= r, les deux estimateurs sont identiques.
Demonstration.
L
b
mcc
= 2 X
Y + 2 X
X

b
mcc
+ 2 R

= 0
L
mcc
= R
b
mcc
r = 0
De la première condition on tire :

b
mcc
= (X
X)
1
_
X
Y R
_
Introduit dans la deuxième condition il vient lexpression
R (X
X)
1
_
X
Y R
_
= r soit R (X
X)
1
R

= R (X
X)
1
X
Y r
dont on tire

=
_
R (X
X)
1
R
_
1
_
R (X
X)
1
X
Y r
_
reintroduit dans on trouve lexpression de

b
mcc
b
mcc
= (X
X)
1
X
Y (X
X)
1
R
_
R(X
X)
1
R
1
_
R(X
X)
1
X
Y r
3.2.2 Proprietes Statistiques de

b
mcc
.
Proposition 3.1 (Expression de lesperance de

b
mcc
).
E
_
b
mcc
[X
_
= b (X
X)
1
R
_
R(X
X)
1
R
1
[Rb r]
Si les contraintes Rb = r sont valides, lestimateur

b
mcc
est sans biais
E
_
b
mcc
[X
_
= b
Si ces contraintes sont imposes ` a tort (i.e. si Rb ,= r), lestimateur des
MCC est biaise :
E
_
b
mcc
[X
_
= b (X
X)
1
R
_
R(X
X)
1
R
[Rb r]
= b +B
avec B = (X
X)
1
R
_
R(X
X)
1
R
[Rb r]
Proposition 3.2 (Expression de la variance de

b
mcc
). Que lestimateur
soit biaise ou non sa variance est donnee par :
V
_
b
mcc
[X
_
=
2
_
(X
X)
1
(X
X)
1
R
_
R (X
X)
1
R
1
R (X
X)
1
_
soit :
V
_
b
mcc
[X
_
= V
_
b
mco
[X
_
2
(X
X)
1
R
_
R(X
X)
1
R
1
R(X
X)
1
EAIRES
Comme (X
X)
1
R
_
R(X
X)
1
R
1
R(X
X)
1
est une matrice symetrique
et positive on en conclut que
V
_
b
mco
[X
_
_ V
_
b
mcc
[X
_
3.2.3 Interpretation
Lestimateur des mcc

b
mcc
est potentiellement biaise
E
_
b
mcc
[X
_
= b +B
mais est toujours plus ecace que lestimateur des mco
V
_
b
mcc
[X
_
_ V
_
b
mcc
[X
_
Il y a donc un arbitrage entre robustesse et ecacite. Introduire plus de
contraintes ameliorent la precision des estimations mais risque de conduire à
des estimateurs biaise.
A linverse, moins de contrainte produit des estimateurs plus robustes mais
moins precis.
Demonstration.
En rempla cant Y par (Xb +U), dans lexpression de

b
mcc
on peut re-ecrire
lestimateur des MCC comme :
b
mcc
= b+(X
X)
1
X
U (X
X)
1
R
_
R(X
X)
1
R
1
_
R(X
X)
1
X
u +Rb p
soit
b
mcc
= b (X
X)
1
R
_
R(X
X)
1
R
1
[Rb p]
+
_
(X
X)
1
X
(X
X)
1
R
_
R(X
X)
1
R
1
R(X
X)
1
X
_
U
= b +B + (X
X)
1
_
I R
_
R(X
X)
1
R
1
R(X
X)
1
_
X
U
= b +B + (X
X)
1
[ I C] X
U
o` u B = (X
X)
1
R
_
R(X
X)
1
R
1
[Rb p] et
C = R
_
R(X
X)
1
R
1
R(X
X)
1
Expression de lesperance de

b
mcc
Compte tenu de H
1
E (U [X) = 0
E
_
b
mcc
[X
_
= b (X
X)
1
R
_
R(X
X)
1
R
1
[Rb r] = b +B
Expression de la variance de

b
mcc
b
mcc
E
_
b
mcc
[X
_
= (X
X)
1
[ I C] X
U
Par consequent comme E [UU
[X] =
2
I :
V
_
b
mcc
[X
_
= E
_
_
b
mcc
E
_
b
mcc
[X
___
b
mcc
E
_
b
mcc
[X
__
[X
_
2
23
= E
_
(X
X)
1
[ I C] X
UU
X [ I C
] (X
X)
1
[X
=
2
(X
X)
1
[ I C] X
X [ I C
] (X
X)
1
=
2
(X
X)
1
[ X
X CX
X X
XC
+CX
XC
] (X
X)
1
Compte tenu de lexpression de C = R
_
R(X
X)
1
R
1
R(X
X)
1
on a
CX
X = R
_
R(X
X)
1
R
1
R(X
X)
1
X
X
= R
_
R(X
X)
1
R
1
R = CX
X
CX
XC
= CR
_
R(X
X)
1
R
1
R
= R
_
R(X
X)
1
R
1
R(X
X)
1
R
_
R(X
X)
1
R
1
R
= X
XC
= CX
X
Il en resulte que
V
_
b
mcc
[X
_
=
2
(X
X)
1
[ X
X CX
XC
] (X
X)
1
=
2
(X
X)
1
_
X
X R
_
R(X
X)
1
R
1
R
_
(X
X)
1
=
2
_
(X
X)
1
(X
X)
1
R
_
R(X
X)
1
R
1
R(X
X)
1
_
2
Lestimateur de la variance des residus est donne par :

2
c
=

U
U
c
N (k + 1) +p
=
n
u
nc
u
nc
N (k + 1) +p
Cest un estimateur sans biais de
2
si les contraintes Rb = r sont satisfaites
par le vrai modèle.
Demonstration.
A partir de lexpression de

b
mcc
= b + B + (X
X)
1
[ I C] X
U o` u C =
R
_
R(X
X)
1
R
1
R(X
X)
1
, on exprime le residu estime
U
c
= Y X

b
mcc
= Xb +U X
_
b +B + (X
X)
1
[ I C] X
U
_
= XB +
_
I X(X
X)
1
[ I C] X
U
= XB + (M +X(X
X)
1
CX
)U = XB + (M +P
c
)U
avec M =
_
I X (X
X)
1
X
_
et
P
c
= X(X
X)
1
CX
= X(X
X)
1
R
_
R(X
X)
1
R
1
R(X
X)
1
X
Les matrices M et P
c
satisfont les proprietes suivantes :
EAIRES
M = M
P
C
= P
C
M
2
= M P
2
C
= P
C
Tr (M) = N (K + 1) Tr (P
C
) = p
MP
C
= P
C
M = 0
On verie facilement P
C
= P
C
et P
2
C
= P
C
. En outre
Tr (P
C
) = Tr
_
X(X
X)
1
R
_
R(X
X)
1
R
1
R(X
X)
1
X
_
= Tr
_
_
R(X
X)
1
R
1
R(X
X)
1
X
X(X
X)
1
R
_
= Tr
_
I
dim(R(X
X)
1
R
)
_
do` u Tr (P
C
) = p enn comme P
C
= XZ on a aussi donc P
C
M = 0
On en deduit que
E
_
U
c
[X
_
= E (B
+U
(M +P
c
)) (XB + (M +P
c
) U [X)
= E
_
B
XB U
(M +P
c
)XB B
(M +P
c
) U +U
(M +P
c
)
2
U [X
_
= E (B
XB +U
(M +P
c
)U [X)
Finalement
E (U
(M +P
c
)U [X) = TrE (U
(M +P
c
)U [X)
= TrE ((M +P
c
)UU
[X)
=
2
Tr(M +P
c
) =
2
(N (K + 1) +p)
3.4 Estimation par integration des contraintes
Le problème destimation sous contrainte peut se ramener au resultat clas-
sique destimation par la methode des moindres carres en integrant directement
les contraintes dans le modèle.
On utilise les p contraintes pour exprimer p paramètres parmi les k + 1 à
estimer en fonction des (k + 1 p) autres paramètres.
On re-ecrit les contraintes Rb = r de la fa con suivante :
r =
_
r
1
r
2
_
= [R
1
, R
2
]
_
b
1
b
2
_
R
1
: p p, R
2
: p (K + 1 p) ,
r
1
et b
1
: p 1, r
2
et b
2
: K + 1 p 1
R
1
est supposee regulière. On peut alors ecrire :
r
1
= R
1
b
1
+R
2
b
2
soit encore b
1
= R
1
1
[r
1
R
2
b
2
]
Par consequent, en partageant le modèle de fa con analogue, on obtient :
Y = X
1
b
1
+X
2
b
2
+U = X
1
_
R
1
1
(r
1
R
2
b
2
)
+X
2
b
2
+U
3.5 Test dun Ensemble de Contraintes 25
Ceci revient à estimer :
Y X
1
R
1
1
r
1
=
_
X
2
X
1
R
1
1
R
2
b
2
+U
Le modèle ainsi ecrit ne depend plus alors que de (k + 1 p) paramètres ` a
estimer sans contraintes. Les p autres paramètres se deduisent de ceux-ci par la
relation : b
1
= R
1
1
r R
2
b
2
3.5 Test dun Ensemble de Contraintes
On souhaite tester la validite des contraintes imposees, soit
H
0
: = Rb r = 0
On fait lhypothèse de normalite des residus : U ^(0,
2
I)
Sous lhypothèse H
0
on a
F =
1
p
_
R(X
X)
1
R

2
=

U
U
C

U
U

U
N (K + 1)
p
=
SCR
c
SCR
SCR

N (k + 1)
p
F(p,N-(k+1))
o` u

= R
b
mco
r et SCR
C
=

U
U
C
et SCR =

U
U sont la somme des

carres des residus du modèle contraint et non contraint.
Demonstration.
Le principe du test est dexaminer si lestimateur des mco

b
mco
est proche
de satisfaire les contraintes, c.a.d il concerne la quantite
= R
b
mco
r,
en utilisant le fait que lon connait la loi de

:

N (,
2
R(X
X)
1
R
)
puisque

b
mco
N (b,
2
(X
X)
1
) à cause de lhypothèse de normalite des
residus.
Rappel :
1. Si Z vecteur de dimension h suit une loi normale N(0, V ) avec V inversible
alors Z
V
1
Z (h)
2. Si Q
1
(q
1
) et Q
2
(q
2
) et Q
1
Q
2
alors Z =
Q
1
/q
1
Q
2
/q
2
F(q
1
, q
2
) loi
de Fisher à q
1
et q
2
degres de liberte.
Sous H
0
, = 0,on a donc :
2
R(X
X)
1
R
_
R(X
X)
1
R
2
(p)
2
est inconnue, on la remplace par
2
=

U

U
N(K+1)
On sait quen outre

U
2
= (N (K + 1))

2
2

2
N(K+1)
et que
2
b
mco
do` u

U
2

Q
sous H
0
: Rb = r, la statistique :
EAIRES
F =
Q
/p
(N (K + 1))

2
2
/ (N (K + 1))
=
1
p
_
R(X
X)
1
R

2
F(p, N (k + 1))
3.5.1 Expression simpliee de la statistique
La statistique precedente, fonction de

b
mco
et
2
peut etre reecrite sous une
forme plus simple à partir de

b
mco
et
2
et

b
mcc
et
2
mcc
.
En eet :

b = (X
X)
1
X
Y = b + (X
X)
1
X
U donc sous H
0
, on a :
= R
b r = R(X
X)
1
X
U, do` u
_
R(X
X)
1
R
= U
X(X
X)
1
R
_
R(X
X)
1
R
1
R(X
X)
1
X
U
On reconnait P
C
= X(X
X)
1
R
_
R(X
X)
1
R
1
R(X
X)
1
X
On a donc

_
R(X
X)
1
R
= U
P
C
U.
Comme sous H
0

U
C
= (M +P
C
) U, et

U = MU et (M +P
C
)
2
= (M +P
C
) ,on
a

U
U
C
= U
(M +P
C
) U = U
MU +U
P
C
U =

U
U +U
P
C
U
Soit
_
R(X
X)
1
R
= U
P
C
U =

U
U
C

U
U
Do` u lexpression de la statistique communement utilisee :
F =
SCR
c
SCR
SCR

N (k + 1)
p
F(p,N-(k+1))
SCR est la somme des carres des residus estimes sans contraintes et SCR
c
est la somme des carres des residus estimes sous contrainte.
3.5.2 Mise en oeuvre du test
1. On estime le modèle avec et sans contraintes, et on deduit

U
U
C
et

U
U
(i.e. SCR
c
et SCR).
2. On calcule

F et on la compare au fractile dordre (1) de la loi F(p, N
(k + 1)), note F(1 ).
3. Si Q
c
> F(1 ) ; on rejette H
0
: la somme des carres des residus estimes
sous contraintes dière trop de celle des carres des residus estimes sous
contrainte pour admettre que H
0
est vraie.
4. Si Q
c
F(1 ), on accepte lhypothèse H
0
.
3.6 Test de la signicativite globale des coecients dune regression 27
3.5.3 Application : Test de legalite à une valeur donnee de plusieurs
coecicents :
On veut tester H
0
:
b
1
= b
0
1
b
2
= b
0
2
.
.
.
b
J
= b
0
J
contre H
1
: H
c
0
Cest à dire un test degalite de J coecients à des valeurs donnees. La
dierence avec le test de Student standard est quon souhaite faire un test global,
sur lidentite simultannee des coecients
Avec le test de Fisher il sut destimer le modèle non contraint
Y = Xb +U
de calculer la somme SCR des carres des residus estimes, destimer le modèle
contraint
Y
k=J
k=1
X
k
b
0
k
= b
0
e +
k=K
k=J+1
X
k
b
k
+U
de calculer la somme SCR
C
des carres des residus estimes et de former la
statistique
F =
N (K + 1)
J
SCR
C
SCR
SCR
F (J, N (K + 1))
3.6 Test de la signicativite globale des coecients dune
regression
H
0
: b
1
= b
2
= b
3
= ... = b
K
= 0
Sous H
0
, le modèle secrit : Y = b
0
e + U, do` u

b
0
= y et

U
c
= Y y e.
La SCR
c
est donc donnee par : SCR
c
=
n
(y
n
y)
2
. Sous H
1
, SCR =

U
U.
Par consequent, sous H
0
,

n
(y
n
y)
2
U

U

N(K+1)
K
F(K, N (K + 1)). Or
R
2
= 1

U
n
(y
n
y)
2
, on obtient donc :
F =
R
2
1 R
2

N (K + 1)
K
F (K, N (K + 1))
Si

F est superieure au Fractile dordre (1 ) de la loi de Fisher à (K, N
(K + 1)) ddl, on refuse lhypothèse H
0
.
3.7 Le Test de Chow
Question : le modèle est-il homogène entre deux groupes dobservation?
Exemple, dans le domaine de la consommation, on peut se demander si les
comportements de menages appartenant à divers groupes socio-professionnels
sont similaires ou bien si, au contraire, des dierences marquees peuvent etre
constatees.
Cest par la mise en oeuvre du test de Chow que lon peut tenter dapporter
une reponse à ces questions.
EAIRES
3.7.1 Formalisme
Supposons que lon dispose de deux echantillons (Y
1
, X
1
) et (Y
2
, X
2
) de
tailles respectives N
1
et N
2
, relatifs à deux groupes dobservations dierents
(i.e. deux periodes, deux categories de menages,...).
1. Modèle relatif au 1er groupe :Y
1
= X
1
b
1
+U
1
Y
1
vecteur N
1
1 des observations pour le premier groupe
X
1
matriceN
1
(K + 1) des variables explicatives (1, x
1
, . . . , x
K
)pour le
premier groupe
2. Modèle relatif au 2ème groupe :Y
2
= X
2
b
2
+U
2
avec U
1
N(0,
2
I
N
1
), U
2
N(0,
2
I
N
2
) et U
1
U
2
= 0
La question posee est de savoir si le comportement modelise est identique
pour les deux groupes dobservations.
i.e. H
0
: b
1
= b
2
contre H
1
: b
1
,= b
2
On empile les deux regressions denies ci-dessus. Ceci nous amène à ecrire :
_
Y
1
Y
2
_
=
_
X
1
0
0 X
2
_ _
b
1
b
2
_
+
_
U
1
U
2
_
Le test de Chow est donc un cas particulier du test de Fisher : on test ici
legalite de deux groupes de coecients.
Par consequent, on refuse H
0
si
SCR
c
SCR
SCR

(N
1
+N
2
) 2(K + 1)
(K + 1)
> f
(1)
(K + 1, N
1
+N
2
(K + 1))
o` u SCR
C
est la somme des carres des residus associees à la regresion sous
lhyptothèse H
0
: b
1
= b
2
, SCR est la somme des carres des residus associees à
la regression sous lhypothèse H
1
= b
1
,= b
2
.
Si cette inegalite est veriee, on rejette lhypothèse dhomogeneite des com-
portements.
Simplication du calcul des SCR et SCR
c
Sous lhypothèse H
0
: b
1
=
b
2
= b
0
, on peut ecrire :
_
Y
1
Y
2
_
=
_
X
1
X
2
_
b
0
+
_
U
1
U
2
_
On estime donc un seul modèle à partir des deux echantillons pris ensemble
et on calcule la somme des carres des residus SCR
c
Sous lhypothèse H
1
on retrouve le modèle deni plus haut :
_
Y
1
Y
2
_
=
_
X
1
0
0 X
2
_ _
b
1
b
2
_
+
_
U
1
U
2
_
=

Xb +U
On verie aisement que M
X
= I

X
_

X
_
1
=
_
M
X
1
0
0 M
X
2
_
3.7 Le Test de Chow 29
Donc
SCR = Y
X
Y = Y
1
M
X
1
Y
1
+Y
2
M
X
2
Y
2
= SCR
1
+SCR
2
o` u SCR
1
est la somme des carres des residus associee à la regression sur
le premier groupe et idem pour SCR
2
. La SCR sous H
1
peut sobtenir comme
sommation des SCR associees aux regressions sur chacun des sous-echantillons.
3.7.2 Principe dapplication du test de Chow (sous hypothèse dho-
mosc edasticite et non-correlation des residus).
1. Calculer SCR
c
en estimant un seul modèle pour les N
1
+N
2
observations.
2. Calculer SCR en estimant le modèle sur chaque echantillon et additionnant
les SCR associees à chacune de ces regressions.
3. Comparer la quantite
SCR
c
SCR
SCR

N
1
+N
2
2(K+1)
(K+1)
au seuil theorique f(K+
1, N
1
+N
2
2(K + 1))
30 4 PROPRI
ET
ES ASYMPTOTIQUES DE LESTIMATEUR DES MCO

4 Proprietes asymptotiques de lestimateur des
MCO
4.1 Rappel sur les convergences
Soit (X
n
) une suite de va. Soit F
n
la fonction de repartition de X
n
. Soit X
une va de fonction de repartition F.
Toutes ces va sont denies sur le meme espace probabilise, cest-à-dire quun
meme evenement determine une valeur de X
n
(), X().
4.1.1 Convergence en loi
Denition 4.1. On dit que (X
n
) converge en loi vers X (X
n
L
X) si la suite
de fonctions (F
n
) converge, point par point, vers F :
x, F
n
(x) F(x).
4.1.2 Convergence en probabilite
Denition 4.2. On dit que (X
n
) converge en probabilite vers X (X
n
P
X o` u
plim
n
X
n
= X) si
> 0, Pr [X
n
X[ >
n
0.
(NB : Pr [X
n
X[ > = Pr , [X
n
() X()[ > .)
4.1.3 Dierents resultats
X
n
P
X X
n
L
X.
a constant, X
n
P
a X
n
L
a.
X
n
L
X et Y
n
L
Y X
n
+Y
n
L
X +Y et X
n
Y
n
L
XY.
Pour toute fonction g continue, X
n
L
X g(X
n
)
L
g(X) et X
n
P
a
g(X
n
)
P
g(a).
Theorème 4.1 (Theorème de Slutsky).
X
n
L
X et Y
n
P
a X
n
Y
n
L
Xa
X
n
+Y
n
L
X +a
X
n
/Y
n
L
X/a si a ,= 0
.
Theorème 4.2 (Loi des grands nombres (Chebichev)). Soit (X
i
) une
suite de va independantes telles que EX
i
= m et VX
i
= existent,
1
N
N
i=1
X
i
P
m qd N .
Demonstration.
Pour toute va positive X on a le resultat
Pr (X > a) <
E (X)
a
4.1 Rappel sur les convergences 31
en eet
E (X) =
_
a
0
Xf (X) dX +
_
+
a
Xf (X) dX >
_
+
a
Xf (X) dX
> a
_
+
a
f (X) dX = a Pr (X > a)
On a donc
Pr
_
1
N
N
i=1
X
i
m
>
_
= Pr
_
_
_
1
N
N
i=1
(X
i
m)
_
2
>
2
_
_
<
E
_
_
1
N
N
i=1
(X
i
m)
_
2
_
2
Comme
E
_
_
_
1
N
N
i=1
(X
i
m)
_
2
_
_
=
1
N
2
E
_
_
_
N
i=1
(X
i
m)
_
2
_
_
=

N
On voit que
Pr
_
1
N
N
i=1
X
i
m
>
_
<

N
2
0
4.1.4 Theorème central limite (Lindeberg-Levy)
Theorème 4.3 (Theorème central-limite). Soit (X
i
) une suite de va iid
telles que EX
i
= m et VX
i
= existent,
N
_
1
N
N
i=1
X
i
m
_
L
^(0, ).
Demonstration. La demonstration se fait à partir des fonctions caracteris-
tiques. On appelle fonction caracte ristique dune variable aleatoire Z la fonction
Z
(t) = E (exp (it
Z))
Proposition 4.4 (Propriete dinjectivite). Si
Z
1
(t) =
Z
2
(t) alors F
Z
1
=
F
Z
2
, soit Z
1
d
= Z
2
On peut calculer la fonction de caracteristique dune loi normale
z ^ (0, )
z
(t) = exp
_
t
2
_
On a alors directement avec
n
(t) = E
_
expit
N
_
N
i=1
X
i
N
m
__
32 4 PROPRI
ET
n
(t) = E
_
exp
N
i=1
it
(X
i
m)
N
_
= E
_
i=n
i=1
exp
it
(X
i
m)
N
_
=
i=n
i=1
E
_
exp
it
(X
i
m)
N
_
=
_
E
_
exp
it
(X
i
m)
N
__
N
n
(t)
_
E
_
1 +
it
(X
i
m)
1
2N
(t
(X
i
m))
__
N
=
_
1
1
2N
t
t
_
N
exp
t
t
2
Theorème 4.5 (Methode delta). Pour toute fonction g continue, dieren-
tiable, si
n(X
n
m)
L
^(0, ),
alors
n(g(X
n
) g(m))
L
^
_
0,
_
g(m)
m
_
g(m)
m
_
.
Demonstration.
On a dabord X
n
P
m puisque
Pr ([X
n
m[ > ) <
E (X
n
m)
2
2
=
V (
n(X
n
m))
n
2

n
2
On applique le theorème de la valeur moyenne :
n
[0, 1] tq
g(X
n
) = g(m) +
g
m
(m+
n
(X
n
m)) (X
n
m) .
n(g(X
n
) g(m)) =
g
m
(m+
n
(X
n
m))
n(X
n
m)
m+
n
(X
n
m)
P
m donc Z
n
=
g
m
(m+
n
(X
n
m))
P
g
m
(m) .
Comme

n(X
n
m)
L
^(0, ), et Z
n
P
g
m
(m),
n(g(X
n
) g(m)) = Z
n
n(X
n
m)
L
^
_
0,
_
g(m)
m
_
g(m)
m
_
.
4.2 Proprietes asymptotiques de lestimateur des MCO
On considère le modèle
y
i
= x
i
b +u
i
avec les hypothèses
Hypothèse (H
1
). E (u
i
[x
i
) = 0
4.2 Proprietes asymptotiques de lestimateur des MCO 33
Hypothèse (H
2
). V (u
i
[x
i
) = V (u
i
) =
2
Les observations(y
i
, x
i
) RR
K+1
, i =
1, ..., N, sont iid
Hypothèse (H
3
). N, X
X est non singulière

Hypothèse (H
4
). E(x
i
x
i
)est inversible
Hypothèse (H
5
). Les moments de (y
i
, x
i
) existent au moins jusquà lordre 4.
Theorème 4.6. Sous les hypothèses H
1
` a H
5
,
Lestimateur des MCO
b
mco
= (X
X)
1
X
Y =
_
x
i
x
i
_
1
x
i
y
i
1.

b = (X
X)
1
X
Y
P
b,
2.

N
_
b b
_
L
^
_
0,
2
[E(x
i
x
i
)]
1
_
,
3.
2
=
1
NK1
_
Y X
b
_
_
Y X
b
_
P
2
,
qd N .
On dit que

b est convergent et asymptotiquement normal.
Demonstration.
1. Convergence de lestimateur
Lestimateur des mco secrit
b
mco
= (X
X)
1
X
Y = x
i
x
i
1
x
i
y
i
On remplace y
i
par sa valeur : y
i
= x
i
b +u
i
. On a donc
b
mco
= x
i
x
i
1
x
i
(x
i
b +u
i
) = x
i
x
i
1
_
x
i
x
i
b +x
i
u
i
_
= b +x
i
x
i
1
x
i
u
i
La loi des grands nombre appliquee à x
i
x
i
et x
i
u
i
montre que
x
i
x
i
=
1
N
N
i=1
x
i
x
i
P
E(x
i
x
i
), et x
i
u
i
=
1
N
N
i=1
x
i
u
i
P
E(x
i
u
i
).
Remarque : Importance de lhypothèse dexistence des moments dordre
4.
On en deduit que
x
i
x
i
1
P
E(x
i
x
i
)
1
x
i
x
i
1
x
i
u
i
P
E(x
i
x
i
)
1
E(x
i
u
i
)
b
mco
= b +x
i
x
i
1
x
i
u
i
P
b + E(x
i
x
i
)
1
E(x
i
u
i
)
puisque E(x
i
x
i
) et E(x
i
u
i
) sont constants, que lapplication A A
1
est continue et que le produit et la somme de suites de va convergent en
probabilite vers des constantes converge en probabilite.
Comme
E(x
i
u
i
) = E[x
i
E(u
i
[x
i
)] = 0
On a bien
b
P
b
34 4 PROPRI
ET

2. Normalite asymptotique
De

b
mco
= b +x
i
x
i
1
x
i
u
i
on deduit
N
_
b
mco
b
_
=
Nx
i
x
i
1
x
i
u
i
= x
i
x
i
1
Nx
i
u
i
On applique le Theorème Central Limite à

Nx
i
u
i
. On sait que
E(x
i
u
i
) = 0
V(x
i
u
i
) = V(E(x
i
u
i
[x
i
)) + E(V(x
i
u
i
[x
i
)) = E(x
i
V(u
i
[x
i
) x
i
) =
2
E(x
i
x
i
)
Les moments dordre 1 et 2 de x
i
u
i
existent donc.
Le TCL permet alors darmer
Nx
i
u
i
L
^
_
0,
2
E(x
i
x
i
)
_
Comme
x
i
x
i
1
P
E(x
i
x
i
)
1
.
qui est une matrice constante, on peut donc appliquer le theorème de
Slutsky à x
i
x
i
1
et

Nx
i
u
i
:
x
i
x
i
1
Nx
i
u
i
L
E(x
i
x
i
)
1
^
_
0,
2
E(x
i
x
i
)
_
= ^
_
0, E(x
i
x
i
)
1
2
E(x
i
x
i
)E(x
i
x
i
)
1
_
= ^
_
0,
2
E(x
i
x
i
)
1
_
on a donc bien
N
_
b b
_
L
^
_
0,
2
[E(x
i
x
i
)]
1
_
3. Estimation de la variance
Lestimateur de la variance des residus

2
=
1
N K 1
_
Y X
b
_
_
Y X
b
_
secrit compte tenu de Y = Xb +U

2
=
1
N K 1
_
X
_
b
b
_
+U
_
_
X
_
b
b
_
+U
_
=
N
N K 1
_
x
i
_
b
b
_
+u
i
_
_
x
i
_
b
b
_
+u
i
_
=
N
N K 1
_
b
b
_
i
x
i
_
b
b
_
+
_
b
b
_
x
i
u
i
+u
i
x
i
_
b
b
_
+u
i
u
=
N
N K 1
_
_
b
b
_
i
x
i
_
b
b
_
+ 2
_
b
b
_
i
u
i
+u
2
i
_
P
2
puisque

b
P
bx
i
x
i
P
E
_
x
i
x
i
_
, x
i
u
i
P
E
_
x
i
u
i
_
, u
2
i
P
E
_
u
2
i
_
=
2
4.3 Estimation de la variance de lestimateur 35
4.3 Estimation de la variance de lestimateur
La matrice de variance-covariance asymptotique de lestimateur dilate
b est
V
as
_
b
_
=
2
[E(x
i
x
i
)]
1
.
Cette matrice peut etre estimee de fa con convergente par
V
as
_
b
_
=
2
_
x
i
x
i
_
1
=
2
_
1
N
X
X
_
1
.
La matrice de variance-covariance de

b est approxiamtivement
V
_
b
_
1
N

2
0
[E(x
i
x
i
)]
1
.
Cette matrice peut etre estimee de fa con convergente par
V
_
b
_
1
N

2
_
x
i
x
i
_
1
=
1
N

2
_
1
N
X
X
_
1
=
2
(X
X)
1
.
5 Tests asymptotiques
On denit une region critique RC pour une statistique

S telle que
S ( on rejette H
0
contre H
1
Denition 5.1. On dit que le test de region critique ( est asymptotique si
ses proprietes sont valables pour N grand; quil est de niveau asymptotique
si lim
N
Pr
_
S ( [H
0
_
= ; et quil est convergent si sa puissance tend vers
un ( lim
N
Pr
_
S ( [H
a
_
= 1).
Pr
_
S ( [H
0
_
est le risque de première espèce : la probabilite de rejeter
H
0
à tort. est choisi petit : (5% , 1% ).
Pr
_
S ( [H
a
_
est le risque de deuxième espèce : la probabilite daccepter
H
0
à tort cest à dire la puissance du test.
5.0.1 p-value
La statistique

S est choisie de telle sorte que sous H
0

S S
0
et la loi de S
0
est connue et positive (valeur absolue dune loi normale, loi
du khi deux). La region critique est denit comme
RC = S [S > q (1 , S
0
)
o` u q (1 , S
0
) est le quantile dordre 1 de S
0
.
Pr (S
0
> q (1 , S
0
)) =
Denition 5.2 (p-value). On denit la p-value p
_
S
_
comme

S = q
_
1 p
_
S
_
, S
0
_
i.e.
p
_
S
_
= Pr
_
S
0
>

S
_
.
36 5 TESTS ASYMPTOTIQUES
Pour tout seuil , on rejette H
0
au seuil ssi p
_
S
_
. En eet, si
p
_
S
_
cest que
= Pr S
0
> q (1 , S
0
) Pr
_
S
0
>

S
_
S > q (1 , S
0
)
_
5.1 Test dhypothèses lineaires
On teste un système de contraintes lineaires. Pour R R
p(K+1)
, une ma-
trice dont les lignes sont lineairement independantes, et r R
p
, on teste
H
0
: Rb = r contre H
a
: Rb ,= r.
Lestimateur des MCO etant asymptotiquement normal,
N
_
b b
_
L
^
_
0, V
as
_
b
_
=
2
[E(x
i
x
i
)]
1
_
on a sous H
0
N
_
R
b r
_
L
^
_
0, V
as
_
NR
b
_
=
2
R[E(x
i
x
i
)]
1
R
_
5.1.1 Cas dune seule contrainte, p = 1 : test de Student.
On ecrit R = c
R
K+1
et r R. Sous lhypothèse nulle
H
0
: c
b = r
On a donc

N
_
c
b r
_
L
^
_
0, c
V
as
_
b
_
c
_
ou encore
N
c
b r
_
c
V
as
_
b
_
c
L
^(0, 1).
V
as
_
b
_
=
2
[E(x
i
x
i
)]
1
est inconnue mais on en a un estimateur convergent
V
as
_
b
_
=
2
_
x
i
x
i
_
1
=
2
_
1
N
X
X
_
1
. On applique le theorème de
Slutsky. On en deduit que la statistique de Student :
T =
N
c
b r
_
c

V
as
_
b
_
c
=
c
b r
_
c

V
_
b
_
c
L
^(0, 1).
Test bilateral.H
0
: c
b r = 0 contre H
1
: c
b r ,= 0 On denit la region
critique comme
W =
_
T
[T[ > q
_
1

2
__
o` u q
_
1

2
_
est le quantile 1

2
de la loi normale ^(0, 1)
Sous H
0
on a
Pr
_
T W [H
0
_
Pr
_
[^(0, 1)[ > q
_
1

2
__
=
5.1 Test dhypothèses lineaires 37
Sous H
1
on a c
b r c
b r = m ,= 0 donc
N =
_
c
b r
_
_
_
c

V
as
_
b
_
c [m[
_
_
c
V
as
_
b
_
c
do` u
+Pr
_
T W [H
1
_
1
Test unilateral H
0
: c
b r = 0 contre H
1
: c
b r > 0 On denit la region

critique comme
W = T [T > q (1 )
o` u q (1 ) est le quantile 1 de la loi normale ^(0, 1)
Sous H
0
on a
Pr
_
T W [H
0
_
Pr ^(0, 1) > q (1 ) =
Sous H
1
on a c
b r c
b r = m > 0 donc
T
_
N =
_
c
b r
_
_
_
c

V
as
_
b
_
c m
_
_
c
V
as
_
b
_
c
do` u
+Pr
_
T W [H
1
_
1
5.1.2 Cas de plusieurs contraintes, p K : test de Wald.
Rappel Z ^(0, ), inversible =Z
1
Z
2
K
. Do` u
N
_
R
b r
_
_
RV
as
_
b
_
R
_
1
_
R
b r
_
L
2
p
.
On peut remplacer V
as
_
b
_
par un estimateur convergent et appliquer Slutsky.
Do` u, sous lhypothèse nulle, H
0
: Rb
0
= r, et après simplication des N,
W = N
_
R
b r
_
_
R
V
as
_
b
_
R
_
1
_
R
b r
_
=
_
R
b r
_
_
R
V
_
b
_
R
_
1
_
R
b r
_
=
_
R
b r
_
_
R(X
X)
1
R
_
1
_
R
b r
_

2
= p
F
L
2
p
, sous H
0
Region critique et p-value On rejettera H
0
au seuil si la statistique de
Wald,

W, est superieure au quantile 1 de la loi du
2
à p (le nombre de
contraintes) degres de liberte :
W > q
_
(1 ),
2
p
_
Sous H
0
on a
Pr
_
W > q
_
(1 ),
2
p
_
_
Pr
_
2
p
> q
_
(1 ),
2
p
__
=
38 5 TESTS ASYMPTOTIQUES
Sous H
1
on a R
b r Rb r = m ,= 0
Donc

W/N =
_
R
b r
_
_
R
V
as
_
b
_
R
_
1
_
R
b r
_
constante
et donc
W
La p value est denie comme p = Pr
_
S
0
>

W
_
Application : Test de la nullite des paramètres dune regression sauf
la constante. Pour tester la nullite de tous les paramètres dune regression
sauf la constante, on peut former la statistique de Fisher comme
F =
(SCR
C
SCR) /K)
SCR/(N K 1)
=
R
2
1 R
2
N K 1
K
.
Do` u
W = K

F =
R
2
1 R
2
(N K 1) .
Sous H
0
il est facile de voir que R
2
P
0 qd N . On a donc
W NR
2
On peut utiliser la statistique NR
2
et rejetter lhypothèse nulle si
NR
2
> q
_
(1 ),
2
p
_
.
5.2 Test dhypothèses non lineaires
Le principe du test de Wald sapplique au test dhypothèses non line aires
generales de la forme :
H
0
: g(b) = 0,
o` u g(b) est un vecteur de p contraintes non lineaires sur les paramètres telle que
g(b)
b
est de plein rang

g(b
0
)
b
_
g(b
0
)
b
inversible.
Remarque g(b) = Rb r ; alors
g(b)
b
= R.
En appliquant la methode delta :
N
_
g(
b) g(b)
_
L
^
_
0,
2
g(b)
b
[E(x
i
x
i
)]
1
_
g(b)
b
_
.
Cas dune seule contrainte, p = 1. On forme la statistique de student :
T =
g(
b)
_
g(
b)
b
V
_
b
__
g(
b)
b
et on procède comme dans le cas dune contrainte lineaire.

39
Cas de plusieurs contraintes, p < K+1. On calcule la statistique de Wald :
W = g(
b)
_
g(
b)
b
V
_
b
_
_
g(
b)
b
_1
g(
b)
que lon compare au quantile 1 de la loi du
2
à p (le nombre de contraintes)
degres de liberte.
6 Le modèle lineaire sans lhypothèse IID
6.1 Presentation
On considère le cas dans lequel une variable aleatoire y
i
depend de K + 1
variables explicatives x
i
:
y
i
= x
i
b +u
i
On maintient lhypothèse
Hypothèse (H
1
). E (u
i
[x
i
) = 0
En revanche, on ne fait plus lhypothèse iid :
Hypothèse (Hypothèse iid).
Var (u
i
[x
i
) =
2
Cov (u
i
, u
j
[x
i
) = 0
6.2 Exemples :
Exemple (Series temporelles). Erreurs distribuees suivant une moyenne mo-
bile :
y
t
= x
t
b +u
t
u
t
=
t
+
t1
et E (
t
[X) = 0, E (
t
t
[X) = 0 pour t ,= t
, E
_
2
t
[X
_
=
2
donc
E
_
u
2
t
[X
_
= E (
t
+
t1
)
2
= E
_
2
t
+ 2
t
t1
+
2
2
t1
_
=
2
_
1 +
2
_
E
_
u
t
u
t1
[X
_
= E (
t
+
t1
) (
t1
+
t2
) =
2
E (u
t
u
t
[X) = 0 [t t
[ > 1
La matrice de variance covariance secrit alors pour un echantillon de taille
T
V (U [X) =
2
_
_
_
_
_
_
_
_
_
_
1 +
2
_
0 0
.
.
.
.
.
.
.
.
.
.
.
.
0
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.

0 0
_
1 +
2
_
_
_
_
_
_
_
_
_
_
,=
2
I
T
40 6 LE MOD
`
ELE LIN
EAIRE SANS LHYPOTH

`
ESE IID
Exemple (Donnees de panel). Donnees à double indice :
y
it
, x
it
i = 1, . . . , N, t = 1, . . . , T
i indice representant les individus en general grand,
t indice temporel, en general faible
Le modèle secrit comme dhabitude :
y
it
= x
it
b +u
it
i = 1, . . . , N, t = 1, . . . , T
ou encore
y
i
= x
i
b +u
i
i = 1, . . . , N,
z
i
=
_
z
i1
z
iT
_
On fait les hypothèses
E (u
i
[X) = 0
E
_
u
i
u
j
[X
_
= 0 i ,= j
En revanche on ne fait pas lhypothèse
E (u
i
u
i
[X) =
2
I
T
Le residu u
it
incorpore des elements inobserves permanent dans le temps.
Exemple (Modèle à erreurs composees).
u
it
=
i
+w
it
avec
E (w
i
w
i
[X) =
2
W
I
T
, E (
i
w
i
[X) = 0, E
_
2
i
[X
_
=
2
On determine facilement la matrice de variance

= E (u
i
u
i
[X) =
_
_
_
_
_
_
+
2
W

2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

2
+
2
W
_
_
_
_
_
_
ainsi que la matrice de variance covariance des residus empiles
E (UU
[X) = I
N

,=
2
I
NT
Exemple (Regressions empilees). M variables à expliquer, K
m
+1 variables
explicatives x
mi
dans lequation de y
mi
:
y
mi
, x
mi
i = 1, . . . , N, m = 1, . . . , M
Le modèle secrit pour chaque variable dependante :
y
mi
= x
mi
b
m
+u
mi
i = 1, . . . , N
ou encore
6.2 Exemples : 41
_
_
_
y
1i
.
.
.
y
Mi
_
_
_ =
_
_
_
x
1i
0
0
.
.
.
0
0 x
Mi
_
_
_
_
_
_
b
1
.
.
.
b
M
_
_
_+
_
_
_
u
1i
.
.
.
u
Mi
_
_
_
y
i
=

X
i
b +u
i
i = 1, . . . , N,
o` u

X
i
est la matrice bloc diagonale dont les ele ments de la diagonale sont x
mi
.
Un tel système porte le non de SUR system, SUR signiant Seemingly Unrelated
Regressions. Elle correspnd à la situation dans laquelle il ny a pas de restrictions
entre les coecients intervenant dans chaque equation. Un cas particulier est
donne par le fait que dans chaque equation lensemble des variables explicatives
soit le meme x
mi
= x
i
. Dans ce cas la matrice

X
i
secrit simplement

X
i
= I
M
x
i
Il peut y avoir à linverse des specications plus contraintes. On peut par
exemple introduire des restrictions entre les paramètres des equations : egalite
de coecients entre deux equations, nullite de la somme de coecients dune
variable intervenant dans chaque equation...Ces restrictions peuvent secrire sous
la forme b et H tel que

b = Hb. Lequation generale se reecrit donc :
y
i
=

X
i
Hb +u
i
i = 1, . . . , N,
y
i
= X
i
b +u
i
i = 1, . . . , N,
avec X
i
=

X
i
H
On fait les hypothèses
E (u
i
[X) = 0
E
_
u
i
u
j
[X
_
= 0 i ,= j
E (u
i
u
i
[X) =
Les residus u
mi
nont pas necessairement la meme variance et peuvent en
outre etre correles entre eux. On peut distinguer le cas particulier o` u =
diag
_
2
1
, . . . ,
2
M
_
La matrice de variance covariance des residus empiles a alors pour expression
E (UU
[X) = I
N

,=
2
I
NT
Exemple (Modèle à coecent aleatoire). (dim(x
i
) = 1)
y
i
= a +x
i
b
i
+v
i
b
i
= b +v
bi
avec , E (v
i
[X) = 0, E (v
i
v
j
[X) = 0 pour i ,= j, E
_
v
2
i
[X
_
=
2
v
,
et E (v
bi
[X) = 0, E (v
bi
v
bj
[X) = 0 pour i ,= j, E
_
v
2
bi
[X
_
=
2
b
,
et E (v
bi
v
j
[X) = 0 i, j
Le modèle se reecrit donc
y
i
= a +x
i
b
i
+v
i
= a +x
i
(b +v
bi
) +v
i
= a +x
i
b +x
i
v
bi
+v
i
= a +x
i
b +u
i
u
i
= x
i
v
bi
+v
i
42 6 LE MOD
`
ELE LIN
EAIRE SANS LHYPOTH

`
ESE IID
On a donc les proprietes
E (u
i
[X) = E (x
i
v
bi
+v
i
[X) = x
i
E (v
bi
[X) +E (v
i
[X) = 0
et
E (u
i
u
j
[X) = 0 i ,= j
= E ((x
i
v
bi
+v
i
) (x
j
v
bj
+v
j
) [X)
= x
i
x
j
E (v
bi
v
bj
[X) +x
i
E (v
bi
v
j
[X) +x
j
E (v
i
v
bj
[X) +E (v
i
v
j
[X) = 0
E
_
u
2
i
[X
_
= x
2
i
2
b
+
2
v
= E
_
(x
i
v
bi
+v
i
)
2
[X
_
= E
__
x
2
i
v
2
bi
+ 2x
i
v
bi
v
i
+v
2
i
_
[X
_
La matrice de variance covariance secrit donc
E (UU
) = Diag
_
2
v
+x
2
i
2
b
_
,=
2
I
N
Exemple (Modèle heteroscedastique en coupe).
y
i
= a +x
i
b +u
i
avec ,
E (u
i
[X) = 0,
E (v
i
v
j
[X) = 0 pour i ,= j,
E
_
v
2
i
[X
_
=
2
i
,
La matrice de variance covariance secrit donc
E (UU
[X) = Diag
_
2
i
_
,=
2
I
N
6.3 Conclusion des exemples
Une grande diversite de situations
La matrice de variance des perturbations peut
dependre ou non des variables explicatives :
cas par exemple du modèle à coecients aleatoires
dependre de paramètres additionnel de dimension nie :
cas par exemple des donnees de panel, des regressions
empilees
dependre de paramètres additionnels de dimension innie :
cas du modèle heteroscedastique en coupe
6.4 Le modèle lineaire heteroscedastique 43
6.4 Le modèle lineaire heteroscedastique
6.4.1 Denition et hypothèses
On considère le cas dans lequel une variable aleatoire y
i
depend de K + 1
variables explicatives x
i
:
y
i
= x
i
b +u
i
soit
Y = Xb +U
Hypothèse (H
1
). E (U [X) = 0
Hypothèse (H
2
). E (UU
[X) = = (X, ) inversible

Hypothèse (H
3
). X
X inversible
Le modèle est dit heteroscedastique car on na plus lhypothèse
Hypothèse (Non-H
2
). E (UU
[X) =
2
I
Dans un tel cas le modèle aurait ete dit homoscedastique.
On peut distinguer deux types dheteroscedasticite
heteroscedasticite due au fait que les donnees ne sont pas iid : correlation
des perturbations, heterogene ite de la variance
E (UU
[X) = ()
cest le cas du modèle à moyenne mobile du modèle de donnees de panel, du
modèle de regressions empilees et du modèle heteroscedastique en coupe.
heteroscedasticite due aux variables explicatives
E (UU
[X) = (X, ) , depend de X

cest le cas du modèle à coecients variables
On se pose les questions suivantes
Les proprietes statistiques de lestimateur des MCO sont elles modiees ?
Lestimateur est-il toujours sans biais et convergent ?
Quelle est sa matrice de variance et comment lestimer ?
Lestimateur des MCO est-il toujours optimal ?
Comment detecter la presence dheteroscedasticite ?
6.5 Estimation par les MCO
Proposition 6.1. Sous les hypothèses H1, H2, H3, lestimateur des MCO,
b
MCO
= (X
X)
1
X
Y , est sans biais :

E
_
b
MCO
[X
_
= 0,
et sa variance sachant X est
V
_
b
MCO
[X
_
= (X
X)
1
X
X(X
X)
1
.
44 6 LE MOD
`
ELE LIN
EAIRE SANS LHYPOTH

`
ESE IID
Demonstration.
On a
b
MCO
= (X
X)
1
X
Y = (X
X)
1
X
(Xb +U)
= b + (X
X)
1
X
U
On a donc pour lesperance de lestimation
E
_
b
MCO
[X
_
= b +E
_
(X
X)
1
X
U[X
_
= b + (X
X)
1
X
E (U[X) = b
De plus
V
_
b
MCO
[X
_
= V
_
(X
X)
1
X
U[X
_
= (X
X)
1
X
V (U[X) X(X
X)
1
= (X
X)
1
X
X(X
X)
1
.
6.6 La methode des Moindres Carres Generalises (MCG)
Denition 6.1. Lestimateur des MCG est solution du problème :
min
b
_
SCRG(b) (Y Xb)

1
(Y Xb)
_
Proposition 6.2. Sous les hypothèses H1, H2, H3, lestimateur des MCG
existe, il est unique et est donne par :
b = (X
1
X)
1
X
1
Y.
Demonstration.
Les conditions du premier ordre CN secrivent :
SCRG(
b)
b
= 2X
1
_
Y X
b
_
= 0 X
1
X
b = X
1
Y.
La matrice hessienne de lobjectif a pour expression
SCRG(
b)
bb
= 2X
1
X
Sous H1, H2, H3, X
1
X est inversible syme trique et positive : a ,= 0
R
K+1
, a, Xa ,= 0 sinon X
X non inversible. Comme est inversible on a

(Xa)

1
Xa > 0. Do` u
SCRG(
b)
bb
< 0 : Les CN sont necessaires et susantes,

b
MCG
= (X
1
X)
1
X
1
Y
car X
1
X inversible
6.7 Proprietes statistiques de lesperance et de la variance conditionnelle des MCG45
Sphericisation. Pour toute matrice symetrique et denie positive W il existe
une matrice W
1/2
telle que W =
_
W
1/2
_
2
. Cette matrice nest pas unique. On
peut clairement la choisir comme symetrique et semi-denie positive (Puisque W
est symetrique et semie de nie positive elle est diagonalisable dans le groupe
orthogonal : W = P
DP, avec P
P = I et D = Diag (
k
) la matrice dia-
gonale formee des valeurs propres de W. D
1/2
= Diag
_
k
_
existe et verie
_
D
1/2
_
2
= D. On peut denir W
1/2
= P
D
1/2
P, et on a W
1/2
symetrique semi
denie positive.). Dautres choix sont neanmoins possible et peuvent se reveler
int eressant, comme le fait de choisir W
1/2
triangulaire inferieure ou superieur.
Dune fa con ou dune autre, on denit ainsi
1/2
et
1/2
veriant
1/2
=
_
1/2
_
1
do` u
1
=
_
1/2
1/2
_
1
=
1/2
1/2
.
Si on multiplie le modèle par
1/2
on a :
1/2
Y =
1/2
Xb +
1/2
U
Y =

Xb +

U
Cette transformation des variables Y et X en
1/2
Y et
1/2
X est dite
operation de sphericisation. On dit : sphericiser un modèle .On a
H1 : E
_
X
_
= E
_
1/2
U
1/2
X
_
=
1/2
E (U [X) = 0
H2 : E
_
X
_
= E
_
1/2
UU
1/2
X
_
=
1/2
E (UU
[X)
1/2
=
1/2
1/2
= I
H3 :

X

X = X
1/2
1/2
X = X
1
X inversible
Lestimateur des MCG est lestimateur des MCO des coecients de la re-
gression de

Y sur les colonnes de

X :
b
MCO
=
_

X
_
1
Y =
_
X
1
X
_
1
X
1/2
1/2
Y
=
_
X
1
X
_
1
X
1
Y =
b
MCG
6.7 Proprietes statistiques de lesperance et de la variance
conditionnelle des MCG
Proposition 6.3. Lestimateur des MCG verie les proprietees suivantes
1. Lestimateur des MCG est sans biais : E
_
b
MCG
[X
_
= b
2. Lestimateur des MCG a pour matrice de variance
V(
b
MCG
[X) = (X
1
X)
1
3. Lestimateur des MCG est le meilleur estimateur lineaire sans biais (Th.
de Gauss Markov)
Demonstration.
b
MCG
= (X
1
X)
1
X
1
Y = (X
1
X)
1
X
1
(Xb +U)
b
MCG
= b + (X
1
X)
1
X
1
U
46 6 LE MOD
`
ELE LIN
EAIRE SANS LHYPOTH

`
ESE IID
1. Sans biais :
E
_
b
MCG
[X
_
= b +E
_
(X
1
X)
1
X
1
U [X
_
= b + (X
1
X)
1
X
1
E (U [X) = b
2. Variance
V
_
b
MCG
[X
_
= V
_
(X
1
X)
1
X
1
U [X
_
= (X
1
X)
1
X
1
V (U [X)
1
X(X
1
X)
1
= (X
1
X)
1
X
1
X(X
1
X)
1
= (X
1
X)
1
3. Optimalite : Provient directement de

b
MCG
=
b
MCO
et

b
MCO
optimal
47
7 Lestimateur des MCQG
La matrice est inconnue. Lestimateur des MCG et la matrice de variance
des MCO ne sont pas calculables. Il faut donc estimer cette matrice. Soit

un
estimateur de . On appelle estimateur des Moindres Carres Quasi-Generalises
lestimateur :
b
MCQG
= (X
1
X)
1
X
1
Y.
Lestimateur des MCQG nest en general pas sans biais ni lineaire en Y
puisque

depend de Y .
Les proprietes de

b
MCQG
ne peuvent donc etre quasymptotiques.
7.0.1 Cas o` u = () et de dimension nie
y
i
= x
i
b +u
i
, y
i
de dim M 1, x
i
de dim M K + 1
Hypothèse (H
1
). E (u
i
[x
i
) = 0
Hypothèse (H
2
). V (u
i
[x
i
) = V (u
i
) = () de dim M M, est alors
necessairement de dimension nie
Hypothèse (H
3
). Les observations (y
i
, x
i
) RR
K+1
, i = 1, ..., N, sont iid
Hypothèse (H
4
et H
5
). N X
X et E(x
i
x
i
) sont inversibles
Hypothèse (H
6
i
, x
i
Theorème 7.1. Sous les hypothèses H1 ` a H6, lestimateur des MCO
b
mco
= (X
X)
1
X
Y =
_
x
i
x
i
_
1
x
i
y
i
verie quand N
1.

b
mco
P
b, convergence ;
2.

N
_
b
mco
b
_
L
^
_
0, V
as
_
b
mco
__
, Normalite asymptotique ;
3. V
as
_
b
mco
_
= [E(x
i
x
i
)]
1
E(x
i
x
i
) [E(x
i
x
i
)]
1
4.

=
_
y
i
x
i
b
mco
__
y
i
x
i
b
mco
_
= u
i
u
i
P
, Estimation de
5.

V
as
_
b
mco
_
= (x
i
x
i
)
1
x
x
i
x
i
x
i
1
P
V
as
_
b
mco
_
Estimation de V
6.

N
V
as
_
b
mco
_
1/2
_
b
mco
b
_
L
^ (0, I)
Demonstration.
Si M est la longueur du vecteur y
i
: y
i
=
_
y
1i
y
Mi
_
X
X =

i=N,m=M
i=1,m=1
x
im
x
im
=

i=N
i=1
m=M
m=1
x
im
x
im
=

i=N
i=1
x
i
x
i
do` u lexpression de

b
mco
48 7 LESTIMATEUR DES MCQG
1. Convergence On a

b
mco
= b +
_
x
i
x
i
_
1
x
i
u
i
Comme les observations sont independantes entre deux individus i et j et
que les moments dordre 4 existent, do` u lexistence de moments dordre 2
pour x
i
x
i
et x
i
u
i
en appliquant la loi des grands nombre
_
x
i
x
i
_
1
x
i
u
i
P
E (x
i
x
i
)
1
E (x
i
u
i
) et E (x
i
u
i
) = E (x
i
E (u
i
[x
i
)) = 0

N
_
b
mco
b
_
=
_
x
i
x
i
_
1
Nx
i
u
i
Theorème central limite applique à x
i
u
i
E (x
i
u
i
) = 0 et V (x
i
u
i
) =
E (V (x
i
u
i
[x
i
)) = E (x
i
V (u
i
[x
i
) x
i
) = E (x
i
x
i
) existent. On a donc
Nx
i
u
i
L
N (0, E (x
i
x
i
))
On applique le theorème de Slutsky
_
x
i
x
i
_
1
P
E (x
i
x
i
)
1
et
Nx
i
u
i
L
N (0, E (x
i
x
i
))
donc
N
_
b
mco
b
_
=
_
x
i
x
i
_
1
Nx
i
u
i
L
N
_
0, E (x
i
x
i
)
1
E (x
i
x
i
) E (x
i
x
i
)
1
_
3. Estimation de
=
_
y
i
x
i
b
mco
__
y
i
x
i
b
mco
_
= u
i
u
i
u
i
= y
i
x
i
b
mco
= x
i
_
b
b
mco
_
+u
i
=
_
x
i
_
b
b
mco
_
+u
i
__
x
i
_
b
b
mco
_
+u
i
_
= u
i
u
i
+x
i
_
b
b
mco
__
b
b
mco
_
i
+
x
i
_
b
b
mco
_
u
i
+u
i
_
b
b
mco
_
i
Le premier terme converge vers par la loi des grands nombres.
Le deuxième terme est une matrice dont les elements sont somme de termes
x
k
li
_
b
b
mco
_
m
_
b
b
mco
_
m
x
k
i
=
_
b
b
mco
_
m
_
b
b
mco
_
m
x
k
li
x
k
i
comme
_
b
b
mco
_
P
0 et que x
k
li
x
k
i
P
E
_
x
k
li
x
k
i
_
le deuxième terme
tend vers zero en probabilite. De meme pour le troisième et le quatrième
terme.
4. Estimation de la variance de lestimateur des mco
V
_
b
mco
_
= (x
i
x
i
)
1
x
x
i
x
i
x
i
1
P
V
_
b
mco
_
Le seul terme important est x
x
i
et on a
x
x
i
E (x
i
x
i
) =
_
x
x
i
x
i
x
i
_
+
_
x
i
x
i
E (x
i
x
i
)
_
=
_
x
i
_

_
x
i
_
+
_
x
i
x
i
E (x
i
x
i
)
_
49
Le deuxième terme tend vers zero en probabilite par la loi forte des grands
nombres.
Le premier terme tend vers zero en probabilite par le meme genre dargu-
ment que precedemment, puisque

Enn, comme
V
_
b
mco
_
P
V
_
b
mco
_
et

N
_
b
mco
b
_
L
^
_
0, V
_
b
mco
__
on a directement par le theorème de Slutsky
V
_
b
mco
_
1/2
_
b
mco
b
_
L
^ (0, I)
Hypothèse (H
7
).

P
, lestimateur des MCQG
Theorème 7.2. Sous les hypothèses H1 ` a H7, et si
b
mcqg
=
_
x
_
1
x
i
_
1
x
_
1
y
i
verie quand N
1.

b
mcqg
P
b, Convergence ;
2.

N
_
b
mcqg
b
_
L
^
_
0, V
as
_
b
mcqg
__
, Normalite asymptotique ;
3. V
as
_
b
mcqg
_
=
_
E(x
1
x
i
)
1
= V
_
b
mcg
_
Equivalence asymptotique
entre MCQG et MCG
4.

V
as
_
b
mcqg
_
= x
1
x
i
1
P
V
_
b
mcg
_
Estimation de la variance ;
5.

N
V
as
_
b
mcqg
_
1/2
_
b
mcqg
b
_
L
^ (0, I).
Demonstration. Soit

=
_
_
. Comme

P
,

1. Convergence

b
mcqg
= b +
_
x
1
x
i
_
1
x
1
u
i
Chaque terme de x
1
x
i
est somme de termes de la forme x
k
li
1
m,m
x
k
i
=
1
m,m
x
k
li
x
k
i
converge vers

1
m,m
x
k
li
x
k
i
P
1
m,m
E
_
x
k
li
x
k
i
_
et est le terme
correspondant de E
_
x
1
x
i
_
. On a donc
x
1
x
i
P
E
_
x
1
x
i
_
De meme
x
1
u
i
P
E
_
x
1
u
i
_
= E
_
x
1
E (u
i
[x
i
)
_
= 0
Do` u la convergence de lestimateur
Le seul point à montrer est

Nx
1
u
i
L
N
_
0, E
_
x
1
x
i
__
Nx
1
u
i
=
Nx
i
_
1
_
u
i
+
Nx
1
u
i
Chaque terme de

Nx
i
_
1
_
u
i
est de la forme
Nx
k
li
_
1
m,m

1
m,m
_
u
l
i
=
_
1
m,m

1
m,m
Nx
k
li
u
l
i
Le premier terme converge en probabilite vers 0. Le deuxième terme converge
en loi vers une loi normale.
Elle est donc bornee en probabilite :
X
N
bornee en probabilite si > 0 M
et N
tq N > N
P ([X
N
[ > M
) <
On peut montrer que le produit dune suite convergeant en probabilite
vers 0 et une suite bornee en probabilite converge en probabilite vers 0. Le
comportement asymptotique de

Nx
1
u
i
est donc le meme que celui
de
Nx
1
u
i
. Comme V
_
x
1
u
i
_
= E
_
x
1
x
i
_
, il converge donc en
loi vers une loi normale N
_
0, E
_
x
1
x
i
__
3. Les deux derniers points se demontrent de la meme fa con que pr ecedem-
ment.
7.0.2 Application
Donnees de panel et Regressions empilees
On estime le modèle
y
i
= x
i
b +u
i
par les MCO :

b
MCO
= (X
X)
1
(X
Y )
On calcule le residu pour chaque individu
u
i
= y
i
x
i
b
MCO
On calcule un estimateur de la matrice de variance des residus
= u
i
u
i
On peut alors determiner la variance asymptotique et la variance de les-
timateur des MCO par
V
as
_
b
mco
_
= (x
i
x
i
)
1
x
x
i
x
i
x
i
1
V
_
b
mco
_
=
1
N
V
as
_
b
mco
_
On calcule lestimateur des MCQG
b
mcqg
=
_
x
1
x
i
_
1
x
1
y
i
51
On calcule la variance asymptotique et la variance de lestimateur des
MCQG
V
as
_
b
mcqg
_
= x
1
x
i
1
V
_
b
mcqg
_
=
1
N
V
as
_
b
mcqg
_
7.0.3 Retour sur les regressions SUR
On considère la situation dans laquelle lensemble des regresseurs intervenant
dans chaque equation est le meme, lorsquil ny a pas de contrainte entre les
paramètres dune equation à lautre. Dans une telle situation on a,
Theorème 7.3 (Theorème de Zellner). Lestimateur des mcg est equivalent
` a lestimateur des mco eectue equation par equation.
Demonstration.
Un tel modèle secrit sous la forme :
y
i
= (I
M
x
i
) b +u
i
et b
=
_
b
1
, . . . , b
M
_
est de dimension M (K + 1) . Dans ce cas lestimateur des
MCG est donne par
b
MCG
= (I
M
x
i
)

1
(I
M
x
i
)
1
(I
M
x
i
)

1
y
i
Rappel sur les produits de Kronecker de matrices : si AC et BD existent, cest
à dire si leurs dimensions sont conformes aux produits matriciels, on a
(AB) (C D) = (AC BD)
On rappelle aussi que (AB)
= (A
) .
Dans ces conditions, puisque
1
=
1
1 et que x
i
est de dimension
1 (K + 1) on a (I
M
x
i
)

1
=
_
I
M
x
i
_
_
1
1
_
=
_
1
x
i
_
. On a
de meme (I
M
x
i
)

1
(I
M
x
i
) =
_
1
x
i
_
(I
M
x
i
) =
_
1
x
i
x
i
_
et
(I
M
x
i
)

1
y
i
=
_
I
M
x
i
__
1
y
i
1
_
=
_
1
y
i
x
i
_
. On a donc
b
MCG
=
1
x
i
x
i
1
_
1
y
i
x
i
_
= x
i
x
i
1
_
1
y
i
x
i
_
= x
i
x
i
1
_
1
y
i
x
i
_
=
_
y
i
_
x
i
x
i
1
x
i
__
Comme
y
i
_
x
i
x
i
1
x
i
_
=
_
_
y
1i
_
x
i
x
i
1
x
i
_
.
.
.
y
Mi
_
x
i
x
i
1
x
i
_
_
_
=
_
_
x
i
x
i
1
x
i
y
1i
.
.
.
x
i
x
i
1
x
i
y
Mi
_
_
on voit que
b
MCG
= y
i
_
x
i
x
i
1
x
i
_
=
_
_
x
i
x
i
1
x
i
y
1i
.
.
.
x
i
x
i
1
x
i
y
Mi
_
_
=
_
b
MCO
(1)
.
.
.
b
MCO
(M)
_
_
o` u

b
MCO
(m) = x
i
x
i
1
x
i
y
mi
est lestimateur des mco sur l equation m prise
individuellement.
Remarquons toutefois que la variance de lestimateur secrit
V
as
_
b
MCG
_
= E
_
u
i
_
x
i
x
i
1
x
i
_
u
_
x
i
x
i
1
x
i
_
_
=
_
E
_
x
i
x
i
_
1
_
Bien que pouvant etre calcules simplement equation par e quation, les estima-
teurs pour chaque equations sont correles entre eux.
7.0.4 Cas o` u = (, X) et de dimension nie
y
i
= x
i
b +u
i
Hypothèse (H
1
). E (u
i
[x
i
) = 0
Hypothèse (H
2
). V (u
i
[x
i
) = V (u
i
) = (, x
i
) regulière : C
Hypothèse (H
3
i
, x
i
) RR
K+1
, i = 1, ..., N, sont iid
Hypothèse (H
4
et H
5
). N X
X et E(x
i
x
i
) sont inversibles
Hypothèse (H
6
i
, x
i
) existent au moins jusquà nimporte
quel ordre
Hypothèse (H
7
).

Theorème 7.4. Sous les hypothèses H1 ` a H7, lestimateur des MCQG
b
mcqg
=
_
X
I
N

_
, X
_
1
X
_
1
X
I
N

_
, X
_
1
Y
=
_
x
, X
_
1
x
i
_
1
x
, X
_
1
y
i
verie quand N
1.

b
mcqg
P
b, Convergence
2.

N
_
b
mcqg
b
_
L
^
_
0, V
as
_
b
mcqg
__
, Normalite asymptotique
3. V
as
_
b
mcqg
_
=
_
E(x
i
(x
i
, )
1
x
i
)
_
1
=V
_
b
mcg
_
Equivalence MCQG et
MCG
53
4.

V
as
_
b
mcqg
_
= x
_
x
i
,
_
1
x
i
1
P
V
as
_
b
mcqg
_
Estimation de V
5.

N
V
as
_
b
mcqg
_
1/2
_
b
mcqg
b
_
L
^ (0, I)
Demonstration. Soit

i
=
_
, x
i
_
.
1. Convergence

b
mcqg
= b +
_
x
1
i
x
i
_
1
x
1
i
u
i
x
1
i
z
i
= x
i
(x
i
, )
i
z
i
+ x
i
_
_
x
i
,
_
(x
i
, )
_
z
i
comme
P
i
1
z
i
P
E
_
x
i
(x
i
, )
1
z
i
_
Do` u la convergence de lestimateur puisque E
_
x
i
(x
i
, )
1
u
i
_
= 0
Le seul point à montrer est

Nx
1
i
u
i
L
N
_
0, E
_
x
i
(x
i
, )
1
x
i
__
Nx
1
u
i
=
Nx
i
_
1
i
(x
i
, )
1
_
u
i
+
Nx
i
(x
i
, )
1
u
i
1
m,m

1
m,m
=
m,m
/
_
, x
i
__

_
, avec
<
Chaque terme de
Nx
i
_
1
_
u
i
est somme de termes de la forme
Nx
k
li
_
1
m,m

1
m,m
_
u
l
i
=

Nx
k
li
u
l
m,m
/
_
, x
i
__

_
Le
deuxième terme converge en probabilite vers 0. Le premier terme converge
en loi vers une loi normale si x
k
li
u
l
m,m
/
_
, x
i
_
a des moments
dordre 1 et 2. Elle est donc bornee en probabilite et on procède comme
precedemment.
3. Les deux derniers points se demontrent de la meme fa con que pr ecedem-
ment.
7.0.5 Application :
Modèle en coupe
y
i
= x
i
b +u
i
dans lequel on specie la forme de lheterogeneite (p.e. modèle à coecient
aleatoire). On suppose quil existe des variables z
i
formees à partir de x
i
telles
que
2
i
= exp z
i
log
_
2
i
_
= z
i
On procède de la fa con suivante :

1. Calcul de

b
MCO
et des residus : u
i
= y
i
x
i
b
MCO
.
2. Regression de log
_
u
2
i
_
sur les variables z
i
: log
_
u
2
i
_
= z
i
+w
i
.
3. Construction dun estimateur de
i
par
i
= exp z
/2
4. Calcul des donnees sphericisees : y
i
= y
i
/
i
, x
i
= x
i
/
i
5. Calcul de lestimateur des MCO sur ces donnees
7.0.6 Cas o` u = () et de dimension quelconque
y
i
= x
i
b +u
i
Hypothèse (H
1
). E (u
i
[x
i
) = 0
Hypothèse (H
2
). V (u
i
[x
i
) = () et de dimension quelconque
Hypothèse (H
3
i
, x
i
) RR
K+1
, i = 1, ..., N, sont iid
Hypothèse (H
4
). N X
X est non singulière

Hypothèse (H
5
). E(x
i
x
i
) est inversible
Hypothèse (H
6
i
, x
i
Theorème 7.5. Sous les hypothèses H1 ` a H6, lestimateur des MCO
b
mco
= (X
X)
1
X
Y =
_
x
i
x
i
_
1
x
i
y
i
verie quand N
1.

b
mco
P
b,
2.

N
_
b
mco
b
_
L
^
_
0, V
_
b
mco
__
,
3. V
_
b
mco
_
= [E(x
i
x
i
)]
1
E(x
i
u
i
u
i
x
i
) [E(x
i
x
i
)]
1
4.

V
_
b
mco
_
= (x
i
x
i
)
1
x
i
u
i
u
i
x
i
x
i
x
i
1
P
V
_
b
mco
_
5.

N
V
_
b
mco
_
1/2
_
b
mco
b
_
L
^ (0, I) ,
Demonstration.
1. Le premier point se demontre comme precedemment
2. Pour le deuxième point
N
_
b
mco
b
_
=
_
x
i
x
i
_
1
Nx
i
u
i
3. Theorème central limite applique à x
i
u
i
: E (x
i
u
i
) = 0 et V (x
i
u
i
) =
E (x
i
u
i
u
i
x
i
) existent. On a donc

Nx
i
u
i
L
N (0, E (x
i
u
i
u
i
x
i
))
On a donc
N
_
b
mco
b
_
=
_
x
i
x
i
_
1
Nx
i
u
i
L
N
_
0, E (x
i
x
i
)
1
E (x
i
u
i
u
i
x
i
) E (x
i
x
i
)
1
_
7.1 Tests dheteroscedasticite 55
4. Estimation de la matrice de variance
Le point important est de montrer que x
i
u
i
u
i
x
i
P
E (x
i
u
i
u
i
x
i
)
x
i
u
i
u
i
x
i
= x
i
_
x
i
_
b
b
mco
_
+u
i
__
x
i
_
b
b
mco
_
+u
i
_
x
i
= x
i
u
i
u
i
x
i
+x
i
x
i
_
b
b
mco
__
b
b
mco
_
i
x
i
+
x
i
x
i
_
b
b
mco
_
u
i
x
i
+x
i
u
i
_
b
b
mco
_
i
x
i
Le premier terme converge vers E (x
i
u
i
u
i
x
i
) car les moments dordre 8
existent.
Le deuxième terme est une matrice dont les elements sont somme de termes
(x
i
x
i
)
l
1
l
2
_
b
b
mco
_
m
_
b
b
mco
_
m
(x
i
x
i
)
l
1
l
2
=
_
b
b
mco
_
m
_
b
b
mco
_
m
(x
i
x
i
)
l
1
l
2
(x
i
x
i
)
l
1
l
2
comme
_
b
b
mco
_
P
0 et
que (x
i
x
i
)
l
1
l
2
(x
i
x
i
)
l
1
l
2
P
E
_
(x
i
x
i
)
l
1
l
2
(x
i
x
i
)
l
1
l
2
_
le deuxi ème terme tend
vers zero en probabilite. De meme pour le troisi ème et le quatrième terme.
Cet estimateur de la matrice de variance de lestimateur des mco est connu
sous le nom de matrice de variance de White robuste à lhet eros-
cedasticite. Il est tres couramment utilise et syst ematiquement propose
dans les logiciels standards.
Il faut neanmoins conserve à lesprit que cet estimateur nest convergeant
que pour pour des echantillons de grandes taille pour lesquels on peut
esperer que les moments dordre quatre calcules soient proches de leurs
valeur moyenne
7.0.7 Application
Modèle heteroscedastique en coupe
V (u
i
) =
i
7.1 Tests dheteroscedasticite
On considère le cas des regressions en coupe
y
i
= x
i
b +u
i
V (u
i
) =
2
i
(y
i
, x
i
) independants
7.1.1 Test de Goldfeld-Quandt
Si la variance
2
i
varie de fa con monotone en fonction demph des variables
explicatives (appelons-la z
i
R), on peut ordonner les observations en fonction
de z
i
et supposer que z
i
z
i+1
. On partitionne ensuite les observations en deux
groupes tels que :
y
1
=
_
_
_
y
1
.
.
.
y
N
1
_
_
_, X
1
=
_
_
_
x
1
.
.
.
x
N
1
_
_
_,
y
2
=
_
_
_
y
N
2
+1
.
.
.
y
N
_
_
_, X
2
=
_
_
_
x
N
2
+1
.
.
.
x
N
_
_
_.
Les seuils N
1
et N
2
sont choisis de fa con à ecarter les deux echantillons. En
pratique on prend N
1
N/3 et N
2
2N/3.
On estime le modèle lineaire par la methode des MCO sur chaque sous-
echantillon. Soient

2
1
=
1
N
1
K 1
N
1
i=1
(y
i
x
b
1
)
2
,

2
2
=
1
N N
2
K 1
N
i=N
2
+1
(y
i
x
b
1
)
2
les deux estimateurs de la variance.
Sous lhypothèse dhomoscedasticite,

2
1

2
0
N
1
K 1
2
N
1
K1
,

2
2

2
0
N N
2
K 1
2
NN
2
K1
.
Si bien que

2
1

2
2
F
N
1
K1,NN
2
K1
.
On rejettera lhypothèse nulle dhomoscedasticite (sous lhypothèse mainte-
nue de normalite) au seuil si :

2
1

2
2
> F
N
1
K1,NN
2
K1
(1 )
o` u F
N
1
K1,NN
2
K1
(1) est le quantile 1 de la loi de Fisher à N
1
K1
et N N
2
K 1 degres de liberte
7.1.2 Test de Breusch-Pagan
On considère une hypothèse alternative à lhypothèse dhomoscedasticite de
la forme :
H
a
:
2
i
=
2
0
+z
0
o` u
2
0
R et
0
R
M
sont deux paramètres et o` u z
i
est maintenant un vecteur
quelconque de M variables explicatives formees à partir de x
i
(par exemple, les
7.1 Tests dheteroscedasticite 57
variables de x
i
et leurs produits croises). Attention, on ne garde dans z
i
que des
variables, pas de terme constant. Lhypothèse nulle dhomoscedaticite secrit :
H
0
:
0
= 0.
Le test de Breusch-Pagan se fait de la fa con suivante :
1. Estimer le modèle lineaire par MCO et calculer le carre des residus : u
2
i
;
2. Regresser par MCO u
2
i
sur les variables z
i
avec une constante. Soit R
2
le
coecient de determination de cette regression;
3. Sous lhypothèse nulle, NR
2
L

2
M
. On rejette H
0
au seuil si NR
2
>
2
1
(M).
Remarque. Le test se fait à partir des residus estimes ( u
2
i
/
2
). Montrer que tout
se passe comme si lon travaillait avec u
2
i
/
2
0
necessite des hypothèses supple-
mentaires.
58 8 AUTOCORRELATION DES R
ESIDUS
8 Autocorrelation des residus
Dans les modèles en serie temporelles et en donnees de panel, lhypothèse
de non-autocorrelation des perturbations est assez forte et frequemment non-
veriee.
On considère les modèles sur serie temporelle :
y
t
= x
t
b +u
t
, t = 1, . . . , T
On va voir ` a ce sujet :
les principales formes dautocorrelation;
les tests permettant de detecter lautocorrelation;
les methodes destimation adaptees en presence dautocorrelation.
8.1 Les diverses formes dautocorrelation des perturba-
tions
8.1.1 Perturbations suivant un processus autoregressif dordre 1 (AR1)
Selon cette hypothèse (AR1), les perturbations du modèle sont engendrees
par le processus :
u
t
= u
t1
+
t
, t = 1, ...T
avec :
E (
t
[X) = 0, V (
t
[X) =
2
, cov (
t
,
t
[X) = 0, t ,= t
: les hypo-
thèses dhomoscedasticite et dindependance sont transferees aux innova-
tions du processus :
t
[[ < 1
8.1.2 Stationnarite au premier et au second ordre dun processus
AR1
u
t
= u
t1
+
t
= ( u
t2
+
t1
) +
t
=
t
+
t1
+
2
( u
t3
+
t2
)
=
t
+
t1
+ +
t1
1
+
t
u
0
Le processus u
t
est dit stationnaire au premier ordre et au second ordre si
et seulement si :
E (u
t
[X) = E (u
t1
[X) = = E (u
0
[X) = , t
V (u
t
[X) = V (u
t1
[X) = = V (u
0
[X) =
2
u
, t.
Le processus AR(1) u
t
est stationnaire si E (u
0
[X) = 0 et V (u
0
[X) =
/
_
1
2
_
et cov (
t
, u
0
) = 0. Ces conditions sont satisfaites si le processus
engendrant u
t
debute en .
Compte tenu de lexpression : u
t
=
t
+ +
t1
1
+
t
u
0
.
On a : E (u
t
[X) = E (
t
[X) + +
t1
E (
1
[X) +
t
E (u
0
[X) = 0
De meme, compte tenu de lindependance des chocs
s
entre eux et leur
independance avec u
0
8.1 Les diverses formes dautocorrelation des perturbations 59
V (u
t
[X) = V (
t
[X) +
2
V (
t1
[X) + +
2(t1)
V (
1
[X) +
2t
V (u
0
[X)
=
2
_
1 +
2
+ +
2(t1)
_
+
2t
2
u
0
=
2
1
2t
1
2
+
2t
2
u
0
=

2
1
2

2t

2
1
2
+
2t
2
u
0
Si
2
u
0
=
2
/
_
1
2
_
on a
V (u
t
[X) =
2
/
_
1
2
_
Si le processus remonte en on a :
u
t
= lim
s=0
ts
On a donc
V (u
t
[X) = lim
s=0
2s
=

2
(1
2
)
Reciproquement si le processus est stationnaire on a :
V (u
t
[X) = V (u
t1
+
t
[X) =
2
V (u
t1
[X) +V (
t
)
V (u
t
[X) =
2
V (u
t1
[X) +
2
2
u
_
1
2
_
=
2
8.1.3 Covariance entre deux perturbations dun processus AR(1)

Cov(u
t
, u
ts
[X) =
s

2
1
2
En eet, on a :
u
t
= u
t1
+
t
= [ u
t2
+
t1
] +
t
=
s
u
ts
+
s1
t(s1)
+... +
t
Par consequent
cov(u
t
, u
ts
[X) = E
__
s
u
ts
+
s1
ts+1
+... +
t
_
u
ts
[X
_
=
s
E
_
u
2
ts
[X
_
+
s1
E (
ts+1
u
ts
[X) +... +E (
t
u
ts
[X)
Comme E
_
t(si)
, u
ts
[X
_
= 0, i ,= 0 on a bien lexpression cherchee.
ESIDUS
8.1.4 Matrice de variances-covariances des perturbations
V (U [X) =

2
1
2
_
_
1
2

T1
1
T2
.
.
.
.
.
.
.
.
.
T2
1
T1
T2
1
_
_
Expression simple :
traduisant une idee simple : un choc exogène à un moment donne, a un
eet persistant mais decroissant exponentiellement avec le temps.
permettant la mise en oeuvre facile de methodes destimation plus ecaces
que les MCO (telles les MCQG).
8.1.5 Perturbations suivant un processus AR(p)
u
t
suit un processus autoregressif dordre p note AR(p) si :
u
t
=
1
u
t1
+
2
u
t2
+ +
p
u
tp
+
t
soit
A(L) u
t
=
t
avec A(Z) = 1
1
Z
2
Z
2

p
Z
p
, E (
t
[X) = 0, V (
t
[X) =
2
et
cov(
t
,
t
[X) = 0, t ,= t
On montre que pour que le processus AR(p) soit stationnaire

V u
t
=
2
u
, cov (u
t
, u
ts
) =
s
il faut que les racines du polynome (Z) soient de module superieur à 1.
Exemple (Cas dun processus AR(2)). Les contraintes sur
1
et
2
sont :
1
+
2
< 1,
2
1
< 1 et [
2
[ < 1
Les variances et covariances des perturbations u
t
sont alors :
V u
t
=
2
u
=
1
2
(1+
2
)[(1
2
)
2
2
1
]
=
0
, t
cov (u
t
, u
t1
) =

1
1
2
2
u
=
1
cov (u
t
, u
t2
) =
2
2
u
+

2
1
1
2
2
u
=
2
=
2
0
+
1
1
cov (u
t
, u
ts
) =
s
=
1
s1
+
2
s2
, s > 2
Exemple
u
t
= 0.5u
t1
+ 0.3u
t2
+e
t
Soit : (1 + 0.5L 0.3L
2
)u
t
= e
t
On determine les racines du polynome 1 + 0.5z 0.3z
2
Le discriminant vaut
= (0.5)
2
4(0.3) = 0.25 + 1.2 = 1.45 = (1.204)
2
> 0
et les racines sont donc
z
1
=
0.5 1.204
2(0.3)
= 2.84 et z
2
=
0.5 + 1.204
2x(0.3)
= 1.17
Le processus est donc stationnaire puisque les racines sont superieures à 1
en valeur absolue.
8.1.6 Perturbations suivant un processus de moyenne mobile dordre
q MA(q)
La perturbation u
t
suit un processsus de moyenne dordre q note MA(q) si :
u
t
=
t
+
1
t1
+
2
t2
+ +
q
tq
avec E
t
= 0, V
t
=
2
et cov (
t
,
t
) = 0 t ,= t
Là encore les hypothèses iid sont transposees au processus

t
.
Le modèle se reecrit donc :
u
t
= B(L)
t
avec B(Z) = 1 +
1
Z +
2
Z
2
+ +
q
Z
q
Application : Les valeurs anticipees de variables interviennent souvent dans
les modèles econometriques. Elles sont toujours non-observables et il faut donc
les modeliser. On retiend souvent un schema adaptatif. Lanticipation x
t
de la
variable x
t
est modelisee suivant un processus adaptatif
x
t
x
t1
=
(x
t1
x
t1
), [
[ < 1
x
t
= (1
) x
t1
+
x
t1
Les anticipations sont revisees dune periode à lautre en fonction de lerreur
danticipation commise à la periode precedente.
Le processus secrit encore
[1 (1
) L] x
t
=
x
t1
=
Lx
t
et on peut le resoudre comme
x
t
=

L
[1 (1
) L]
x
t
=
_
L
s=0
(1
)
s
L
s
_
x
t
=
s=0
(1
)
s
x
ts1
Les anticipations x
t
apparaissent ainsi comme une somme ponderee innie
(avec des poids decroissants exponentiellement) des valeurs passees de x
t
.
Si le modèle que lon souhaite estimer secrit :
y
t
= ax
t
+
t
en le premultipliant par [1 (1
) L] ,on obtient :
[1 (1
) L] y
t
= a [1 (1
) L] x
t
+ [1 (1
) L]
t
Le modèle se reecrit donc
y
t
= (1
) y
t1
+a
x
t1
+ [
t
(1
)
t1
]
= y
t1
+a
x
t1
+u
t
ESIDUS
avec = 1
, a
= a
et u
t
=
t
t1
.
La perturbation u
t
suit donc un processus MA(1) et on a dans ce cas par-
ticulier :
V u
t
= V (
t
t1
) =
2
(1 +
2
)
cov(u
t
, u
t1
) =
2
cov (u
t
, u
ts
) = 0, s > 1
soit la matrice de variance covariance :
V u =
2
_
1 +
2
0 0
1 +
2
.
.
.
0
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.

0 0 1 +
2
_
_
8.1.7 Perturbation suivant un processus ARMA(p,q)
La perturbation u
t
suit un processus ARMA(p,q) si lon peut ecrire :
A(L)u
t
= B(L)
t
avec
A(L) = 1
1
L
2
L
2

p
L
p
B(L) = 1 +
1
L +
2
L
2
+ +
q
L
q
et
E (
t
) = 0, V (
t
) =
2
, Cov (
t
,
t
) = 0 t ,= t
Exemple (processus ARMA(1,1)).

u
t
= u
t1
+
t
+
t1
Par consequent
2
u
= V u
t
=
2
E
_
u
2
t1
_
+E
_
2
t
_
+
2
E
_
2
t1
_
+ 2E (u
t1
t1
)
Comme E (u
t
t
) = E
_
2
t
_
=
2
, on a
2
u
=
2
2
u
+
2
+
2
+ 2
2
, do` u
V u
t
=
2
_
1+
2
+2
1
2
_
=
2
w
0
, t.
De meme
cov(u
t
, u
t1
) = E
_
u
2
t1
_
+E (u
t1
t1
)
=
2
u
+
2
=
2
(1 +)( +)
1
2
=
2
w
1
et s > 1
cov(u
t
, u
ts
) = cov(u
t1
, u
ts
) = cov(u
t
, u
t(s1)
) =
s1
w
1
soit
V u =
2
_
w
0
w
1
w
1

2
w
1

T2
w
1
w
1
w
0
w
1
w
1
.
.
.
.
.
.
w
1
w
1
.
.
.
.
.
.
.
.
.

2
w
1
2
w
1
w
1
.
.
.
.
.
.
w
1
w
1
.
.
.
.
.
.
.
.
.
w
1
w
0
w
1
T2
w
1

2
w
1
w
1
w
1
w
0
_
_
8.1.8 Detection de lautocorrelation : le test de Durbin et Watson
(1950, 1951)
Considerons le modèle AR(1) : u
t
= u
t1
+
t
Pour ce modèle, tester labsence dautocorrelation revient à tester : H
0
: =
0 contre H
1
: ,= 0
Le test le plus frequemment utilise est celui de Durbin-Watson, reposant sur
la statistique :
d =
T
t=2
( u
t
u
t1
)
2
T
t=1
u
2
t
Cette statistique est liee asymptotiquement au paramètre par la relation
suivante :
p lim
T
d = 2(1 )
En eet :
p lim
T
d = p lim
1
T
T
t=2
u
2
t
2
1
T
T
t=2
u
t
u
t1
+
1
T
T
t=2
u
2
t1
1
T
T
t=1
u
2
t
= 1 2 + 1 = 2(1 )
puisque
p lim
1
T
T
t=2
u
2
t
= p lim
1
T
T
t=2
u
2
t1
= p lim
1
T
T
t=1
u
2
t
et que
p lim
1
T
u
t
u
t1
p lim
1
T
T
t=1
u
2
t
=
Cov (u
t
, u
t1
)
V (u
t
)
=
Par consequent :
ESIDUS
si est nul (absence dautocorrelation),

d est proche de 2,
si est proche de 1 (forte autocorrelation positive),

d est proche de 0
si est proche de -1 (forte autocorrelation negative),

d est proche de 4
La loi de probabilite de la statistique

d est dicile à e tablir car elle depend
des residus estimes et donc des valeurs prises par les variables explicatives du
modèle.
Sous lhypothèse H
0
: = 0, il existe deux statistiques, d
e
et d
u
, qui encadrent
toujours

d :
d
<

d < d
u
,
et dont la loi ne depend que de T et K.
Test de H
0
: = 0 contre H
1
: > 0 Si

d est proche de 2 on accepte lhypo-
thèse. Si

d est en revanche trop faible on rejette lhypothèse. Si on connaissait la
loi d
0
de

d, on pourrait determiner le fractile d
() de cette loi permettant de

conclure au rejet ou à lacceptation de lhypothèse H
0
de non-autocorrelation
pour un test au seuil .
P (d
0
< d
()) =
Ne connaissant pas la loi asymptotique de

d on determine les fractiles corres-
pondants d
() de d
l
et d
u
() de d
u
P (d
l
< d
()) =
P (d
u
< d
u
()) =
Comme
d
l
< d
0
< d
u
On a
d
() < d
() < d
u
()
Si

d est inferieure ` a d
(), alors

d < d
() : on refuse H
0
Si

d est superieure ` a d
u
(), alors

d > d
() : on accepte H
0
Si d
<

d < d
u
, on se trouve dans la zone dite inconclusive : le test ne
permet pas de conclure au rejet ou à lacceptation de H
0
.
La pratique courante consiste à inclure la zone inconclusive dans la zone
de rejet de lhypothèse H
0
pour se garantir contre le risque daccepter à tort
labsence dautocorrelations. Lamplitude de la zone inconclusive, d
u
d
, est
dautant plus importante que le nombre T dobservations est faible et que le
nombre de variables explicatives est important.
Test de H
0
: = 0 contre H
1
: < 0 On utilise la statistque 4

d. Sous
H
0

d = 2 sous H
1
< 0, alors plim
d=2 (1 ) > 2 donc plim

_
4

d
_
< 2 On
rejettera lhypothèses pour des valeurs faibles de 4

d par rapport à 2. On a :
4 d
u
< 4 d
< 4 d
Par conseqent :
si 4

d > 4 d
, alors 4

d > 4 d
: on accepte H
0
.
si 4

d < 4 d
u
, alors 4

d < 4 d
: on refuse H
0
.
8.2 Estimateurs des MCO, des MCG et des MCQG dans un modèle dont les perturbations sont autocorrelees65
enn, si 4 d
u
< 4

d < 4 d
: on est dans la zone inconclusive.

On inclut comme precedemment la zone inconclusive dans la zone de rejet de
H
0
.
Remarque. 1. Les lois (tabulees) de d
et d
u
ont ete etablies par Durbin et
Watson pour un modèle avec constante et perturbations AR(1) ;
2. Bien quil soit speciquement destine à tester labsence dautocorrelation
contre lhypothèse alternative dune autocorrelation associee à un proces-
sus AR(1), le test de D.W. se revèle capable de detecter dautres formes
dautocorrelations ;
Exemple. MA(1) ou AR(2). Dans les autres situations, il est preferable de
recouvrir à dautres tests.
8.2 Estimateurs des MCO, des MCG et des MCQG dans
un modèle dont les perturbations sont autocorrelees
On considère le cas dun modèle
y
t
= x
t
b +u
t
avec
E (U [X) = 0
V (U [X) = de dimension T T
1
T
X
X
P
Q
XX
, X
X et Q
X
inversibles
1
T
X
X
P
Q
XX
Alors lestimateur des mco
b
mco
= (X
X)
1
X
Y
verie
E
_
b
mco
[X
_
= b : lestimateur est sans biais
V
_
b
mco
[X
_
= (X
X)
1
X
X (X
X)
1
b
mco
P
b : convergence
T
_
b
mco
b
_
L
N
_
0, Q
1
XX
Q
XX
Q
1
XX
_
: normalite asymptotique
8.2.1 Estimation de la matrice de variance
Si la matrice depend dun nombre ni de paramètres : = (), cas par
exemple du modèle AR(1), du modèle MA(1), ou du modèle ARMA(1, 1), et
si on dispose dun estimateur

convergent de , on peut estimer de manière
convergente la matrice de variance asymptotique Q
1
XX
Q
XX
Q
1
XX
par
V
as
=
_
X
X
T
_
1
X
_
X
T
_
X
X
T
_
1
Un tel estimateur

peut etre obtenu en general à partir de lestimateur des
mco.
ESIDUS
Exemple. Dans le cas du modèle AR(1) on a
u
t
= u
t1
+
t
La variance des residus secrit
V u =
2
u
=

2
1
2
_
_
1
T2
T1
1
.
.
.

T2
.
.
.
.
.
.
.
.
.
T2
.
.
.
.
.
.

T1
T2
1
_
_
On peut construire le residu estime
u
t
= y
t
x
t
b
mco
et on estime par application des mco sur le modèle
u
t
= u
t1
+
t
soit
=

T
t=2
u
t
u
t1
T
t=2
u
2
t1
Lestimateur des MCG Sous les hypothèses
E (U [X) = 0, V (U [X) = de dimension T T inversible, X
X inversible
Le meilleur estimateur lineaire sans biais de b est :
b
mcg
= (X

1
X)
1
X

1
Y
Sa variance est donnee par :
V

b
mcg
= (X

1
X)
1
Il peut etre obtenu comme estimateur des mco dans le modèle :
1/2
Y =
1/2
Xb +
1/2
U
o` u
1/2
1/2
=
1
Dans le cas particulier o` u les perturbations suivent un processus AR(1), une
telle transformation peut etre donnee par :
1/2
=
_
_
_
1
2
0 0
1
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 0
0 0 1
_
_
8.2 Estimateurs des MCO, des MCG et des MCQG dans un modèle dont les perturbations sont autocorrelees67
Lestimateur des MCG peut alors etre calcule comme estimateur des mco
appliqu e au modèle :
_
_
y
1
_
1
2
y
2
y
1
.
.
.
y
T
y
T1
_
_
=
_
_
_
_
_
x
1
_
1
2
x
2
x
1
.
.
.
x
T
x
T1
_
_
_
_
_
b +
_
_
_
_
_
u
1
_
1
2
u
2
u
1
.
.
.
u
T
u
T1
_
_
_
_
_
Remarque. 1. Si le modèle initial comporte une variable constante, le modèle
transforme nen comporte plus.
2. Pour calculer cet estimateur MCG, il faut connatre
Lestimateur des MCQG Sous les hypothèses
E (U [X) = 0
V (U [X) = () de dimension T T, de dimension nie
1
T
X
X
P
Q
XX
, X
X et Q
X
inversibles
1
T
X
1
X
P
Q
X
1
X
inversible
P
on dispose dun estimateur convergent de
Lestimateur des MCQG
b
mcqg
=
_
X
_
1
X
_
1
X
_
1
Y
verie
b
mcqg
P
b : convergence
T
_
b
mcqg
b
_
L
N (0, V
as
(mcqg)) : normalite asymptotique
V
as
(mcqg) = Q
1
X
1
X
= p limTV (mcg) equivalence entre mcqg et mcg
V
as
(mcqg) =
_
1
T
X
_
1
X
_
1
P
V
as
(mcqg) estimation de la matrice
de variance
Cas des perturbations AR(1) : Lestimateur de Prais-Watson (1954).
Cest un estimateur en plusieurs etapes :
estimation par MCO du modèle y
t
= x
t
b +u
t
, t = 1, ..., T
calcul des residus estimes : u
t
= y
t
x
t
b
mco
estimation de par application des mco au modèle :
u
t
= u
t1
+
t
, t = 2, ..., T
soit
=

T
t=2
u
t
u
t1
T
t=2
u
2
t1
calcul des donnees transformees :
y
1
=
_
1
2
y
1
et y
t
= y
t
y
t1
, t = 2, ..., T
x
1
=
_
1
2
x
1
et x
t
= x
t
x
t1
, t = 2, ..., T
estimation des MCO du modèle transforme sans constante :
y
t
= x
t
b + u
t
, t = 1, ..., T
ESIDUS
Lestimateur
b ainsi obtenu est convergent et asymptotiquement aussi ecace

que lestimateur des MCG.
69
9 Introduction aux variables instrumentales
On a considere jusquà present le cas de modèle se crivant
y
i
= b
0
+x
1
i
b
1
+ +x
K
i
b
K
+u
i
avec lhypothèse
E
_
x
i
u
i
_
= 0 ou E (u
i
[x
i
) = 0
Cette hypothèse peut aussi constituer une denition du paramètre b. Dans ce
cas le coecient b sinterprete comme le vecteur des coecients de la regression
lineaire de y
i
sur le vecteur de variables x
i
. Une telle denition presente un
interet dans une approche descriptive des donnees.
Neanmoins on est frequemment amener à estimer des modèles structurels
dans lesquels les paramètres ont un sens economique. Le plus simple dentre eux
est certainement la fonction de production
y
i
= a +k
i
+l
i
+u
i
le paramètre mesure lincidence dune augmentation de 1 du stock de capital
sur la production. Ce paramètre na aucune raison de concider avec celui de la
regression lineaire. On est ainsi frequemment amener à considerer des modèles
structurels pour lesquels on a une equation lineaire entre une variable dinteret
et des variables explicatives mais pour laquelle on na pas necessairement la
relation E (u
i
[x
i
) = 0.
On donne trois exemples type dans lesquels on a ce type dendogeneite des
regresseurs
9.0.2 Erreur de mesure sur les variables
On considère la situation dans laquelle on a un modèle structurel
y
i
= x
i
b +u
i
La variable x
i
est suppose pour simplier de dimension 1 et centree comme
la variable y
i
et on fait l
hypothè se E (u
i
[x
i
) = 0
On suppose en outre que la variable x
i
est mesuree avec erreur :
x
i
= x
i
+e
i
avec E (e
i
[x
i
) = 0 et u
i
et e
i
non correlees.
Dans ces conditions le modèle dont on dispose est
y
i
= x
i
b +u
i
be
i
On est dans une situation dans laquelle le residu de lequation v
i
= u
i
be
i
est
correle avec la variable explicative
E (v
i
x
i
) = E ((u
i
be
i
) (x
i
+e
i
))
= E (u
i
x
i
) +E (u
i
e
i
) bE (e
i
x
i
) bE
_
e
2
i
_
= b
2
e
,= 0
70 9 INTRODUCTION AUX VARIABLES INSTRUMENTALES
On voit alors tres facilement quà la limite le parmètre de la regression lineaire
ne concide pas avec celui du modèle : lestimateur des mco nest pas convergent.
b
mco
P
b +
E
_
x
i
v
i
_
E
_
x
i
x
i
_ = b
_
1

2
e
2
e
+
2
x
_
9.0.3 Omission de regresseur, heterogeneite inobservee
y
i
= x
i
b +z
i
c +u
i
Il y a donc un facteur z
i
dont on sait quil explique la variable y
i
. On considère
la situation dans laquelle cette variable nest pas observee.
Lomission de cette variable conduit à une estimation non convergente du
modèle par les mco des lors que cette variable est correlee avec les regresseurs.
On a en eet
b
mco
P
b +E
_
x
i
x
i
_
1
E
_
x
i
(z
i
c +u
i
)
_
= b +E
_
x
i
x
i
_
1
E
_
x
i
z
i
_
c
= b +
z
i
/x
i
c
Avec E
_
x
i
u
i
_
= 0 et
z
i
/x
i
le coecient de la regression lineaire de z
i
sur
x
i
.
On peut considerer par exemple le cas dune fonction de production agri-
cole : y
i
est le rendement de la terre, x
i
la quantite dengrais, b le rendement
des ependages et z
i
la qualite de la terre. Lomission de cette variable biaise
lestimation du paramètre technologique b si les decisions dependage dengrais
dependent de la qualite de la terre.
Un autre exemple est donne par les equation dites de Mincer reliant le salaire
à leducation
w
i
=
0
+
s
s
i
+u
i
Le paramètre
s
mesure leet dune annee detude supplementaire sur le
niveau de salaire. Dans lensemble des causes inobservees aectant le salaire se
trouve entre autres le niveau daptitude de lindividu. Mais le choix dun niveau
detude s
i
est une decision rationnelle de la part de lagent, fonction de laptitude
de lindividu.
9.0.4 La simultaneite
La simultaneite est la situation dans laquelle certains des regresseurs et la
variable à expliquer sont determines simultanement. Un exemple typique est
celui dun equilibre ore-demande. Une equation de demande va ainsi secrire
y
i
=
d
p
i
+x
d
i
b
d
+u
d
i
La variable de prix p
i
ne peut pas etre consideree comme exogène. En eet,
il y a aussi une equation dore
y
i
=
s
p
i
+x
s
i
b
s
+u
s
i
9.1 Instruments 71
On peut resoudre ce système pour exprimer
p
i
=
1
s
+
d
_
x
d
i
b
d
x
s
i
b
s
+u
d
i
u
s
i
_
un choc de demande u
d
i
est transmis dans les prix : E
_
u
d
i
p
i
_
,= 0
9.0.5 La methode des variables instrumentales
Modèle à variables endogènes : Le modèle
y
i
= x
i
b +u
i
est dit à variables endogènes si on na pas la propriete
E
_
x
i
u
i
_
= 0
Les variables x
k
i
pour lesquelles E
_
u
i
x
k
i
_
,= 0 sont dites endogènes, les autres
sont dites exogènes
Dans ce modèle
Lestimateur des mco nest pas convergent ;
Lidentication du modèle necessite des hypothèses supplementaires ;
La methodes des variables instrumentales est un moyen privilegie pour
formuler et exploiter de telles hypothèses.
Lestimateur des mco nest pas convergent Lestimateur des MCO de b
est donne par :
b
mco
=
_
N
i=1
x
i
x
i
_
1
N
i=1
x
i
y
i
=
_
N
i=1
x
i
x
i
_
1
N
i=1
x
i
(x
i
b +u
i
)
= b +
_
N
i=1
x
i
x
i
_
1
N
i=1
x
i
u
i
b +E (x
i
x
i
)
1
E (x
i
u
i
) .
comme E (x
i
u
i
) ,= 0 on a E (x
i
x
i
)
1
E (x
i
u
i
) ,= 0 et donc
p lim
b
mco
,= b
9.1 Instruments
On considère à nouveau le modèle dore et de demande
y
i
=
d
p
i
+x
d
i
b
d
+u
d
i
y
i
=
s
p
i
+x
s
i
b
s
+u
s
i
On note x
i
=
_
x
d
i
, x
s
i
_
, certains ele ments peuvent etre commun aux deux en-
sembles et ninterviennent dans ce cas quune fois dans x
i
. On fait les hypothèses
E
_
x
i
u
d
i
_
= 0, E
_
x
i
u
s
i
_
= 0 (5)
c.a.d les variables observables qui deplacent lore et la demande sont exogènes
pour u
d
i
et u
s
i
.
On peut resoudre comme precedemment en p
i
mais aussi en y
i
:
p
i
=
1
s
+
d
_
x
d
i
b
d
x
s
i
b
s
+u
d
i
u
s
i
_
y
i
=

s
s
+
d
x
d
i
b
d
+

d
s
+
d
x
s
i
b
s
+

s
s
+
d
u
d
i
+

d
s
+
d
u
s
i
Compte tenu des relations (5), on peut exprimer les coecients des regres-
sions lineaires de y
i
et p
i
sur x
i
à partir des paramètres structurels.
La modelisation conduit à des restrictions sur les paramètres des regres-
sions lineaires qui sont suceptibles de permettre lidentication des paramètres
structurels du modèle.
Plus precisement :
Si il existe une variable exogène intervenant speciquement dans lequation
dore, lequation de demande est identiee. Si x
s
1i
est une telle variable,
le coecient de cette variable dans la regression lineaire de p
i
sur x
s
i
et x
d
i
est
1
s
+
d
b
s
1
, et le coecient de cette variable dans la regression lineaire
de y
i
sur x
s
i
et x
d
i
est

d
s
+
d
b
s
1
. La comparaison de ces deux coecients
permet lidentication de
d
De meme, si il existe une variable exogène intervenant speciquement dans
lequation de demande, lequation dore est identiee.
Si on ne sinteresse quà une des deux equations, p.e. lequation de de-
mande, les hypothèses identicatrices peuvent etre assouplies. Il sut quil
existe au moins une variable x
s
1i
entrant dans lequation dore qui verie
E
_
_
x
d
i
x
s
1i
u
d
i
_
= 0. Dans ce cas les coecients
y
de la regressions lineaires
de y
i
sur x
i
=
_
x
d
i
x
s
1i
sont
y
= E
_
x
i
x
i
_
1
E
_
x
i
y
i
_
= E
_
x
i
x
i
_
1
E
_
x
i
_
d
p
i
+x
d
i
b
d
+u
d
i
_
_
=
d
E
_
x
i
x
i
_
1
E
_
x
i
p
i
_
+E
_
x
i
x
i
_
1
E
_
x
i
x
d
i
_
b
d
=
d
p
+
_
b
d
0
_
Des lors que le coecient de la variable x

s
1i
dans la regression de la variable
de prix sur x
i
, element de
p
, est non nul, on voit que le modèle est identie.
Cet exemple illustre bien, la demarche des variables instrumentales. Celle-ci
correspond à la mobilisation de variables exterieures au modèle et qui possèdent
la particularite de netre pas correlees avec le residu de lequation.
Dire quune variable est une variable instrumentale revient à postuler une
relation dexclusion : il existe une variable aectant la variable à expliquer et
la variable explicative endogène et dont tout leet sur la variable à expliquer
transite par son eet sur la variable explicative endogène.
Une variable instrumentale ne tombe pas du ciel. Dans lexemple on justie le
choix de la variable comme etant une variable appartenant à un modèle plus ge-
neral, le système ore-demande, conduisant à lequation structurelle de demande
et à une equation reduite expliquant la formation de la variable endogène.
On considère le modèle structurel
y
i
= x
1i
b
1
+x
2i
b
2
+u
i
les variables x
2i
, (dim = K
2
+1) contiennent la constante et sont exogènes,
mais on ne fait pas lhypothèse dexogeneite de la variable x
1i
(dim = K
1
= K K
2
).
9.2 Moindres carres indirects 73
On fait lhypothèse quil existe un ensemble de variables dites instrumentales
de dimension H + 1, non parfaitement correlees (rangE
_
z
i
z
i
_
= H + 1), car
veriant :
E
_
z
i
u
i
_
= 0. (6)
Le vecteur x
2i
fait trivialement parti de lensemble des variables instrumentales
Lhypothèse (6) est parfois ecrite sous la forme suivante :
E(u
i
[z
i
) = 0
9.1.1 Identication
La condition (6) peut etre reecrite comme suit :
E
_
z
i
(y
i
x
i
b)
_
= 0
Soit encore :
E
_
z
i
y
i
_
= E
_
z
i
x
i
_
b (7)
Cette condition denit un système de H + 1 equations à K + 1 inconnues b.
Le modèle est identie si le système (7) admet pour unique solution le pa-
ramètre structurel b
On distingue trois situations
Si H < K, le modèle est sous identie, puisquil y a moins dequations que
de variables. Il ny a pas susamment de variables instrumentales.
Si H = K et limrangE
_
z
i
x
i
_
= K + 1 le modèle est juste identie.
Si H > K, limrangE
_
z
i
x
i
_
= K +1 le modèle est dit sur-identie. Dans
ce cas il y a plus de variables instrumentales quil nest necessaire.
9.2 Moindres carres indirects
Si H = K et si Ez
i
x
i
est inversible, alors b = E
_
z
i
x
i
_
1
E
_
z
i
y
i
_
. On
obtient un estimateur de b appele Estimateur des Moindres Carres Indirects en
rempla cant les esperances par leurs contreparties empiriques :
b
mci
=
_
1
N
N
i=1
z
i
x
i
_
1
1
N
N
i=1
z
i
y
i
= (Z
X)
1
Z
Y
o` u Z est la matrice dont la i-ième ligne est z
i
, X la matrice dont la i-ième ligne
est x
i
et Y le vecteur dont la i -ième composante est y
i
.
Si H > K, on se ramène au cas precedent en selectionnant K + 1 combi-
naisons lineaires des instruments : Az
i
, o` u A est une matrice K + 1 H + 1,
de rang K + 1. Lhypothèse que lensemble des H + 1 variables dans z
i
est un
ensemble de variables instrumentales conduit à la propriete que pour A tel que
AE
_
z
i
x
i
_
est inversible,
b =
_
AE
_
z
i
x
i
__
1
AE
_
z
i
y
i
_
.
On en deduit une classe destimateur :
b
mci
(A) =
_
Az
i
x
i
_
1
Az
i
y
i
= (AZ
X)
1
AZ
Y.
9.2.1 Propriete asymptotiques des estimateurs des MCI
Dans le modèle
y
i
= x
i
b +u
i
à K + 1 variables explicatives.
Sous les hypothèses
Hypothèse (H
1
). E (z
i
u
i
) = 0 avec z
i
de dim 1 H + 1
Hypothèse (H
2
). Les observations (x
i
, z
i
, y
i
) sont iid
Hypothèse (H
3
). E(u
2
i
[z
i
) =
2
Hypothèse (H
4
). Les moments de (x
i
, z
i
, y
i
) existent jusquà un ordre susant
Hypothèse (H
5
). E
_
z
i
x
i
_
et z
i
x
i
sont de rang K + 1
Theorème 9.1. Sous ces hypothèses, il existe au moins une matrice A de di-
mension K + 1 H + 1 pour laquelle lestimateur

b
mci
(A) =
_
Az
i
x
i
_
1
Az
i
y
i
existe, et pour toute matrice A telle que lestimateur des MCI existe, on a :

b
mci
(A) est convergent : p lim
b
mci
(A) = b

b
mci
(A) est asymptotiquement normal :
N
_
b
mci
(A) b
_
L
N(0, (A)),
avec
(A) =
2
_
AE
_
z
i
x
i
__
1
AE (z
i
z
i
) A
_
E
_
x
i
z
i
_
A
_
1

(A) =
2
_
Az
i
x
i
_
1
Az
i
z
i
A
_
x
i
z
i
A
_
1
o` u
2
= u(A)
2
i
, est un estima-
teur convergent de (A)
Demonstration.
Existence dau moins un estimateur des MCI : Il sut de prendre A =
E
_
z
i
x
i
_
on a alors E
_
z
i
x
i
_
i
x
i
E
_
z
i
x
i
_
E
_
z
i
x
i
_
qui est inversible
puisque rangE
_
z
i
x
i
_
= K + 1 Comme le determinant est une fonction
continue det Az
i
x
i
det AA
,= 0 et donc la matrice Az
i
x
i
est inversible
pour N assez grand.
Convergence :
b
mci
(A) =
_
Az
i
x
i
_
1
Az
i
y
i
= b +
b
mci
(A) = b +
_
Az
i
x
i
_
1
Az
i
u
i
.
La convergence decoule simplement de la loi des grands nombres :
z
i
u
i
i
E
_
z
i
u
i
_
= 0.
Normalite asymptotique
N
_
b
mci
(A) b
_
=
_
Az
i
x
i
_
1
A
Nz
i
u
i
Comme V
_
z
i
u
i
_
= E(z
i
z
i
u
2
i
) = E
_
z
i
z
i
E(u
2
i
[ z
i
)
_
=
2
E
_
z
i
z
i
_
, la nor-
malite asymptotique decoule directement du theorème cental-limite :
Nz
i
u
i
loi
N(0,
2
Ez
i
z
i
)
et
_
Az
i
x
i
_
1
A (AE (z
i
x
i
))
1
A
Estimation de la matrice de variance-covariance asymptotique
Comme pour lestimateur des mco, on verie facilement que u(A)
2
i
=
_
u
i
+x
i
_
b
b (A)
__
2
2
puisque b
b (A) 0
9.2.2 Estimation robuste de la matrice de variance
Comme pour lestimateur des mco, il existe une version de la matrice de
variance-covariance (A) pour le cas de residus heteroscedastiques, i.e. lorsque
E(u
2
i
[z
i
) depend de z
i
. On peut donc supprimer lhypothèse H
3
. Les conclusions
sont simplement modiees en :

b
mci
(A) est asymptotiquement normal :
N
_
b
mci
(A) b
_
L
N(0,
het
(A)),
avec
het
(A) =
_
AE
_
z
i
x
i
__
1
AE
_
u
2
i
z
i
z
i
_
A
_
E
_
x
i
z
i
_
A
_
1
het
(A) =
_
Az
i
x
i
_
1
A u(A)
2
i
z
i
z
i
A
_
x
i
z
i
A
_
1
9.2.3 Estimateur à variables instrumentales optimal ou estimateur
des doubles moindres carres
Theorème 9.2. Il existe une matrice A
optimale au sens o` u pour toute suite

de matrice A
N
A
, la variance asymptotique de
b
mci
(A
N
) est de variance mi-
nimale dans la classe des estimateurs

b
mci
(A).Cette matrice a pour expression :
A
= E
_
x
i
z
i
_
E (z
i
z
i
)
1
La matrice de variance correspondante a pour expression
(A
) =
2
_
E
_
x
i
z
i
_
E (z
i
z
i
)
1
E
_
z
i
x
i
__
1
qui sobtient directement en remplacant A par E
_
x
i
z
i
_
E (z
i
z
i
)
1
(A) =
2
_
AE
_
z
i
x
i
__
1
AE (z
i
z
i
) A
_
E
_
x
i
z
i
_
A
_
1
et en operant des simplications.
Demonstration de loptimalite.
Pour montrer que (A) (A
) au sens des matrices, i.e.

,
((A) (A
)) 0
On peut clairement laisser tomber le facteur
2
. La matrice de variance (A
)
secrit :
(A
) =
_
E
_
x
i
z
i
_
E (z
i
z
i
)
1
E
_
z
i
x
i
__
1
= (C
C)
1
avec C = E (z
i
z
i
)
1/2
E
_
z
i
x
i
_
de dim H +1 K +1.La matrice (A) secrit :
(A) =
_
AE
_
z
i
x
i
__
1
AE (z
i
z
i
) A
_
E
_
x
i
z
i
_
A
_
1
= BB
avec B =
_
AE
_
z
i
x
i
__
1
AE (z
i
z
i
)
1/2
de dim K + 1 H + 1.On a la relation
BC =
_
AE
_
z
i
x
i
__
1
AE (z
i
z
i
)
1/2
E (z
i
z
i
)
1/2
E
_
z
i
x
i
_
=
_
AE
_
z
i
x
i
__
1
AE
_
z
i
x
i
_
= I
K+1
On a donc
(A) (A
) = BB
(C
C)
1
= BB
BC (C
C)
1
C
puisque BC = I. On a donc :
(A) (A
) = B
_
I C (C
C)
1
C
_
B
Comme I C (C
C)
1
C
est une matrice semi denie positive, (A) (A
)
est aussi une matrice semi denie positive.
9.2.4 Expression de lestimateur optimal
La matrice A
= E
_
x
i
z
i
_
E (z
i
z
i
)
1
est inconnue. Pour mettre l
estimateur
en oeuvre, on la remplace par un estimateur convergent A
N
= x
i
z
i
z
i
z
i
1
b
mci
(A
N
) =
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
z
i
z
i
1
z
i
y
i
=
_
X
Z (Z
Z)
1
Z
X
_
1
X
Z (Z
Z)
1
Z
Y
Cet estimateur a les memes proprietes asymptotiques que lestimateur
b
mci
(A
)
puisque A
N
A
.
On peut reecrire lestimateur en faisant intervenir la matrice de projection
orthogonale sur Z, P
Z
= Z (Z
Z)
1
Z
b
mci
(A
) = (X
P
Z
X)
1
X
P
Z
Y = ((P
Z
X)
P
Z
X)
1
(P
Z
X)
Y
Il correspond à lestimateur des mco de la variable endogène Y sur la projec-
tion

X = P
Z
X des variables explicatives sur lensemble des instruments. Cest
pourquoi on appelle cet estimateur estimateur des doubles moindres carres et
on le note

b
2mc
.
Il resulte dune première regression par les mco des variables explicatives
X sur lensemble des instruments, permettant de determiner les predictions
X = P
Z
X = Z
_
(Z
Z)
1
Z
X
_
des X par les instruments puis dune seconde
regression par les mco de la variable à expliquer sur les predictions

X.
La matrice de variance asymptotique de

b
2mc
est
(
b
2mc
) =
2
_
E
_
x
i
z
i
_
E (z
i
z
i
)
1
E
_
z
i
x
i
__
1
et la matrice de variance de lestimateur dans un echantillon de taille N est
V (
b
2mc
) = (
b
2mc
)/N =
2
_
E
_
x
i
z
i
_
E (z
i
z
i
)
1
E
_
z
i
x
i
__
1
/N
On peut lestimer par
V (
b
2mc
) =
2
_
X
Z (Z
Z)
1
Z
X
_
1
=
2
(X
P
Z
X)
1
=
2
_

X
_
1
Lecart-type des residus à retenir est celui du modèle
y
i
= x
i
b +u
i
il peut etre estime par
_
y
i
x
i
b
2mc
_
2
.
9.2.5 Cas des residus heteroscedastiques
Dans ce cas lestimateur des doubles moindres carres nest plus optimal, et
la formule de sa variance nest plus correcte.
La formule exacte est donnee comme dans le cas general par
het
(A
) =
_
A
E
_
z
i
x
i
__
1
A
E
_
u
2
i
z
i
z
i
_
A
_
E
_
x
i
z
i
_
A
_
1
=
_
E
_
x
i
z
i
_
E (z
i
z
i
)
1
E
_
z
i
x
i
__
1
E
_
x
i
z
i
_
E (z
i
z
i
)
1
E
_
u
2
i
z
i
z
i
_
E (z
i
z
i
)
1
E
_
z
i
x
i
__
E
_
x
i
z
i
_
E (z
i
z
i
)
1
E
_
z
i
x
i
__
1
= E
_
x
i
x
i
_
1
E
_
u
2
i
x
i
x
i
_
E
_
x
i
x
i
_
1
o` u x
i
= z
i
E (z
i
z
i
)
1
E
_
z
i
x
i
_
.
La matrice de variance de lestimateur des doubles moindres carres est
V
het
_
b
2mc
_
=
het
(A
)/N
Elle peut etre estimee par
V
het
_
b
2mc
_
=

het
(A
)
N
=
_
x
i
i
_
1
_
N
i=1
u
2
i
x
i
i
__
N
i=1
x
i
i
_
1
= (

X)
1
_
limdiag[ u
2
i
]
X
_
(

X)
1
,
qui est exactement la matrice de White.
9.2.6 Interpretation de la condition rangE (z
i
x
i
) = K + 1
La mise en oeuvre de la methode des variables instrumentales repose sur
la condition rangE (z
i
x
i
) = K + 1. Les variables du modèle sont scindees
en K
1
variables endogènes x
1i
et K
2
+ 1 variables esxogènes. Ces variables
interviennent egalement dans la liste des instruments qui contient en outre
H K
2
variables exterieures z
i
: z
i
=
_
z
i
x
2i
. Compte tenu de lhypo-

thèse E
_
z
i
z
i
_
inversible, la condition rangE (z
i
x
i
) = K + 1 est analogue à
la condition rangE
_
z
i
z
i
_
1
E (z
i
x
i
) = K + 1. Cette matrice correspond à la
matrice des coecients des regressions des variables explicatives sur les instru-
ments. Comme les variables du modèle et les instrument ont les variables x
2
en
commun, on a :
E
_
z
i
z
i
_
1
E (z
i
x
i
) =
_
E
_
z
i
z
i
_
1
E (z
i
x
1i
)
0
I
K
2
+1
_
=
_

1 z
0
1x
2
I
K
2
+1
_
o` u
1 z
et
1x
2
sont les coecients de z et x
2
des regressions des variables
endogènes sur les instruments. La condition rangE
_
z
i
z
i
_
1
E (z
i
x
i
) = K + 1
est donc equivalente à la condition
rang
1 z
= K
1
Cette condition sinterprète comme le fait que les variables instrumentales ex-
terieures expliquent susamment bien les variables endogènes. Il nexiste pas
de test formel de cette condition. Neanmoins il est important de regarder la
fa con dont les variables instrumentales expliquent les variables endogènes. On
peut par exemple, bien que cela ne garantisse pas que la condition est satisfaite
des quil y a plus dune variable endogène, eectuer chaque regression des va-
riables endogènes sur lensemble des variables instrumentales et faire un test de
la nullite globale des coecients des variables instrumentales exterieures.
Dans le cas o` u la condition rangE (z
i
x
i
) = K+1 nest pas satisfaite, on aura
neanmoins en general à distance nie rangz
i
x
i
= K + 1 et lestimateur pourra
etre numeriquement mis en oeuvre. La consequence du fait que rangE (z
i
x
i
) <
K + 1 est que
X
Z (Z
Z)
1
Z
X E (x
i
z
i
) E (z
i
z
i
) E (z
i
x
i
)
non inversible. Lestimateur sera donc tres instable et presentera des ecart-types
tres eleves sur certains coecients, à linstar de ce qui se produit avec les mco
dans le cas de multicolinearite.
9.2.7 Test de suridentication
Lorsquil y a plus dinstruments que de variables explicatives le modèle est
suridentie. On a vu que dans le modèle
y
i
= x
i
b +u
i
avec pour restriction identiante
E
_
z
i
u
i
_
= 0,
on pouvait estimer le modèle par les MCI de tres nombreuses fa cons, lestimateur
le plus performant etant celui des doubles moindres carres. On avait
b
mci
(A) =
_
Az
i
x
i
_
1
Az
i
y
i
contrepartie empirique de la relation
b = (AE (z
i
x
i
))
1
AE (z
i
y
i
)
Cette dernière relation doit etre vraie pour toute matrice Atelle que AE (z
i
x
i
)
est inversible. Elle montre bien que le modèle impose plus de structure entre les
donnees quil nest necessaire pour identier le modèle : Tous les paramètres
b
mci
(A) doivent converger vers une meme valeur.
Par exemple dans le cas o` u il y a une variable endogène et o` u en plus des va-
riables exogènes du modèle on a mobilise h variables instrumentales exterieures
au modèle, les h estimateurs que lon peut obtenir en choisissant comme vecteur
de variables instrumentales les exogènes du modèle et lune des variables instru-
mentales exterieures doivent etre proches. En pratique, on est souvent amene
à eectuer des estimation dune meme equation en etendant ou restreignant la
liste des variables instrumentales.
Pour rendre cette demarche plus transparente, il est utile davoir une proce-
dure qui permette de tester lhypothèse que pour un jeu de variables instrumen-
tales donne lensemble des estimateurs

b
mci
(A) convergent tous vers la meme
valeur.
On peut considere le test de lhypothèse nulle
H
0
: E (z
i
u
i
) = 0
On considère le cas standard dans lequel les residus sont homoscedastiques.
Si le residu etait connu un tel test serait tres facile à mettre en oeuvre.
Il consisterait simplement à regarder si la moyenne empirique z
i
u
i
de z
i
u
i
est
proche de zero, cest à dire si la norme de ce vecteur est proche de zero.
On rappelle le resultat suivant
W N (0, V (W)) W
V (W)

2
(rang (V (W)))
o` u V (W)
est un inverse generalise de la matrice V (W) , i.e tel que

V (W) V (W)
V (W) = V (W)
Sous lhypothèse H
0
on aurait donc en appliquant le teorème central-limite,
et compte tenu de lhypothèse dhomoscedasticite
Nz
i
u
i
N
_
0,
2
E
_
z
i
z
i
__
et donc
N
2
z
i
u
i
E
_
z
i
z
i
_
1
z
i
u
i

2
(dim(z
i
))
ou encore
N

2
z
i
u
i
i
z
i
1
z
i
u
i

2
(dim(z
i
))
Le problème vient ici du fait que lon nobserve pas u
i
. On est en revanche
capable de determiner u
i
= y
i
x
i
b
2mc
. Le test que lon met en oeuvre est donc
base sur z
i
u
i
.
Determination de la matrice de variance de z
i
u
i
On ne peut pas transposer directement le test, il faut calculer la matrice de
variance de z
i
u
i
On a
u
i
= y
i
x
i
b
2mc
= x
i
b +u
i
x
i
b
2mc
= u
i
x
i
_
b
2mc
b
_
do` u
z
i
u
i
=
1
N
Z
U =
1
N
_
Z
U Z
X
_
b
2mc
b
__
comme
b
2mc
= (

X)
1

X
Y = b +(

X)
1

X
U, avec

X = P
Z
X, la projection
orthogonale de X sur Z, on a :
z
i
u
i
=
1
N
_
Z
U Z
X(

X)
1

X
U
_
en outre X = P
Z
X + (I P
Z
) X =

X + (I P
Z
) X et donc Z
X = Z

X.
Finalement
z
i
u
i
=
1
N
_
Z
U Z

X(

X)
1

X
U
_
=
1
N
_
Z
U Z
X
U
_
=
1
N
Z
_
I
N
P
X
_
U
On en deduit que
V
_
z
i
u
i
_
=

2
N
2
Z
_
I
N
P
X
_
Z =

2
N
2
__
I
N
P
X
_
Z
_
_
I
N
P
X
_
Z
Determination du rang de la matrice V
_
z
i
u
i
_
Le vecteur
_
I
N
P
X
_
Z est le residu de la projection de Z sur

X. Comme
X est la projection de X sur Z lespace vectoriel engendre par les colonnes de
X de dimension K + 1 est inclus dans celui engendre par les colonnes de Z de

dimension H+1. La matrice
_
I
N
P
X
_
Z est donc de rang HK. Il en resulte
que :
rangV
_
z
i
u
i
_
= H K
Inverse generalise de la matrice V
_
z
i
u
i
_
La matrice nest pas inversible, pour mettre le test en oeuvre en determiner
un inverse generalise. Lun dentre eux est
V
_
z
i
u
i
_
=
N
2
2
(Z
Z)
1
En eet , la matrice de variance secrit de fa con alternative comme

2
N
2
Z
_
P
Z
P
X
_
Z,
et on a
2
N
2
Z
_
P
Z
P
X
_
Z
N
2
2
(Z
Z)
1

2
N
2
Z
_
P
Z
P
X
_
Z
=

2
N
2
Z
_
P
Z
P
X
_
P
Z
_
P
Z
P
X
_
Z
le resultat decoule du fait que P
X
P
Z
= P
Z
P
X
= P
X
et que donc
_
P
Z
P
X
_
P
Z
_
P
Z
P
X
_
=
_
P
Z
P
X
_ _
P
Z
P
Z
P
X
_
=
_
P
Z
P
Z
P
X
_
P
X
P
Z
P
X
P
Z
P
X
=
_
P
Z
P
X
_
Le test et son interpretation
Finalement, sous lhypothèse H
0
: E
_
z
i
u
i
_
= 0, on a
S = z
i
u
i
V
_
z
i
u
i
_
i
u
i
=
1
N
Z
N
2
2
(Z
Z)
1
1
N
Z
U
=
1
P
Z
U N
P
Z
2
(H K)
Sous lhypothèse alternative, on a
u
i
= y
i
x
i
b
2mc
= x
i
b +u
i
x
i
b
2mc
= u
i
x
i
_
b
2mc
b
_
do` u
z
i
u
i
= z
i
u
i
z
i
x
i
_
A
i
x
i
_
1
A
i
u
i
= z
i
u
i
z
i
x
i
_
A
i
x
i
_
1
A
i
u
i
o` u A
= E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
Comme z
i
u
i
ne converge plus vers zero, cette quantite va converger vers
une limite non nulle en general, mais pas toujours. On peut se trouver dans la
situation dans laquelle
z
i
u
i
= z
i
x
i
_
A
i
x
i
_
1
A
i
u
i
soit
z
i
_
u
i
x
i
_
A
i
x
i
_
1
A
i
u
i
_
= 0
soit encore
z
i
_
y
i
x
i
_
A
i
x
i
_
1
A
i
y
i
_
= 0
ce qui signie que le residu de la regression de y
i
sur x
i
par les doubles moindres
carre peut etre orthogonal à z
i
, alors quon na pas E (z
i
u
i
) = 0.
Ceci provient du fait que le test que lon met en oeuvre nest pas un test de
la validite des instruments dans le modèle structurel
y
i
= x
i
b +u
i
cest à dire le test de lhypothèse
E
_
z
i
(y
i
x
i
b)
_
= 0
mais le test dune hypothèse moins forte :
c tq Ez
i
(y
i
x
i
c) = 0
Pour cette hypothèse nulle, sous H
0
la statistique converge vers la loi quon a
determine, et sous lhypothèse alternative, elle tend vers +.
Resultat :
Sous lhypothèse nulle
H
0
: c tq Ez
i
(y
i
x
i
c) = 0, la statistique
S = N
P
Z
U
L
2
(H K)
Sous lhypothèse alternative

S +
Le test est donc un test convergent. Pour un test au niveau , la r egion
critique est W
=
_
Q
1
_
2
(H K)
_
, +
_
, o` u Q
1
_
2
(H K)
_
est le
quantile dordre 1 dune loi du
2
à H K degres de liberte.
Mise en oeuvre du test. Le test de suridentication est tres simple à mettre
en oeuvre. Il correspond au test de la nullite globale des coecients de la regres-
sion de u
i
sur les variables instrumentales, y compris la constante. En pratique
on applique les doubles moindres carres, on construit les residus estimes et on
les regressent sur les variables instrumentales. La statistique de test est NR
2
de
cette regression.
Remarque. On a a priori toujours interet à avoir un ensemble dinstru-
ments le plus large possible. En eet retirer une variable instrumentale et
mettre en oeuvre lestimateur des doubles moindres carres correspond à
selectionner une matrice particulière pour lestimateur des moindres carres
indirects avec le jeu complet dinstruments. Comme on la montre cet es-
timateur est alors necesairement moins ou aussi bon que lestimateur des
doubles moindres carres avec lensemble dinstruments complet. Quand
on etend lensemble des variables instrumentales, il est important de bien
verier la compatibilite globale des instruments utilises et de mettre en
oeuvre le test de suridentication.
La matrice de variance de lestimateur des doubles moindres carres est
toujours plus grande que celle de lestimateur des mco. Ceci se voit imme-
diatement en examinant lexpression des variances
V (b
mco
) =
2
(X
X)
1
et V (b
2mc
) =
2
(X
P
Z
X)
1
En outre, on voit aussi en comparant les expressions des estimateurs
b
mco
= (X
X)
1
X
Y et b
2mc
= (X
P
Z
X)
1
X
P
Z
Y
que lorsque lon etend la liste des variables instrumentales la dimension
de lespace sur lequel on projette les variables du modèle augmente et
quon en a donc une representation de plus en plus dèle. La variance de
lestimateur des doubles moindres carres va sameliorer, mais lestimateur
des doubles moindres carres va se rapprocher de lestimateur des moindres
carres ordinaires. Il y a donc un risque à etendre trop la liste des instru-
ments. A distance nie, on pourrait avoir une mise en oeuvre fallacieuse
conduisant à un estimateur proche de celui des mco. Il est utile pour se
premunir de ce risque de regarder la regression des variables endogènes sur
les instruments et de contr oler la signicativite globales des instruments.
9.2.8 Test dexogeneite des variables explicatives
Ayant estime le modèle par les double moindre carres, cest à dire sous
lhypothèse
H
1
: c/E
_
z
i
(y
i
x
i
c)
_
= 0
On peut vouloir tester lhypothèse que les regresseurs x
i
sont exogènes.
On considère donc lhypothèse
H
0
: c/E
_
z
i
(y
i
x
i
c)
_
= 0etE
_
x
i
(y
i
x
i
c)
_
= 0.
Linteret de tester une telle hypothèse est immediat compte tenu du fait que
sous cette hypothèse lestimateur optimal sera lestimateur des mco qui domine
nimporte quel estimateur à variables instrumentales.
Un test naturel dexogeneite est le test dHausman fonde sur la comparaison
de

b
2mc
b
mco
avec 0.
Le test peut etre fonde sur les coecients des endogènes
En eet

b
2mc
=
_

X
_
1
Y et

b
mco
=
_
X
X
_
1
X
Y donc
X
_
b
2mc
b
mco
_
=

X
X
_
_
X
_
1
Y
_
X
X
_
1
X
Y
_
=
_
Y

X
X
_
X
X
_
1
X
Y
_
Comme

X

X =

X
X puisque X = P
Z
X + (I P
Z
) X =

X + (I P
Z
) X
X
_
b
2mc
b
mco
_
=

X
M
X
Y =
_

X
1
M
X
Y
0
_
On en deduit que
_
b
(2)
2mc
b
(2)
mco
_
=
_
X
_
21
_
_
X
_
11
_
1 _
b
(1)
2mc
b
(1)
mco
_
avec b
(1)
le vecteurs des coecients de x
1i
et sym etriquement pour b
(2)
, et les
notations standards
_
A
11
A
12
A
21
A
22
_
1
=
_
A
11
A
12
A
21
A
22
_
On peut donc se contenter de se fonder sur
b
(1)
2mc
b
(1)
mco
=

X
X
11

X
1
M
X
Y
pour eectuer le test.
Rang de la matrice de variance de

b
(1)
2mc
b
(1)
mco
Lexpression precedente montre que la matrice de variance de

b
(1)
2mc

b
(1)
mco
est
2
=

X

X
11

X
1
M
X

X
1

X

X
11
. Son rang est donc egal à celui de

X
1
M
X

X
1
,
donc à celui de M
X

X
1
. Supposons que lon ait pour un vecteur M
X

X
1
= 0
alors P
X

X
1
=

X
1
il existe donc un vecteur tel que

X
1
= X. Comme

X
1
appartient à lespace engendre par Z =
_
Z, X
2
_
, necessairement X = X
2
2
.
Notant comme precedemment o` u
1 z
et
1x
2
les coecients de z et x
2
des r
egressions des variables endogènes sur les instruments. Le quation

X
1
= X
2
2
,
secrit

Z
1 z
+X
2
(
1x
2

2
) = 0. Comme Z est de rang K+1 ceci necessite
1 z
= 0. Et on a vu que la condition rang
_
Z
X
_
= K + 1 etait equivalente à
1 z
de rang K
1
on a donc necessairement sous cette condition = 0 et donc la
matrice de variance de
b
(1)
2mc
b
(1)
mco
est inversible : le nombre de degres de liberte
du test dexogeneite est egal à K
1
.
Le test de Hausman Sous lhypothèse dhomoscedasticite, E(u
2
i
[x
i
, z
i
) =
2
,
b
mco
est lestimateur de variance minimale dans la classe des estimateur sans
biais dont fait parti lestimateur des doubles moindres carres. On a donc
V
_
b
2mc
b
mco
_
= V
_
b
2mc
_
V
_
b
mco
_
V
_
b
2mc
b
mco
_
=
2
_
_
X
_
1
_
X
X
_
1
_
.
On en deduit que sous lhypothèse nulle dexogeneite de x
i
, la statistique
S =
1

2
_
b
(1)
2mc
b
(1)
mco
_
_
_
X
_
11
_
X
X
_
11
_
1 _
b
(1)
2mc
b
(1)
mco
_
Loi

2
(K
1
)
suit une loi du
2
à K
1
degres de liberte
Un test au niveau sera donc eectue en comparant la valeur de de la
statistique

S au quantile dordre 1 dune loi du
2
à K
1
degres de liberte.
Test dexogeneite par le biais de la regression augmentee Le test
dHausman dexogeneite peut etre mis en oeuvre tr es simplement par le biais
dune simple regression des la variable dependante Y sur les variables endogènes
et exogènes du modèle X
1
et X
2
et sur la projection des variables endogènes sur
les variables instrumentales

X
1
:
Y = X
1
c
1
+X
2
c
2
+

X
1
+W
Lestimateur MCO du coecient de sobtient aisement à partir de theorème
de Frish-Waugh : il sagit du coecient de la regression des mco sur le residu
de la regression de

X
1
sur les autres variables, cest à dire X. On a donc
=
_
X
1
M
X

X
1
_
1
X
1
M
X
Y
or on a vu precedemment
b
(1)
2mc
b
(1)
mco
=

X
X
11

X
1
M
X
Y
On en deduit que lon a :
b
(1)
2mc
b
(1)
mco
=

X
X
11
_
X
1
M
X

X
1
_

Le test de p lim
b
(1)
2mc
p lim
b
(1)
mco
= 0 est donc equivalent au test de = 0.
Le test peut donc etre eectue tres simplement par lintermediaire dun test
de Wald ou dun test de Fisher.
Remarquons en n que le test peut etre mene de fa con analogue sur sur les
residus des regressions des variables explicatives endogènes sur les instruments
(X
1
) = X
1

X
1
. Lequation
Y = X
1
c
1
+X
2
c
2
+

X
1
+W
se reecrit de fa con analogue comme
Y = X
1
(c
1
+) +X
2
c
2
(X
1
) +W
= X
1
c
1
+X
2
c
2
+ (X
1
) +W
le test de = 0 est donc equivalent à celui de = 0.
86 10 LA M
ETHODE DES MOMENTS G
EN
ERALIS
EE
10 La Methode des moments generalisee
10.1 Modèle structurel et contrainte identiante : restric-
tion sur les moments
Une equation :
y
i
= x
i
b +u
i
peut provenir du comportement doptimisation dun individu et de ce fait as-
socier au paramètre b un sens economique : elasticite de substitution, elasticite
de la demande aux prix, mais telle quelle est ecrite, elle ne constitue pas pour
autant un modèle econometrique.
Il faut pour cela ajouter à cette ecriture une contrainte identiante. Si par
exemple on fait lhypothèse est lindependance des perturbations et des variables
explicatives, on a :
E
_
x
i
u
i
_
= 0
Cest sous cette dernière forme que le modèle peut etre considere comme un
modèle econometrique.
Cette contrainte identiante conduit à des restrictions de moments, qui sont
à la base de lestimation.
E
_
x
i
(y
i
x
i
b)
_
= 0
Dans certains cas, cest spontanement sous cette forme quun modèle emerge de
la theorie. Cest le cas en particulier des equations dEuler.
10.2 La methode des moments generalisee
La methode des moments generalisee concerne la situation dans laquelle on
dispose dun vecteur de fonctions g de dimension dimg dun paramètre dinteret
de dimension dim et de variables aleatoires observables z
i
dont lesperance
est nulle pour =
0
la vraie valeur du paramètre :
E (g (z
i
, )) = 0 =
0
de telles relations portent le nom de conditions dorthogonalite.
Cest un cadre très general englobant de nombreuses situations speciques :
maximum de vraisemblance : On a des observations z
i
et un modèle dont
la vraisemblance secrit LogL(z
i
, ) . Comme
E
_
L(z
i
, )
L(z
i
,
0
)
_
=
_
L(z
i
, )
L(z
i
,
0
)
L(z
i
,
0
) dz
i
=
_
L(z
i
, ) dz
i
= 1
et que du fait de linegalite de Jensen
log
_
E
_
L(z
i
, )
L(z
i
,
0
)
__
> E
_
log
_
L(z
i
, )
L(z
i
,
0
)
__
pour ,=
0
, on a
0 > E (log L(z
i
, )) E (log L(z
i
,
0
))
10.2 La methode des moments generalisee 87
Lesperance de la vraisembleance est maximale pour =
0
:
E
log L(z
i
, )
= 0 =
0
modèle desperance conditionnelle, moindres carres non lineaires
On a une variable y
i
dont lesperance conditionnelle à des variables expli-
catives x
i
secrit
E (y
i
[x
i
) = f (x
i
,
0
)
comme
E
_
(y
i
f (x
i
, ))
2
_
= E [y
i
f (x
i
,
0
) +f (x
i
,
0
) f (x
i
, )]
2
= E
_
(y
i
f (x
i
,
0
))
2
_
+2E [(y
i
f (x
i
,
0
)) (f (x
i
,
0
) f (x
i
, ))]
+E
_
(f (x
i
,
0
) f (x
i
, ))
2
_
> E
_
(y
i
f (x
i
,
0
))
2
_
on en deduit
E
_
(y
i
f (x
i
, ))
f (x
i
, )
_
= 0 =
0
methode ` a variables instrumentales pour un système dequations.
E
_
Z
i
(y
i
x
i
0
)
_
= 0
o` u y
i
est un vecteur de variables dependantes de dimension M 1, x
i
une matrice de variables explicatives de dimension M dim() et Z
i
une
matrice dinstruments de dimension M H o` u la ligne m contient les
instruments z
m
de leqution m : Z
i
= diag (z
mi
) de telle sorte que
Z
i
=
_
_
z
1i
.
.
.
z
Mi
_
_
_
1i
.
.
.
Mi
_
_ =
_
_
z
1i
1i
.
.
.
z
Mi
Mi
_
_
On a
E
_
Z
i
(y
i
x
i
)
_
= E
_
Z
i
x
i
_
(
0
)
Des lors que E
_
Z
i
x
i
_
est de rang dim()
E
_
Z
i
(y
i
x
i
)
_
= 0 =
0
Ce cas simple, lineaire, englobe lui meme de tres nombreuses situations,
comme celles vues jusquà present mco, variables instrumentales dans le
cas univarie mais bien dautres encore comme l econometrie des donnees
de panel, lestimation de système de demande, ou encore lestimation de
systèmes ore-demande.
88 10 LA M
EN
ERALIS
EE
10.3 Principe de la methode :
Le principe de la methode GMM est de trouver

, rendant
g
_
z
i
,
_
,
la contrepartie empirique de E (g (z
i
, )) aussi proche que possible de zero.
Si dim(g) = dim() on peut exactement annuler g
_
z
i
,
_
: le modèle est
juste identie (cas des mco, du maximum de vraisemblance, des moindres
carres non lineaires)
Si dim(g) > dim() On ne peut pas annuler exactement la contrepartie
empirique des conditions dorthogonalite. Le modèle est dit suridentie.
Cest le cas le plus frequent lorsque lon met en oeuvre des methodes de
type variables instrumentales.
Remarque. Lecriture du modèle signie quon peut annuler exactement lespe-
rance E (g (z
i
, )) m eme dans le cas de la suridentication, quand bien meme
cest impossible à distance nie pour la contrepartie empirique des conditions
dorthogonalite.
Dans le cas de suridentication, la methode consiste à rendre aussi proche
de zero que possible la norme de la contrepartie empirique des conditions dor-
thogonalite dans une certaine metrique :
_
_
_g (z
i
, )
_
_
_
S
N
= g (z
i
, )
S
N
g (z
i
, )
Lestimateur est alors deni par :
= Arg min
g (z
i
, )
S
N
g (z
i
, )
Exemple. Cas o` u les conditions dorthogonalite sont lineaires dans le paramètre
dinteret. Cest par exemple le cas des variables instrumentales dans un système
dequations puisqualors
g (z
i
, ) = Z
i
(y
i
x
i
) = Z
i
y
i
Z
i
x
i
= g
1
(z
i
) g
2
(z
i
)
On note g
1
= g
1
(z
i
) et g
2
= g
2
(z
i
). Lestimateur est alors deni par :
S
= Arg min
(g
1
g
2
)
S
N
(g
1
g
2
)
Il existe dans ce cas une solution explicite :
S
=
_
g
2
S
N
g
2
_
1
g
2
S
N
g
1
Dans le cas des variables instrumentales, on a par exemple
S
=
_
x
i
Z
i
S
N
Z
i
x
i
_
1
Z
i
x
i
S
N
Z
i
y
i
10.4 Convergence et proprietes asymptotiques 89
10.4 Convergence et proprietes asymptotiques
Theorème 10.1. Sous les hypothèses
Hypothèse (H
1
). Lespace des paramètres est compact. La vraie valeur est
0
interieure à ,
Hypothèse (H
2
). E (g (z
i
, )) = 0 =
0
,
Hypothèse (H
3
). g (z
i
, ) est deux fois continuement derivable en ,
Hypothèse (H
4
). E
_
sup
[g (z
i
, )[ +sup
[g (z
i
, )[
2
+sup
g (z
i
, )[
_
< ,
Hypothèse (H
5
). g
k
(z
i
,
0
) a des moments nis dordre 1 et 2,
Hypothèse (H
6
). Le Jacobien G = E (
g (z
i
,
0
)) de dimension dimgdim
est de rang dim,
Hypothèse (H
7
). S
N
P
S
0
denie positive.
Lestimateur GMM

SN
minimisant Q
N
() deni par Q
N
() = g (z
i
, )
S
N
g (z
i
, ),
est convergent et asymptotiquement normal. Sa matrice de variance asympto-
tique est fonction de S
0
et de la matrice de variance des condition dorthogonalite
et peut etre estimee de facon convergente :
S
P
0
convergence

N
_
0
_
L
N
_
0, V
as
_
(S)
__
normalite asymptotique
V
as
_
S
_
= [G
S
0
G]
1
G
S
0
V (g (z
i
,
0
)) S
0
G[G
S
0
G]
1
o` u S
0
= p limS
N
et V (g (z
i
,
0
)) = E
_
g (z
i
,
0
) g (z
i
,
0
)

V (g (z
i
,
0
)) = g
_
z
i
,
S
_
g
_
z
i
,
S
_
V (g (z
i
,
0
)) et

G =
g
_
z
i
,
S
_

V
as
_
S
_
=
_
S
0
G
_
1
S
N
V (g (z
i
,
0
)) S
N

G
_
S
0
G
_
1
Demonstration.
Convergence :
Q
_
S
_
Q(
0
) =
_
Q
N
_
S
_
+
_
Q
_
S
_
Q
N
_
S
___
[Q
N
(
0
) + (Q(
0
) Q
N
(
0
))]
comme Q
N
_
S
_
Q
N
(
0
) et Q(
0
) Q
_
S
_
,on a
0 Q
_
S
_
Q(
0
)
_
Q
_
S
_
Q
N
_
S
__
(Q(
0
) Q
N
(
0
))
2sup
[Q() Q
N
()[
La condition E
_
sup
[g (z
i
, )[
_
< +permet de montrer quil y a conver-
gence uniforme de g (z
i
, ) vers E (g (z
i
, )), et donc de Q
N
() vers Q() =
E (g (z
i
, ))
SE (g (z
i
, )) .On en deduit donc que Q
_
S
_
P
Q(
0
) . Comme
la fonction Q est continue, que est compact, que Q(
0
) = 0 et Q() =
0 E (g (z
i
, )) = 0 =
0
on en deduit

S
P
0
.
90 10 LA M
EN
ERALIS
EE
Normalite asymptotique
La condition du premier ordre denissant le paramètre

S
est denie par
g
_
z
i
,
S
_
S
N
g
_
z
i
,
S
_
= 0. En appliquant le theorème de la valeur
moyenne à g
_
z
i
,
S
_
, on a
0 =
Ng
_
z
i
,
S
_
Ng (z
i
,
0
) +
g
_
z
i
,
S
_
N
_
0
_
, o` u

S
se trouve entre

S
et
0
converge donc aussi en probabilite vers
0
.
En multipliant par
g
_
z
i
,
S
_
S
N
, on a
g
_
z
i
,
S
_
S
N
g
_
z
i
,
S
_
N
_
0
_
=
g
_
z
i
,
S
_
S
N
Ng (z
i
,
0
)
La condition E
_
sup
g (z
i
, )[
_
< +garantit la convergence uniforme
en probabilite de
g (z
i
, ) vers E (
g (z
i
, )) . On en deduit que
g
_
z
i
,
S
_
S
N
P
G
S
et que
_
g
_
z
i
,
S
_
S
N
g
_
z
i
,
S
_
_
P
G
S
0
G
, matrice dimdim inversible compte tenu de rangG = dim. La condi-
tion que g
k
(z
i
,
0
) a des moments dordre 1 et 2 permet dappliquer le theo-
rème central limite à

Ng (z
i
,
0
) :

Ng (z
i
,
0
)
Loi
N (0, V (g (z
i
,
0
))).
On en deduit la normalite asymptotique de lestimateur et lexpression
de sa matrice de variance. Remarquons que le developpement precedent
conduit aussi à une approximation de lecart entre lestimateur et la vraie
valeur :
N
_
0
_

_
G
S
N
G
_
1
G
S
N
Ng (z
i
,
0
)
Estimation de la matrice de variance asymptotique
Le seul point à montrer est que g
_
z
i
,
S
_
g
_
z
i
,
S
_
V (g (z
i
,
0
)) . La
condition E
_
sup
[g (z
i
, )[
2
_
< , permet de montrer quil y a conver-
gence uniforme de g (z
i
, ) g (z
i
, )
vers E
_
g (z
i
, ) g (z
i
, )
_
10.5 Estimateur optimal
Theorème 10.2. Les estimateurs

obtenus ` a partir de matrice de poids S
N

S
avec
S
= V (g (z
i
,
0
))
1
10.6 Mise en oeuvre : deux etapes 91
sont optimaux, au sens o` u il conduisent ` a des estimateurs de variance minimale.
La matrice de variance asymptotique de cet estimateur est
V
as
_
_
= [G
G]
1
=
_
G
V (g (z
i
,
0
))
1
G
_
1
et peut etre estimee par
V
as
_
_
=
_
N

G
_
1
ou

G est comme precedemment un estimateur convergent de G.
Demonstration.
La demonstration se fait comme dans le cas des variables instrumentales. La
variance asymptotique de lestimateur optimal secrit
V
as
_
_
=
_
G
V
1
G
1
= (C
C)
1
avec C = V
1/2
G de dimension dimg dim
La variance asymptotique de lestimateur general secrit
V
as
_
S
_
= [G
S
0
G]
1
G
S
0
V S
0
G[G
S
0
G]
1
= BB
avec B = [G
S
0
G]
1
G
S
0
V
1/2
de dimension dim dimg. On a
BC = [G
S
0
G]
1
G
S
0
V
1/2
V
1/2
G = I
dim
do` u
V
as
_
S
_
V
as
_
_
= BB
(C
C)
1
= BB
BC (C
C)
1
C
puisque BC = I
dim
. On voit donc que
V
as
_
S
_
V
as
_
_
= B
_
I
dimg
C (C
C)
1
C
_
B
est une matrice semi denie positive, do` u loptimalite.

10.6 Mise en oeuvre : deux etapes
Dans le cas general, la mise en oeuvre de la methode des moments generalisee
pour obtenir un estimateur optimal presente un problème : la metrique optimale
faire intervenir le paramètre à estimer et est donc inconnue.
S
0
= V (g (z
i
,
0
))
1
Pour mettre cet estimateur en oeuvre on a recours à une methode en deux
etapes :
Première etape : On utilise une metrique quelconque (en fait pas si quel-
conque, interet à reechir) ne faisant pas intervenir le paramètre. S
N
= I
est un choix possible mais certainement pas le meilleur. La mise en oeuvre
des GMM avec cette m etrique permet dobtenir un estimateur convergent
mais pas ecace

1
.
92 10 LA M
EN
ERALIS
EE
A partir de cet estimateur on peut determiner un estimateur de la matrice
de variance des condition dorthogonalite :
V (g)
N
= g
_
z
i
,
1
_
g
_
z
i
,
1
_
P
V (g (z
i
,
0
))
ainsi que
G =
g
_
z
i
,
1
_
P
E (
g (z
i
,
0
))
On peut des lors determiner un estimateur de la matrice de variance
asymptotique de ce premier estimateur
V
as
_
1
_
N
=
_
S
N

G
_
1
S
N
V (g)
N
S
N

G
_
S
N

G
_
1
Deuxième etape : On met à nouveau en oeuvre lestimateur des GMM avec
la metrique S
N
=

V (g)
1
N
. On obtient ainsi un estimateur convergent et
asymptotiquement ecace dont on peut estimer la matrice de variance
asymptotique
V
as
_
_
N
=
_
N

G
_
1
10.7 Application aux variables instrumentales dans un sys-
tème d equations
On considère le cas dun système dequations avec variables instrumentales
g (z
i
, ) = Z
i
(y
i
x
i
) = Z
i
y
i
Z
i
x
i
Verication des hypothèses

1. H
2
: E
_
Z
i
y
i
_
E
_
Z
i
x
i
_
= 0 admet une unique solution si rangE
_
Z
i
x
i
_
=
dim, simple generalisation de la condition dejà vue dans le cadre
univarie.
2. H
3
: est satisfaite du fait de la linearite.
3. H
4
et H
5
sont satisfaites si E
_
_
sup
i
y
i
+ sup
i
x
i
_
2
_
< +,
cest à dire si les moments dordre quatres de Z
i
, x
i
et y
i
existent.
4. H
6
:
g (z
i
,
0
) = Z
i
x
i
. Si E
_
Z
i
x
i
_
est de rang dim, G =
E (
g (z
i
,
0
)) = E
_
Z
i
x
i
_
est de rang dim.
Expression de la matrice de variance des conditions dorthogonalite
La variance des conditions dorthogonalite secrit
V (g (z
i
,
0
)) = E
_
Z
i
(y
i
x
i
0
) (y
i
x
i
0
)
Z
i
_
= E
_
Z
i
u
i
u
i
Z
i
_
Expression tres proche de celle vue dans le cadre des variables instrumen-
tales. Cette expression fait bien intervenir en general le paramètre et il
est alors necessaire de mettre en oeuvre une methode en deux etapes.
10.7 Application : instruments dans un système dequations 93
Mise en oeuvre de lestimation
Première etape : lestimateur a pour expression :
S
=
_
x
i
Z
i
S
N
Z
i
x
i
_
1
x
i
Z
i
S
N
Z
i
y
i
La matrice de variance des conditions dortogonalite peut etre estimee par
V (g) = Z
i
_
y
i
x
i
S
__
y
i
x
i
S
_
Z
i
= Z
i
u
i
u
i
Z
i
A partir de cette estimation, on peut aussi estimer la variance de lesti-
mateur de première etape :
V
_
(S)
_
=
_
x
i
Z
i
S
N
Z
i
x
i
_
1
Z
i
x
i
S
N
V (g) S
N
x
i
Z
i
_
Z
i
x
i
S
N
Z
i
x
i
_
1
ainsi que lestimateur optimal :
S
=
_
x
i
Z
i
V (g)
1
Z
i
x
i
_
1
x
i
Z
i
V (g)
1
Z
i
y
i
et sa variance asymptotique :
V
as
_
S
_
=
_
x
i
Z
i
V (g)
1
Z
i
x
i
_
1
10.7.1 Regressions à variables instrumentales dans un système ho-
moscedastique
Dans le cas o` u on fait lhypothèse dhomoscedasticite : E (u
i
u
i
[Z
i
) = =
E
_
(y
i
x
i
0
) (y
i
x
i
0
)
_
, on a V (g (z
i
,
0
)) = E
_
Z
i
Z
i
_
. Si les regresseurs
sont les memes, si il nexiste pas de contraintes entre les paramètres des equations
x
i
= I
M
x
i
, et si les instruments sont les memes dune equation à lautre
Z
i
= I
M
z
i
, on a x
i
Z
i
= I
M
x
i
z
i
.
Sous lhypothèse dhomoscedasticite, la matrice de variance des conditions
dorthogonalite a pour expression E
_
Z
i
Z
i
_
= E
_
z
i
z
i
_
.
Rappel : pour des matrices aux tailles appropriees (AB) (C D) =
AC BD. On a donc Z
i
= ( 1) (I
M
z
i
) = z
i
. Do` u Z
i
Z
i
=
_
I
M
z
i
_
( z
i
) = z
i
z
i
. On a donc
x
i
Z
i
S
i
x
i
=
_
I
M
x
i
z
i
__
E
_
z
i
z
i
__
1
_
I
M
z
i
x
i
_
=
1
_
x
i
z
i
E
_
z
i
z
i
_
1
z
i
x
i
_
et
x
i
Z
i
S
i
y
i
=
_
I
M
x
i
z
i
__
E
_
z
i
z
i
__
1 _
I
M
z
i
_
y
i
=
_
_
x
i
z
i
E
_
z
i
z
i
_
1
__
_
_
z
i
y
1i
.
.
.
z
i
y
Mi
_
_
94 10 LA M
EN
ERALIS
EE
puisque
_
I
M
z
i
_
y
i
=
_
_
z
i
y
1i
.
.
.
z
i
y
Mi
_
_
Lestimateur optimal a donc pour expression
S
=
_
x
i
z
i
E
_
z
i
z
i
_
1
z
i
x
i
_
1
_
x
i
z
i
E
_
z
i
z
i
_
1
_
_
_
z
i
y
1i
.
.
.
z
i
y
Mi
_
_
= I
M
x
i
z
i
_
E
_
z
i
z
i
__
1
_
_
z
i
y
1i
.
.
.
z
i
y
Mi
_
_ =
_
b
2mc1
.
.
.
b
2mcM
_
_
On voit que dans ce cas, lestimateur optimal est identique à lestimateur
des doubles moindres carres eectue equation par equation. Il ny a donc pas
non plus dans ce cas de methode en deux etapes à mettre en oeuvre. La matrice
de variance des paramètres a pour expression
V
_
_
=
_
E (x
i
z
i
) E
_
z
i
z
i
_
1
E (z
i
x
i
)
_
1
on voit donc que les estimateurs ne sont pas independants les uns des autres des
que la matrice de variance nest pas diagonale.
10.7.2 Estimateur à variables instrumentales optimal dans le cas uni-
varie et heteroscedastique
On considère la situation dun modèle lineaire univarie
y
i
= x
i
+u
i
avec un ensemble dinstruments z
i
: Le sconditions dorthogonalite sont donc
E
_
z
i
(y
i
x
i
)
_
= 0
Le resultat precedent montre que dans le cas univarie homoscedastique, i.e.
E
_
u
2
i
[z
i
_
= E
_
u
2
i
_
, lestimateur GMM optimal concide avec lestimateur des
2mc. On examine la situation dans laquelle il ny a plus homoscedasticite.
La matrice de variance des conditions dortogonalite est donnee par
V (g) = E
_
(y
i
x
i
0
)
2
z
i
z
i
_
= E
_
u
2
i
z
i
z
i
_
et lestimateur optimal a pour expression
S
=
_
x
i
z
i
V (g)
1
z
i
x
i
_
1
x
i
z
i
V (g)
1
z
i
y
i
on voit quil est dierent de lestimateur des 2mc dont lexpression est
2mc
=
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
z
i
z
i
1
z
i
y
i
10.8 Test de specication. 95
Il faut donc mettre en oeuvre la methode en deux etapes. On peut par exemple
partir de lestimateur des 2mc, qui est certainement proche de lestimateur op-
timal, et calculer un estimateur de la matrice de variance des conditions dorto-
gonalite,
V (g) = u
2
i
z
i
z
i
puis determiner lestimateur optimal,
S
=
_
x
i
z
i
u
2
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
u
2
i
z
i
z
i
1
z
i
y
i
ainsi que les matrice de variance de chacun des estimateurs :
V
as
_
2mc
_
=
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
z
i
z
i
1
u
2
i
z
i
z
i
z
i
z
i
1
x
i
z
i
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
V
as
_
_
=
_
x
i
z
i
u
2
i
z
i
z
i
1
z
i
x
i
_
1
10.8 Test de specication.
Comme pour les variables instrumentales, dans le cas o` u il y a plus de condi-
tions dorthogonalite que de paramètres à estimer, le modèle impose des restric-
tions aux donnees. Elles doivent verier la propriete :
[ E (g (z
i
, )) = 0
Intuitivement : on peut eliminer le paramètre en se servant dune partie des
equations. Lhypothèse
0
tq E (g (z
i
,
0
)) = 0 peut etre reformulee de
fa con equivalente sous la forme E ((z
i
)) = 0 avec dim() = dim(g) dim()
. Ce sont ces restrictions additionnelles que lon teste.
Le principe reste le meme : regarder si g (z
i
,
0
) est proche de 0, mais on ne
connat pas
0
.
Plus precisement : on regarde si g
i
= g
_
z
i
,
_
est proche de 0, cest à
dire si la contrepartie empirique des conditions dorthogonalite evaluee avec
lestimateur optimal est proche de zero.
Le resultat general sapplique
N g
i
V
as
_
g
i
_
g
i

2
_
rangV
_
g
i
__
Pour eectuer le test il faut donc determiner le rang de V
as
_
g
i
_
ainsi quun
inverse generalise et un estimateur convergent de cet inverse.
Theorème 10.3. Sous H
0
: [ E (g (z
i
, )) = 0, on a
NQ
N
(
) = N g
i
N
g
i
L
2
(dim(g) dim())
o` u g
i
= g
_
z
i
,
_
et S
N
=

V (g (z
i
,
0
))
1
= g
_
z
i
,
_
g
_
z
i
,
_
1
On remarque que la statistique utilisee pour le test est N fois la valeur de
lobjectif ` a loptimum.
96 10 LA M
EN
ERALIS
EE
Demonstration. Comme
N g
i

Ng
i
0
+G
_
0
_
et
N
_
0
_

_
G
S
N
G
_
1
G
Ng
i
0
on a
N g
i

_
I
dimg
G
_
G
G
_
1
G
Ng
i
0
= (I
dimg
P
G
)
Ng
i
0
avec P
G
= G
_
G
G
_
1
G
. P
2
G
= P
G
. P
G
est donc un projecteur dont
le rang est celui de G, i.e dim. Comme en outre P
G
S
1
P
G
= P
G
S
1
, et
V
as
(g
i
0
) = S
1
, on a
V
as
_
g
i
_
= (I
dimg
P
G
) S
1
(I P
G
)
= (I
dimg
P
G
) S
1
On en deduit immediatement le rang de V
as
_
g
i
_
:
rangV
_
g
i
_
= dimg dim
et un inverse generalise :
V
as
_
g
i
_
S
V
as
_
g
i
_
= (I
dimg
P
G
) S
1
S
(I
dimg
P
G
) S
1
= (I
dimg
P
G
)
2
S
1
= (I
dimg
P
G
) S
1
= V
as
_
g
i
_
do` u
S
= V
as
_
g
i
_
Estimation convergente de linverse generalisee : Comme la matrice g (z

i
, ) g (z
i
, )
est une fonction continue de convergent uniformement vers E

_
g (z
i
, ) g (z
i
, )
_
,
S
N
= g
_
z
i
,
_
g
_
z
i
,
_
converge vers S
10.8.1 Application test de suridentication pour un estimateur à

variables instrumentales dans le cas univarie et heteroscedas-
tique
Le test est eectue sur la contrepartie empirique des conditions dorthogo-
nalite evaluees en =

, lestimateur optimal. On calcule donc :

z
i
_
y
i
x
i
_
= z
i
u
i
et sa norme
z
i
u
i
u
2
i
z
i
z
i
1
z
i
u
i
o` u u
i
= y
i
x
i
1
est le residu de lequation estime à partir dune première etape
10.8 Test de specication. 97
Le resultat stipule que sous lhypothèse nulle, H
0
: [E
_
z
i
(y
i
x
i
)
_
= 0,
la statistique
= Nz
i
u
i
u
2
i
z
i
z
i
1
z
i
u
i

2
(dimz dimx)
On rejettera lhypothèse nulle si

S
est trop grand, i.e. pour un test au niveau
> Q
_
1 ,
2
(dimz dimx)
_
98 11 VARIABLES D
EPENDANTES LIMIT
EES
11 Variables dependantes limitees
On a examine jusquà present le cas de modèles lineaires pour lesquels la
variable dependante y
i
avait pour support R. On examine dans ce chapitre la
specication et lestimation de modèles dans des situations plus generales.
On examine trois cas
Modèle dichotomique : y
i
0, 1. Par exemple : participation au marche
du travail, à un programme de formation, faillite dune entreprise, defaut
de paiement, signature dun accord de passage aux 35 heures etc. Les in-
formations dont on dispose dans les enquetes sont souvent de cette nature :
avez vous au cours de la periode du tant au tant eectue telle ou telle
action .
Modèle de choix discret comme par exemple le choix du lieu de vacances
(pas de vacances, montagne, mer, campagne) ou le choix du moyen de
transport domicile-travail (bus, auto, metro, à pied). Ces situations conduisent
à des variables prenant un nombre ni de modalites y
i
0, 1, 2, . . . , M.
Donnees tronquees : on observe une variable y
i
uniquement conditionnel-
lement à la realisation dune autre variable. Par exemple le salaire nest
observe que conditionnellement au fait que lindividu ait un emploi. On a
alors deux variables à modeliser : la variable de censure I
i
0, 1 indi-
quant si le salaire est observe ou non et la variable de salaire w
i
lorsquil
est observe.
11.1 Modèle dichotomique
On souhaite expliquer une variable endogène y
i
prenant les valeurs 1 ou 0
en fonction de variables explicatives exogènes x
i
,
Dune fa con generale on specie la probabilite dobserver y
i
= 1 condition-
nellement aux variables explicatives x
i
.
P (y
i
= 1 [x
i
) =

G(x
i
)
qui denit complètement la loi conditionnelle de y
i
sachant x
i
. Cette probabilite
est aussi lesperance conditionnelle de la variable y
i
:
E (y
i
[x
i
) =
y
i
{0,1}
y
i
_
1
(y
i
=1)
P (y
i
= 1 [x
i
) + 1
(y
i
=0)
(1 P (y
i
= 1 [x
i
))
= P (y
i
= 1 [x
i
) =

G(x
i
)
On specie en general cette fonction comme dependant dun indice lineaire en
x
i
:
G(x
i
) = G(x
i
b)
Les dierentes solutions que lon peut apporter à la modelisation de la variable
dichotomique y
i
correspondent à dierents choix pour la fonction G.
11.1.1 Modèle à probabilites lineaires
Cest la situation dans laquelle on sepcie simplement
E (y
i
[x
i
) = P (y
i
= 1 [x
i
) = x
i
b
11.1 Modèle dichotomique 99
Le modèle peut alors etre estime par les MCO.
En depit de sa simplicite attractive, ce choix de modelisation presente nean-
moins des inconvenients :
Deux inconvenients de ce modèle
Un premier problème vient de lestimation. Compte tenu du fait que y
2
i
=
y
i
, toute estimation de modèle de choix discret par les moindres carres,
lineaire dans le cas present ou non lineaire dans le cas gen eral, cest à dire
basee sur la specication E (y
i
[x
i
) = G(x
i
b) , doit prendre en compte le
fait que le modèle de regression correspondant
y
i
= G(x
i
b) +u
i
est heteroscedatique. En eet on a :
V (y
i
[x
i
) = E
_
y
2
i
[x
i
_
E (y
i
[x
i
)
2
= E (y
i
[x
i
) E (y
i
[x
i
)
2
= E (y
i
[x
i
) [1 E (y
i
[x
i
)] = G(x
i
b) [1 G(x
i
b)]
Lestimateur des mco dans le cas lineaire a donc pour variance
V
as
_
b
mco
_
= E
_
x
i
x
i
_
1
E
_
u
2
i
x
i
x
i
_
E
_
x
i
x
i
_
1
que lon estime par la methode de White
V
as
_
b
mco
_
= x
i
x
i
1
u
2
i
x
i
x
i
.x
i
x
i
1
On pourrait aussi songer à estimer plus directement cette matrice compte
tenu de la forme de lheteroscedasticite, ou meme à mettre en oeuvre
lestimateur des mcqg puisque lon connait lexpression de la matrice de
variance des residus conditionnellement à x
i
:
E
_
u
2
i
[x
i
_
= G(x
i
b) (1 G(x
i
b)) =
2
(x
i
b)
Par exemple pour lestimateur des mcqg
b
mcqg
= x
i
x
i
1
x
i
y
i
avec z
i
= z
i
__
2
_
x
i
b
mco
_
. Ceci est en pratique impossible et soulève
un second problème associe à la specication dun modèle de probabilite
lineaire
Le modèle ne peut contraindre P (y
i
= 1 [x
i
) = x
i
b à appartenir à linter-
valle [0, 1].
11.1.2 Les modèles probit et logit.
Il est donc preferable de faire un autre choix que lidentite pour la fonction
G. On souhaite que cette fonction soit croissante, quelle tende vers 1 en +
et vers 0 en . En principe, la fonction de repartition de nimporte quelle loi
de probabilite pourrait convenir. En pratique les modèles de choix discret sont
species en utilisant deux fonctions de repartition :
100 11 VARIABLES D
EPENDANTES LIMIT
EES
, la fonction de repartition de la loi normale :
G(z) =
_
z
(t)dt = (z)
o` u (t) =
1
2
exp
_
1
2
t
2
_
. On a donc dans ce cas
P (y
i
[x
i
) = (x
i
b)
Un tel modèle est appele Modèle Probit.
F, la fonction logistique
F (z) =
1
1 + exp(z)
Dans ce cas
P (y
i
[x
i
) = F (x
i
b) =
1
1 + exp (x
i
b)
Un tel modèle est appele Modèle Logit
Relation entre les 3 modèles :
Dans la plupart des applications les dierences sont neanmoins assez faibles
entre les resultats. On peut pour le voir eectuer un developpement limite à
lordre 3 de chacune des fonction F et
On a
F (x)
1
2
+
1
4
x
1
8
x
3
6
=
1
2
+
x
4

4
3
_
x
4
_
3
(x)
1
2
+(0) x (0)
x
3
6
=
1
2
+
1
2
x
1
2
x
3
6
=
1
2
+
x
2
6
_
x
2
_
3
Donc
F
_
4
2
x
_
=
1
2
+
1
2
x
1
8
x
3
6
_
4
2
_
3
=
1
2
+
1
2
x
1
2
x
3
6
4
(x) +
1
2
x
3
6
_
4
1
_
(x) + 0.02x
3
On en conclut que :
1.

b
Probit

_
2/4
_
b
Logit
,
2/4 0.625
2.

b
Lin eaire
0.25
b
Logit
(+0.5 pour la constante)
3.

b
Lin eaire
0.4
b
Probit
(+0.5 pour la constante)
4. La dierence entre la fonction logistique et la fonction probit à lordre 3
est tres faible, ce qui suggère que des lors quil ny a pas de dierences
trop importantes entre les eectifs des deux populations correspondant
aux realisations de y et que les variables explicatives ne sont pas trop
dispersees, lapproximation entre les deux estimations Logit et Probit sera
bonne.
5. Les approximations faisant intervenir lestimations lineaires seront en ge-
neral moins bonnes, surtout si les eectifs des deux populations sont d
esequilibres et si les variables explicatives sont dispersees.
Eet marginal dune variation dun regresseur continu x Comme E (y
i
[x
i
) =
G(x
i
b) , on a
E (y
i
[x
i
)
x
k
i
= G
(x
i
b) b
k
et lelasticite
LogE (y
i
[x
i
)
x
k
i
=
G
(x
i
b)
G(x
i
b)
b
k
Pour le modèle Probit on a ainsi :
E (y
i
[x
i
)
x
k
i
= (x
i
b) b
k
,
LogE (y
i
[x
i
)
x
k
i
=
(x
i
b)
(x
i
b)
b
k
et pour le modèle Logit
E (y
i
[x
i
)
x
k
i
= F (x
i
b) (1 F (x
i
b)) b
k
LogE (y
i
[x
i
)
x
k
i
= (1 F (x
i
b)) b
k
puisquon verie facilement F
= F (1 F)
11.1.3 Variables latentes
La modelisation precedente est une modelisation statistique. Les modèles
à variables dependantes discrètes peuvent etre souvent introduit par le biais
dune variable latente, cest à dire une variable inobservee mais qui determine
complètement la realisation de la variable indicatrice etudiee. Une telle approche
permet de rendre plus explicite les hypothèses economiques sous-jacentes à la
modelisation.
Exemple. Considerons la decision de participer à un stage de formation. Ce
stage represente un gain futur G
i
pour lindividu dont le capital humain aura
augmente. Supposons que lon soit capable de modeliser ce gain à partir de
variables explicatives
G
i
= x
g
i
b
g
+u
g
i
La participation au stage comporte aussi un co ut à court-terme C
i
, incluant
le fait quil faut dabord apprendre, et donc fournir un eort, mais aussi sou-
vent payer pour la formation et subir des co uts indirects comme des co uts de
transport. Supposons la encore que lon soit capables de modeliser ce co ut
C
i
= x
c
i
b
c
+u
c
i
Le gain net pour lindividu est donc y
i
= G
i
C
i
.
y
i
= x
g
i
b
g
x
c
i
b
c
+u
g
i
u
c
i
= x
i
b +u
i
102 11 VARIABLES D
EPENDANTES LIMIT
EES
On peut modeliser la participation comme le fait que le gain net soit positif :
y
i
= 1 y
i
> 0 x
i
b +u
i
> 0
y
i
est la variable latente associee au modèle. Si on suppose que le residu interve-
nant dans modelisation de la variable latente est normal et quil est independant
des variables explicatives, on obtient le modèle Probit. Les paramètres b sont
identiables à un facteur multiplicatif pres. Supposons u
i
N
_
0,
2
_
y
i
= 1 x
i
b
+
u
i
> 0
et v
i
= u
i
/ N (0, 1) . On pose c = b/, on a donc
P (y
i
= 1 [x
i
) = P
_
x
i
b
+
u
i
> 0
_
= P (v
i
> x
i
c) = P (v
i
< x
i
c)
= (x
i
c)
o` u on utilise le fait que la loi normale est symetrique, et que donc P (v > a) =
P (v < a)
Le modèle logit est lui aussi compatible avec cette modelisation. On suppose
alors que u
i
suit une loi logistique de variance . La variable u
i
/ suit alors
une loi logistique de densite f (x) = exp (x) / (1 + exp (x))
2
et de fonction
de repartition F (x) = 1/ (1 + exp (x)) . Cette densite est là encore symetrique
en zero, et on aura
P (y
i
= 1 [x
i
) = P
_
x
i
b
+
u
i
> 0
_
= P (v
i
> x
i
c) = P (v
i
< x
i
c)
= F (x
i
c)
On pourrait considerer dautres cas comme par exemple le fait que la loi
de u
i
suive une loi de Student, on obtiendrait alors dautres expressions pour
P (y
i
= 1 [x
i
)
11.1.4 Estimation des modèles dichotomiques
Les modèles dichotomiques sestiment par le maximum de vraisemblance.
On fait lhypothèse que les observations sont independantes. Compte tenu dune
modelisation conduisant à
P (y
i
= 1 [x
i
) = G(x
i
b)
avec Gune fonction de repartition connue, de densite g. La probabilite dobserver
y
i
pour un individu peut secrire comme
P (y
i
[x
i
) = P (y
i
= 1 [x
i
)
y
i
[1 P (y
i
= 1 [x
i
)]
1y
i
= G(x
i
b)
y
i
[1 G(x
i
b)]
1y
i
La vraisemblance de lechantillon secrit donc
L(Y [X) =
N
i=1
P (y
i
[x
i
) =
N
i=1
G(x
i
b)
y
i
[1 G(x
i
b)]
1y
i
compte tenu de lhypothèse dindependance. La log vraisemblance s
ecrit alors
log L
N
=
N
i=1
[y
i
log G(x
i
b) + (1 y
i
) log (1 G(x
i
b))]
Conditions de 1er ordre pour la maximisation : Lestimateur du maxi-
mum de vraisemblance est deni par :
log L
N

=
N
i=1
_
_
y
i
g
_
x
i
b
_
G
_
x
i
b
_ + (1 y
i
)
g
_
x
i
b
_
1 G
_
x
i
b
_
_
_
x
i
= 0
soit
log L
N
b
=
N
i=1
_
y
i
G
_
x
i
b
__ g
_
x
i
b
_
G
_
x
i
b
__
1 G
_
x
i
b
__x
i
= 0
Ces equations sont en general non lineaires et necessitent la mise en oeuvre dun
algorithme doptimisation.
On voit que ces equations dans le cas general sexpriment sous la forme
N
i=1
_
x
i
,
b
__
y
i
E
_
y
i
x
i
,
b
__
x
i
= 0
Elles sont donc dans le fond assez similaires aux conditions vues pour les moindres
carres, mis à part la ponderation et la non linearite. On remarque e gale-
ment que la ponderation sinterprète naturellement par le fait que V (y
i
[x
i
) =
G(x
i
, b) (1 G(x
i
, b)) , et que g (x
i
, b) x
i
est la derivee par rapport à b de
G(x
i
b) . La ponderation est donc analogue à une sphericisation analogue à celle
pratiquee dans la methode des mcqg du modèle linearise autour de la vraie
valeur du paramètre.
Pour le modèle Logit on a G(z) = F (z) = 1/ (1 + exp (z)) , et g (z) =
exp (z) / (1 + exp (z))
2
= G(z) (1 G(z)) . On a donc simplement
log L
N
b
Logit
=
N
i=1
_
y
i
F
_
x
i
b
__
x
i
= 0
Pour le modèle Probit on a G(z) = (z) , et g (z) = (z) . On a donc simple-
ment
log L
N
b
Pr obit
=
N
i=1
_
y
i
_
x
i
b
__
_
x
i
b
_
_
x
i
b
__
1
_
x
i
b
__x
i
= 0
Derivees secondes de la log-vraisemblanc
Pour le modèle logit : On trouve directement
H =

2
log L
N
bb
Logit
=
N
i=1
_
1 F
_
x
i
b
__
F
_
x
i
b
_
x
i
x
i
104 11 VARIABLES D
EPENDANTES LIMIT
EES
La matrice hessienne est toujours negative : la fonction de log-vraisemblance
est donc globalement concave. La methode de Newton permettra de conver-
ger vers loptimum en quelques iterations.
Dune facon generale, on peut montrer que si log (g) est concave, alors
le hessien est negatif. En eet, on peut reecrire la log vraisemblance en
separant les observations pour lesquelles y
i
= 1 de celles pour lesquelles
y
i
= 0, on note I
1
et I
0
les ensembles dindividus correspondants. En
notant g
i
= g (x
i
b) et G
i
= G(x
i
b) , on a alors
log L
N
b
=
N
i=1
[y
i
G
i
]
g
i
G
i
[1 G
i
]
x
i
=
I
1
[1 G
i
]
g
i
G
i
[1 G
i
]
x
i
+
I
0
[0 G
i
]
g
i
G
i
[1 G
i
]
x
i
=
I
1
g
i
G
i
x
i
+
I
0
g
i
1 G
i
x
i
On a alors :
2
log L
N
bb
I
1
_
g
i
G
i
_
i
x
i
+
I
0
_
g
i
1 G
i
_
i
x
i
et
_
g
i
G
i
_
=
g
i
G
i
g
2
i
G
2
i
et
_
g
i
[1G
i
]
_
=
g
i
(1G
i
)g
2
i
(1G
i
)
2
. Comme g est sy-
metrique G(z) = 1 G(z) , donc
g(z)
G(z)
=
g(z)
1G(z)
, il sensuit que
d
dz
_
g(z)
1G(z)
_
=
d
dz
_
g(z)
G(z)
_
=
d
dz
_
g
G
_
z
, si
g
G
est une fonction decrois-
sante, alors
g(z)
1G(z)
est aussi une fonction decroissante. Pour montrer que
le Hessien est negatif il sut de montrer que
g
G
est decroissante, cest à
dire si g
G < g
2
soit encore
g
g
G < g. log (g) est concave est equivalent à
g
g
de croissante. Dans ce cas g
(t) =
g
(t)
g(t)
g (t) >
g
(z)
g(z)
g (t) pour t z donc
_
z
(t) dt >
g
(z)
g(z)
_
z
g (t) soit g (z) >

g
(z)
g(z)
G(z) .
Dans le cas Probit, g (z) =
1
2
exp
_
1
2
z
2
_
, on a donc log g (z) = log
2
1
2
z
2
, qui est bien une fonction concave. Lobjectif est donc globalement
concave.
Remarque. Compte tenu de
(z) = z(z) on en deduit z +

(z) > 0 et aussi

z +

1
(z) > 0.
Matrice de variance-covariance de

b La matrice de variance-covariance
asymptotique est egale à
V
as
_
b
_
=
_
E
_
2
log L
bb
__
1
=
_
E
_
log L
b
log L
b
__
1
Elle peut etre estimee à partir des derivee secondes evaluees en

b :
V
as
(
b) =
_
_
_
2
log L
_
y
i
, x
i
,
b
_
bb
_
_
_
1
11.2 Modèles de choix discrets : le Modèle Logit Multinomial 105
ou des derivees premières evaluee en

:
V
as
(
b) =
_
_
_
_
log L
_
y
i
, x
i
,
b
_
b
_
_
log L
_
y
i
, x
i
,
b
_
b
_
_
_
_
_
_
1
On note que dans ce cas la matrice de variance secrit sous une forme connue,
sapparentant à celle des mcqg

V
as
(
b) =
_

2
i

2
i
x
i
x
i
_
1
, o` u
i
= y
i
G
_
x
i
,
b
_
et
i
=
g(x
i
b)
G(x
i
b)[1G(x
i
b)]
. La matrice de variance covariance de lestimateur est
dans tous les cas estimee par
V (
b) =

V
as
(
b)/N
11.2 Modèles de choix discrets : le Modèle Logit Multi-
nomial
Supposons quun individu i ait à choisir, parmi un ensemble de K modalites,
une et une seule de ces modalites, notee k.
Exemple. choix du lieu de vacances (montagne, mer, campagne) ;
choix du moyen de transport domicile-travail (bus, auto, metro) ;
choix dun article particulier pour les decisions dachat de biens dierencies
(type de voiture, marque de cereale, type de tele viseur...).
Pour modeliser cette situation on associe à chaque modalite un niveau duti-
lite
U
ik
=
ik
+
ik
= x
i
b
k
+
ik
k = 1, ...K
o` u
ik
est une variable aleatoire non observable. Lindividu choisit la modalite
que lui procure lutilite maximal.
y
i
= Arg max
k
(U
ik
)
Theorème 11.1 (Mac Fadden, 1974). Si les
ik
k=1,...K
sont des v.a. in-
dependantes et identiquement distribuees selon une loie des valeurs extremes de
fonction de repartition.
G(x) = exp[exp(x)],
alors la probabilite de choisir la modalite k secrit :
P[Y
i
= k] =
exp(
ik
)
K
l=1
exp (
il
)
=
exp(x
i
b
k
)
K
l=1
exp(x
i
b
l
)
Ce modèle est appele modèle logit multinomial.
Demonstration. Notons g la fonction de densite des :
g (z) = G
(z) =
d
dz
exp[exp (z)] = exp (z) G(z)
106 11 VARIABLES D
EPENDANTES LIMIT
EES
On peut ecrire par exemple la probabilite de choisir la première solution
P (y = 1) = P (U
2
< U
1
, . . . , U
K
< U
1
)
= P (
2
+
2
<
1
+
1
, . . . ,
K
+
K
<
1
+
1
)
=
_
+
P (
2
+
2
<
1
+
1
, . . . ,
K
+
K
<
1
+
1
[
1
) g (
1
) d
1
Comme les aleas sont independants, on a
P (
2
+
2
<
1
+
1
, . . . ,
K
+
K
<
1
+
1
[
1
)
=
K
k=2
P (
k
+
k
<
1
+
1
[
1
) =
K
k=2
G(
1
k
+
1
)
=
K
k=2
exp [exp (
1
+
k
1
)] = exp
_
k=2
exp (
1
+
k
1
)
_
= exp
_
exp (
1
)
K
k=2
exp (
k
1
)
_
Donc
P (y = 1) =
_
+
exp
_
exp (
1
)
K
k=2
exp (
k
1
)
_
g (
1
) d
1
=
_
+
exp
_
exp (
1
)
K
k=2
exp (
k
1
)
_
exp (
1
) G(
1
) d
1
=
_
+
exp
_
exp (
1
)
_
K
k=2
exp (
k
1
) + 1
__
exp (
1
) d
1
=
_
+
exp
_
exp (
1
)
K
k=1
exp (
k
1
)
_
exp (
1
) d
1
puisque G(
1
) = exp[exp (
1
)] et exp (
1
1
) = 1. Si on denit P
1
=
_
K
k=1
exp (
k
1
)
_
1
, on a
P (y = 1) =
_
+
exp [exp (
1
) /P
1
] exp(
1
) d
1
On fait le changement de variable v = exp (
1
) /P
1
. On a dv = exp (
1
) d
1
/P
1
,
do` u
P (y = 1) =
_
exp((+))/P
1
exp(())/P
1
exp(v) P
1
dv =
_
0
exp (v) P
1
dv = P
1
Remarque. 1. Les probabilites ne dependent que des dierences
k
= x(b
l
b
k
), l ,= k
Elles ne sont pas modies si tous les b
l
sont translates en

b
l
= b
l
+c.
11.2 Modèles de choix discrets : le Modèle Logit Multinomial 107
2. En consequence, les b
k
sont non identiables sauf à poser par exemple
b
1
= 0
3. Les paramètres estimes sinterpretent alors comme des ecarts à la refe rence
b
1
. Un signe positif signie que la variable explicative accrot la probabilite
de la modalite associee relativement à la probabilite de la modalite de
reference.
11.2.1 Estimation du modèle logit multinomial :
Posons
y
ki
= 1 (y
i
= k)
P
ki
= P (y
i
= k [x
i
) =
exp(x
ki
b
k
)
K
l=1
exp(x
li
b
l
)
b
1
= 0
La log-vraisemblance de lechantillon secrit :
log L =
n
i=1
K
k=1
y
ik
log P
ik
Cette fonction est globalement concave. Les conditions du premier ordre pour
la determination du paramètre b
= (b
2
, ..., b
K
)
, secrivent simplement sous la

forme
log L
b
=
n
i=1
_
_
_
(y
i2
P
i2
) x
2i
.
.
.
(y
iK
P
iK
) x
Ki
_
_
_ = 0
Demonstration. Determinons dabord le gradient. On redenit les proba-
bilite à partir d
un vecteur de variables observables specique à chaque moda-

lite auquel sapplique le vecteur de paramètre b complet. C
est à dire tel que

x
ik
b = x
ik
b
k
, x
ik
= (0, ..., 0, x
ik
, 0, ..., 0) x
ik
est un vecteur ligne dont le nombre
de colonne est n
b
k
, la dimension de b
k
, tandis que x
ik
est un vecteur dont la
dimension est celle de lensemble des paramètres, cest à dire n
b
2
+ +n
b
K
. Les
probabilite secrivent donc sous la forme P
ki
= P (y
i
= k [x
i
) =
exp( x
ki
b)
K
l=1
exp( x
li
b
l
)
et on a x
1i
= 0. La condition du premier ordre est donnee par
log L
b
=
n
i=1
K
k=1
y
ik
b
log P
ik
= 0
et on a dune part
log P
ik
b
=

b
_
( x
ik
b) log
K
l=1
exp( x
il
b)
_
= x
ik
K
l=1
b
exp( x
il
b)
_
K
l=1
exp(x
i
b
l
)
_
= x
ik
K
l=1
P
il
x
il
= x
ik
x
i
108 11 VARIABLES D
EPENDANTES LIMIT
EES
avec x
i
=

K
l=1
P
il
x
il
, comme

K
l=1
P
il
= 1, x
i
represente une moyenne des
observations pour lindividu i. Le gradient secrit donc
log L
b
=
n
i=1
K
k=1
y
ik
_
x
ik
K
l=1
P
il
x
il
_
=
n
i=1
K
k=1
y
ik
x
ik
K
l=1
K
k=1
y
ik
P
il
x
il
=
n
i=1
K
k=1
y
ik
x
ik
K
l=1
P
il
x
il
=
n
i=1
K
k=1
(y
ik
P
ik
) x
ik
On voit en outre que
2
log L
bb
=
n
i=1
K
k=1
(y
ik
P
ik
) x
ik
=
n
i=1
K
k=1
P
ik
b
x
ik
=
n
i=1
K
k=1
P
ik
( x
ik
x
i
)
x
ik
Comme x
i
=

K
k=1
P
ik
x
ik
,
K
k=1
P
ik
( x
ik
x
i
) = 0 et donc aussi
K
k=1
P
ik
( x
ik
x
i
) x
i
= 0
On a donc
2
log L
bb
=
n
i=1
K
k=1
P
ik
( x
ik
x
i
)
( x
ik
x
i
)
Comme P
ik
( x
ik
x
i
)
( x
ik
x
i
) est une matrice semi denie positive le Hes-
sien est une somme de matrice semie denie positive. Pour que

2
log L
bb
= 0,
il faut que pour tout i et pour tout k on ait P
ik
( x
ik
x
i
) = 0 decompo-
sant le vecteur
= (
2
, ....,
K
)
et compte tenu de x
i
=

K
k=1
P
ik
x
ik
, x
i
=
(P
i2
x
i2
, ..., P
iK
x
iK
) , P
ik
( x
ik
x
i
) = 0 est equivalent à P
ik
(1 P
ik
) x
ik
k
=
0 pour tout i et pour tout k. Ce modèle tres simple et tres facile à esti-
mer est susceptible de generalisations importantes permettant notamment de
prendre en compte lexistence de caracteristiques inobservees des individus. Le
developpement et lestimation de ce type de modèle est aujourdhui un thème
de recherche tres actif aux nombreuses applications.
11.3 Selectivite, le modèle Tobit
On prend lexemple des equations de salaire.
Chaque individu peut travailler et percevoir alors un salaire w
i
, et en retire
une utilite U (w
i
) , il peut aussi decider de sabstenir de travailler son utilite
est alors c. Sa decision de participer au marche du travail sera donc fonction de
11.3 Selectivite, le modèle Tobit 109
lecart p
i
= U (w
i
) U (b
i
) . Les deux variables latentes du modèle : w
i
et p
i
sont toutes deux observees partiellement. Plus precisement, on observe
_
_
_
_
w
i
= w
i
p
i
= 1
p
i
= 0
si p
i
> 0
si p
i
0
On peut associer une modelisation à chacune de ces variables latentes :
w
i
= x
wi
b
w
+u
wi
p
i
= x
pi
b
p
+u
pi
Lestimation de ce type de modèle est en general complexe lorsque lon ne specie
pas la loi des residus. On examine ici la situation dans laquelle la loi jointes des
deux residus u
wi
et u
pi
, conditionnellement aux variables explicatives, est une
loi normale bivariee :
_
u
wi
u
zi
_
N
__
0
0
_
,
_

2
w

w
p

2
p
__
Une caracterisitique importante de cette modelisation est de laisser possible une
correlation entre les deux equations de salaire et de participation. Un tel modèle
porte le nom de Modèle Tobit
Les donnees dans un tel modèle sont dites tronquees. Cette troncature est
susceptible de conduire à des biais importants. A titre d
exemple, on considère
la situation
_
y
1
= x +u
1
y
2
= x +u
2
Les variables x, u
1
et u
2
sont toutes trois normales, centree et reduites. x est
choisie independante de u
1
et u
2
. En revanche on envisage deux situations po-
laires pour la correlation de u
1
et u
2
: correlation nulle et correlation de 0.9.
On sinteresse à la relation entre y
1
et x, et on considère deux cas. Dans le pre-
mier cas on observe y
1
et x sans restriction, dans le second cas on observe y
1
et x uniquement pour y
2
positif. Les graphiques suivant montrent les nuages de
points observes :
On voit que les nuages de points dans les echantillons non tronques se res-
semblent beaucoup que la correlation soit nulle ou de 0.9. Les droites de regres-
sion lineaire donnent toutes deux des coecients proches des vraies valeurs : 1
pour la variable x et 0 pour la constante. On voit aussi que la troncature par
la variable y
2
ne change pas beaucoup lallure de lechantillon dans le cas de la
correlation nulle. On observe neanmoins que comme on a selectionne les obser-
vations pour lesquelles x + u
2
> 0, on a eu tendance à retenir plus de valeurs
elevees de x. Neanmoins, cette selections des variables explicatives naecte pas
la proprie te dindependance des variables explicatives et du residu dans lequa-
tion de y
1
. On verie que les coecients de la droite de regression sont la encore
tres proches des vraies valeurs. En revanche les changements pour le cas = 0.9
en presence de troncature sont tres importants. On a ete amene à ne retenir que
les observations pour lesquelles x +u
2
> 0 là encore on a eu tendance à retenir
plus souvent les observations de x avec des valeurs elevees. Pour une observation
retenue pour une valeur de x donnee, on na retenue que les observations avec
une valeur importante de u
2
et donc de u
1
puisque ces variables sont fortement
110 11 VARIABLES D
EPENDANTES LIMIT
EES
Fig. 1 Complet = 0
Fig. 2 Complet = 0, 9
Fig. 3 Tronque = 0
Fig. 4 Tronque = 0, 9
112 11 VARIABLES D
EPENDANTES LIMIT
EES
correlees. On en deduit que à x donne, on a retenu des observations pour les-
quelles u
1
est susament important. Pour une valeur donnee de x la moyenne
des residus des observations selectionnees sera donc positive contrairement à ce
quimplique lhypothèse dindependance. En outre, si on considère une valeur de
x plus importante, on sera amene à selectionner des observations de u
2
de fa con
moins stricte, et la moyenne des residus de u
1
selectionnes sera donc toujours
positive, mais plus faible. On en deduit que lesperance des residus condition-
nelle à une valeur donnee de x est une fonction decroissante de x : le residu de
lequation de y
1
sur les observations selectionnes ne sont plus independants de
la variable explicative. Ce resultat se materialise par une droite de regression de
pente beaucoup plus faible que dans le cas precedent : le biais dit de selectivite
est ici tres important. Une autre consequence que lon peut voir sur le graphique
et qui est intimement liee dans ce cas à la selection, est que la relation entre y
1
et x est heteroscedastique.
11.3.1 Rappels sur les lois normales conditionnelles.
Densite La densite dune loi normale centree reduite est notee et a pour
expression
(u) =
1
2
exp
_
u
2
2
_
La fonction de repartition est notee (u) =
_
u
(t) dt. Compte tenu de la

symetrie de la fonction on a (u) = 1 (u)
Une variable aleatoire de dimension k suivant une loi normale mutivariee de
moyenne et de variance : y N(, ), a pour densite :
f(y) ==
1
_
(2)
k
det()
exp
_
1
2
(y )
1
(y )
_
On considère une loi normale bivariee
_
y
1
y
2
_
N
__

1
2
_
,
_

2
1

1
2

2
2
__
la densite de la loi jointe de u
1
et u
2
est donc donnee par
f(y
1
, y
2
) =
1
2
1
2
_
1
2
exp
_
(
2
1
+
2
2
2
1
2
)
2(1
2
)
_
avec
1
=
y
1
1
et
2
=
y
2
2
.
La loi marginale de y
1
est donnee par
f(u
1
) =
1
2
exp
_
1
2
2
1
_
un calcul simple permet de montrer que la loi y
2
conditionnelle à y
1
donnee par
f(y
2
[y
1
) =
f(y
1
,y
2
)
f(y
1
)
est aussi une loi normale, mais de moyenne et de variance
dierente. La moyenne depend de la valeur prise par y
1
, mais pas la variance :
f(y
2
[y
1
) N
_
2
+

2
1
(y
1
1
) ,
2
2
(1
2
)
_
Moments dune loi normale tronquee Soit u N (0, 1) , elle a pour den-
site (u) . Compte tenu de
(u) = u(u) , on a :
E(u[u > c) =
_
c
u(u)du
1 (c)
=
[(u)]
c
1 (c)
=
(c)
1 (c)
=
(c)
(c)
= M (c)
de meme
E(u[u < c) = E((u ) [ u > c) = M (c)
Et les moments dordre 2
E
_
u
2
[u > c
_
=
_
c
u
2
(u)du
1 (c)
= 1 +cM (c)
o` u on intègre par partie
_
c
u
2
(u)du = [u(u)]
c
+
_
c
(u)du. On en deduit
la variance conditionnelle
V (u[u > c) = E(u
2
[u > c) [E(u[u > c)]
2
= 1 +cM (c) M (c)
2
de fa con similaire on a pour la loi normale tronquee superieurement
E(u
2
[u < c) = E((u)
2
[ u > c) = 1 cM (c)
V (u[u < c) = 1 cM (c) M (c)
2
Remarque on a vu precedemment que lon avait pour une loi normale z+

(z) >
0 et aussi z +

1
(z) > 0 soit encore zM (z) + M (z)
2
> 0 et zM (z)
M (z)
2
< 0 on en deduit que lon a toujours comme on sy attend V (u[u
c) < 1.
Dans le cas dune variable non centree reduite v N
_
,
2
_
, on peut deduire
des resultats precedents les moments des lois tronquees en notant que (v ) /
et que v c u = (v ) / c = (c ) /. on a donc
E(v[v > c) = E(u +[u > c) = +M
_
_
E(v[v < c) = E(u +[u < c) = M
_
c
_
En calculant E(v
2
[v > c) = E(
2
u
2
+ 2u +
2
[u > c), on trouve sans peine
lexpression de la variance
V (v[v > c) =
2
_
1 +
c
M
_
_
M
_
_
2
_
Pour les moments de la loi tronquee superieurement on a egalement
V (v[v < c) =
2
_
1
c
M
_
c
_
M
_
c
_
2
_
114 11 VARIABLES D
EPENDANTES LIMIT
EES
On a aussi comme on sy attend pour toute transformation lineaire
V (a +bv[v > c) = b
2
V (v[v > c)
V (a +bv[v < c) = b
2
V (v[v < c)
Moments dune variable normale tronquee par une autre variable nor-
male On sinteresse au cas dune variable aleatoire suivant une loi normale
bivariee
_
y
1
y
2
_
N
__

1
2
_
,
_

2
1

1
2

2
2
__
et on cherche les moments dordre 1 et 2 de la variable y
2
tronquee par y
1
> 0.
On a vu que la loi de y
2
conditionnelle à y
1
est une loi normale de moyenne
2
+
1
(y
1
1
) et de variance
2
2
_
1
2
_
. On en deduit que
E (y
2
[y
1
> 0) = E
_
2
+
1
(y
1
1
) [y
1
> 0
_
=
2
+
2
E
_
y
1
1
[y
1
> 0
_
=
2
+
2
E
_
y
1
y
1
1
>
1
_
=
2
+
2
M
_
1
_
De meme,
V (y
2
[y
1
> 0) = V (E (y
2
[y
1
) [y
1
> 0) +E (V (y
2
[y
1
) [y
1
> 0)
= V
_
2
+
1
(y
1
1
) [y
1
> 0
_
+
_
1
2
_
2
2
=
2
2
2
V
_
y
1
y
1
1
>
1
_
=
2
2
2
_
1

1
1
M
_
1
_
M
_
1
_
2
_
+
_
1
2
_
2
2
=
2
2
2
2
_
1
M
_
1
_
+M
_
1
_
2
_
Compte tenu du resultat precedent sur la loi normale unidimensionnelle et
puisque V (y
2
[y
1
) =
_
1
2
_
2
2
.
On obtient directement les moments de la loi normale y
2
tronquee par y
1
< 0
en rempla cant
1
par
1
et par
E (y
2
[y
1
< 0) =
2
2
M
_
1
_
De meme,
V (y
2
[y
1
< 0) =
2
2
2
2
_
1
M
_
1
_
+M
_
1
_
2
_
11.3.2 Pourquoi ne pas estimer un modèle Tobit par les MCO?
Si on se restreint aux observations positives, on a
E (w
i
[x
wi
, x
pi
, p
i
= 1) = E (w
i
[x
wi
, x
pi
, p
i
> 0)
En appliquant les resultats precedents à y
2
= w
, et y
1
= p
E (w
i
[x
wi
, x
pi
, p
i
> 0) =
w
+
w
M
_
p
_
= x
wi
b
w
+
w
M
_
x
pi
b
p
p
_
On voit donc que des lors que la correlation entre les elements inobserves
de lequation de salaire et de lequation de participation sont correles, ne
pas prendre en compte la selectivite recient à oublier une variable dans
la r egression : M
_
x
pi
b
p
p
_
aussi appele ratio de Mills. Cet oubli est donc
susceptible de conduire à une estimation biaisee des paramètres des lors
que les variables M
_
x
pi
b
p
p
_
et x
wi
sont correlees. Si on considère à titre
illustratif que lequation de selection secrit w
i
> w, on a = 1 et
x
pi
b
p
p
=
x
wi
b
w
w
w
. Lequation precedente secrit alors
E (w
i
[x
wi
, x
pi
, p
i
> 0) = x
wi
b
w
+
w
M
_
x
wi
b
w
w
w
_
Dans ce cas comme M (z) =
(z)
(z)
est une fonction decroissante de z le
biais est negatif. Dans le cas general tout depent de et de la correlation
entre le ratio de Mills et M
_
x
pi
b
p
p
_
les variables explicative entrant dans
la modelisation de w
i
.
Si on introduit egalement les observations pour lesquelles w
i
= 0, on a
E (w
i
[x
wi
, x
pi
) = E (w
i
[x
wi
, x
pi
, p
i
= 1) P (p
i
= 1 [x
wi
, x
pi
) +
E (w
i
[x
wi
, x
pi
, p
i
= 0) P (p
i
= 0 [x
wi
, x
pi
)
= E (w
i
[x
wi
, x
pi
, p
i
= 1) P (p
i
= 1 [x
wi
, x
pi
)
= (x
wi
b
w
)
_
x
pi
b
p
p
_
+
w
_
x
pi
b
p
p
_
et on voit que la forme lineaire nest pas non plus adaptee.
11.3.3 Estimation par le maximum de vraisemblance
On ecrit la probabilite dobserver chaque realisation du couple (w
i
, p
i
) .
Pour p
i
= 0 on nobserve pas w
i
la seule probabilte est P (p
i
< 0) , cest
à dire P (x
pi
b
p
+u
pi
< 0) =
_
x
pi
b
p
p
_
= 1
_
x
pi
b
p
p
_
Pour p
i
= 1 on observe w
i
= w
i
et p
i
> 0. La densite correspondante est
f (w
i
= w
i
, p
i
= 1) =
_
p
i
>0
f (w
i
, p
i
) dp
i
= f (w
i
)
_
p
i
>0
f (p
i
[w
i
) dp
i
116 11 VARIABLES D
EPENDANTES LIMIT
EES
et la loi de p
i
conditionnelle à w
i
= w
i
est pas d enition une loi normale de
moyenne
p
(w
i
) =
p
+
p
w
i
w
et de variance
2
p
=
2
p
_
1
2
_
la pro-
babilitye pour quune telle variable aleatoire soit positive est
_

p
(w
i
)

p
_
=
p
+
p
w
i
(1
2
)
_
. Finalement, la densite des observations est
L =
p
i
=0
_
1
_
x
pi
b
p
p
__
p
i
=1
1
_
w
i
x
wi
b
w
w
_
_
x
pi
b
p
+
p
w
i
x
wi
b
w
p
_
(1
2
)
_
=
i
_
1
_
x
pi
b
p
p
__
1p
i
_
1
_
w
i
x
wi
b
w
w
_
_
x
pi
b
p
+
p
w
i
x
wi
b
w
p
_
(1
2
)
_
p
i
_
On voit que comme dans le cas du modèle Probit, on ne peut pas identier
la totalite des paramètres de lequation de selection : seul le paramètre
b
p
=
b
p
p
est identiable. Compte tenu de cette redenition des paramètre
du modèle, la vraisemblance secrit :
L =
i
_
1
_
x
pi
b
p
__
1p
i
_
1
_
w
i
x
wi
b
w
w
_
_
x
pi
b
p
+
w
i
x
wi
b
w
w
_
(1
2
)
_
p
i
_
Dans le cas o` u = 0 on voit que la vraisemblance est separable entre une
contribution correspondant à lobservation de p
i
= 0/1 et une contribution
associee aux observations de w
i
:
L =
i
_
1
_
x
pi
b
p
__
1p
i
_
x
pi
b
p
_
p
i
_
1
_
w
i
x
wi
b
w
w
__
p
i
On retrouve donc le fait que dans le cas = 0 on peut ignorer la selec-
tion des observation. On voit aussi que dans les cas general o` u ,= 0 la
selectivite importe.
Remarque. 1. La fonction de vraisemblance nest pas globalement concave
en
_
,
w
, b
w
,
b
p
_
.
2. Elle est concave globalement en =
_
w
, b
w
,
b
p
_
pour xe.
3. Une solution consiste à xer la valeur de et estimer les paramètres cor-
repondant

() et à balayer sur les valeur possibles de .
Estimation en deux etapes par la methode dHeckman
Methode en deux etapes dans laquelle on estime dabord le Probit associe
à p
i
= 1/0 et ensuite une regression augmentee prenant en compte la
selectivite ;
Il sagit dune methode destimation convergente, mais non ecace ;
Le calcul des ecart-types associes à cette methode est un peu complique ;
Elle peut etre utilisee telle quelle ou pour fournir des valeurs initiales pour
la maximisation de la vraisemblance ;
Elle permet une generalisation facile au cas dautres lois que la loi normale.
1ere etape : estimation de

b
p
= b
p
/
p
par MV du modèle Probit (sur la
partie discrète) soit
P (p
i
= 1) = P (p
i
> 0) =
_
x
pi
b
p
_
Ceci fournit un estimateur convergent de

b
p
2ème etape : on exploite la relation :
E(y
wi
[y
pi
> 0) = X
wi
b
w
+
w
_
X
pi
b
p
_
_
X
pi
b
p
_
La variable
(X
pi
b
p)
(X
pi
b
p)
est inconnue, on la remplace par
i
=
_
X
pi
b
p
_
_
X
pi
b
p
_
et on estime les paramètres b
w
, et
w
à partir de la relation :
y
wi
= x
wi
b
w
+ (
w
)
i
+v
1
sur les observations positives
Ces estimateurs sont asymptotiquement sans biais, mais ils ne sont pas
asymptotiquement ecaces.
Pour le calcul des ecart-types, deux problèmes se presentent
Le modèle est hereroscedastique. En eet :
V (u
w
[p
i
= 1) = V (u
w
[p
i
> 0)
=
2
w
2
w
_
x
i
b
p
M
_
x
i
b
p
_
+M
_
x
i
b
p
_
2
_
depend des variables observables
Le paramètres

b
w
nest pas connu et est remplace par une estimation. Il
est lui meme issu dune estimation (par le MV) que lon peut resume par
lannulation de la contrpartie empirique de condition dorthogonalite
E
_
h
b
p
_
p
i
, x
pi
,
b
p
__
= 0
118 11 VARIABLES D
EPENDANTES LIMIT
EES
Lestimation du modèle par les mco conduit quant à elle à lannulation de
la contrepratie empirique de
E
__
x
wi
i
_
b
p
_
_
_
w
i
x
wi
b
w
i
_
b
p
__
1
p
i
=1
_
= E (h
b
w
,
w
(p
i
, w
i
, x
wi
, b
w
,
w
)) = 0
Le calcul des ecart-types doit se faire en considerant les formules de lesti-
mation par la methode des moments generalisee associee à la totalite des
conditions dorthogonalite, cest à dire
E
_
h
b
p
_
p
i
, x
pi
,
b
p
_
h
b
w
,
w
(p
i
, w
i
, x
wi
, b
w
,
w
)
_
= 0
Cette dernière fa con destimer le modèle est inecace, mais elle est aussi
la voie à lestimation de modèle plus generaux dans lesquels on ne fait
plus dhypothèses sur la loi des observations. On peut montrer quon a en
general une relation de la forme
E (w
i
[p
i
= 1, x
wi
, P (x
pi
) ) = x
wi
b
w
+K (P (x
pi
))
o` u P (x
pi
) = P (p
i
= 1 [x
pi
) et K une fonction quelconque. Dans le cas
normal, cette fonction secrit simplement K (P) =
w
1
(P)
P
et on a
en plus P =
_
x
pi
b
p
_
. Lestimation de ce type de modèle est neanmoins
delicate.

Econometrie

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Econometrie

Diunggah oleh

Hak Cipta:

Format Tersedia

Econometrie

Inspire du cours de Bruno Crepon

X non inversible. Alors,

b tel que 2(Y X

X = 0 les residus sont orthogonaux `a X.

bX la valeur predite par le mod`ele ;

la matrice de projection orthogonale sur

u = 0 : valeur predite et residus estimes sont orthogonaux.

sont orthogonaux et supplementaires ;

b) decrot au rythme de 1/N, ce qui signie que decrot en

N, qui est la vitesse standard de convergence des estimateurs.

b un estimateur de b. On dit que

b est optimal ssi , Var(

b sans biais E(AXb +Au) = b

est symetrique denie positive, on a :

b, u) est une loi normale, or

> avec tel que : P

multiplicateur de Lagrange : vecteur de dimension p 1

Il sexprime simplement `a partir de

3.2.2 Proprietes Statistiques de

U sont la somme des

ES ASYMPTOTIQUES DE LESTIMATEUR DES MCO

ES ASYMPTOTIQUES DE LESTIMATEUR DES MCO

X est non singuli`ere

ES ASYMPTOTIQUES DE LESTIMATEUR DES MCO

b r > 0 On denit la region

est de plein rang

et on proc`ede comme dans le cas dune contrainte lineaire.

EAIRE SANS LHYPOTH

On determine facilement la matrice de variance

EAIRE SANS LHYPOTH

[X) = = (X, ) inversible

[X) = (X, ) , depend de X

Y , est sans biais :

EAIRE SANS LHYPOTH

X non inversible. Comme est inversible on a

< 0 : Les CN sont necessaires et susantes,

EAIRE SANS LHYPOTH

Theor`eme 7.4. Sous les hypoth`eses H1 ` a H7, lestimateur des MCQG

On proc`ede de la fa con suivante :

X est non singuli`ere

8.1.3 Covariance entre deux perturbations dun processus AR(1)

On montre que pour que le processus AR(p) soit stationnaire

L`a encore les hypoth`eses iid sont transposees au processus

Exemple (processus ARMA(1,1)).

() de cette loi permettant de

d=2 (1 ) > 2 donc plim

: on est dans la zone inconclusive.

b ainsi obtenu est convergent et asymptotiquement aussi ecace

Des lors que le coecient de la variable x

optimale au sens o` u pour toute suite

) au sens des matrices, i.e.

est une matrice semi denie positive, (A) (A

. Compte tenu de lhypo-

est un inverse generalise de la matrice V (W) , i.e tel que

X est la projection de X sur Z lespace vectoriel engendre par les colonnes de

X de dimension K + 1 est inclus dans celui engendre par les colonnes de Z de

ETHODE DES MOMENTS G

ETHODE DES MOMENTS G

ETHODE DES MOMENTS G

obtenus ` a partir de matrice de poids S

est une matrice semi denie positive, do` u loptimalite.

ETHODE DES MOMENTS G

Verication des hypoth`eses