Econ Linéaire Complet PDF

ECONOMETRIE LINEAIRE
Bruno Crpon
Novembre 2005
ii
Table des matires
1 Introduction 1
1.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Do vient le modle ? - 1 de la thorie conomique . . . . . . . . . . . . . 1
1.3 Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Lestimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Pourquoi estimer le modle ? . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6 Do vient le modle ? - 2 de relations stochastiques . . . . . . . . . . . . . 5
1.7 Plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Lestimateur des moindres carrs ordinaires 11

2.1 Dfinition et proprits algbriques . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 Interprtation gomtrique . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3 Thorme de Frish-Waugh . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Modle et proprits statistiques . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Quand lestimateur des mco est-il sans biais ? . . . . . . . . . . . . 15
2.2.2 Quelle est la prcision de lestimateur des mco ? . . . . . . . . . . . 16
2.2.3 Lestimateur des mco est-il le plus prcis : le thorme de Gauss-
Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4 Estimation des paramtres du second ordre . . . . . . . . . . . . . . 19
2.2.5 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Variable omise et rgresseur additionnel . . . . . . . . . . . . . . . . . . . . 21
2.4 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 Les MCO sous lhypothse de normalit des perturbations. 25

3.1 Normalit de lestimateur des mco . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Ecart-types estims, tests et intervalles de confiance . . . . . . . . . . . . . 27
3.2.1 Ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Un rsultat central . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.3 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.4 Tests de la forme 0 b = . . . . . . . . . . . . . . . . . . . . . . . . 30
iii
iv TABLE DES MATIRES
3.3 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Comparaison avec lestimateur du Maximum de Vraisemblance . . . . . . . 35
3.5 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 Annexe : Distribution de la norme de la projection dun vecteur normal . . 37
4 Estimation sous contraintes linaires 39

4.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 LEstimateur des Moindres Carrs Contraints (MCC) . . . . . . . . . . . . 42
4.3 Esprance et variance de bmcc . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4 Estimateur de la variance des rsidus 2 . . . . . . . . . . . . . . . . . . . 45
4.5 Loi de lestimateur des moindres carrs contraints . . . . . . . . . . . . . . 46
4.6 Estimation par intgration des contraintes . . . . . . . . . . . . . . . . . . 48
4.7 Tester les contraintes : le test de Fisher . . . . . . . . . . . . . . . . . . . . 50
4.8 Applications du test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.8.1 Un test en deux tapes . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.8.2 Test de la nullit globale des paramtres . . . . . . . . . . . . . . . 54
4.8.3 Le Test de Chow de stabilit des paramtres . . . . . . . . . . . . . 55
4.9 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5 Proprits asymptotiques de lestimateur des MCO 59

5.1 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.1 Dfinition : Convergence en probabilit, Convergence en loi, Conver-
gence en moyenne quadratique . . . . . . . . . . . . . . . . . . . . . 59
5.1.2 Loi des Grands Nombres et Thorme Centrale Limite . . . . . . . 60
5.1.3 Dirents rsultats concernant les convergences . . . . . . . . . . . 63
5.1.4 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2 Proprits asymptotiques de lestimateur des MCO . . . . . . . . . . . . . 67
5.3 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3.1 Test dhypothses linaires . . . . . . . . . . . . . . . . . . . . . . . 72
5.3.2 Test dhypothses non linaires . . . . . . . . . . . . . . . . . . . . 77
5.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.5 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6 Le modle linaire sans lhypothse dhomoscdasticit 81

6.1 Prsentation : Homoscdasticit et htroscdasticit. . . . . . . . . . . . . 81
6.1.1 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.2 Conclusion des exemples et dfinition du modle linaire htrosc-
dastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.2 Estimation par les MCO et les MCG . . . . . . . . . . . . . . . . . . . . . 87
6.2.1 Proprits des moindres carrs ordinaires . . . . . . . . . . . . . . . 87
6.2.2 La mthode des Moindres Carrs Gnraliss (MCG) . . . . . . . . 88
TABLE DES MATIRES v
6.2.3Proprits statistiques de lesprance et de la variance conditionnelle

des MCG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.3 Lestimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7 Le modle htroscdastique en coupe 95

7.1 Infrence robuste lhtroscdasticit . . . . . . . . . . . . . . . . . . . . 96
7.1.1 Proprits asymptotiques de lestimateur . . . . . . . . . . . . . . . 97
7.1.2 Test dhypothses dans le modle htroscdastique . . . . . . . . . 98
7.1.3 Estimation sous contraintes linaires en prsence dhtroscdasticit 99
7.2 Test dhtroscdasticit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.2.1 Le test de Breush-Pagan . . . . . . . . . . . . . . . . . . . . . . . . 100
7.2.2 Test de Goldfeld-Quandt . . . . . . . . . . . . . . . . . . . . . . . . 103
7.3 Lestimateur des MCQG dans le cas o V (ui |xi ) = h (, xi ) . . . . . . . . 104
7.3.1 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.4 Exemple : estimation dune quation de salaire . . . . . . . . . . . . . . . 107
8 Autocorrlation des rsidus dans les sries temporelles 113

8.1 Direntes formes dautocorrlation des perturbations . . . . . . . . . . . . 113
8.1.1 Processus stationnaires au premier et au second ordres . . . . . . . 113
8.1.2 Perturbations suivant une moyenne mobile (MA) . . . . . . . . . . 114
8.1.3 Perturbations suivant un processus autorgressif (AR) . . . . . . . . 115
8.1.4 Perturbation suivant un processus ARMA(p,q) . . . . . . . . . . . . 118
8.2 Estimateur des MCO lorsque les perturbations suivent un AR(1) . . . . . . 119
8.3 Lestimateur de Newey-West de la matrice de variance de bbmco . . . . . . . 122
8.4 Les MCQG dans le modle AR (1) : lestimateur de Prais-Watson. . . . . . 124
8.5 Dtection de lautocorrlation . . . . . . . . . . . . . . . . . . . . . . . . . 127
8.5.1 Un test asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . 127
8.5.2 Le test de Durbin et Watson . . . . . . . . . . . . . . . . . . . . . . 127
8.6 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
9 Lestimateur des MCQG dans le cas o = IN () 131

9.1 Le cas des rgressions empiles. . . . . . . . . . . . . . . . . . . . . . . . . 136
9.2 Illustration : estimation dune fonction de production sur donnes indivi-
duelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
9.3 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
10 Variables instrumentales 141

10.1 Trois exemples types dendognit des rgresseurs . . . . . . . . . . . . . . 142
10.1.1 Erreur de mesure sur les variables . . . . . . . . . . . . . . . . . . . 142
10.1.2 Simultanit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.1.3 Omission de rgresseurs, htrognit inobserve . . . . . . . . . . 143
10.2 La mthode des variables instrumentales . . . . . . . . . . . . . . . . . . . 145
vi TABLE DES MATIRES
10.2.1 Modle variables endognes et non convergence de lestimateur

des mco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
10.2.2 Rsoudre le problme de lidentification par lutilisation de variables
instrumentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
10.2.3 Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
10.2.4 Moindres carrs indirects . . . . . . . . . . . . . . . . . . . . . . . . 149
10.2.5 Proprit asymptotiques des estimateurs des MCI . . . . . . . . . . 150
10.3 Lestimateur des doubles moindres carrs . . . . . . . . . . . . . . . . . . 152
10.3.1 Existence dun estimateur optimal . . . . . . . . . . . . . . . . . . . 152
10.3.2 Lestimateur optimal comme estimateur des doubles moindres carrs 153
10.3.3 Cas des rsidus htroscdastiques . . . . . . . . . . . . . . . . . . . 155
10.4 Interprtation de la condition rang E (zi0 xi ) = K + 1 . . . . . . . . . . . . . 156
10.5 Test de suridentification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
10.5.1 Ide du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
10.5.2 Approche formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
10.5.3 Mise en oeuvre du test . . . . . . . . . . . . . . . . . . . . . . . . . 161
10.6 Test dexognit des variables explicatives . . . . . . . . . . . . . . . . . . 163
10.6.1 Intrt et ide du test . . . . . . . . . . . . . . . . . . . . . . . . . 163
10.6.2 Approche formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
10.7 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
10.7.1 Rduction du temps de travail et gains de productivit . . . . . . . 167
10.8 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
11 La Mthode des moments gnralise 173

11.1 Modle structurel et contrainte identifiante : restriction sur les moments . . 173
11.2 Dfinir un modle par le biais de conditions dorthogonalit . . . . . . . . 175
11.2.1 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 176
11.2.2 Modle desprance conditionnelle, moindres carrs non linaires . . 176
11.2.3 Mthode variables instrumentales pour une quation seule . . . . 177
11.2.4 Mthode variables instrumentales pour un systme d quations. . 177
11.2.5 Lconomtrie des donnes de panel . . . . . . . . . . . . . . . . . . 178
11.3 Principe de la mthode : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
11.4 Convergence et proprits asymptotiques . . . . . . . . . . . . . . . . . . . 183
11.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
11.5.1 Existence dun estimateur optimal . . . . . . . . . . . . . . . . . . . 186
11.5.2 Mise en oeuvre de lestimateur optimal : deux tapes . . . . . . . . 187
11.6 Application aux Variables Instrumentales . . . . . . . . . . . . . . . . . . . 187
11.6.1 Variables instrumentales dans un systme dquations - cas gnral 187
11.6.2 Rgressions variables instrumentales dans un systme homosc-
dastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
11.6.3 Application aux donnes de panel . . . . . . . . . . . . . . . . . . . 190
TABLE DES MATIRES vii
11.6.4 Estimateur VI optimal dans le cas univari et htroscdastique . . 192

11.7 Test de spcification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
11.7.1 Test de suridentification . . . . . . . . . . . . . . . . . . . . . . . . 193
11.7.2 Tester la compatibilit de conditions dorthogonalit additionnelles . 195
11.7.3 Application test de suridentification et dexognit pour un esti-
mateur variables instrumentales dans le cas univari et htrosc-
dastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
11.7.4 Application aux donnes de panel . . . . . . . . . . . . . . . . . . . 197
11.8 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
11.8.1 Rduction du temps de travail et gains de productivit . . . . . . . 198
11.8.2 Salaires et heures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
11.9 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
12 Variables dpendantes limites 205

12.1 Modle dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
12.1.1 Modle probabilits linaires . . . . . . . . . . . . . . . . . . . . . 207
12.1.2 Les modles probit et logit. . . . . . . . . . . . . . . . . . . . . . . 208
12.2 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
12.3 Estimation des modles dichotomiques . . . . . . . . . . . . . . . . . . . . 211
12.3.1 Conditions de 1er ordre pour la maximisation . . . . . . . . . . . . 213
12.3.2 Drives secondes de la log-vraisemblance - condition de concavit . 214
12.3.3 Matrice de variance-covariance de bb . . . . . . . . . . . . . . . . . . 215
12.4 Illustration : participation des femmes sur le march du travail . . . . . . . 216
12.5 Slectivit : le modle Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . 217
12.5.1 Prsentation de la slectivit . . . . . . . . . . . . . . . . . . . . . . 217
12.5.2 Rappels sur les lois normales conditionnelles. . . . . . . . . . . . . . 222
12.6 Estimation du modle Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . 226
12.6.1 Pourquoi ne pas estimer un modle Tobit par les MCO ? . . . . . . 226
12.6.2 Estimation par le maximum de vraisemblance . . . . . . . . . . . . 227
12.6.3 Estimation en deux tapes par la mthode dHeckman . . . . . . . 228
12.6.4 Des extensions paramtriques simples . . . . . . . . . . . . . . . . . 230
12.6.5 Le modle de slection semi paramtrique. . . . . . . . . . . . . . . 232
12.6.6 Illustration : le modle dore de travail dHeckman . . . . . . . . . 234
12.7 Modles de choix discrets : le Modle Logit Multinomial . . . . . . . . . . 238
12.7.1 Estimation du modle logit multinomial : . . . . . . . . . . . . . . . 240
12.8 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
13 Evaluation 243
13.1 Le Modle causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
13.1.1 Choix de la variable dintrt et choix de ltat de rfrence . . . . . 245
13.1.2 Paramtres dintrt . . . . . . . . . . . . . . . . . . . . . . . . . . 246
viii TABLE DES MATIRES
13.1.3 Biais de slectivit . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

13.2 Lestimateur des Dirences de Dirences . . . . . . . . . . . . . . . . . . 248
13.2.1 Estimateur en coupe . . . . . . . . . . . . . . . . . . . . . . . . . . 249
13.2.2 Estimateur Avant-Aprs . . . . . . . . . . . . . . . . . . . . . . . . 249
13.2.3 Estimateur par dirence de dirence. . . . . . . . . . . . . . . . . 250
13.2.4 Exemple : La Contribution Delalande . . . . . . . . . . . . . . . . . 252
13.3 Indpendance conditionnelles des observables . . . . . . . . . . . . . . . . 254
13.3.1 Identification sous lhypothse dindpendance conditionnelles des
observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
13.3.2 Le score de propension (propensity score) . . . . . . . . . . . . . . . 256
13.3.3 Mthodes destimation . . . . . . . . . . . . . . . . . . . . . . . . . 256
13.3.4 Vraisemblance de lhypothse dindpendance conditionnelle des
observables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
13.4 Le modle de slectivit sur inobservables . . . . . . . . . . . . . . . . . . . 267
13.4.1 Expression des paramtres dintrt dans le cas gnral . . . . . . . 268
13.4.2 Le cas Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
13.4.3 Des extensions paramtriques simples . . . . . . . . . . . . . . . . . 271
13.4.4 Le modle de slection semi paramtrique. . . . . . . . . . . . . . . 273
Chapitre 1
Introduction
1.1 Le modle
Le modle central auquel on sintresse dans ce cours est le modle linaire que lon
crit en toute gnralit
y = + 1 x1 + + K xK + u = xb + u
Dans ce modle interviennent direntes grandeurs :
y la variable explique ou dpendante
x1 , . . . , xK , K variables explicatives ou indpendantes
u une perturbation
b = (, 1 , , K )0 le paramtre estimer
Parmi ces lments les variables y et x sont observes. En revanche le paramtre b est
inconnu et la perturbation u inobserve.
1.2 Do vient le modle ? - 1 de la thorie cono-

mique
Le modle vient dabord dides sur les relations entre y et x.... Ces ides peuvent
avoir un lien trs troit avec la thorie conomique. Il peut sagir par exemple dune
fonction de production
Y = F (K, L)
On pourrait estimer la fonction de production parmi toutes les fonctions possibles.
On ferait alors des rgressions dites non paramtriques. Le cadre que lon considre
ici est plus simple et consiste restreindre lensemble des possibilits et de se placer
dans un ensemble de fonctions de productions dpendant dun nombre fini de pa-
ramtres. On retient souvent la spcification de Cobb-Douglas, ce qui implique en
1
2 CHAPITRE 1. INTRODUCTION
particulier une restriction sur les possibilits de substitution par rapport au cadre
gnral :
Y = AK L
Cette spcification conduit une relation log linaire :
y = a + k + l
qui est le modle auquel on sintresse. Dans ce cadre on peut noter que la perturba-
tion a une interprtation naturelle, il sagit de la constante a reprsentant le niveau
de la technologie, susceptible de varier dune entreprise lautre. En revanche le mo-
dle fait lhypothse quil y a homognit des autres coecients dans la population
dentreprises.
Un autre exemple de modle directement dduit de la thorie conomique est celui
des demandes de facteurs. Si on spcifie une fonction de cot C (Q, pX , u) , o Q est
la production, pX le vecteur des prix et u le niveau de la technologie, la demande
pour un facteur donn est donne par le Lemme de Shephard :
C (Q, pX , u)
X 0d =
pX0
Comme dans le cas prcdent on se restreint en gnral une forme paramtrique
de la fonction de cot. Une spcification standard est la fonction de cot translog
avec deux facteurs, capital de cot exp(c) et travail de cot exp(w) :
LogC = a + c + w + 0.5 c c2 + w,c cw + 0.5 w w2 + log (Q) log (u)
La constante reprsente l aussi le niveau de la technologie. Ce type de spcification

conduit des fonctions de demande spcifiant la part de chaque facteur. Par exemple
pour le travail on a
wL
= + w,c c + w w
Q
On voit que dans cette spcification la perturbation na pas dinterprtation aussi
naturelle que dans le cas prcdent. Il faut considrer que soit le paramtre est
htrogne, soit la part observe scarte de la part thorique pour des raisons non
expliques.
Le modle peut aussi provenir dune relation moins structurelle entre les variables.
Par exemple un type dquations trs souvent estim est lquation de Mincer qui
fait dpendre le salaire du nombre dannes dtude et de lexprience. Par exemple :
log (wi ) = a0 + as si + ae ei + ui
o as reprsente le gain li une anne dtude supplmentaire et ae le gain li

une anne dexprience supplmentaire. Les paramtres conomiques auxquels on
1.3. LES DONNES 3
sintresse alors sont le rendement de lducation ou le rendement de lexprience. La

modlisation sous-jacente est celle du capital humain : le capital humain saccumule
dabord durant la priode des tudes puis durant la vie active par lexprience, en
apprenant sur le tas. Si on fait lhypothse dun march du travail concurrentiel,
les dirences de rmunrations entre les agents traduiront des dirences dans le
capital humain. On peut remarquer concernant cette quation que lon ne sintresse
pas seulement expliquer les dirences moyennes de revenus entre les agents mais
que lon souhaite aussi parvenir une estimation plus ambitieuse qui puisse conduire
une interprtation causale : si on augmente la dure des tudes de un an dun
individu quel sera son gain en terme de rmunration ?
Un autre exemple dans lequel le modle entretient des rapports encore plus tnus
avec des paramtres structurels mais possde une interprtation causale est celui de
lincidence de la taille dune classe sur le taux de russite des lves de la classe. On
peut lgitimement se poser la question de savoir si la rduction de la taille des classes
conduit une amlioration du taux de russite scolaire. On peut ainsi considrer un
modle du type :
i = a0 + at taillei + xi ax + ui
o i reprsente le taux de russite dune classe. Dans cette spcification que lon
pourrait appeler fonction de production scolaire, on introduit un ensemble dautres
variables. En eet on se doute bien que de nombreux facteurs aectent la rus-
site dune classe. Par exemple lenvironnement scolaire est certainement un facteur
important. On pourrait se dire que comme on ne sintresse pas la variable den-
vironnement on ne la met pas dans la rgression. Dun ct on y gagne car on na
pas faire leort de mesurer cette variable, mais dun autre ct cette variable
contribue aussi dterminer la taille de la classe. Il est possible que dans certains
milieux dfavoriss la taille des classes soit plus petites. Si on ignore le rle de lenvi-
ronnement scolaire et quon ne lintgre pas dans la rgression, on risque de mesurer
un eet de la taille de la classe qui soit un mixte de leet propre de la taille et de
leet de lenvironnement. Il donc important dans ce type de modle, entretenant
des rapports larges avec la thorie, dintroduire des facteurs annexes qui permet-
tront disoler leet propre de la taille de la classe. On cherche contrler pour un
certain nombre de facteurs extrieurs.
Enfin, on peut avoir une approche descriptive des donnes. Il est important de
remarquer que dans ce cas les paramtres nont pas dinterprtation structurelle.
1.3 Les donnes

Les donnes constituent le cur de lconomtrie. Leur recueil et leur examen descriptif
constituent aussi en gnral une part importante de tout travail conomtrique. Il y a
principalement trois grands types de donnes :
1. Donnes temporelles ou longitudinales. Elles sont indices par le temps t. On dispose

ainsi de sries dites temporelles : yt , xt , par exemple les sries trimestrielles de la
consommation et du revenu, de linflation... En gnral le nombre dobservation T
est assez rduit, de lordre de la cinquantaine. On note en gnral y le vecteur T 1
(y1 , . . . , yT )0 et x la matrice T (K + 1) : (x01 , . . . , x0T )0 o xt est le vecteur ligne
form des valeurs des direntes variables explicatives (dont la constante) la date
t.
2. Donnes en coupe. yi , xi . Leur indice correspond lidentifiant dun individu ou
dune entreprise. Ces donnes peuvent reprsenter par exemple le salaire dun in-
dividu pour y et son diplme, son exprience... pour les variables explicatives. Les
chantillons dont on dispose sont en gnral de beaucoup plus grande taille : le
nombre dobservation N dpasse le plus souvent la centaine et peut aller jusqu
plusieurs dizaines de milliers. On note l encore en gnral y le vecteur N 1
(y1 , . . . , yN )0 et x la matrice N (K + 1) : (x01 , . . . , x0N )0 o xi est le vecteur ligne
form des valeurs des direntes variables explicatives (dont la constante) pour lin-
dividu i.
3. Donnes double indice, dites de panel : yit , xit . On dispose dinformations sur des
individus i = 1, . . . , N que lon suit sur plusieurs priodes, t = 1, . . . , T. Les NT ob-
servations zit correspondent N observations vectorielles individuelles zi1 , . . . ziT .
On note en gnral y i le vecteur T 1 (yi1 , . . . , yiT )0 et xi la matrice T (K + 1) :
0
(x0i1 , . . . , x0iT )0 et y le vecteur NT 1 y 1 , . . . , y N et x la matrice NT (K + 1) :
(x01 , . . . , x0N )0 o xi est la matrice forme des valeurs des direntes variables expli-
catives (dont la constante) pour lindividu i aux direntes dates.
1.4 Lestimation
Estimer le modle cest trouver une fonction des observations y et x

bb = b y, x
dont on souhaite quelle vrifie certaines conditions. Par exemple lestimateur peut tre
choisi tel Z
quil soit "sans biais" E bb = b y, x f y, x dydx = b
quil satisfasse un critre : minimisation de la somme des carrs des rsidus bb =
X X
arg min (y xb) ; maximisation de la log-vraisemblance bb = arg max
2
log l (y, x)
quil soit de variance minimale
quil soit convergent, cest dire quil se rapproche de la vraie valeur du paramtre
lorsque le nombre dobservations devient grand.
1.5. POURQUOI ESTIMER LE MODLE ? 5
1.5 Pourquoi estimer le modle ?

tester lexistence dun eet, i.e. vrifier quune variable x a un eet spcifique sur
une variable y. Par exemple on peut sinterroger sur leet des taux dintrt sur
linvestissement, cest dire sur lexistence dun canal montaire de la politique
montaire. Dans le cadre dun modle acclrateur profit standard, I = Qt +
+ r + v, on peut sinterroger sur le fait que le coecient du taux dintrt
soit nul ou non. On sintresse donc lhypothse H0 : = 0, et on souhaite que
les donnes permettent de rpondre cette question. De faon similaire, dans le cas
de la fonction de production scolaire on peut sinterroger sur lexistence dun eet
de la taille de la classe sur le taux de russite. On va alors sintresser lhypothse
H0 : at = 0, et l aussi on souhaite que les donnes nous permettent de choisir entre
oui ou non. Lestimation du modle et la confrontation du paramtre zro est la
voie la plus naturelle pour prendre cette dcision. La question est ici de savoir si le
paramtre est significatif au sens statistique du terme.
quantifier cet eet, ce qui est utile des fins de simulations. Par exemple dans les
deux cas prcdents on est aussi intress par donner un ordre de grandeur de leet
attendre dune variation de la variable. Si on voulait par exemple prendre une
dcision de politique conomique consistant baisser la taille des classes, ce qui
est trs coteux, on est intress certes savoir si cela aura un eet non nul mais
aussi savoir lordre de grandeur de cet eet. Sil est trs faible on ne prendra pas
alors aussi facilement la dcision de rduire la taille des classes. Lordre de grandeur
du paramtre est aussi important. La question est ici de savoir si le paramtre est
significatif au sens conomique du terme.
prvoir. Dans le modle yt = xt + ut , le paramtre peut tre estim sur les
b Connaissant xT +1 on calcule la prvision de y la
observations t = 1, . . . , T : .
date T + 1 : ybT +1 = xT +1 b
1.6 Do vient le modle ? - 2 de relations stochas-

tiques
Le modle provient aussi de relations stochastiques entre les variables. Lcriture de
la relation
y = xb + u
ne constitue pas en fait un modle conomtrique. Comme on la vu il sagit dune relation
plus ou moins fonde. Si on ladmet fonde, le paramtre b a un sens en lui-mme. Il a
une dfinition conomique, par exemple llasticit de la production au capital. Pour que
ce modle soit un modle conomtrique il faut lui adjoindre une restriction stochastique.
Une faon naturelle de procder est de spcifier la loi jointe des observations l (y, x; b) .
Ceci revient spcifier la loi du rsidu sachant les variables explicatives : l (u |x) . La
situation de base est celle dans laquelle cette loi est choisie comme une loi normale ne
dpendant pas des variables x. On impose donc dans ce cas une restriction stochastique
essentielle pour lanalyse conomtrique
l (u |x) = l (u) = (u/) /
o est la densit de la loi normale. Imposer cette restriction permet de dfinir la densit
des observations
l (y, x; b) = l (y |x; b) l (x) = ((y xb) /) l (x) /
et donc destimer les paramtres en appliquant par exemple la mthode du maximum

de vraisemblance. Lestimateur auquel on parvient est alors celui des moindres carrs
ordinaires. On peut aussi faire des hypothses sur la loi de u sachant x qui soient moins
fortes que la spcification de la loi complte. Par exemple on peut se contenter de spcifier :
E (u |x) = E (u) = 0
Cette proprit est satisfaite si on spcifie la loi conditionnelle de u sachant x comme une
loi normale indpendante de x. Linverse est faux et cette spcification est donc moins
exigeante que la prcdente. Elle permet, elle aussi, destimer le modle. Elle implique
en eet des restrictions du type E (x0 (y xb)) = 0 appeles intuitivement conditions
dorthogonalit dont on verra quelles sont susantes pour estimer les paramtres du
modle. On remarque ce stade que dans cette spcification il y a dores et dj un
paramtre de moins : la variance des rsidus nintervient plus.
Ces restrictions stochastiques dfinissent un paramtre statistique. On pourrait ainsi
dfinir autant de paramtres b quil y a de restrictions stochastiques envisageables, cest
dire une infinit. On pourrait par exemple considrer le paramtre bZ associ des
restrictions stochastiques E (z 0 (y xbZ )) = 0 dont on verra quelles aussi peuvent tre
utilises souvent pour conduire une estimation du paramtre. Il nest pas certain que
le paramtre statistique associ une restriction stochastique concide avec le paramtre
conomique. Lestimation peut ainsi tre non convergente, cest dire que la valeur du
paramtre estime ne se rapprochera pas de la vraie valeur (conomique) du paramtre
lorsque le nombre dobservation augmente, ou tre biaise, cest dire que lesprance du
paramtre nest pas la vraie valeur (conomique) du paramtre. Une partie importante
de lconomtrie, qui passe par une rflexion sur le modle, les donnes et les mthodes
consiste rechercher des conditions dans lesquelles le paramtre statistique concide avec
le paramtre conomique. La question est-ce que p lim bb = b0 , la vraie valeur conomique
du paramtre, est en dernier ressort la question la plus centrale et la plus importante
de lconomtrie, et assez naturelle : est-ce que jai bien mesur ce que je voulais ? Cest
beaucoup moins facile quil ny parat, car de nombreux facteurs aectent les dcisions
individuelles et il est dicile disoler leet dune unique cause.
1.7. PLAN 7
1.7 Plan
Le cours dbute dans le chapitre 2 par lestimateur des moindres carrs, cest dire le
vecteur des coecients de la projection orthogonale de y sur lespace vectoriel engendr par
les variables explicatives. On prsente dabord les proprits algbriques de cet estimateur
et ses proprits statistiques sous des hypothses minimales telles que lindpendance
et lquidistribution des observations (Thorme de Frish-Waugh, Thorme de Gauss-
Markov, estimation des paramtres du second ordre, le R2 et lanalyse de la variance). On
montre ensuite dans le chapitre 3 comment la spcification de la loi des rsidus comme une
loi normale permet de complter lanalyse en particulier en permettant dobtenir la loi des
estimateurs, tape incontournable pour procder des tests dhypothses simples (test de
Student) ou dfinir des intervalles de confiance pour les paramtres. On examine ensuite
dans le chapitre 4 et dans le mme cadre o la loi des rsidus est suppose normale, le cas
important des estimations sous contraintes linaires (dans les paramtres). On prsente
alors les tests dhypothses linaires sur les paramtres par le biais des tests de Fisher.
Ces rsultats sont obtenus sous des hypothses fortes :
Indpendance des rsidus et des variables explicatives : l (u |x) = l (u)
Homoscdasticit V (u |x) = 2 I
Spcification de la loi des rsidus : l (u) normale.
Les chapitres suivants vont progressivement revenir sur chacune de ces hypothses.
On va dabord examiner dans un cadre trs proche la loi asymptotique des estimateurs,
cest dire lorsque le nombre dobservations devient grand. On va chercher dvelopper
le mme genre de proprits permettant de faire de linfrence mais sans spcifier la loi
des rsidus. Les rsultats seront obtenus sous les hypothses :
Absence de corrlation entre les rsidus et les variables explicatives E (ux0 ) = 0
Homoscdasticit V (u |x) = 2 I
Le comportement asymptotique des estimateurs est examin dans le chapitre 5.
Dans le chapitre 6 on revient sur les hypothses dindpendance et dquidistribution
des paramtres. On prsente lestimateur des moindres carrs gnralise ainsi que di-
rentes faons de traiter la situation dite dhtroscdasticit, i.e. situation dans laquelle la
variance des rsidus dpend des variables explicatives. On aborde aussi succinctement la
question des donnes de panel et de lestimation de modles faisant intervenir des systmes
dquations. Le cadre dans lequel on se situe est juste bas sur
Absence de corrlation entre les rsidus et les variables explicatives E (ux0 ) = 0
Les chapitres 7, 8 et 9 utilisent la mthode des moindres carrs gnraliss en sap-
puyant sur une connaissance a priori de la structure de corrlation des rsidus. Le chapitre
7 sintresse plus particulirement au cas des rgressions empiles. Dans le chapitre 8, on
considre le cas dune rgression en coupe dans laquelle on a htroscdascticit du rsidu,
ce qui peut tre le cas par exemple pour une quation de salaire, la variance du rsidu
tant gnralement croissante avec le revenu. Dans le chapitre 9, on considre le cas des-
timations o le rsidu peut tre modlis comme une srie temporelle de comportement
connu. On construit lestimateur les moindres carrs quasi-gnraliss en sappuyant sur

la connaissance de la forme de lautocorrlation du rsidu.
Dans le chapitre 10, on considre la situation dans laquelle E (ux0 ) 6= 0. On aborde la
question de lidentification, fondamentale en conomtrie. On montre comment laide
de variables extrieures z, dites instrumentales, il est possible destimer le paramtre
dintrt. On revient donc en partie sur certains aspects des gnralisations prcdentes
pour mieux se concentrer sur lhypothse didentification. Les rsultats sont obtenus sous
les hypothses
Absence de corrlation entre les rsidus et des variables z : E (uz 0 ) = 0,
Rg (z 0 x) = dim x
Homoscdasticit V (u |x, z ) = 2 I
On prsente aussi deux tests importants : le test dexognit et le test de suridentifi-
cation qui sont des guides importants dans le choix des variables instrumentales.
Dans le chapitre 11 on prsente une gnralisation importante de la mthode variable
instrumentale et qui englobe la plupart des mthodes conomtriques standards. Il sagit
de la mthode des moments gnralise et on montre en particulier comment elle permet
dtendre la mthode variables instrumentales au cas dans lequel les perturbations sont
htroscdastiques et dautres cas tels que celui de lconomtrie des donnes de panel
ou lestimation de systmes dquations. Les hypothses scrivent un peu diremment
ce qui souligne le caractre gnral de cette mthode
E (g (z, )) = 0
o z reprsente lensemble des variables du modle, cest dire inclus les y et les x.
Dans le chapitre 12, on prsente succinctement certains modles non linaires proches
des modle linaires. On sintresse ainsi au modles dits probit pour lesquels la variable
expliquer na plus un support continu sur R mais prend ses valeurs dans {0, 1} . La
modlisation sous-jacente consiste introduire une variable latente, i.e. non observe
compltement
I = zc + u
et dont les ralisations gouvernent lobservation de la variable I :
I = 1 I > 0
On aborde galement dautres situations importantes permettant daborder la questions

de la slectivit des chantillons, cest dire la situation dans laquelle on nobserve la
variable dpendante que sous une condition lie par ailleurs la variable dpendante
elle-mme :
y = xb + u
I = zc + u
1.7. PLAN 9
les ralisations de I gouvernent lobservation de la variable I et de la variable y :

I=1
I > 0
y = y
I 0 I = 0
Ce type de modle appel modle Tobit est souvent utilis, en particulier pour abor-
der lendognit de variables explicatives prenant la valeur 0 ou 1 dans des modles
coecients variables
yi = i Ii + vi
Ce type de modle est souvent utilis pour aborder lvaluation des eets microcono-
miques des politiques de lemploi comme les stages de formations.
Dans le chapitre 13, on sintresse lvaluation des politiques publiques. On intro-
duit notamment lestimateur par dirence de dirences qui sapplique une exprience
naturelle. On parle dexprience naturelle lorsquune partie de la population a fait lobjet
dune nouvelle politique, tandis quune autre partie de la population na pas fait lobjet
de cette politique et donc peut servir de population tmoin. On ne peut observer le com-
portement des individus touchs par une mesure sils navaient pas t touchs, on verra
comment on peut nanmoins construire des estimateurs valuant limpact dune nouvelle
politique.
Chapitre 2
Lestimateur des moindres carrs

ordinaires
Lestimateur des moindres carrs ordinaires reste lun des estimateurs les plus fr-
quemment utiliss. Il a de nombreux usage. On peut lutiliser par exemple pour procder
une description des donnes : quelles sont les variables rendant compte le mieux de
la variabilit dune variable dintrt. On peut aussi lutiliser dans de nombreuses autres
situations pour estimer un paramtre auquel on donne un sens causal : que se passerait-il
si on faisait varier une variable donne dun montant donn. Il est bas sur lhypothse
essentielle que les rsidus et les variables explicatives sont orthogonaux. Il faut dautres
hypothses pour driver les principales proprits de lestimateur. On verra dabord les
proprits algbriques puis les proprits statistiques. Une partie du cours correspondra
lextension et la reformulation des proprits de lestimateur des mco lorsque lon remet en
cause ces hypothses. On gnralise ou adapte le plus souvent les proprits de lestima-
teur la condition que lhypothse centrale dabsence de corrlation entre perturbations
et variables explicatives soit maintenue.
On va voir dans ce chapitre la dfinition de lestimateur des mco et son interprta-
tion algbrique comme vecteur des coecients de la projection orthogonale de la variable
dpendante sur les variables explicatives. On va galement obtenir deux proprits impor-
tantes de cet estimateur qui sont : la proprit de sans biais et une proprit doptimalit
concernant la variance de lestimateur, connue sous le nom de Thorme de Gauss-Markov.
2.1 Dfinition et proprits algbriques

2.1.1 Dfinition
On considre une variable dintrt y appele variable dpendante et un ensemble de K
variables dites explicatives auquel on adjoint une constante. On dispose de N observations.
On note y = (y1 , . . . , yN ) lempilement des N observations de la variable dpendante. On
11
12 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES
dfinit de mme les vecteurs x1 , . . . , xK et x la matrice

des variables explicatives laquelle
0
on adjoint le vecteur constant e = (1, . . . , 1) : x = e, x1 , . . . , xK est donc une matrice
de dimension N (K + 1).
Definition Lestimateur des moindres carrs ordinaires est dfini comme le vecteur b
de dimension K + 1, b = (b0 , . . . , bK )0 , des coecients de la combinaison linaire de
e, x1 , . . . , xK ralisant le minimum de la distance de y lespace vectoriel de RN engendr
2
par e, x1 , . . . , xK , pour la norme euclidienne : bbmco = arg min y xb
Proposition Sous lhypothse
H1 : les vecteurs e, x1 , . . . , xK sont indpendants,
lestimateur des moindres carrs existe, est unique et a pour expression
bbmco = (x0 x)1 x0 y
2 0
Dmonstration Lobjectif minimiser est Ob (b) = y xb = y xb y xb .
La condition du premier ordre scrit
dOb
= 2x0 y xb = 0
db
et la condition du second ordre
d2 Ob
= 2x0 x dfinie positive
dbdb0
Lhypothse dindpendance de e, x1 , . . . , xK revient faire lhypothse que x0 x est dfinie
positive. La condition du second ordre est ainsi satisfaite et la condition du premier ordre
admet une solution
2.1.2 Interprtation gomtrique

On associe deux grandeurs importantes lestimateur des moindres carrs :
y = xbb
1. Le vecteur prdit b
2. Le vecteur rsiduel b
u = yb
y
On voit immdiatement compte tenu de la dfinition de lestimateur des moindres
carrs ordinaires que le vecteur rsiduel est orthogonal aux variables explicatives et donc
aussi au vecteur prdit :
x0 b
u = 0
0
yb
b u = 0
b
y sinterprte donc comme la projection orthogonale de y sur lespace engendr par
e, x1 , . . . , xK et lestimateur des moindres carrs ordinaires comme le vecteur des coef-
ficients de cette projection.
2.1. DFINITION ET PROPRITS ALGBRIQUES 13
Remarque Comme la constanteX appartient lensemble des rgresseurs, on a immdia-

0 1
tement e ub = 0, soit u
b= N bi = 0 : la moyenne du vecteur rsiduel est nulle.
u
Les vecteurs prdits et rsiduels peuvent scrire directement partir du vecteur y.
On a en eet
y = xbb = x (x0 x) x0 y = Px y
1
b
u = yb
b y = (IN Px ) y = Mx y
Les matrices Px et Mx sont les matrices des projecteurs orthogonaux sur respectivement
lespace engendr par e, x1 , . . . , xK et son orthogonal. Comme on le vrifie directement
on a en eet
Px2 = Px
Mx2 = Mx
Px + Mx = IN
et en outre
Px v = v tq v = x
2.1.3 Thorme de Frish-Waugh

Le thorme de Frish-Waugh est une proprit algbrique de lestimateur des moindres
carrs qui explicite linterdpendance des coecients de direntes variables dans une
rgression. Il permet de rpondre la question : dans quel cas est-il ncessaire dintroduire
toutes les variables dun modle dans la liste des rgresseurs ?
Theoreme Dans la rgression de y sur un ensemble de variables explicatives x, si x se

dcomposent en deux sous-ensembles x1 et x2 : x = x1 , x2 , les coecients des variables
x1 peuvent tre obtenus indirectement en rgressant les rsidus Mx2 y de la rgression
de la variable dpendante y sur les variables explicatives x2 , sur les rsidus Mx2 x1 des
rgressions des variables x1 sur les variables explicatives x2 :
0 1 0
bb1 = Mx2 x1 Mx2 x1 Mx2 x1 Mx2 y
on peut alors retrouver les coecients des variables x2 en rgressant la partie inexplique
y x1bb1 sur x2 :

bb2 = x2 0 x2 1 x2 0 y x1bb1
1 0
avec Mx2 = IN x2 x2 0 x2 x2

Dmonstration Les coecients de la rgression de y sur x = x1 , x2 satisfont

0 b b
x1 y x1 b1 x2 b2 = 0

x2 0 y x1bb1 x2bb2 = 0
De la deuxime quation on tire directement la deuxime partie du thorme

bb2 = x2 0 x2 1 x2 0 y x1bb1
Lorsque lon rintroduit cette expression dans la premire quation il vient

0 1 0
0 b
x1 y x1 b1 x2 x2 x2 b
x2 y x1 b1 = 0
soit

x1 0 Mx2 y x1bb1 = 0

0 b
x1 Mx2 Mx2 y Mx2 x1 b1 = 0
compte tenu de Mx22 = Mx2 . Do lexpression de bb1

Remarque La caractristique importante est dutiliser les rsidus des rgressions de x1
sur x2 . Il nest pas ncessaire dutiliser aussi les rsidus de la rgression de y sur x2 .
Applications du Thorme de Frish-Waugh
1. Dans la rgression de y sur x1 et x2 on peut rgresser sparment y sur x1 et y sur
x2 lorsque x1 et x2 sont orthogonaux.
2. Donnes de panel. Lorsque la rgression introduit des indicatrices spcifiques
chaque individu (donc N variables, spcification dite eets fixes) en plus dun
ensemble de rgresseurs dintrt x1 , on peut dabord rgresser les variables dint-
rt et la variable dpendante sur les variables indicatrices puis utiliser les rsidus
des rgressions correspondantes. Dans ces oprations puisque les variables indica-
trices sont orthogonales les unes aux autres on peut eectuer les rgressions sur
les indicatrices sparment. On vrifie aisment que le coecient de la rgression
dune variable sur une variable indicatrice dindividu est la moyenne des observations
pour cet individu. Les rsidus des rgressions sont donc les carts aux moyennes in-
dividuelles des direntes variables dintrt. Lestimateur obtenu en rgressant les
carts des variables explicatives aux moyennes individuelles sur la quantit analogue
pour la variable dpendante est trs populaire et connu sous le nom destimateur
Within (ou Intra).
3. Pour obtenir les coecients de x1 dans la rgression de y sur x1 et x2 , on peut
rgresser y sur x1 et la prvision de x1 par x2 : Px2 x1 .
2.2. MODLE ET PROPRITS STATISTIQUES 15
2.2 Modle et proprits statistiques

Lestimateur des moindres carrs ordinaires a une dfinition mathmatique. Il sagit
du vecteur des coecients de la projection orthogonale de la variable dpendante sur les
variables explicatives. Dans le cadre de lconomtrie on sintresse nanmoins lesti-
mation des paramtres dun modle conomtrique. On considre ainsi le modle linaire
suivant :
y = b0 + b1 x1 + + bK xK + u
Pour lequel on dispose de N observations. Le modle scrit aussi sous forme matricielle :
y = xb + u
On sintresse aux proprits statistiques de lestimateur des mco : quelle est son esp-
rance, sa variance... Comme lestimateur est une fonction des observations, ses proprits
statistiques dpendent de la loi des observations l (y, x). On les caractrise a partir dhy-
pothses sur la loi conditionnelle de y sachant x, cest dire dans le cadre du modle
prcdent comme des hypothses concernant la loi de la perturbation u conditionnelle-
ment aux variables explicatives.
2.2.1 Quand lestimateur des mco est-il sans biais ?

On sintresse dabord aux conditions sous lesquelles lesprance de lestimateur des
mco concide avec la vraie valeur du paramtre. On dit alors que lestimateur est sans
biais.

Definition On dit quun estimateur bb y, x est sans biais lorsque

E bb y, x = b
Z
Dans cette dfinition E bb y, x = bb y, x f y, x dydx o f y, x reprsente la
densit jointe des variables explicatives et dependantes.
Proposition Sous lhypothse
H2 : E (un |x) = 0 n
lestimateur des mco est sans biais.
Dmonstration Lestimateur des mco scrit
1
= (x0 x) x0 (xb + u)
1
= b + (x0 x) x0 u

on sintresse E bb y, x |x . On a clairement E bb y, x |x = b + (x0 x)1 x0 E (u |x) .

Comme E (u |x) = 0 par hypothse on a bien E bb y, x |x = b. On en dduit immdia-

tement E bb y, x = E E bb y, x |x =b
Lhypothse H2 est extmement forte, puisquelle signifie que lorsque les rsidus
changent, les variables explicatives ne changent pas. Dans de nombreuses situations cette
hypothses ne peut pas tre tenu. Cest par exemple le cas si on prend un modle ore-
demande dans lequel on observe les prix et les quantits. Si on considre lquation de
demande par exemple, elle correspond lexistence dune relation dcroissante entre la
variable dpendante, la quantit, et la variable explicative, le prix. Si il y a un choc de
demande, le dsquilibre sur le march va se rsoudre par une hausse de la quantit chan-
ge et une hausse du prix. Dans ce modle on ne peut donc pas tenir lhypothse H2 par
nature mme du modle auquel on sintresse. Dans dautres cas la situation peut tre plus
favorable. Par exemple dans le cas de la taille de la classe et du taux de russite scolaire, il
est vrai que lon peut contester le fait que E (u |taille ) = 0, mais il est possible quil existe
un ensemble de variables explicatives x tel que lon ait u = xc + v et E (v |taille, x) = 0.
Autrement dit, on peut identifier, mesurer et introduire dans la rgression les sources de
variabilit communes la taille et au rsidu. Le modle devient tx = a0 + at taille + xb + v.
2.2.2 Quelle est la prcision de lestimateur des mco ?

Le fait que la proprit dabsence de biais soit satisfaite est trs intressant mais on a
besoin dinformations plus prcises. On souhaite savoir si la vraie valeur peut se trouver
loin de lestimateur. Une telle information est donne par la prcision de lestimateur et
on ltudie en considrant la variance :
Proposition sous les hypothses H1, H2,
H3 : V (un |x) = 2 n
H4 : E (un um |x) = 0 n, m
la variance de lestimateur des mco conditionnellement au variables explicatives est
donne par
V bbmco |x = 2 (x0 x)
1
La variance non conditionnelle est donne par

h i
V bbmco = 2 E (x0 x)
1
Dmonstration La variance conditionnelle est dfinie comme

h i h i0
b b b
V bmco |x = E bmco E bmco |x b b
bmco E bmco |x |x

Comme E bbmco |x = b et bbmco b = (x0 x)1 x0 u,

V bbmco |x = (x0 x) x0 E (uu0 |x) x (x0 x)
1 1
La matrice E (uu0 |x) a pour lments n, m E (un um |x) . On dduit directement des hy-
pothses que E (uu0 |x) = 2 IN

La matrice de variance a deux composantes : 2 et E (x0 x)1 . Plus 2 , i.e. la va-
riance rsiduelle, est grande, moins lestimateur est prcis. Ceci implique que lon peut
accrotre la prcision des estimateurs de variables dintrt en introduisant des variables
additionnelles, satisfaisant les hypothses du modle linaire H1 H4, ds lors quelles
contribuent rduire la variance rsiduelle. La matrice x0 x joue un rle central dans la
variancePde 0lestimateur. On peut lcrire partir des observations individuelles
1 P 0 comme
0 0
x x = n xn xn . On voit quune criture plus adapte est x x = N N n xn xn . Dans
le
1cas du modle linaire simple avec une unique variable explicative centre la matrice
P 0 1 2
N n xn xn scrit simplement
comme 1/x = 1/V (x). On voit que dans ce cas la va-
riance de lestimateur scrit V bb = 2 / (NV (x)) . Lestimateur est donc dautant plus
prcis que le nombre dobservations est grand. On sintresse en gnral lcart-typedes
paramtres estims. La formule prcdente implique que lcart type dcrot comme N.
Lorsque la taille de lchantillon est multiplie par 4 lcart-type nest divis que par 2.
On imagine donc bien que dans un chantillon de petite taille la prcision de lestimateur
est un problme important. On voit aussi que dans de grands chantillons de plusieurs
centaines de milliers dobservations, la prcision des estimations sera trs grande. La for-
mule prcdente montre aussi que lestimateur est dautant plus prcis que la variance de
la variable explicative est importante. Cest parce que lon observe des situations di-
rentes au regard des variables explicatives qui ne soient pas corrles avec les rsidus du
modle conomique que lon peut identifier leet de ces variables. Enfin un dernier cas
permettant dillustrer les implications de la formule prcdente est le cas dans lequel il y
a deux variables explicatives par exemple de mme variance 2 et ayant un coecient de
corrlation . Dans ce cas on calcule simplement
1
1 P 0 1 1
x xn = 2
N n n x (1 2 ) 1
On voit que dans ce cas la prcision de lestimateur est dautant plus faible que les variables
sont corrles. Au total, on voit que si les variables sont presque colinaires la prcision
de lestimateur sera faible.
2.2.3 Lestimateur des mco est-il le plus prcis : le thorme de

Gauss-Markov
On sintresse naturellement la question de loptimalit de lestimation du paramtre
b. Ce paramtre, comme on la vu, est sans biais et il est en outre dfini comme une
fonction linaire des observations. Ceci forme une classe destimateurs. La question
laquelle rpond le thorme de Gauss-Markov est celle de loptimalit (au sens de la
prcision) de lestimateur dans la classe des estimateurs linaires sans biais.
Definition Un estimateur bb1 est optimal dans une classe destimateurs bb si toute es-
timation dune combinaison linaire du paramtre est estime plus prcisment avec bb1
quavec nimporte quel estimateur de la classe considre :

, V 0bb1 V 0bb

b
Cette proprit signifie que la matrice de variance V b1 de b1 vrifie V bb1
b 0

0 V bb , cest dire que V bb1 V bb est semi-dfinie ngative.
Theoreme Gauss-Markov : Sous les hypothses H1-H4 lestimateur des moindres carrs
ordinaires du modle
y = xb + u
est optimal dans la classe des estimateurs sans biais conditionnellement aux variables x.
Dmonstration Soit eb un estimateur linaire sans biais du paramtre b. Il existe donc
une matrice A tel que cet estimateur scrit eb = Ay. Lhypothse dabsence de biais signifie

E eb |x = b ce qui implique E Ay |x = E (A (xb + u) |x) = Axb + AE (u |x) = b
Comme E (u |x) = 0. Labsence de biais signifie Axb = b. Ce rsultat est vrai pour b
quelconque donc pour tout b, cest--dire :
Ax = IK+1

On a en outre eb E eb |x = A y E (y |x) = Au. La variance dun estimateur li-

naire sans biais quelconque est donc de la forme V eb |x = V (Au |x) = AV (u |x) A0 =
2 AA0 compte tenu de lhypothse cruciale V (u |x) = 2 IN . Comme IN = Px + Mx =
x (x0 x)1 x0 + Mx , on a

V eb |x
1
= 2 AA0 = 2 A x (x0 x) x0 + Mx A0

2 0 1 0 0 0
= Ax (x x) x A + AMx A

comme Ax = IK+1 et V bb |x = 2 (x0 x)1 , on a

V b |x = V bb |x + 2 AMx A0
e
et la matrice AMx A0 est ncessairement semi-dfinie ngative

2.2.4 Estimation des paramtres du second ordre

La variance des rsidus, intervenant dans lhypothses H4, est un paramtre dit du
second ordre car il correspond aux moments dordre 2 de la variable y conditionnellement
aux variables explicatives. Cest un paramtre important plus dun titre. Dabord, il
permet de mesurer la qualit de lajustement. En outre, comme on la vu, il intervient
dans la matrice de variance-covariance des estimateurs et est lorigine de nombreux tests
dhypothses. Il est donc lgitime de sintresser son estimation. Cette estimation fait
intervenir le vecteur des rsidus estims
b = y xbb
u
Proposition Sous les hypothses H1 H4, lestimateur

P 2
2 b0 u
u b bn
nu
b =
=
N K 1 N K 1
est un estimateur sans biais du paramtre du second ordre 2 .
b = Mx y = Mx u. On a donc
Dmonstration Comme on la vu u
0
0 0

b0 u
u b = u Mx u = T r u Mx u = T r Mx uu
On a donc
0 0
0

bu
E u b |x = E T r Mx uu |x = T r E Mx uu |x
0
= T r Mx E uu |x = 2 T r (Mx )
et Mx = IN x (x0 x)1 x0 do

1 1
T r (Mx ) = T r IN x (x0 x) x0 = N T r x (x0 x) x0

0 1 0
= N T r (x x) x x = N K 1
Exemple Application la prvision. On considre le modle yn = xn b + un pour lequel

on a n = 1, . . . , N observations et satisfaisant les hypothses H1 H5. Connaissant xN+1
et faisant lhypothse que le modle reste valide pour cette observation, on souhaite estimer
yN+1 .
Dire que le modle reste valide signifie que non seulement la relation entre yn et xn peut
tre tendue lobservation N + 1 : yN+1 = xN+1 b + uN+1 mais encore que les hypothses
stochastiques peuvent tre tendues linclusion de lobservation N + 1 en particulier ceci
impose E (uN+1 |x, xN+1 ) = 0, V (uN+1 |x, xN +1 ) = 2 , E (uN+1 un |x, xN+1 ) = 0.
La prvision de yN +1 est
ybN+1 = xN+1bbmco
Conditionnellement aux variables explicatives la prvision est sans biais :

yN+1 yN+1 |x, xN+1 ) = E xN +1 bbmco b uN+1 |x, xN +1 = 0
E (b
ybN+1 est le meilleur estimateur sans biais de yN+1 , linaire dans les observations y1 , . . . , yN .
Ceci constitue une application directe du Thorme de Gauss Markov : si on considre
un estimateur linaire sans biais yeN+1 de yN+1 . La variance de lerreur de prvision scrit
E (yN+1 yeN+1 |x,
xN+1 )2 = E (xN+1 b + uN+1 yeN+1 |x, xN+1 )2 = E (xN+1 b yeN+1 |x, xN+1 )2 +
E u2N+1 |x, xN+1 puisque lestimateur est linaire en y et que y nest pas corrl uN+1
conditionnellement aux observations de x. Le problme se rsume donc chercher les-
timateur linaire sans biais de variance minimale de la combinaison linaire xN+1 b du
paramtre b. Le thorme de Gauss-Markov indique quil sagit de xN +1bbmco
La variance de lerreur de prvision est
h i
1
yN+1 yN+1 )2 = 2 x0N+1 (x0 x) xN+1 + 1
E (b
2.2.5 Analyse de la variance

Lanalyse de la variance est fonde sur lorthogonalit entre le vecteur des rsidus
estims et de la variable prdite.
y = yb + u
b
Les rgressions que lon considre ayant un terme constant on a y = yb dont on tire :
y ye = yb ybe + u
b
compte tenu de lorthogonalit on peut donc crire lquation dite quation danalyse de
la variance
P P 2 P
n (yn y)2
= n b
yn b
y + nu bn 2
ou encore
V (y) = V (b
y ) + V (b
u)
La variance totale est la somme de la variance explique et de la variance rsiduelle. On
introduit une quantit trs couramment utilise qui mesure la part de la variance explique
par le modle. 2

yb ybe uk2
kb
2
R = 2 = 1 2 0 1
ky yek ky yek
Le R2 est frquemment utilis pour mesurer la qualit de lajustement. Nanmoins deux
prcautions doivent tre prises :
2.3. VARIABLE OMISE ET RGRESSEUR ADDITIONNEL 21
Le R2 dpend du calibrage des observations. Par exemple si on considre une fonction

de production
y = + l + k + u
lestimation va fournir un R2 beaucoup plus important que celui obtenu avec le
modle identique mais expliquant la productivit
y l = + ( 1) l + k + u
On montre facilement que plus on tend lensemble des variables explicatives plus le
R2 est grand. Ce nest donc pas ncessairement un bon critre de choix de modle.
Pour cette raison on a introduit une quantit proche mais pas directement relie qui
est le R2 ajust. Il est dfini d0 une faon trs voisine du R2
b2
uk2 / (N K 1)
kb N 1
Ra2 = 1 =1 2 = 1 1 R2
V (y) ky yek /N 1 N K 1
Remarque Cette quation danalyse de la variance permet de prciser lexpression
de la
variance de chacune des composantes de lestimateur. Dans la formule gnrale V bbmco |x =
2 (x0 x)1 , la variance de la kime composante de lestimateur des mco correspond au
kime lments diagonal. Si on utilise les formules dinversion par bloc
11
A11 A12 1 A A12 1
A= , A = 21 22 , A11 = A11 A12 A122 A21
A21 A22 A A
Si on considre une variable xk particulire, alors, quitte rorganiser lordre des variables
explicatives : x = (xk , xk ), o xk reprsente lensemble des variables explicatives autres
que la kime, " #
0 0
x k kx x x
k k
x0 x =
x0k xk x0k xk
1
et on a donc (x0 x)1
11 = x 0
k kx x 0
x
k k x0
x
k k x0k xk = xk 0 Mxk xk = (N.V (xk |xk ))1 .
V (xk |xk ) est la variance rsiduelle de la variable xk une fois pris en compte la part de
la variance de la variable xk explique par les autres variables explicatives du modle. La
variance de chacune des composante de lestimation du paramtre scrit donc

V bbk = 2 / (NV (xk |xk )) = 2 /NVk|k
2.3 Variable omise et rgresseur additionnel

2.4 Rsum
1. On a vu dans ce chapitre la dfinition algbrique de lestimateur des mco comme
vecteur des coecients de la projection orthogonale de la variables dpendante sur
lespace engendr par les variables explicatives.

2. Cet estimateur existe est unique sous lhypothse H1 que les vecteurs des variables
explicatives soient linairement indpendant.
3. On a vu sous quelle condition lestimateur des mco est un estimateur sans biais du
paramtre conomique b dans le modle linaire y = xb + u. : Il sagit de lhypothse
H2 que lesprance des rsidus conditionnellement aux variables observables est
nulle.
4. Sous les hypothses H3 et H4 que dans ce modle les perturbations sont condition-
nellement aux variables explicatives des variances identiques et sont non corrles les
unes avec les autres,
onpeut donner lexpression classique de la matrice de variance
de lestimateur V bb |x = 2 (x0 x)1 .
5. Sous ces mme hypothses lestimateur des mco est le meilleur estimateur linaire
sans biais, au sens de la minimisation de la variance.
6. Linterprtation de cette formule conduit la conclusion que plus le nombre dob-
servations est grand, plus la variance rsiduelle 2 est faible, plus les variables ex-
plicatives prsentent de variabilit propre, plus lestimateur est prcis.
7. Le paramtre du second ordre 2 peut tre estim sans biais comme
P 2 la moyenne des
2
b =
carrs des rsidus tenant compte des degrs de libert : bn / (N K 1) .
u
8. Le R2 est une mesure de la qualit de lajustement du modle aux donnes : il
mesure la part de la variance totale explique par le modle.
Ces rsultats sont importants : ils tablissent les conditions sous lesquelles les esti-
mateurs sont sans biais et ils permettent de dterminer la prcision des estimations. Ils
sont nanmoins insusants pour donner des intervalles de confiance sur les paramtres
estims et raliser des tests dhypothse. Pour aller plus loin il faut faire des hypothses
supplmentaires. On peut procder de deux faons :
1. Lorsque le nombre dobservations est faible, on peut spcifier la loi des observations
conditionnellement aux variables explicatives. Ceci est fait dans la majeure partie
des cas en spcifiant les rsidus comme suivant une loi normale. On peut alors
caractriser la loi de lestimateur. On peut aussi dans ce cas estimer le modle
par maximum de vraisemblance. On peut alors tester des hypothses dites simples
(nullit dun paramtre). Ces tests sont appels test de Student. Ce cas est examin
dans le chapitre 3. On peut aussi sur la base de cette hypothse estimer le modle
en imposant des contraintes linaires sur les paramtres et tester lhypothse que
ces contraintes sont acceptes. Les tests mis en oeuvres sont alors des test dits de
Fisher. Ces aspects sont prsents dans le chapitre 4.
2. La deuxime faon est dtudier les proprits asymptotiques de lestimateur, cest
dire lorsque le nombre dobservations devient grand. On montre dans le chapitre
5 que sans spcifier la loi des rsidus mais en faisant des hypothses susamment
2.4. RSUM 23
fortes sur lpaisseur des queues de distribution des rsidus, on peut spcifier la loi
asymptotique de lestimateur.
Chapitre 3
Les MCO sous lhypothse de

normalit des perturbations.
Dans ce chapitre on examine les proprits de lestimateur des mco lorsque lon fait
lhypothse de normalit des perturbations. Plus prcisment on fait lhypothse Hn sui-
vante.
Hn : la loi de u conditionnellement aux variables explicatives x est une loi normale de
moyenne nulle et de matrice de variance 2 IN .
1 X
2 2
l (u |x) = N un /2
2

u |x N 0, 2 IN
Remarque Cette hypothse est plus forte que les hypothses H2 H4 puisquelle implique
que le moment dordre 1 de u conditionnellement x est nul. cest dire lesprance
On va voir que dans ce cas on peut prciser la loi de lestimateur du paramtre ainsi
que celle de lestimateur de la variance des rsidus. On va aussi obtenir un rsultat central,
le thorme de Cochrane, la base de tous les tests eectus partir de lestimateur des
mco.
3.1 Normalit de lestimateur des mco

Proposition Sous lhypothse Hn , on peut spcifier la loi jointe de lestimateur des mco
et de lestimateur de la variance des rsidus conditionnellement aux variables explicatives :
1. Lestimateur du paramtre des mco bbmco est distribu comme une loi normale de
moyenne b, la vraie valeur du paramtre, et de matrice de variance 2 (x0 x)1 :

bbmco N b, 2 (x0 x)1
25
26CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS.
b2 , convenablement normalis, est distribu suivant une loi du 2

2. Lestimateur
b2

[N (K + 1)] 2 2 (N (K + 1))

3. bbmco et
b2 sont indpendants (Thorme de Cochran)
Dmonstration Le rsultat concernant la normalit de lestimateur est immdiat. Il
provient du fait que lestimateur des mco est linaire dans les observations de la variable
dpendante. Comme conditionnellement x la variable dpendante est normale, lestima-
teur des mco est une combinaison linaire de variables normales et est donc lui mme
un vecteur normal, caractris par ces deux premiers moments : son esprance dont on a
vu quelle tait gale la vraie valeur du paramtre, et sa matrice de variance dont on a
donn lexpression au chapitre prcdent, sous des hypothses plus gnrales que celle de
la loi normale.
De mme, les rsidus estims sont eux mmes normaux. On a en eet u b = Mx y = Mx u.
Par ailleurs, on a aussi directement bb b = (x0 x) x0 u. Finalement on peut spcifier la
1
loi jointe des rsidus estims et de lestimateur des mco :

0 1 0
bb b (x x) x
= u
b
u Mx
On en dduit donc que ces deux vecteurs suivent une loi normale jointe, de moyenne
visiblement nulle et dont on peut prciser la variance :
0 1 0 0
bb b (x x) x bb b (x0 1 0
x) x
V x = V x
b
u Mx b
u Mx
0 1 0
(x x) x
= 2 x (x0 x)1 Mx
Mx
0 1 0
2 (x x) x x (x0 x)1 x (x0 x)1 Mx
=
Mx x (x0 x)1 Mx
Comme Mx x = 0, on en dduit
0 1
bb b
V x = 2 (x x) 0
b
u 0 Mx
Dont on dduit
1. lexpression de la variance de lestimateur des mco
2. lestimateur des mco et les rsidus estims sont indpendants (car tant tous les
deux normaux et non corrls). Lestimateur des mco et lestimateur de la variance
b2 = u
b0 u
b/ (N K 1) sont donc indpendants.
3.2. ECART-TYPES ESTIMS, TESTS ET INTERVALLES DE CONFIANCE 27
3. Les rsidus estims suivent une loi normale de matrice de variance 2 Mx .

Rappel : P
Si Z N (0, IL ) , alors par dfinition kZ 2 k = Z 0 Z = Ll=1 Zl2 2 (L)
0
Si P est un projecteur orthogonal sur un sous espace de dimension L1 alors Z P Z
2 (L1 ) (Voir annexe)
On applique ce rsultat Z = u/ N (0, IN ) et P = Mx . On a : (b u/)0 (b
u/) =
0 0 0
(u/) Mx Mx (u/) = (u/) Mx (u/) . On en dduit que u 0
bu b/ (N K 1) ,
2 2
puisque Mx est le projecteur orthogonal sur lorthogonal de lespace vectoriel engendr

par les x donc de dimension N K 1. Finalement, comme u b0 u
b = (N K 1) b2 ,
2
[N (K + 1)] b 2 2 (N (K + 1))
On rappelle quune loi du 2 (L) L degrs de liberts a pour premier et second
2 2 b2

moments E ( (L)) = L, V ( (L)) = 2L. On vrifie donc que E [N (K + 1)] 2 =
2
N K 1. On vrifie donc que lon a bien E b = 2 : lestimateur de la variance
est sans biais. On apprend maintenant, grce la spcification normale
la distribution de
b2

lestimateur de la variance des rsidus et donc sa variance : on a V [N (K + 1)] 2 =
2
2 (N K 1), soit V b = 2 4 / (N K 1) . On voit donc que comme pour lestima-
teur des mco, lorsque le nombre dobservations devient grand la variance de lestimateur
tend vers zero. Le rythme de convergence est en outre identique celui de lestimateur
des mco. On remarque en revanche une spcificit de lestimateur de la variance : plus la
dispersion des rsidus est importante, plus lestimateur est imprcis.
Lestimation de la variance des rsidus peut tre intressante pour elle-mme, mais
elle nous intresse en premier lieu car cest un paramtre important de la matrice de
variance
2 de0 lestimateur du paramtre de premier intrt b. En eet, on a vu que bbmco |x
1
N b, (x x) , mais ce rsultat reste insusant dans la mesure o on ne connat pas
la variance des rsidus.
3.2 Ecart-types estims, tests et intervalles de confiance

3.2.1 Ecart-type

La formule de la matrice de variance de lestimateur est utile V bbmco |x = 2 (x0 x)1 ,
mais elle nest pas directement exploitable car on ne connat pas la variance des rsidus
2 . Un estimateur naturel de cette matrice consiste remplacer la quantit inconnue 2
par un estimateur.
b b
V bmco |x = b2 (x0 x)
1

On a immdiatement le rsultat que Vb bbmco |x est un estimateur sans biais de la matrice
de variance de lestimateur mco du paramtre.
On sintresse en fait plus spcifiquement la variance de chaque composante de

lestimateur 2k = V bbk = 2 (x0 x)1 kk = 2 xkk o dans cette notation xkk est le
kime lment diagonal de (x0 x)1 . Dans le chapitre prcdent on a vu que ce kime
lment tait en fait linverse de la variance rsiduelle de la projection de xk sur les
autres variables du modle (la variance propre de la kime variable) divise par le nombre
dobservations. Un estimateur naturel de 2k est
b2k =
b2 xkk
q
bk =
La quantit b2k est systmatiquement associ nimporte quelle estimation par
b2 on peut directement donner la loi de
les mco. Grce aux rsultats portant sur la loi de
b2k :
Proposition Sous lhypothse Hn lestimateur de la variance de la kime composante

du vecteur des paramtre suit, convenablement normalise une loi du 2 (N K 1) :
b2k

[N (K + 1)] 2
2 (N (K + 1))
k
et est indpendant de lestimateur des mco bbmco .
3.2.2 Un rsultat central

On sintresse lobtention dintervalles de confiance et des tests dhypothse simple
du type H0 : bk = b0k pour une valeur donne de b0k . Un cas trs frquemment examin est
par exemple celui de la nullit dun paramtre (b0k = 0). Pour obtenir des intervalles de
confiance ou pour eectuer des tests, on a besoin dobtenir une fonction des estimateurs
qui ne dpende pas des paramtres.
Proposition Sous lhypothse de normalit des perturbations Hn , pour une composante
donne k du paramtre on a
bbk bk
Student (N K 1)
bk

Dmonstration Ce rsultat dcoule directement de la dfinition des lois de Student :

Si X1 suit une loi normale N (0, 1) et X2 suit une loi du 2 (H) H degrs de libert, et
si X1 et X2 sont indpendants alors
X1
S=p Student (H)
X2 /H

Ici bbk N (bk , 2k ) . On en dduit donc que bbk bk / k N (0, 1) . En outre le rsultat
2
prcdent tablit que [N (K + 1)] b k2 2 (N (K + 1)) et est indpendant de bbk . On
k
a donc par application directe de la dfinition

bbk bk / k bbk bk
r = Student (N K 1)
b 2k
bk

[N (K + 1)] 2 / [N (K + 1)]
k
Les lois de Student sont des lois symtriques de moyenne nulle et de variance H/ (H 2)
o H est le nombre de degrs de libert. Plus H est faible, plus les queues de distribu-
tion sont paisses. On voit quil y a un nombre minimal de degrs de libert pour que le
moment dordre 2 existe : H > 2.
3.2.3 Intervalle de confiance

Definition Un intervalle de confiance pour le paramtre bk au niveau est un intervalle
[a, a] tq P (bk [a, a]) = 1 .
Lemme Soit z une variable alatoire dont la distribution f est symtrique autour de
zro, croissante pour z < 0, continue et de fonction de rpartition F, tout intervalle [z, z]
tel que P (z [z, z]) = p0 donn, de longueur minimale est symtrique.
Dmonstration Ce rsultat se montre trs facilement. La symtrie de la distribution
scrit f (z) = f (z) et implique F (z) = 1 F (z). On a F (z) F (z) = p0 , donc la
longueur de lintervalle est L = z z = F 1 (F (z) + p0 ) z. La drive de la longueur de
lintervalle par rapport z est dL/dz = f (z) /f (z)1. Si f (z) < f (z) , alors dL/dz < 0.
On pourra diminuer la longueur de lintervalle en augmentant z. Comme f est croissante
dans le domaine ngatif accrotre z conduit accrotre f (z) /f (z) 1. Lextremum de
la longueur, obtenu pour f (z) /f (z) 1 = 0 est donc bien un minimum.
Pour trouver un intervalle de confiance pour le paramtre bk on applique directement
les rsultats du lemme :
Propositionq Sous les hypothses Hn , soit bbk la kime composante de lestimateur des
bk =
mco et b2k lestimateur de son cart-type, alors lintervalle de confiance de longueur
minimale du paramtre bk au niveau est
h i
bbk bk tNK1 (1 /2) , bbk + bk tNK1 (1 /2)
o tNK1 (1 /2) est le quantile dordre 1 /2 dune loi de Student N K 1

degrs de libert.
Le quantile dordre 1 /2 dune loi de Student N K 1 degrs de libert est la

quantit t telle que pour une variable S suivant une loi de Student N K 1 degrs
de libert, P (S < t) = 1 /2, et de faon similaire P (S > t) = /2
Dmonstration Par application des rsultats prcdents, on a immdiatement que S =
bbk bk
bk

Student (N K 1). Comme la loi de Student est symtrique, on en dduit que
lintervalle de longueur minimale auquel S appartienne avec probabilit 1 est
P (S [tN K1 (1 /2) , tNK1 (1 /2)]) = 1
dont on dduit immdiatement lexpression des bornes de lintervalle de confiance.

Remarque Ce rsultat stend directement au cas dans lequel on cherche un intervalle
de confiance pour une combinaison linaire donne des paramtres : 0 b. En eet, on
trouve directement la loi de lestimateur q de la combinaison linaireq0bbmco : 0bbmco

N 0 b, 2 0 (x0 x)1 . En notant b = 2 0 (x0 x)1 et
bb = b2 0 (x0 x)1 , on
vrifie aismenth que lintervalle de confiance pour la combinaison linaire donne i des
0b 0b
paramtres est bmco bb tNK1 (1 /2) , bmco + bb tNK1 (1 /2)
3.2.4 Tests de la forme 0 b =

On rappelle dabord des lments basiques concernant les tests. On se rfre pour cela
Gouriroux-Monfort. Les notions importantes sont celles dhypothse nulle, note H0 ,
et dhypothse alternative, note H1 . Elles correspondent une partition de lensemble
des lois possibles des observations. Ici compte tenu du fait quon se situe dans un cadre
paramtrique (la loi des observations est spcifie intgralement), lensemble des lois pos-
sibles est dcrit par lensemble des valeurs possibles de tous les paramtres : b, 2 . Les
hypothses que lon va considrer ici portent sur la valeur dune composante du para-
mtre ou dune combinaison linaire du paramtre : bk = b0k pour une valeur donne de
b0k , un cas trs frquent tant celui de la nullit, b0k = 0. On examinera dans le chapitre
suivant des hypothses portant sur plusieurs paramtres, mais les rappels que lon eectue
ici valent pour lune et lautre situation. Dune faon gnrale, elles vont scrire sous la
forme H0 : 0 et H1 : 1 .
Un test pur est une rgle de dcision pure cest dire une fonction des observations
conduisant choisir entre la dcision d0 : H0 est vraie, et d1 : H1 est vraie. A un test
pur est associ une rgion critique, en gnral note W dfinie comme lensemble des
ralisations des observations conduisant prendre la dcision d1 . Les tests peuvent aussi
en thorie tre mixtes. Dans ce cas la rgle de dcision est mixte. Il sagit alors dune
fonction des observations associant la dcision d1 une probabilit : compte tenu des
observations y on accepte lhypothse H1 avec une probabilit (y). Il y a trois grandeurs
essentielles associes un test : le risque de premire espce, le risque de deuxime espce
et la puissance du test. Le risque de premire espce correspond la probabilit de de
rejeter H0 alors que H0 est vraie (i.e. rejeter H0 tort). Pour un test pur caractris par
une rgion critique W , il sagit de la fonction P (W ) dfinie sur 0 Pour un test alatoire,
elle est dfinie par E ( (y)). On la note (, ) . Dans cette notation, reprsente le test
et la valeur du paramtre. Le risque de deuxime espce est linverse la probabilit
daccepter tort lhypothse nulle (i.e. la probabilit de rejeter H1 alors que H1 est vraie. Il
est dfini comme 1E ( (y)) pour 1 et dans le cas dun test pur par 1P (W ). On
note en gnral cette quantit (, ) Enfin la puissance du test reprsente la probabilit
de rejeter raison lhypothse nulle. On la note (, ). Cette fonction est dfinie sur
1 et troitement lie la fonction de risque de deuxime espce (, ) = 1 (, ).
On prfrerait des tests pour lesquels les risques de premires et seconde espce soient
les plus faibles possibles. Cest dire quun test est prfr un autre si les fonctions
de risque de premire et seconde espce sont plus faibles. Il existe clairement des tests
minimisant sparment chacun des risques (le test correspondant au rejet systmatique
de H1 minimise le risque de premire espce). Nanmoins on montre facilement quil ny
a pas de test annulant simultanment les deux risques : il est donc ncessaire de se rfrer
un principe permettant de slectionner un test. Le principe retenu est celui de Neyman
qui consiste privilgier la minimisation du risque de seconde espce. On considre des
classes de tests caractriss par un seuil (ou encore niveau) donn . Ces tests sont tels
que le risque de premire espce soit uniformment infrieur . Parmi ces tests, on
souhaiterait slectionn ceux maximisant la puissance. Cest ce que lon appelle des tests
uniformment plus puissants. Ils sont tels quils maximisent parmi les tests de niveaux
la puissance pour toute valeur du paramtre correspondant lhypothse alternative.
De tels tests nexiste en gnral pas et on adjoint dautres proprits : tests sans biais,
tests invariants... qui permettent de restreindre encore la classe des tests examins. La
proprit de tests sans biais au niveaux correspond pour les tests de niveau au fait
que la puissance du test pour toute valeur du paramtre sous lhypothse alternative soit
suprieure . On considre le test de lhypothse nulle
H0 : bk = b0k
contre lhypothse
H1 : bk 6= b0k
On a alors le rsultat suivant
Proposition Considrant la statistique
bbk b0
Sb = k
bk

le test dfini par la rgion critique
n o n o
b b b b
W = S S < tNK1 (1 /2) S S > tNK1 (1 /2)
o tNK1 (1 /2) est le quantile dordre 1/2 dune loi de Student N K 1 degrs
de libert est un test uniformment plus puissant sans biais au niveau de lhypothse
H0 contre H1 .
On vrifie aisment que ce test est un test au niveau . En eet sous lhypothse nulle
bb b0
on a vu que kb k k suit une loi de Student N K 1 degrs de libert. La probabilit
de rejeter lhypothse nulle (la probabilit de la rgion critique) dans ce cas est donc
bien . Montrer la proprit de sans biais et la proprit concernant la puissance est plus
compliqu (voir les rsultats dans Gourierouxnet Monfort
sur le modle exponentiel).
o On
b b
peut aussi dfinir la rgion critique par W = S S > tNK1 (1 /2)
bb b0
Mise en oeuvre du test : on calcule la statistique de Student kb k k . Suivant les valeurs
prises par cette statistique, on accepte ou rejette lhypothse nulle. Si la statistique prend
des valeurs extrmes on rejette lhypothse, sinon on laccepte. Le seuil de rejet dpendent
du niveau du test. On considre en gnral des tests au seuil de 5%. Le quantile dordre
97, 5% = 1 2, 5% dune loi de Student dpend du nombre de degrs de libert. lorsque
ce nombre devient grand, ce quantile est 1.96. On sera donc amen rejeter au seuil de
5% une hypothse ds lors que la statistique de Student en valeur absolue est suprieur
1.96. Lorsque le nombre de degrs de libert est plus faible, cest dire lorsque le nombre
de variables explicatives est plus important ou lorsque le nombre dobservations est plus
faible, le seuil augmente. Par exemple pour 5 degrs de libert, le seuil de la rgion critique
est de 2,56 ; pour 500 degrs de libert de 1,96 (voire figure 3.1)
Ce test est parfois caractris par ce que lon appelle la p-value. Il sagit contrario du
niveau du test pour lequel la statistique
observe
serait
le seuil. Elle est donc dfinie par la
b b
quantit pb value = P |S| > S = 2 1 F S lorsque S suit une loi de Student
N-K-1 degrs de libert. On acceptera lhypothse nulle pour un test au niveau si la
pb value est suprieure . En eet compte tenu du fait que F (tNK1 (1 /2)) =
1 /2, on a 2 (1 F (tNK1 (1 /2))) =

pb value > Sb < tNK1 (1 /2)
Un test systmatiquement mis en oeuvre est le test dit de significativit des paramtres. Il
correspond lhypothse nulle bk = 0. La statistique de Student associe ce test, nomme
t de Student est dfinie par bbk /b
k . En gnral nimporte quelle estimation dun modle
linaire fait par dfaut lhypothse de normalit des rsidus. Elle produit la valeur estime
du paramtre la valeur estime de lcart-type, la valeur du t de Student (correspondant
lhypothse de significativit du paramtre) et la p-value correspondant ce test.
3.3 Un exemple
Pour illustrer les tests et leur utilisation, on peut calculer la fonction de puissance du
test lorsque la vraie valeur du paramtre varie. On va considrer un modle une unique
3.3. UN EXEMPLE 33
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-5 -3 -1 1 3 5
Fig. 3.1 Distribution de Student pour 5 et 500 degrs de libert

variable
y = 1 + xb0 + u
et on va simuler ce modle pour dirente vraie valeur du paramtre, allant de 0 2. On
va sintresser au test de lhypothse H0 : b = 1. Pour calculer la fonction de puissance
en un point donn b0 , on utilise des simulations. On titre un chantillon Ech1 avec b0
comme vraie valeur du paramtre. Sur cet chantillon on applique le test. On retient
la dcision d1 = 1 si on rejette et d1 = 0 sinon. On rplique cette opration avec la
mme vraie valeur sur M chantillons, avec M grand. On a ainsi un ensemble de valeur
(di )iM . On approxime la valeur de la fonction de puissance par (b0 ) = di . Cest bien
un estimateur du nombre de fois ou on a rejet raison lhypothse. Bien sur, lorsque
b0 = 1, la quantit calcule nest pas la puissance mais le risque de premire espce. On
peut procder ainsi pour direntes taille dchantillons. On considre le cas dans lequel
il ny a que 20 observations, puis on augmente progressivement ce nombre. On considre
respectivement N = 50, 100, 500, 2000. La figure 3.2 montre le rsultat de ces estimations.
On voit que le graphe de la fonction de puissance a une forme de vasque. Si on se situe
au niveau de la valeur teste b0 = 1, on trouve bien que la proportion de rejet est de 5%,
correspondant au risque de premire espce, et ce quelque soit le nombre dobservations.
Lorsque lon scarte de la vraie valeur on voit que la courbe crot : on rejette de plus
en plus souvent le paramtre. La croissance est trs vive lorsque le nombre dobservation
est grand : si la vraie valeur est de 0.95, on va rejeter lhypothse dans 60% des cas. Par
contre, dans le cas de 20 observations, il faut que la vraie valeur scarte de plus de 0.5
pour que lon atteigne des taux de rejet similaire. Ce rsultat mrite dtre not : avec
un petit nombre dobservations, on est amen accepter tort lhypothse dans 40%
des cas mme lorsque la vraie valeur est assez loigne. Lorsque lcart la valeur teste
augmente, la probabilit de rejet tend vers 1. Cette valeur est trs rapidement atteinte
lorsque le nombre dobservations est grand, pour des nombres plus petits il faut des carts
plus importants.
Remarque Dans le cas o la variance des rsidus est connu, on peut trs facilement
calculer la fonction de puissance. En eet dans ce cas
bb b0
N N (0,1)
/ x
Sous H0 : b0 = 1, on a donc
bb 1
N N (0,1)
/ x
et a rgion critique du test est
( ) ( )
bb 1 bb 1
W = N < qn,/2 N > qn,1/2
/ x / x
3.4. COMPARAISON AVEC LESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE35
cest dire en faisant intervenir la vraie valeur du paramtre

( ) ( )
bb b0 b0 1 bb b0 b0 1
W = N < qn,/2 + N N > qn,1/2 + N
/ x / x / x / x
On en dduit facilement la fonction de puissance

b0 1 b0 1
P (b0 ) = qn,/2 + N + 1 qn,1/2 + N
/ x / x
On voit quau voisinage de b0 = 1, la fonction de puissance se dveloppe en
2
b0 1
P (b0 ) = + qn,1/2 qn,1/2 N
/ x
Comme la fonction x (x) est dcroissante pour x > 1, que pour des valeurs de faibles
qn,1/2 est plus grand que 1 et que qn,1/2 croit avec , plus est lev, plus qn,1/2 qn,1/2
est grand. On voit que dans ces conditions, les tests ayant des risques de premire espce
faibles auront peu de puissance pour des vraies valeurs au voisinage de la valeur traite.
On voit aussi que la dpendance dans la taille de lchantillon est en N. Il est clair que
lorsque N tend vers linfini la puissance du test tend vers 1. Pour tudier la puissance dun
test on sintresse en gnral ce que lon appelle des alternatives locales en dterminant
la puissance pour
b0 (N ) = 1 + / N
o 1 est la valeur teste et une direction donne dans lespace des paramtre (ici comme
le paramtre est de dimension 1 cette caractristique tombe).
3.4 Comparaison avec lestimateur du Maximum de

Vraisemblance
On peut aussi directement appliquer lestimateur du maximum de vraisemblance aux
donnes. La vraisemblance scrit :

L y, x, b, 2 = 0.5N log (2) 0.5N log 2 + 0.5 (y xb)0 (y xb) / 2
Proposition Lestimateur du maximum de vraisemblance du paramtre b est identique
lestimateur des mco. Il a les mmes proprits que lestimateur des mco : sous les hy-
pothses H1 H4 & Hn , il suit une loi normale centre sur la vraie valeur du paramtre
et ayant pour matrice de variance Vb = 2 E (x0 x)1 . Lestimateur du maximum de vrai-
semblance du paramtre du second ordre 2 se dduit linairement de lestimateur des mco
de ce paramtre par application dun facteur (N K 1) /N. Cet estimateur nest donc
pas sans biais, mais il est indpendant de lestimateur du MV du paramtre b.
100%
80%
60%
40%
20%
0%
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
n=20 n=50 n=100 n=500 n=2000 5%
Fig. 3.2 Fonction de puissance du test de Student en fonction du nombre dobseravtions

3.5. RSUM 37
3.5 Rsum
1. Dans ce chapitre on a examin les proprits de lestimateur des mco lorsque la loi
de u conditionnellement aux variables explicatives x est une loi normale de moyenne
nulle et de matrice de variance 2 IN .
2. On a montr que lestimateur des mco suit une loi normale, que lestimateur de la
variance des rsidus suit convenablement normalis une loi du 2 et que ces deux
estimateurs sont indpendants.
3. On a vu que lon pouvait utiliser ces rsultats pour obtenir un estimateur sans biais
de la matrice de variance de lestimation du paramtre.
bbk bk
4. On a vu que pour une composante donne k du paramtre bk

Student (N K 1)
5. On a appliqu ce rsultat pour dfinir une rgion de confiance pour le paramtre et
mettre en oeuvre des tests.
6. On a vu en particulier que la rgion critique pour le test de significativit dun pa-
ramtre correspondait des valeurs extrmes du t de Student. Le caractre extrme
sapprciant par rapport au niveau du test.
3.6 Annexe : Distribution de la norme de la projec-

tion dun vecteur normal
Considrons Z N (0, IL ) , et P est un projecteur orthogonal sur un sous espace de
dimension L1 alors Z P Z 2 (L1 ).
0
Lhypothse sur P revient dire que P est une matrice symtrique et que ses valeurs
propres sont 0 ou 1. Comme P est symtrique, on peut la diagonaliser dans le groupe ortho-
gonal. On peut donc crire P = Q0 PeQ, avec Q0 Q = IL et Pe = Diag( 1, . . . , 1 , 0, . . . 0)
| {z }
L1 lments non nuls
On dfinit Z = QZ.
Z est aussi un vecteur normal N (0, IL ) puisque
1. Cest un vecteur normal puisquil est combinaison linaire dun vecteur normal
2. Il est desprance nulle puisque E (Z ) = E (QZ) = QE (Z) = 0
3. Il est de variance identit puisque V (Z ) = E (Z Z 0 ) = E (QZZ 0 Q0 ) = QE (ZZ 0 ) Q0 =
QIL Q0 = QQ0 = IL
P 1 2
On a alors Z P Z = Z Q0 PeQZ = Z 0 PeZ = Ll=1
0 0
Zl . Cest donc la somme du carr
de L1 variables normales indpendantes de moyenne nulle et de variance 1. Par dfinition
elle suit un 2 (L1 )
Chapitre 4
Estimation sous contraintes linaires
On peut souhaiter estimer un modle conomtrique linaire en incorporant une in-

formation a priori sur les paramtres prenant la forme de contraintes linaires. On peut
aussi vouloir tester si certaines relations entre les paramtres sont bien acceptes par les
donnes. Les rsultats obtenus au chapitre prcdent ont montr comment tester des hy-
pothses trs simples, scrivant sous la forme H0 : bk = b0k , o b0k est une valeur donne.
On va examiner ici un cas un peu plus gnral dans lequel les hypothses que lon veut
tester, ou bien les contraintes que lon veut imposer font intervenir une ou plusieurs com-
binaisons linaires des paramtres. On va montrer obtenir un estimateur dirent de celui
des moindres carrs ordinaires, appel estimateur des moindres carrs contraints (mcc)
et on va montrer ses deux proprits principales : lestimateur des mcc est toujours plus
prcis que lestimateur des mco ; lestimateur des mcc est non biais seulement si la vraie
valeur du paramtre satisfait les contraintes imposes. Il y a donc un arbitrage entre ro-
bustesse et prcision des estimateurs. Un tel arbitrage est trs frquent en conomtrie.
On va aussi introduire un test trs utilis permettant de tester des contraintes linaire. Ce
test est connu sous le nom de test de Fisher, et on va voir comment le mettre en oeuvre
simplement partir de deux rgressions, lune par les mcc et autre par les mco.
Exemple Homognit du progrs technique. On considre une fonction de production

faisant intervenir le capital et le travail. On fait lhypothse que le facteur travail nest pas
homogne. Il fait intervenir dirents types de main doeuvre, pas tous aussi ecace les
uns que les autres.
Y = F (ACI CI, AK K, A1 L1 , . . . , AM LM )
La drive logarithmique scrit donc
d log F d log F
d log Y = (d log CI + d log ACI ) + (d log K + d log AK ) +
d log CI d log K
d log F d log F
(d log L1 + d log A1 ) + + (d log LM + d log AM )
d log L1 d log LM
39
40 CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES
Sous lhypothse de rendements constants et de concurrence parfaite sur le march des

biens et des produits, la part de la rmunration de chaque facteur dans la production
est gale llasticit de la production. On peut donc mesurer ddlog log F
CI
= CI = cCIYCI ,
d log F
d log K
= K = ckYK et ddlog
log F
Lm
= m = wmYLm . On a donc lquation :
d log SR = CI d log ACI + K d log Ak + 1 d log A1 + + M d log AM
o d log SR = d log Y CI d log CI K d log K 1 d log L1 M d log LM mesure

le Rsidu de Solow, cest dire la part de la croissance qui nest pas explique par celle
des facteurs de production. On suppose que les entreprises peuvent ou non adopter une
innovation. On considre I une variable indicatrice prenant la valeur 1 si une entreprise
a adopt une innovation et 0 sinon. On modlise
d log Am = a0m + aIm I + u
Les gains decacit des facteurs de production font donc intervenir un terme fixe propre
au facteur, un terme dpendant du fait que lentreprise ait innov et un terme alatoire
commun tous les facteurs. On obtient alors lquation
d log SR = K . (a0K a0CI ) + 1 . (a01 a0CI ) + + M (a0M a0CI ) +

+I CI .aICI + IK .aIK + I 1 .aI1 + + IaIM + u
o on utilise le fait que la somme des parts vaut 1. Les rgresseurs sont donc les parts des
facteurs et les parts des facteurs interragies avec la variable dinnovation. On peut sur
cette base formuler un certain nombre dhypothses :
H0(L) : Homognit de leet de linnovation sur le facteur travail.
aI1 = = aIM
H0(L,K,CI) : Homognit de leet de linnovation sur les facteurs.
aICI = aIK = aI1 = = aIM
H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs.
aICI = aIK = aI1 = = aIM = 0
H0(K=CI=0) : Absence deet de linnovation sur le capital et les consommations

intermdiaires.
aICI = aIK = 0
H0(K=CI=0,L) : Absence deet de linnovation sur le capital et les consommations
intermdiaires et homognit sur le travail.
aCI = aIK = 0, aI1 = = aIM

4.1. FORMULATION 41
Le nombre de contraintes est bien sr dirent dune hypothse lautre

Hypothse Nombre de contraintes
H0(L) M 1
H0(L, K, CI) M +1
H0(L = K = CI = 0) M +2
H0(K = CI = 0) 2
H0(K = CI = 0, L) M +1
Plusieurs questions se posent :
1. Comment tenir compte de cette information a priori dans la procdure destimation
des paramtres du modle ?
On va introduire un nouvel estimateur : lestimateur des moindres carrs contraints :
bbmcc
2. Quelles sont les consquences de cette prise en compte pour les estimations obte-
nues ?
On va voir que les estimations obtenues sont toujours plus prcises que celles
des mco mais que par contre elles ne sont sans biais que si la contrainte impose est
vrifie par la vraie valeur du paramtre. Il y a donc un arbitrage que lon retrouve
souvent en conomtrie, entre robustesse et ecacit. La robustesse correspond
lobtention destimateurs non biaiss sous des hypothses plus faibles. Ici lestima-
teur des mco est robuste car il est sans biais que les contraintes soient satisfaites
ou non par la vraie valeur du paramtre. Lecacit correspond lobtention des-
timateurs les plus prcis possibles. Ici lestimateur des mco nest pas le plus ecace
puisque lestimateur des mcc a une variance plus faible.
3. Peut-on tester linformation a priori ?
Dans le cas prsent, on pourrait tester lhypothse de constance des rendements
avec un test de Student. Nanmoins, on va voir que dans le cas gnral, lorsquil
y a plus dune contrainte, un tel test nest plus susant. On va introduire un test
trs courant qui gnralise le test de Student : le test de Fisher. Comme prcdem-
ment, alors que lon peut rpondre aux deux questions prcdentes dans un cadre
gnral ne faisant des hypothses que sur les moments dordre 1 et 2 des pertur-
bations conditionnellement aux variables explicatives, la possibilit deectuer des
tests require de spcifier la loi conditionnelle des perturbations
4.1 Formulation
On considre le modle linaire :
y =xb+u
dans lequel on fait les hypothses H1-H4 et pour lequel la vraie valeur du paramtre
vrifie le systme de p contraintes linaires :
Rb = r
R est une matrice donne p (K + 1), et r un vecteur donn p 1.
Il y a de toutes vidences des contraintes qui psent sur cette formulation.
1. Il ne doit pas y avoir de contraintes redondantes. Ceci impose que R0 = 0 = = 0
2. Il doit y avoir une solution non unique lquation Rb = r
Ces deux contraintes imposent que R soit de rang p et que le nombre de contraintes p
soit au maximum gal (K + 1) 1. En eet si on en avait K + 1 ou plus, on pourrait
en slectionner K + 1 par exemple R1 b = r1 et on pourrait alors calculer le paramtre
b = R11 r1 . il ny aurait plus de problme destimation.
Exemple Considrons nouveau lexemple prcdent. Le modle scrit
d log SR = K .b0K + 1 .b01 + + M b0M +
+ICI .aICI + I K .aIK + I1 .aI1 + + IaIM + u
Dans le cas de lhypothse H0L : aI1 = = aIM , on peut crire les contraintes sur les
paramtres comme aI2 aI1 = 0, , aIM aI1 = 0, cest dire :
0

0
(b , aICI , aIK )
0 1 1 0 0 aI1

.. . . a
0 . 0 . 0 I2 =0
..
0 1 0 0 1 .
aIM
4.2 LEstimateur des Moindres Carrs Contraints (MCC)

Definition Lestimateur bmcc de b est dfini comme le paramtre minimisant la somme
des carrs des rsidus et satisfaisant les contraintes Rb = r :
minb (y x b)0 (y x b)
Sc : Rb = r
Proposition Lestimateur des MCC a pour expression
1
bmcc = (x0 x)1 x0 y (x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1 x0 y r
et sexprime simplement partir de bmco

1 h i
bmcc = bmco (x0 x)1 R0 R(x0 x)1 R0 R bmco r
4.3. ESPRANCE ET VARIANCE DE BMCC 43
On voit directement sur cette expression que lestimateur des MCC apporte une
correction lestimateur bmco et que cette correction est dautant plus importante que
Rbmco r 6= 0. Dans le cas o Rbmco = r, les deux estimateurs sont identiques.
Dmonstration Pour trouver lexpression de lestimateur on crit le Lagrangien :
1
L = (y xb)0 (y xb) + (Rb r)0
2
multiplicateur de Lagrange : vecteur de dimension p 1

L
= x0 y + (x0 x) bmcc + R0 = 0
b mcc

L
= Rbmcc r = 0
mcc

De la premire condition on tire : bmcc = (x0 x)1 x0 y R0

Introduit dans la deuxime condition il vient lexpression R (x0 x)1 x0 y R0 = r
soit R (x0 x)1 R0 = R (x0 x)1 x0 y r
1
dont on tire = [R (x0 x)1 R0 ] R (x0 x)1 x0 y r
rintroduit dans on trouve lexpression de bbmcc
1
4.3 Esprance et variance de bmcc

Proposition Sous lhypothse H2 et sous lhypothse Hc : Rb = r, lestimateur des mcc
est sans biais. En revanche, sous lhypothse H2 seule, lestimateur est biais et le biais
dpend linairement de Rb r
1
E bmcc |x = b (x0 x)1 R0 R(x0 x)1 R0 [Rb r]
Sa variance est donne sous H2 H4 par

h i
2 0 1 0 1 0 0 1 0 1 0 1
V bmcc |x = (x x) (x x) R R (x x) R R (x x)
indpendamment de lhypothse Hc
Ainsi lestimateur des moindres carrs contraints est potentiellement biais, mais on
voit quil est aussi plus prcis que lestimateur des mco. Sa variance est en eet donne
par :
1
V bmcc |x = V bmcoc |x 2 (x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1
1
et comme (x0 x)1 R0 [R(x0 x)1 R0 ] R(x0 x)1 est une matrice symtrique et positive on
en conclut que
V bmcc |x V bmco |x
Il y a donc un arbitrage entre robustesse et ecacit. Introduire plus de contraintes
amliore la prcision des estimations mais risque de conduire des estimateurs biais. A
linverse, moins de contraintes produit des estimateurs plus robustes mais moins prcis.
Dmonstration Compte tenu de lexpression
0 1 0
h
0 1 0 1
i
bmcc = bmco (x x) R R(x x) R R bmco r
et du fait que bmco est un estimateur linaire sans biais de b sous lhypothse H2 :
1
E bmcc |x = b (x0 x)1 R0 R(x0 x)1 R0 [Rb r]

On voit donc que sous lhypothse Hc : Rb = r, on a E bmcc |x = b. En revanche si les
contraintes ne sont pas satisfaites il existe un biais

E bmcc |x = b + B
1
avec B = (x0 x)1 R0 [R(x0 x)1 R0 ] [Rb r]
On vrifie que ce biais est systmatiquement dirent de 0. En eet, si Rbr 6= 0 alors
1
= [R(x0 x)1 R0 ] [Rb r] est aussi dirent de 0 et donc B = (x0 x)1 R0 . Comme les
contraintes sont non redondantes, et 6= 0, on ne peut avoir R0 = 0.
On a en outre
1
bmcc E bmcc |x = bmco b (x0 x)1 R0 R(x0 x)1 R0 R bmco b
h 1 i 0 1 0
= I (x0 x)1 R0 R(x0 x)1 R0 R (x x) x u
1
On introduit H = (x0 x)1 R0 [R(x0 x)1 R0 ] R. Cette matrice vrifie les proprits sui-
vantes
H2 = H
H(x0 x)1 = (x0 x)1 H 0
H(x0 x)1 H 0 = H 2 (x0 x)1 = H(x0 x)1
On a donc
bmcc E bmcc |x = [I H] (x0 x)1 x0 u
4.4. ESTIMATEUR DE LA VARIANCE DES RSIDUS 2 45
Par consquent comme E [uu0 |x] = 2 I :

0
V bmcc |x = E bmcc E bmcc |x bmcc E bmcc |x |x

= E [ I H] (x0 x)1 x0 uu0 x(x0 x)1 [ I H 0 ] |x
= 2 [ I H] (x0 x)1 [ I H 0 ]
En dveloppant, compte tenu des proprits de H

V bmcc |x = 2 (x0 x)1 H(x0 x)1 H 0 (x0 x)1 + H(x0 x)1 H 0

= 2 (x0 x)1 H(x0 x)1
1
Le rsultat provient de lexpression H(x0 x)1 = (x0 x)1 R0 [R(x0 x)1 R0 ] R(x0 x)1
4.4 Estimateur de la variance des rsidus 2

Comme pour lestimateur des mco, on peut dfinir le vecteur des rsidus estims
b
uc = y x bmcc
On peut comme dans le cas des mco dfinir un estimateur de la variance des rsidus
partir de la somme des carrs de ces rsidus.
Lemme On peut crire le vecteur des rsidus estims dans le modle contraint comme
la somme de deux termes orthogonaux, le vecteur des rsidus estims par les mco dune
part et un terme appartenant lespace engendr par les x dautre part
uc = b
b u + Pc u = b
u+e
u
1
o Pc = x(x0 x)1 R0 [R(x0 x)1 R0 ] R(x0 x)1 x0 est un projecteur orthogonal sur un sous
espace de lespace engendr par les x.
Dmonstration On a lexpression de b
uc

uc = xb + u x bmcc = I x [I H] (x0 x)1 x0 u
b

= Mx + xH(x0 x)1 x0 u

avec Mx = I x (x0 x)1 x0 . On introduit
1
Pc = xH(x0 x)1 x0 = x(x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1 x0
On a directement Pc2 = Pc et Pc0 = Pc . En outre Pc z = x (H(x0 x)1 x0 z) appartient
lespace engendr par les x.
Proposition Sous les hypothses H2H4, et Hc , lestimateur de la variance des rsidus

P 0
2 u0c b
b uc nubnc u
bnc
c = =
N (K + 1) + p N (K + 1) + p
est sans biais.
Une dirence importante avec lestimateur issu des mco correspond au nombre de
degrs de libert. Ici il sagit de N K 1 + p. Avec lestimateur des mco, le nombre de
degrs de libert est plus faible : N K 1.
Dmonstration Lexpression de b
uc : b
uc = b
u + Pc u = b
u+e
u conduit directement
b0c u
u b0 b
bc = u e0 e
u+u u
u et e
b u sont en eet orthogonaux puisque b
u est la projection de u sur lorthogonal de x et
e une projection de u sur un sous espace de lespace engendr par les x. Donc
u
0 0 0
E buc b
uc |x = E ubb u |x + E e
uu e |x = 2 [(N K 1) + T r (Pc )]
En outre

0 1 0 0 1 0 1 0 1 0
T r (Pc ) = T R x(x x) R R(x x) R R(x x) x
1
= T R R(x0 x)1 R0 R(x0 x)1 x0 x(x0 x)1 R0
= T r (Ip ) = p
4.5 Loi de lestimateur des moindres carrs contraints

Comme dans le cas non contraint, on peut prciser la loi de lestimateur des moindres
carrs contraints lorsque les rsidus sont distribus suivant une loi normale. On fait ici
lhypothse que les contraintes sont satisfaites, cest dire que la vraie valeur du paramtre
b0 satisfait eectivement Rb0 = r
Les rsultats du Thorme de Cochran se gnralisent
Proposition Sous lhypothse Hn :
1. Lestimateur du paramtre des mco bbmcc est distribu comme une loi normale de
moyenne b, la vraie valeur du paramtre, et de matrice de variance V bmcc |x =
2 [(x0 x)1 H(x0 x)1 ]
b2mcc , convenablement normalis, est distribu suivant une loi du 2
2. Lestimateur
b2mcc

[N (K + 1) + p] 2 (N (K + 1) + p)
2
4.5. LOI DE LESTIMATEUR DES MOINDRES CARRS CONTRAINTS 47
3. bbmcc et
b2mcc sont indpendants
.
4. Considrant la k ieme b
composante de lestimateur, on a bmcc (k) b0 (k) bmcc (k)
suit une loi de Student N (K + 1) + p degrs de libert
Dmonstration Compte tenu de lexpression de bmcc
1
1
= b + (x0 x)1 x0 u (x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1 x0 u
lorsque les contraintes sont satisfaites, on voit directement que lestimateur est normal
lorsque les rsidus sont normaux puisque lestimateur est une combinaison linaire du
rsidu. On a en outre
bmcc b = (I H) (x0 x)1 x0 u
et
b
uc = [Mx + Pc ] u

avec Mx = I x (x0 x)1 x0 et Pc = xH(x0 x)1 x0 . On vrifie donc sans peine que bmcc et
b
uc sont non corrls et donc indpendants :

E bmcc b u b0c = E (I H) (x0 x)1 x0 uu0 [Mx + Pc0 ] = 2 (I H) (x0 x)1 x0 [Mx + Pc0 ]
= 2 (I H) (x0 x)1 x0 Pc0 = 2 (I H) (x0 x)1 x0 xH(x0 x)1 x0
= 2 (I H) H(x0 x)1 x0 = 0
puisque H 2 = H. Les points qui suivent sont immdiats.

Exemple On peut mettre en oeuvre les estimations de la fonction de production avec
innovation. On dispose dun chantillon de 3627 observations. On a introduit une distinc-
tion entre travailleurs jeunes et vieux. Le nombre de catgorie de travailleurs considr
est donc M = 2. On considre la rgression sous lhypothse alternative H1
d log SR = K .b0K + 1 .b01 + + M b0M + I CI aICI + IK .aIK + I L aIL + Xd + u
ainsi que les direntes spcifications contraintes introduites prcdemment :

H0(L) : Homognit de leet de linnovation sur le facteur travail. aI1 = = aIM
H0(L,K,CI) : Homognit de leet de linnovation sur les facteurs. aICI = aIK =
aI1 = = aIM
H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs. aICI = aIK =
aI1 = = aIM = 0
intermdiaires. aICI = aIK = 0
intermdiaires et homognit sur le travail. aIK = 0, aI1 = = aIM
Les rsultats sont reports dans le tableau 4.1. Pour chacune des spcifications on
reporte la valeur estime du coecient ainsi que lcart-type estim. Ces deux informations
permettent de faire des tests dhypothses simples (en particulier de nullit de chaque
coecient pris individuellement). La loi suivie par les t de Student que lon peut former
est une loi de Student 3627-12 degrs de libert pour la spcification alternative H1. Il
varie ensuite dune colonne lautre suivant le nombre de contraintes introduites. Dans la
premire spcification, le nombre de contrainte est de 1, le nombre de degrs de libert est
donc 3627-12+1. En thorie les valeurs critiques des t de Student pour un test un niveau
donn dirent dune colonne lautre puisque la loi nest pas la mme. Nanmoins ici
le nombre de degrs de libert est grand et dans ce cas la distribution dune loi de Student
se confond avec celle dune loi normale : la valeur critique est donc la mme pour chaque
rgression. Dans le cas dun test 5% la valeur critique est ainsi de 1.96. On acceptera
donc lhypothse de nullit de chaque paramtre pris individuellement si le ratio entre le
coecient et son cart-type est en valeur absolue infrieur 1.96.
On voit sur les estimations du modle non contraint que leet de linnovation sur
lecacit des facteurs semble assez direntes dun facteur lautre. Le coecient du
capital apparat ngatif et grand en valeur absolue alors que le coecient pour les jeunes est
positif et grand. Nanmoins on voit que les estimations sont imprcises et les tests dgalit
des coecients pris individuellement sont souvent accepts. En fait seul le coecient
pour la part des jeunes est significativement dirent de zro. On est typiquement dans
une situation dans laquelle les rsultats sont robustes mais peu prcis. On sent bien quil
y a l moyen de gagner en prcision de faon importante en imposant des contraintes
supplmentaires.
On voit nanmoins que chacune des spcifications contraintes conduit des modifica-
tions importantes des coecients : si on impose lhomognit sur lensemble des facteurs,
on parvient une ecacit trs faible pour chaque facteur. Si on impose en revanche la
nullit pour le capital et les consommations intermdiaires et lhomognit sur le travail,
on voit que leet sur le travail est important, de lordre de 0.05, significativement dif-
frent de zro. Face cette forte sensibilit des rsultats aux hypothses eectues il est
important de pouvoir mettre en oeuvre des tests qui permettront de guider le choix vers
une spcification plus quune autre.
4.6 Estimation par intgration des contraintes

Le problme destimation sous contraintes peut se ramener au rsultat classique desti-
mation par la mthode des moindres carrs en intgrant directement les contraintes dans
le modle. On peut en eet utiliser les p contraintes pour exprimer p paramtres parmi
les k + 1 estimer en fonction des (k + 1 p) autres paramtres.
Par exemple, on r-crit les contraintes Rb = r comme :
4.6. ESTIMATION PAR INTGRATION DES CONTRAINTES 49
H1 H0(L) H0(L,K,CI) H0(L=K=CI=0) H0(K=CI=0) H0(K=CI=0,L)

Constante 0.00 (0.01) 0.00 (0.01) -0.01 (0.01) 0.00 (0.01) -0.01 (0.01) -0.01 (0.01)
part capital 0.08 (0.04) 0.08 (0.04) 0.04 (0.03) 0.04 (0.03) 0.04 (0.03) 0.04 (0.03)
part jeunes 0.15 (0.06) 0.18 (0.05) 0.21 (0.05) 0.20 (0.05) 0.17 (0.05) 0.20 (0.05)
part vieux -0.03 (0.03) -0.04 (0.03) -0.01 (0.03) -0.01 (0.03) -0.01 (0.03) -0.02 (0.03)
I*part capital -0.11 (0.06) -0.11 (0.06) 0.01 (0.01) 0.00 (0.00) 0.00 (0.00) 0.00 (0.00)
I*part CI -0.01 (0.02) -0.01 (0.02) 0.01 (0.01) 0.00 (0.00) 0.00 (0.00) 0.00 (0.00)
I*part jeunes 0.19 (0.09) 0.09 (0.03) 0.01 (0.01) 0.00 (0.00) 0.12 (0.09) 0.05 (0.02)
I*part vieux 0.06 (0.05) 0.09 (0.03) 0.01 (0.01) 0.00 (0.00) 0.02 (0.04) 0.05 (0.02)
Sect1 0.01 (0.01) 0.01 (0.01) 0.01 (0.01) 0.01 (0.01) 0.01 (0.01) 0.01 (0.01)
Sect2 0.03 (0.01) 0.03 (0.01) 0.03 (0.01) 0.03 (0.01) 0.03 (0.01) 0.03 (0.01)
Sect3 -0.01 (0.01) -0.01 (0.01) -0.01 (0.01) -0.01 (0.01) -0.01 (0.01) -0.01 (0.01)
Sect4 0.02 (0.02) 0.02 (0.02) 0.02 (0.02) 0.02 (0.02) 0.02 (0.02) 0.02 (0.02)
Tab. 4.1 Rsultats des estimations par les MCC

b1
r = [R1 , R2 ]
b2
avec R1 une sous matrice de R de dimension p p suppose inversible, R2 une autre sous
matrice de dimension p (K + 1 p) , b1 un vecteur de dimension p 1 et b2 un vecteur
de dimension K + 1 p 1
On peut alors crire r = R1 b1 + R2 b2 soit encore :
b1 = R11 [r R2 b2 ]
Par consquent, le modle peut se rcrire :

y = x1 b1 + x2 b2 + u = x1 R11 (r R2 b2 ) + x2 b2 + u
Ceci revient estimer :

y x1 R11 r = x2 x1 R11 R2 b2 + u
Le modle ainsi crit ne dpend plus alors que de (K + 1 p) paramtres estimer

sans contraintes. Les p autres paramtres se dduisent de ceux-ci par la relation : b1 =
R11 r R2 b2
Exemple Cette intgration peut en pratique tre extrmement simple. Si on reprend le

cas de lexemple prcdent, dans le cas de la spcification H0L : aI1 = = aIM , on crit
aI2 = aI1 , . . . , aIM = aI1 . On a ainsi

d log SR = K .b0K + 1 .b01 + + M b0M + I CI .aICI + IK .aIK +
I 1 .aI1 + I 2 aI1 + + I M aI1 + u
= K .b0K + 1 .b01 + + M b0M + I CI .aICI + IK .aIK +
(I1 + I 2 + + I M )aI1 + u
On voit donc que lestimation par intgration des contraintes dans ce cas spcifique consiste
introduire la somme de toutes les variables concernes par la restriction.
4.7 Tester les contraintes : le test de Fisher

Les rsultats prcdents sont valables sous les hypothses H1 H4, qui ne spcifient
que les deux premiers moments de la loi des rsidus conditionnellement aux variables
explicatives. On peut comme dans le cas des mco vouloir apprendre plus sur les paramtres
estims et en particulier sur leur loi pour pouvoir faire des test dhypothses. Parmi ces
tests potentiels figure naturellement lhypothse impose aux paramtres :
H0 = Hc : = Rb r = 0
Une faon naturelle de tester lhypothse consiste examiner si lestimateur des mco
satisfait approximativement les contraintes. On construit donc la quantit b = Rbb
r, et on examine si elle est proche de zro. Sous lhypothse nulle on sait que b
2 0 1 0
N (0, R(x x) R ) .
Rappel : Z N (0, V ) avec V inversible, alors Z 0 V 1 Z 2 (dim (Z))
On sait donc que sous H0 on a b 0 [R(x0 x)1 R0 ]1 /
b 2 2 (p) . Toutefois, cette
relation ne peut tre utilise directement puisque 2 est inconnue. Comme pour le test de
Student, on remplace cette quantit inconnue par un estimateur : b2 . Cette statistique
convenablement normalise suit comme on la vu une loi du 2 .
Definition La loi de Fisher q1 et q2 degrs de libert, note F (q1 , q2 ) est dfinie comme
le ratio de deux lois du 2 , divises par leurs degrs de libert : Si Q1 2 (q1 ) et Q2
2 (q2 ) et Q1 Q2 alors Z = Q 1 /q1
Q2 /q2
F (q1 , q2 )
Proposition Lorsque les hypothses H1, H2, H3&H4 ainsi que lhypothse Hn de nor-
malit des rsidus, on peut eectuer un test de lhypothse H0 : Rb r = 0 en considrant
la statistique de Fisher :
1b 0 [R(x0 x)1 R0 ]1
b
b
F = F (p, N (k + 1))
p b2

o b = Rbmco r . Sous lhypothse H0 Fb suit une loi de Fisher p et N (k + 1) degrs
de libert. Le test caractris par la rgion critique
n o
b b
W = F F > q1 (F (p, N (k + 1)))
4.7. TESTER LES CONTRAINTES : LE TEST DE FISHER 51
est un test UPP dans la classe des tests invariants, o q1 (F (p, N (k + 1))) est le
quantile dordre 1 de la loi de Fisher p et N (K + 1) degrs de libert.
Dmonstration La preuve du rsultat concernant la distribution de la statistique sous
H0 dcoule directement de Q1 = b 2 2 (p) , de Q2 = (N (K + 1)) 22
b 0 [R(x0 x)1 R0 ]1 /

2 b 0 0 1 0 1 b 2 b
N(K+1) , et du fait que comme [R(x x) R ] / est issu de bmco qui est indpen-
dant de b2 Q1 et Q2 sont indpendants. On a alors par dfinition de la loi de Fisher
, 2
b 0 [R(x0 x)1 R0 ]1 /
b 2 (N (K + 1)) 2 b 0 [R(x0 x)1 R0 ]1
b
= 2 F (p, N (k + 1))
p N K 1 p
On voit aussi directement que le test est un test au seuil puisque le risque de premire
espce P (W, ) pour 0 est par dfinition de la rgion critique . Pour le rsultat
doptimalit, il faut noter que le test est optimal dans la classe des tests invariants, cest
dire dans la classe des tests ne changeant pas lorsque on applique une transformation
bijective aux donnes.
On peut obtenir une expression de la statistique du test de Fisher la rendant trs
simple mettre en pratique. Cette expression ne fait plus intervenir lcart Rbmco r mais
uniquement les sommes des carrs des rsidus dans les estimations du modle contraint
SCRC et non contraint SCR.
1
b 0 [R(x0 x)1 R0 ]
b
Proposition La statistique de Fisher Fb = 1p b2

se rcrit simplement
partir des sommes des carrs des rsidus dans le modle contraint et non contraint
1b 0 [R(x0 x)1 R0 ]1
b SCRC SCR N (k + 1)
b
F = =
2
p b
SCR p
Dmonstration En eet : b = (x0 x)1 x0 y = b + (x0 x)1 x0 u donc sous H0 , on a :

b scrit donc simplement :
b 0 [R(x0 x)1 R0 ]1
b = Rb r = R(x0 x)1 x0 u. La quantit

b 0 R(x0 x)1 R0 1
b = u0 x(x0 x)1 R0 R(x0 x)1 R0 1 R(x0 x)1 x0 u
1
On reconnat dans cette expression la matrice PC = x(x0 x)1 R0 [R(x0 x)1 R0 ] R(x0 x)1 x0
introduite dans le lemme dcomposant le rsidu dans le modle contraint comme
b
uc = b
u + Pc u = b
u+e
u
b 0 [R(x0 x)1 R0 ]1
On a donc b = u0 PC u = e
u0 e
u. On en dduit donc

b 0 R(x0 x)1 R0 1
b = u0 PC u = b
u0C u u0 b
bC b u
Do lexpression de la statistique communment utilise :
SCRC SCR N (k + 1)
Fb =
SCR p
F (p, N (k + 1))
SCR est la somme des carrs des rsidus estims sans contraintes et SCRC est la somme
des carrs des rsidus estims sous contrainte.
4.8 Applications du test de Fisher

4.8.1 Un test en deux tapes
La mise en oeuvre du test de Fisher dun ensemble de contraintes H0 : Rb r = 0 se
fait en plusieurs tapes.
1. On estime le modle avec et sans contraintes. Dans chacun des cas on rcupre les
rsidus estims ou directement la somme des carrs des rsidus SCRC = b u0C b
uC et
0
SCR = u bb u.
2. On calcule alors la statistique Fb et on la compare au fractile dordre (1 ) de la
loi F (p, N (K + 1)), not F (1 ).
3. Si Fb > F (1 ) alors on rejette H0 : la somme des carrs des rsidus estims sous
contraintes dire trop de celle des carrs des rsidus estims sans contrainte pour
accepter que H0 est vraie.
4. Si Fb F (1 ), on accepte lhypothse H0 .
Exemple Homognit du progrs technique. On considre la rgression non contrainte :
d log SR = K .b0K + 1 .b01 + + M b0M + (4.4)

+ICI .aICI + I K .aIK + I 1 .aI1 + + IaIM + Xc + u
o on introduit en plus des variables de contrle.

H0(L) : Homognit de leet de linnovation sur le facteur travail. aI1 = = aIM
H0(L,K,CI) : Homognit de leet de linnovation sur les facteurs. aICI = aIK =
aI1 = = aIM
H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs. aICI = aIK =
aI1 = = aIM = 0
intermdiaires. aICI = aIK = 0
intermdiaires et homognit sur le travail. aIK = 0, aI1 = = aIM
4.8. APPLICATIONS DU TEST DE FISHER 53
SCR p F Seuil 5% p-value

H1 97.099 3616
H0(L) 97.13 1 1.15 3.84 0.28
H0(L,K,CI) 97.384 3 3.53 2.6 0.01
H0(L=K=CI=0) 97.491 4 3.63 2.37 0.005
H0(K=CI=0) 97.246 2 2.73 2.99 0.065
H0(K=CI=0,L) 97.266 3 2.07 3.53 0.10
Tab. 4.2 Test de Fisher
Pour tester chacune de ces hypothses contre lhypothse nulle H1 (pas de restrictions
sur les coecients aICI , aIK , aI1 , , aIM ) on peut considrer la rgression sous lhypo-
thse alternative ainsi que les rgressions intgrant les direntes contraintes. Pour mettre
en oeuvre le test de lhypothse dune spcification contrainte, on considre la somme des
carrs des rsidus sous lhypothse nulle la somme des carrs des rsidus sous lhypo-
thse alternative ainsi que le nombre de degrs de libert et le nombre de contraintes.
Le tableau 4.2 reporte les informations pertinentes pour mettre en oeuvre le test. Si on
prend par exemple le cas de la dernire spcification la somme des carrs des rsidus
vaut 97.266 sous lhypothse nulle et 97.099 sous lhypothse alternative. Le nombre de
contraintes introduites est 3 et le nombre de degrs de libert sous lhypothse alternative
est N K + 1 = 3616. La statistique de Fisher vaut donc
SCRC SCR N (k + 1) 97.266 97.099 3616
Fb = = = 2.07
SCR p 97.099 3
Sous lhypothse nulle cette quantit est distribue suivant une loi de Fisher 3 et 3616
degrs de libert dont le quantile dordre 95% est 3.53. Comme la valeur estime est
infrieure cette valeur seuil, on accepte lhypothse. On peut aussi regarder la p-value
qui est la probabilit pour quune loi de Fisher 3 et 3616 degrs de libert excde la
valeur obtenue (2.07). On trouve une probabilit de 10%que lon compare la valeur seuil
choisie.
On voit que parmi toutes les contraintes essayes certaines sont rejetes. Statistique-
ment on ne peut accepter en particulier lhypothse que leet est homogne entre tous
les facteurs (spcification H0 (L, K, CI)). Cette spcification conduisait on la vu des
coecients trs faible, loin des valeurs calcules dans la spcification non contrainte. Par
contre on voit que les hypothses dhomognit de leet sur le travail H0 (L) et de nullit
de leet sur le capital et les consommations intermdiaires H0 (k = CI = 0) sont accep-
tes. En outre lhypothse globale runissant ces deux contraintes H0 (K = CI = 0, L) :
homognit de leet sur le travail et nullit de leet sur le capital et les consommations
intermdiaires, est accepte. Il est intressant de remarquer que le test de lhypothse glo-
bale H0 (K = CI = 0, L) passe un peu mieux que le test de lhypothse H0 (K = CI = 0)
comme en tmoigne les p-values (10% contre 6.5%). On aurait pu la limite rejeter lhypo-
thse H (K = CI = 0) mais accepter lhypothse plus contraignante H0 (K = CI = 0, L) .
4.8.2 Test de la nullit globale des paramtres

Dans le modle
X
k=J X
k=K
y = b0 e + xk bk + xk bk + u
k=1 k=J+1
on veut tester lhypothse de lgalit une valeur donne de plusieurs coecients. H0 :

b1 = b01 , b2 = b02 , . . . , bJ = b0J . La dirence avec le test de Student standard est quon
souhaite faire un test global, sur lidentit simultane des coecients. Avec le test de
Fisher il sut destimer le modle non contraint
y = xb + u
de calculer la somme SCR des carrs des rsidus estims, destimer le modle contraint
X
k=J X
k=K
y xk b0k = b0 e + xk bk + u
k=1 k=J+1
de calculer la somme SCRC des carrs des rsidus estims et de former la statistique
N (K + 1) SCRC SCR
Fb = F (J, N (K + 1))
J SCR
Pour un test au niveau on refusera lhypothse nulle si Fb est suprieur au fractile dordre
(1 ) de la loi F (J, N (K + 1)), not F (1 ).
On dduit de lexemple prcdent un test systmatiquement associ toute rgression
et dutilisation trs courante : le test de la significativit globale des coecients
dune rgression
H0 : b1 = b2 = b3 = ... = bK = 0
Il obit la mme logique que prcdemment, mais on montre que dans ce cas la statistique
de Fisher est seulement fonction du R2 dans lestimation non contrainte du modle.
Proposition Dans le modle

y = xb + u
la statistique de Fisher du test de nullit globale des paramtres H0 sexprime simplement
partir du R2
R2 N (K + 1)
Fb = 2
F (K, N (K + 1))
1R K
4.8. APPLICATIONS DU TEST DE FISHER 55
Dmonstration Sous H0 , le modle scrit : y = b0 e + u, do b0 = y et b uc = y y e.

2
La SCRC est donc donne par : SCRC = n (yn y) . Sous H1 : SCR = b u0 b
u. Or
0
2 bu
u b 0
R = 1 n (yn y)2 , soit b
ub u = n (yn y) (1 R ) , on a donc SCR = SCRC (1 R2 ) ,
2 2
par consquent, la statistique de Fisher scrit

N (K + 1) SCRC SCR N (K + 1) SCRC SCRC (1 R2 )
=
K SCR K SCRC (1 R2 )
do le rsultat
4.8.3 Le Test de Chow de stabilit des paramtres

Une question naturelle est celle de lhomognit des paramtres sur deux sous popu-
lation. On peut sinterroger sur lexistence de rupture temporelle dans les comportements.
On peut se demander par exemple si le comportement de consommation estim sur srie
temporelles est homogne dans le temps. On peut se demander aussi si les technologies
de production, estimes sur un panel dentreprises sont homognes entre secteurs. Le Test
de Chow formalise ce problme de test et applique les rsultat du test de Fisher pour
lobtention de statistique de test.
Supposons que lon dispose de deux chantillons (y 1 , x1 ) et (y 2 , x2 ) de tailles respectives
N1 et N2 , relatifs deux groupes dobservations dirents (par exemple deux priodes,
deux catgories dentreprises,...) de la variable dpendante y et des variables explicatives x.
Le modle relatif au 1er groupe scrit
y 1 = x1 b1 + u1
o y 1 vecteur N1 1 des observations de la variable dpendante pour le premier groupe

et x1 la matriceN1 (K + 1) des variables explicatives (1, x1 , . . . , xK ) pour le premier
groupe.
De mme, pour le deuxime groupe :
y 2 = x2 b2 + u2
On fait les hypothses stochastique l (u1 , u2 |x1 , x2 ) N(0, 2 IN1 +N2 ).
Ce modle se rcrit dans le cadre du modle linaire standard en introduisant les
matrices e
x (N1 + N2 ) (2 (K + 1)) et x (N1 + N2 ) (K + 1)

x1 0 x1
e
x= et x =
0 x2 x2
sous la forme
b1
y=e
x +u
b2
x ) N(0, 2 IN ). Lhypothse dhomognit scrit alors simplement dans ce

avec l (u |e
cadre :
H0 : b1 = b2
et on peut clairement aborder cette question avec le formalisme du test de Fisher. On
eectue la rgression dans le modle contraint
y = xb + u
pour lequel on rcupre la somme des carrs des rsidus SCRC = SCRT. On eectue
la rgression dans le modle non contraint et on rcupre aussi la somme des carrs des
rsidus SCR. La statistique de Fisher du test dhomognit des coecients est donc
SCRC SCR (N1 + N2 ) 2(K + 1)
Fb =
SCR (K + 1)
et on rejettera lhypothse nulle lorsque cette statistique est trop lev : pour un test au
niveau la rgion critique est ainsi
Fb > f(1) (K + 1, N1 + N2 2(K + 1))
La statistique se simplifie en fait car on montre facilement que la somme SCR est
la somme SCR1 + SCR2 des sommes des carrs des rsidus sur les modles estims
librement sur chacun des sous-chantillons. Pour sen convaincre il sut de calculer Mxe =
0 1 0
I ex exex x puisque SCR = u0 Mxe u. On vrifie aisment que Mxe = Diag Mx1 ,x2 . La
e
statistique est donc finalement
SCRT (SCR1 + SCR2) (N1 + N2 ) 2(K + 1)
Fb =
SCR1 + SCR2 (K + 1)
et se calcule trs simplement partir des trois rgressions : 1) contrainte 2) et 3) sur
chacun des sous chantillons pris sparment.
4.9 Rsum
1. Dans ce chapitre on a vu comment tendre lestimateur des mco au cas dans lequel
on impose des contraintes linaires sur les paramtres du type Rb = r.
2. On a vu que lorsque lon fait les hypothses H1 H2, lestimateur est sans biais
lorsque les contraintes sont satisfaites par la vraie valeur du paramtre. En revanche,
lestimateur est biais lorsque les contraintes sont imposes tort.
3. On a obtenu sous les hypothses H1 H4 lexpression de la matrice de variance
de lestimateur. On a vu que cette matrice tait toujours plus petite que celle de
lestimateur des mco, que les contraintes soient imposes tort ou raison.
4.9. RSUM 57
4. On en a conclu quil y a un arbitrage entre prcision des estimations et robustesse.

5. On a galement obtenu un estimateur sans biais de la variance des rsidus.
6. On a montr comment les rsultats sur la loi de lestimateur pouvaient tre tendus
dans le cas destimations contraintes lorsque la loi des perturbations est spcifie.
7. On a montr comment dans ce cadre il tait possible de tester les contraintes impo-
ses au paramtre.
8. Le test correspondant porte le nom de Test de Fisher, il est bas sur la comparaison
des rsidus dans le modle contraint et le modle non contraint.
9. On a vu deux exemples importants de mise en oeuvre de ce test
(a) Le test de significativit globale des paramtres
(b) Le test dit de Chow de stabilit des paramtres sur deux sous-chantillons.
Chapitre 5
Proprits asymptotiques de
lestimateur des MCO
Dans ce chapitre on montre comment il est possible dobtenir la loi des estimateurs sans
faire dhypothses sur la loi des perturbations. On va voir que lhypothse de normalit
de la distribution conditionnelle peut tre remplace par des hypothses sur lexistence de
moments des variables du modle lorsque le nombre dobservations devient grand. Lob-
tention de ces rsultats repose sur direntes notions de convergence et certains rsultats
essentiels comme la Loi des Grands Nombre et le Thorme Central Limite.
5.1 Rappel sur les convergences

Soit (Xn ) une suite de variables alatoires. Soit Fn la fonction de rpartition de Xn .
Soit X une variable alatoire de fonction de rpartition F .
Toutes ces va sont dfinies sur le mme espace probabilis, cest dire quun mme
vnement dtermine les valeurs des Xn () pour tous les n et de X().
5.1.1 Dfinition : Convergence en probabilit, Convergence en

loi, Convergence en moyenne quadratique
P
Definition On dit que (Xn ) converge en probabilit vers X (Xn X ou plimn Xn =
X) si
> 0, Pr {|Xn X| > } 0.
n
(NB : Pr {|Xn X| > } = Pr {, |Xn () X()| > } .)

Cette notion de convergence nous intressera pour la convergence ponctuelle des esti-
mateurs. Dans ce cas llment est un tat de la nature qui engendre un nombre infini
de ralisation du processus tudi. Les suites Xn () sont les suites destimateurs que lon
59
60CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO
peut construire en utilisant lchantillons des n premires observations du processus. La

limite X est une constante. La notion de convergence signifie que pour nimporte quelle
boule centre sur la limite, les tats de la nature tels quil existe des estimateurs hors de la
boule considre pour des tailles arbitrairement grandes des chantillons sont de mesure
nulle.
mq
Definition On dit que (Xn ) converge en moyenne quadratique vers X (Xn X ) si
E kXn Xk2 0.
n
Proposition La convergence en moyenne quadratique implique la convergence en pro-

babilit et la convergence en moyenne quadratique vers une constante rsulte de la conver-
gence du moment dordre 1 vers cette constante et du moment dordre 2 vers 0 : E (Xn )
a, et V (Xn ) 0
Dmonstration La premire partie rsulte de lingalit de Bienaym-Tchebitchev
E kXn Xk2
Pr {kXn Xk > } <
2
qui exprime simplement

E kXn Xk2 = E kXn Xk2 |kXn Xk > Pr {kXn Xk > }

+E kXn Xk2 |kXn Xk Pr {kXn Xk }
2 Pr {kXn Xk > }
la deuxime partie rsulte de

E kXn ak2 = E (Xn EXn )0 (Xn EXn ) + (EXn a)0 (EXn a)
= kEXn ak2 + T raceV (Xn )
L
Definition On dit que (Xn ) converge en loi vers X (Xn X) si la suite des fonctions
de rpartition associes (Fn ) converge, point par point, vers F la fonction de rpartition
de X en tout point o F est continue :
x, Fn (x) F (x).
5.1.2 Loi des Grands Nombres et Thorme Centrale Limite

On donne maintenant les deux thormes centraux sur lesquels reposent toutes les
proprits asymptotiques des estimateurs usuels : la loi des grand nombre qui stipule
que sous des hypothses assez faible la moyenne empirique converge en probabilit vers
lesprance, et le thorme central limite qui prcise la loi de lcart entre la moyenne
empirique et lesprance.
5.1. RAPPEL SUR LES CONVERGENCES 61
Proposition Loi des grands nombres (Chebichev) : Soit (xi ) une suite de Pva in-
2 1 N
dpendantes telles que EXi = mi et V Xi = i existent. On considre X N = N i=1 Xi
la moyenne
PN 2 empirique si la variance de cette moyenne empirique tend vers 0, N =
1
N2 i=1 i 0, alors
1 X 1 X
N N
P
X N mN = Xi mi 0 qd N .
N i=1 N i=1
P PN PN
Dmonstration N1 N 1
i=1 Xi N i=1 mi = N
1
i=1 (Xi mi ) . Pour montrer la conver-
gence en probabilit vers zro, il sut de montrer la convergence en moyenne quadratique
vers 0, qui rsulte de la convergence vers 0 de la variance. Ce qui est acquis par hypothse.
Corollaire 1. Soit (Xi ) une suite de va indpendantes telles que EXi = m et V Xi =
existent, alors
1 X
N
P
XN = Xi m qd N .
N i=1
Dmonstration La variance de la moyenne empirique est dans ce cas /N. Elle tend
bien vers zero.
On peut tendre la loi faible des grands nombres au cas o les variables Xn sont dans
L1 , mais au prix dune dmonstration beaucoup plus complique.
Proposition Soit (Xi ) une suite de va indpendantes et quidistribues telles que EXi =
m et E |Xi | existent, alors
1 X
N
P
XN = Xi m qd N .
N i=1
Proposition Thorme central limite (Lindeberg-Levy) : Soit (Xi ) une suite de variables
alatoires indpendantes et quidistribues telles que EXi = m et V Xi = existent,
L
N X N m N (0, ).

Remarque On sait dj que E N X N m = 0, et galement que V N XN m =

NV X N = V (Xn ) . Le rsultat important vient du fait que lon connat la loi de la

moyenne empirique dilate N X N m .
Dmonstration La dmonstration se fait partir des fonctions caractristiques. On
appelle fonction caractristique dune variable alatoire Z la fonction
Z (t) = E (exp (it0 Z))

Les fonctions caractristiques ont une proprit dinjectivit : si Z1 (t) = Z2 (t) alors
d
FZ1 = FZ2 soit Z1 = Z2 . On peut calculer la fonction de rpartition dune loi normale
0
t t
z N (0, ) z (t) = exp
2
P N Xi
On a alors directement avec n (t) = E exp it0 N i=1
N
m
! i=n !
XN
it0 (Xi m) Y it0 (Xi m)
n (t) = E exp =E exp
i=1
N i=1
N
Y
i=N N
it0 (Xi m) it0 (Xi m)
= E exp = E exp
i=1
N N
do lapproximation
N
it0 (Xi m) 1 0 0
n (t) E 1 + t (Xi m) (Xi m) t
N 2N
N
1 0 t0 t
= 1 t t exp
2N 2
Ce thorme est susant dans la majeure partie des cas. Nanmoins il fait lhypo-
thse que les variables sont quidistribues et quelles ont en particulier des moments
dordre 1 et 2 identiques. Ce thorme peut tre reformul sous une autre forme. En
eet E Xn = m et V Xn = V /N. Le thorme ne stipule donc rien dautre que
1/2 L
V Xn Xn E Xn N (0, 1) . L aussi on peut tendre le thorme centrale
limite pour trait des cas plus gnraux. En particulier on peut obtenir un thorme
de convergence pour des donnes indpendantes mais non quidistribues. Cest au prix
dune condition supplmentaire appele condition de Liapounov et qui concerne les mo-
ments dordre 3 de la variable.
Proposition Thorme central limite (Liapounov) : Soit (Xn ) une suite de variables
alatoires indpendantes de moyenne
n , de variance 2n et telle que w3N = E |Xn n |3
P 1/3 P 1/2
N N 2
existent. Si lim 1 w3n 1 n = 0 alors
1/2 L
V Xn Xn E Xn N (0, 1)
1 2
Remarque V Xn = ,
N n
cest dire la variance moyenne divise par N.
5.1.3 Dirents rsultats concernant les convergences

On donne maintenant dirents rsultats, utiles lorsque lon souhaite driver les pro-
prits asymptotiques des estimateurs.
P L
Xn X Xn X.
P L
a constant, Xn a Xn a.
L L P P
Pour toute fonction g continue, Xn X g(Xn ) g(X) et Xn a g(Xn )
g(a).
Le thorme de Slutsky et une application

L P
Si Xn X et Yn a alors on a
L
1. Xn Yn Xa
L
2. Xn + Yn X + a
L
3. Xn /Yn X/a si a 6= 0
Application : On considre deux variables alatoires z1i et z2i telles que E (z1i ) =
m1 et E (z2i ) = 0. Alors pour un chantillon iid, par application de la loi des grands
P L
nombres, z1i m1 et par application du thorme central limite N z2i N (0, V2 ) .
Par application du thorme de Slutsky on a
L
Nz1i z2i N (0, m1 V2 m01 )
Les ordres en probabilit.

Soit Xn une suite de variable alatoire et an une suite de rel.
P
On dit que Xn est un petit o de an et on le note o (an ) si a1n Xn 0. Ainsi par
P P
exemple, Xn est un o (1) si Xn 0, Xn est un o (1/n) si nXn 0.
On dit que Xn est un grand O de an et on le note O (an ) si a1 n Xn est born en
probabilit. Ceci signifie que pour nimporte quel niveau de probabilit il existe une
valeur finie M telle que les ralisations de satisfaisant ka1
n Xn k < M pour tout
1
n sont de mesure suprieure : n, P (kan Xn k < M ) > . Ce qui signifie que
pour nimporte quel niveau de probabilit aussi lev soit il, on peut trouver une
quantit bornant a1n Xn avec probabilit uniformment en n. On peut aussi dfinir
cette notion partir des fonction de rpartition Fn de kXn k : Fn (t) = P (kXn k < t) .
Dire que Xn est un grand O (an ) consiste dire que pour tout niveau de probabilit
, M tel que n Fn (an M ) > , soit a1 1
n Fn () < M . Donc Xn = O (an ) si
Supa1 1
n Fn () < , o encore, si , SupQn () /an < o Qn est la fonction
n n
de quantile.
L
Proposition Si Xn X alors Xn = O (1)
Dmonstration On considre F (t) la fonction de rpartition de |X| et Fn (t) celle de

|Xn |. Fn (t) converge en tout point de continuit de F vers F. Pour donn, on peut
dfinir M1 () tel que F (M1 ()) = 2. Il existe donc un n () tel que pour n > n ()
Fn (M1 ()) > . Pour n < n () , on peut dfinir M2 () = supp Fn1 () . On peut
n<n()
prendre pour M () le maximum de M1 () et de M2 () .
Proposition Si Yn = O (1) et Xn = o (1) , alors Yn Xn = o (1)
Dmonstration
P (|Xn Yn | > ) = P (|Xn Yn | > ||Yn | > M ) P (|Yn | > M) + P (|Xn Yn | > ||Yn | M ) P (|Yn |
< P (|Yn | > M) + P (|Xn | > /M) = 1 P (|Yn | < M) + P (|Xn | > /M)
Comme Yn est borne en probabilit, on peut trouver M tel que P (|Yn | < M) > pour
tout n et donc 1 P (|Yn | < M) < . Comme Xn est un o (1) , P (|Xn | > /M) 0
Proposition Si Xn est un O (an ) alors Xn est un o (an bn ) pour nimporte quelle suite
bn tendant vers +.
Dmonstration En eet M tq P (ka1 1 1 1
n Xn k > M ) < i.e. P (kan bn Xn k > bn M ) <
, et b1 1
n M 0. Pour donn il existe n () tel que pour n > n () bn M < et donc
P (ka1 1 1 1 1
n bn Xn k > ) < P (kan bn Xn k > bn M ) <
Le thorme de Slutsky a une implication importante :

Definition Deux suites de variables alatoires X1n et X2n sont dites asymptotiquement
P
quivalentes si X1n X2n 0, i.e. X1n X2n = o (1) .
Corollaire du thorme de Slutsky : si X1n et X2n sont asymptotiquement quivalentes
L L
et X1n X, alors X2n X
Dmonstration Ceci rsulte directement du fait que suivant le Thorme de Slutsky si
P L L
X1n X2n 0 et X1n X alors X2n = X1n (X1n X2n ) X
On prsente enfin un dernier rsultat trs utile, qui permet dobtenir la loi dune
combinaison drivable quelconque de paramtres convergeant en loi.
L
Proposition Mthode delta : Pour toute fonction g continue, direntiable, si n (Xn m)
N(0, ),alors
0
L g(m) g(m)
n (g(Xn ) g(m)) N 0, .
m0 m0
P L
Dmonstration On a dabordXn m
: puisque N (XN m) N(0, ), N (XN m) =

O (1) et donc (XN m) = O 1/ N = o (1). On applique le thorme de la valeur
moyenne : n [0, 1] tq
g
g(Xn ) = g(m) + (m + n (Xn m)) (Xn m) .
m0
g
n (g(Xn ) g(m)) = (m + n (Xn m)) n (Xn m)
m0
P g P g
m + n (Xn m) m donc Zn = m 0 (m + n (Xn m)) m0 (m) .
L P g
Comme n (Xn m) N (0, ), et Zn m 0 (m), on applique le thorme de
Slutsky et on en dduit
0
L g(m) g(m)
n (g(Xn ) g(m)) = Zn n (Xn m) N 0, .
m0 m0
5.1.4 Illustration
On illustre ces proprits en examinant le comportement asymptotique de moyennes
dun nombre donn dobservations tires indpendamment dans une mme loi. Plus pr-
cisment pour une taille dchantillon donne 10, 1.000, 100.000 on tire un grand nombre
dchantillons, en pratique 5.000, et pour chaque chantillon on calcule la moyenne em-
pirique. On connat lesprance thorique E. La loi des grands nombres dit que pour un
intervalle [E , E + ] de longueur donne, la proportion de moyenne empirique tom-
bant dans lintervalle croit avec la taille de lchantillon vers 1. Les cas que lon considre
sont E = 1, et on examine des intervalles pour = 0.1, 0.05, 0.02 et 0.01. On considre
deux lois direntes. On prend dabord une loi symtrique : la loi uniforme sur [0; 2] . Son
esprance est 1 et sa variance est de 1/3. On prend ensuite une loi dissymtrique : une
loi du 2 (1) . Cette loi a, elle aussi, une moyenne de 1 mais sa variance est de 2. Pour la
rendre plus comparable la loi prcdente, on la normalise de telle sorte que sa variance
soit elle aussi de 1/3, sa moyenne restant de 1. On considre donc y = 1 + (2 (1) 1) 16 .
Le graphique 1 donne les proportions de moyenne empirique tombant dans les intervalles
donns. On voit que ces proportions croissent avec la largeur de lintervalle et avec la
taille de lchantillon. Pour les plus grandes tailles dchantillon, toutes les moyennes em-
piriques tombent dans lintervalle considr, aussi troit soit-il. On voit aussi quil ny a
pas grande dirence entre la loi du 2 et la loi uniforme.
On examine ensuite la distribu-
tion des carts lesprance thorique,
dilate par N. Plus spcifiquement, on examine
la distribution empirique de N (y i E) /. Pour cela on met en oeuvre un estimateur
non paramtrique de la densit, dit noyau. Si la thorie asymptotique est satisfaite,
cette distribution doit tre approximativement normale pour un grand chantillon. Les
rsultats sont prsents dans le graphique 2. On voit l des dirences importantes entre
les deux types de loi. Dans les deux cas pour de grands chantillons, lapproximation
normale fonctionne bien. Par contre pour les petits chantillons, lapproximation normale
marche trs bien pour la loi uniforme, mais beaucoup moins bien, pour la loi du 2 .
Loi Uniforme
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.99--1.01 0.98--1.02 0.95--1.05 0.90--1.10
N=10 N=100 N=100000
Loi du Chi2
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.99--1.01 0.98--1.02 0.95--1.05 0.90--1.10
N=10 N=100 N=100000
Tab. 5.1 Convergence en probabilit

5.2. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO 67
5.2 Proprits asymptotiques de lestimateur des MCO

On applique maintenant les rsultats prcdents lestimateurs des mco. On va voir
que lcart entre la vraie valeur du paramtre et le paramtre estim scrit sous la forme

bb b = x0 xi 1 x0 ui . On va tudier le comportement asymptotique de chacune des deux
i i
P
composantes. Dune faon gnrale, on va crire x0i xi Q constante. On va donner des
conditions sous lesquelles cette matrice est E (x0i xi ) , comme on sy attend, mais ce nest
pas le point central. Le point central est que cette matrice converge en probabilit vers une
matrice fixe. Pour tudier le deuxime terme on va appliquer le thorme central limite
xi ui , cest dire que lon va tudier Nxi ui et on va exploiter le fait que E (x0i ui .) = 0.
0 0
Plus prcisment, on considre le modle
yi = xi b + ui
avec les hypothses

H1 : Les observations (yi , xi ) RR K+1 , i = 1, ..., N, sont IID
H2 : N, x0 x est non singulire
H3 : Les moments de |xki xli | existent.et E(xi x0i ) est inversible
P
H3bis x0 x/N Q inversible
H4 : E (ui |xi ) = 0
H5 : V (ui |xi ) = V (ui ) = 2
Proposition Sous les hypothses H1 H5, lestimateur des MCO

bbmco = (x0 x)1 x0 y = x0 xi 1 x0 yi
i i
1. bbmco b,
P

L
2. N bbmco b N (0, Vas ) ,
3. Vas = 2 E(xi x0i )1 (ou 2 Q1 )
0
y xbbmco y xbbmco 2
P
b2 = NK1
4. 1
1 P
5. N Vb bbmco = Vbas = b2 xi x0i Vas

1/2 b L
6. N Vbas bmco b = Vb 1/2 bbmco b N (0, IK+1 )
On dit que bb est convergent et asymptotiquement normal.

Dmonstration Convergence en probabilit de lestimateur.
Lestimateur des mco scrit

bbmco = (x0 x)1 x0 y = x0 xi 1 x0 yi = x0 xi 1 x0 yi
i i i i
Loi Uniforme Loi du Chi2

0.4 0.45
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0 0
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=10 Normal N=10 Normal
0.4 0.4
0.35 0.35
0.3 0.3
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
0.4 0.4
0.35 0.35
0.3 0.3
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
Tab. 5.2 Convergence en Loi

5.2. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO 69
On remplace yi par sa valeur : yi = xi b + ui . On a donc

bbmco = x0 xi 1 x0 (xi b + ui ) = x0 xi 1 x0 xi b + x0 ui = b + x0 xi 1 x0 ui
i i i i i i i
Comme les moments |xki xli | des variables explicatives existent, on peut appliquer la loi
des grands nombres x0i xi . De mme on peut appliquer la loi des grands nombre x0i ui ,
si E(x0i ui ) et V (x0i ui ) existent. Comme E(x0i ui ) = E (E(x0i ui |xi )) = 0 et V (x0i ui ) =
E (V (x0i ui |xi )) + V (E(x0i ui |xi )) = 2 E (x0i xi ), on a
1 X 0 P 1 X 0 P
N N
0
x0i xi = 0
x xi E(xi xi ), et xi ui = x ui E(x0i ui ).
N i=1 i N i=1 i
On en dduit que
1 P
x0i xi E(x0i xi )1
1 P
x0i xi x0i ui E(x0i xi )1 E(x0i ui )
bbmco = b + x0 xi 1 x0 ui
P
b + E(x0i xi )1 E(x0i ui )
i i
car les esprances E(x0i xi ) et E(x0i ui ) sont par dfinition des constantes, que lapplication
A A1 est continue et enfin que le produit et la somme de suite de variables alatoires
convergent en probabilit vers des constantes converge en probabilit.
Comme par ailleurs
E(xi ui ) = E [xi E(ui |xi )] = 0
On a bien
bbmco
P
b
Normalit asymptotique
1
De la formulation bbmco : bbmco = b + x0i xi x0i ui on dduit
1 1
N bbmco b = Nx0i xi x0i ui = x0i xi Nx0i ui

On veut appliquer le Thorme Central Limite Nx0i ui . Les variables alatoires x0i ui
sont indpendantes et quidistribues. On pourra appliquer le Thorme Central limite si
les deux premiers moments de cette variable existent. On sait que
E (x0i ui ) = 0
V (x0i ui ) = V (E (x0i ui |xi )) + E (V (x0i ui |xi )) = E (x0i V (ui |xi ) xi ) = 2 E (x0i xi )
Les moments dordre 1 et 2 de x0i ui existent donc. On sait qualors le TCL permet daf-
firmer L
Nx0i ui N 0, 2 E(x0i xi )
Comme
1 P
x0i xi E(x0i xi )1 .
1
qui
est une matrice constante, on peut appliquer le thorme de Slutsky x0i xi et
0
Nxi ui :
1 L
x0i xi Nx0i ui E(x0i xi )1 N 0, 2 E(x0i xi )

= N 0, E(xi x0i )1 2 E(x0i xi )E(x0i xi )1

= N 0, 2 E(x0i xi )1
on a donc bien
N bb b N 0, 2 E(xi x0i )1
L
Estimation de la variance
Lestimateur de la variance des rsidus
1 0
b2 =
y xbbmco y xbbmco
N
scrit compte tenu dey = xb + u
1 0
b2 =
x b bbmco + u x b bbmco + u
N

= xi b bbmco + ui xi b bbmco + ui
0
= b bbmco x0i xi b bbmco + 2ui xi b bbmco + u2i
0
P
= b bbmco xi xi b bbmco + 2ui xi b bbmco + ui 2
0 2
P P P P
puisque bbmco b, x0i xi E (x0i xi ) , xi ui E (x0i ui ) et u2i E (u2i ) = 2 . Puisque u2i est
0
une variable positive identiquement distribue sur les individus. On remarque quil est ici
ncessaire de davoir recours la loi forte des grands nombres dans L1, on devrait sinon
faire lhypothse que E (u4i ) existe.
Estimation de la matrice de variance asymptotique de lestimateur
P 1 P
On lobtient directement par le fait que b2 2 et x0i xi E (x0i xi )1
1 P
Vas ,.et N bbmco b
L
Enfin en appliquant le thorme de Slutsky Vbas = b2 x0i xi
N (0, Vas ) , on a directement le dernier point.
Remarque On peut se passer de lhypothse dquidistribution au prix dun renforcement
des hypothses sur les moments des variables. pour pouvoir appliquer le Thorme Central
Limite de Liapounov x0i ui , il sut par exemple que lon ait E (|u3i |) = 3 < + et pour
chaque variable explicative E (|x3ki |) = k3 < +. La condition
de Liapounov est alors
satisfaites et on obtient alors la normalit asymptotique de Nx0i ui .
5.3. TESTS ASYMPTOTIQUES 71
Remarque Vbas est un estimateur de Vas , la variance asymptotique

de lestimateur dilat

par N qui est une matrice constante. En revanche Vb bbmco est un estimateur de la
variance
de lestimateur. Cest une quantit qui tend vers 0 quand N tend vers linfini :
b P
N V bmco = Vbas Vas
b
5.3 Tests asymptotiques

On a vu dans les chapitres prcdents que connatre la loi de lestimateur tait utile
ds lors que lon veut faire des tests. Cest nouveau cette question qui nous intresse.
Les tests que lon considre sont des test dits asymptotiques. La dirence essentielle
avec les cas prcdents est quils sont bass sur une statistique dont on ne connat la loi
quasymptotiquement, alors que dans le cadre des chapitres prcdents, on connaissait
exactement la loi de la statistique distance finie : Student, Fisher,...
La dirence concerne aussi la notion doptimalit que lon retient. Comme prcdem-
ment, les tests que lon va considrer sont dfinis par une rgion critique W pour une
statistique Sb telle que
Sb W on rejette H0 contre H1
On introduit aussi les risques
de premire espce
p lim Pr Sb W |H0 est le risque de premire espce : il reprsente asymptotiquement
de rejeter H0 tort.
la probabilit
p lim Pr Sb
/ W |Ha est le risque de deuxime espce : la probabilit daccepter H0
tort. On introduit aussi la puissancedu test dfinie comme 1 risque de deuxime
espce : puissance=p lim Pr Sb W |Ha . Le principe du test est comme prcdemment
de minimiser le risque de seconde espce en contrlant un niveau donn le risque de
premire espce. Ce niveau du maximal du risque de premire espce est appel la encore
le seuil ou le niveau du test. Dans le cas normal on avait introduit la notion de tests
uniformment plus puissants, cest dire de tests qui maintenant un niveau donn du
risque de premire espce conduise pour toute valeur de lhypothse alternative une
probabilit de rejet maximale. Cette proprit est trop forte et on ne peut pas trouver en
toute gnralit un tel test. On avait alors introduit des classes de tests plus restreintes,
les tests sans biais, les tests invariants pour lesquels on pouvait trouver un test optimal.
La notion que lon retient ici est celle de test convergent. Elle rejoint la notion de test
uniformment plus puissant puisquun test convergent est un test dont la puissance tend
vers 1.
Definition On dit que le test de rgion critique W est asymptotique sises proprits
sont
valables pour N grand ; quil est de niveau asymptotique si lim Pr Sb W |H0 = ;
N
b
et quil est convergent si sa puissance tend vers un ( lim Pr S W |Ha = 1).
N
On dfinit aussi de faon alternative la p-value. La statistique Sb est choisie de telle

sorte que sous H0 Sb S0 dont la loi est connue et support positif (valeur absolue dune
loi normale, loi du khi deux). La rgion critique est dfinie comme
n o

W = Sb Sb > q (1 , S0 )
o q (1 , S0 ) est le quantile
dordre 1 de S0 : Pr (S0 > q (1 , S0 )) =
On dfinit la p-value p Sb comme Sb = q 1 p Sb , S0 i.e.

p Sb = Pr S0 > Sb .

Pour tout seuil , on rejette H0 au seuil si et seulement si p Sb . En eet, p Sb
signifie que
n o n o
b b
= Pr {S0 > q (1 , S0 )} Pr S0 > S S > q (1 , S0 )
5.3.1 Test dhypothses linaires

Test de Student asymptotique
Il sagit du test dune hypothse linaire unidimensionnelle de la forme
H0 : c0 b = r
o c RK+1 et r R. Un cas particulirement important est celui de la significativit

du coecient bk = 0.
Proposition Si les hypothses H1-H5 sont satisfaites, sous lhypothse nulle H0 : c0 b = r
on a
c0bbmco r c0bbmco r L
Sb = N r = r N (0, 1).
c0 Vbas bbmco c c0 Vb bbmco c
le test dfini par la rgion critique

n o
b b
W = S S > q 1
2

o q 1 2 est le quantile 1
2
de la loi normale N (0, 1) est un test convergent au
niveau .
On retrouve donc un test trs proche de celui obtenu dans le cas o on spcifie la loi des
rsidus. Les seules dirences sont que 1/ le rsultat nest valable quasymptotiquement,
alors quil tait valable distance finie dans le cas normal et 2/ la loi considre est
une loi normale et non plus une loi de Student. Cette dernire dirence nen est une
quen partie puisque lon peut montrer que la loi de Student tend vers une loi normale
lorsque le nombre de degrs de libert tend vers linfini. Les rgions critiques sont donc
asymptotiquement les mmes.

Dmonstration Sous les hypothses H1-H5, on a N bbmco b N (0, 2 E(xi x0i )1 ) ,
L

L

Sous lhypothse nulleH0 : c0 b = r on a donc N c0bbmco r N 0, c0 Vas bbmco c ou
encore
c0bbmco r L
Nr N (0, 1)
c0 Vas bbmco c
On rencontre le mme problme que dans le cas normal : il faut diviser c0bbmco r par
lcart-type de c0bbmco r qui est inconnu. Comme dans le cas normal on va diviser par un
estimateur de cet cart-type. Dans le cas normal la statistique considre suivait une loi de
Student quelque soit le nombre dobservation. Ici on tient compte du fait quon divise par
un estimateur convergent en probabilit. Le thorme de Slutsky permet alors de dfinir la
loi asymptotique de la statistique.
Comme
1 1
Vbas bbmco = b2 (x0 x) Vas bbmco = 2 [E(x0i xi )]
1 P 1
b2 x0i xi =
N
On en dduit que la statistique de Student :
c0bbmco r c0bbmco r L
Sb = Nr = r N (0, 1).
c0 Vbas bbmco c c0 Vb bbmco c

b b b b
puisque N V bmco = Vas bmco . On dfinit la rgion critique comme
n o

W = Sb Sb > q 1
2

o q 1 2 est le quantile 1 2 de la loi normale N (0, 1).
Sous H0 on a
n o n o
Pr Sb W |H0 Pr |N (0, 1)| > q 1 =
2
Le test dfini par la rgion critique W est donc un test au niveau .
Comme on est dans le cas asymptotique, on tudie beaucoup plus facilement le com-
portement de la statistique sous lhypothse alternative.
.
0b
Sous H1 on a c0bbmco
r c b r = m 6= 0 donc Sb
0
N = c bmco r
r r

c0 Vbas bbmco c |m| c0 Vas bbmco c do Sb +. Il en rsulte que
n o
Pr Sb W |H1 1
le test est donc convergent.

Remarque On gnralise directement ces rsultats au cas du test unilatral H0 : c0 br =
0 contre H1 : c0 b r > 0. On dfinit la rgion critique comme
n o
b b
W = S S > q (1 )
o q (1 ) est le quantile 1 de la loi normale N (0, 1).Sous H0 on a

n o
b
Pr S W |H0 Pr {N (0, 1) > q (1 )} =
. r
0b 0b
0 b
Sous H1 on a c b r c b r = m > 0 donc S N = cbr c Vas bb c
0 b
r

m c0 Vas bb c do Sb +
n o
Pr Sb W |H1 1
Application : test de Student asymptotique de nullit dun paramtre 5%

Le cas dapplication le plus direct est celui du test de la nullit dun paramtre dune r-
gression. Dans ce cas le vecteur c0 = (0, . . . , 0, 1, 0, . . . , 0), c0 b = bk , r = r
0, car on sintresse

lhypothse nulle de nullit de la kime composante du paramtre et c0as Vbas bb c/N =
r r
c0 Vb bb c = Vb bbk = bk . Le rsultat de la proposition stipule donc quun test asymp-
totique au seil de lhypothse de nullit du paramtre peut tre fait en considrant le t
de Student
bbk
tk =
bk
Asymptotiquement sous lhypothse nulle, cette quantit suit une loi normale. Un Test
au seuil ut tre eectu en comparant la valeur du t au quantile dordre 1 /2 de la
loi normale. Ainsi on rejettera H0 % si |tk | > q (1 /2, N (0, 1)) .
En pratique on sintresse souvent des tests 5%. Dans ce cas le quantile auquel
on compare est le quantile dordre 97,5% dont la valeur est de 1,96. En dautres termes :
on rejette 5% lhypothse de nullit dun paramtre si le ratio de la valeur estime du
paramtre son cart-type estim, le t de Student, est en valeur absolue suprieur 1,96.
Remarque Ce test lintrt dtre valable quelque soit la loi des rsidus, quelle soit
normale ou non, tant quelle vrifie les hypothses garantissant les proprits asympto-
tiques de lestimateur des mco. Le test de Student vu dans le chapitre prcdent nest valable
que pour le cas de rsidus suivant une loi normale. Il est en revanche valable distance
finie. Asymptotiquement les deux test concident car une suite de variables alatoires Xn
suivant une loi de Student n degrs de libert converge en loi vers une loi normale. On
peut le oirpfacilement. Si Xn suit une loi de Student, elle peut scrire sous la forme dun
ratio Z1n / Z2n /n avec Z1n suivant une loi normale et Z2n , indpendante de Z1n suivant
une loi du 2 (n) . Une loi du 2 (n) a ppour variance 2n. On p en dduit que E (Z2n /n) = 1
m.q. p
et V (Z2n /n) =p2/n. On voit donc que Z2n /n 1. Donc Z2n /n 1 On en dduit
donc que Z1n / Z2n /n converge en Loi vers une loi normale.
Test de Wald dune hypothse multi-dimensionnelle.

Comme prcdemment, on souhaite tester un systme de contraintes linaires :
H0 : Rb = r contre Ha : Rb 6= r.
On a vu que dans le cas o les rsidus taient spcifis comme normaux, on pouvait faire
un test de Fisher. Ce test permettait de contrler le risque de premire espce et avait
de bonnes proprits doptimalit. Ici on va considrer une statistique analogue et on va
tudier son comportement asymptotiquement. Pour la mme raison que pour le test de
Student, la statistique ne suivra pas une loi de Fisher mais une loi du Chi2.
Proposition Lorsque les hypothses H1-H5 sont satisfaites, la statistique Sb dfinie par
0 h i1
Sb = N Rbbmco r RVbas bbmco R0 Rbb r
0
b 0 1 0 1 b
Rbmco r R (x x) R Rbmco r
=
b2

converge en loi vers un 2p , sous lhypothse nulle H0 . Le test dfini par la rgion critique
n o

W = Sb Sb > q (1 ), 2 (p)
est un test convergent au niveau . La statistique peut aussi tre calcule comme
b b SCRC SCR b2c

b2
S = pF = (N (K + 1)) 'N
SCR b2

Dmonstration On a :

b L b 2 0 1 0
N Rbmco r N 0, Vas Rbmco = R [E(xi xi )] R
On en dduit
0 1
b
N Rbmco r b
RVas bmco R 0 b L
Rbmco r 2p .

On peut remplacer Vas bbmco par un estimateur convergent et appliquer Slutsky. Do,
sous lhypothse nulle, H0 : Rb0 = r, et aprs simplification des N,
0 h i1
Sb = N Rbbmco r RVbas bbmco R0 Rbbmco r
0 h i1
= Rbbmco r RVb bbmco R0 Rbbmco r
0
b 0 1 0 1 b
Rbmco r R (x x) R Rbmco r L
= 2 = pFb 2 (p) , sous H0
b

Ce rsultat permet de montrer que le test dfini par la rgion critique donne est un test
au niveau . 0
b b
Sous H1 on a en revanche Rb r Rb r = m 6= 0. Donc S/N = Rbmco r b
h i1
RVbas bbmco R0 Rbbmco r constante et donc
Sb
donc la puissance du test converge vers 1
Un cas particulier : Test de la nullit des paramtres dune rgression sauf la

constante.
On a vu que lorsque lon spcifiait la loi des rsidus comme une loi normale, on avait
b (SCRC SCR) /K) R2 N K 1

F = = .
SCR/(N K 1) 1 R2 K
Do
R2
Sb = K Fb = (N K 1) .
1 R2
P
Sous H0 il est facile de voir que R2 0 quand N . On a donc
Sb ' NR2
On peut utiliser la statistique NR2 et rejeter lhypothse nulle si

NR2 > q (1 ), 2 (K) .
5.3.2 Test dhypothses non linaires

La thorie asymptotique permet de traiter des questions qui ne pouvaient pas tre
abordes auparavant. En eet, on peut vouloir tester des hypothses non linaires dans
les paramtres. Le modle dit retards chelonns en constitue un exemple. Dans ce
modle on a une variable dpendante yt dpendant dune variable xt et de ses retards :
xt1 , xt2 , . . . , xtL :
yt = + 0 xt + L xtL + ut
Une restriction frquemment impose sur ces paramtres est quils soient de la forme :
k = 0 k . Ceci correspond imposer L 1 contraintes de la forme
2 1 1 L
= 1,..., L = , = 1
1 0 L2 0 L1 0
qui sont typiquement non linaires et ne peuvent donc tre testes dans le cadre prcdent.
On peut sintresser dune faon gnrale des hypothses de la forme :
H0 : g(b0 ) = 0,
o g(b) est un vecteur de p contraintes non linaires sur les paramtres telle que g(b 0)
est
0 b0
de plein rang. Cette hypothse quivaut g(bb0
0) g(b0 )
b0
inversible, avec b0 est la vraie
valeur du paramtre.
g(b)
Remarque Si g(b) = Rb r ; alors b0
= R. On retrouve donc la condition sur le rang
de R
Le rsultat suivant permet de gnraliser les tests prcdents au cas non linaire
Proposition Si bbN est un estimateur asymptotiquement normal de b :

b
N bN b N 0, Vas bb
L
et si on dispose dun estimateur convergent de la matrice de variance de lestimateur,

Vbas bb Vas bb
P
Alors
" #1/2
g(bb) b b g(bb)
b

L
N 0
V as b 0
g(b) g(b) N (0, Ip ) .
b b
pour toute fonction g continue, drivable et drive continue, de dimension p 1

Dmonstration On applique la mthode delta. On sait que

g(b)
g(b)
N g(bb) g(b) N 0, Vas bb
L
b0 b0
Cest dire
g(b) g(b) 1/2
N Vas
bb g(bb) g(b) L
N (0, I)
b0 b 0
bb)

Comme g( 0
bas bb g(bb)
V 0
P g(b)
0 Vas
bb g(b) , on obtient le rsultat par application du
b b b b0
thorme de Slutsky.
Ce rsultat permet dtendre directement les tests prcdents au cas dhypothses non
linaires :
Cas dune seule contrainte, p = 1. On forme la statistique de Student :
g(bb) g(bb)
Tb = Nr b 0 = r b 0
g(bb) c b g(b) g(bb) b b
b0
Vas b b0 b0
V b g( b)
b0
et on procde comme dans le cas dune contrainte linaire.

Cas de plusieurs contraintes, p < K + 1. On calcule la statistique de Wald :
" !0 #1 " !0 #1
g(bb) c b g(bb) g(bb) b b g(bb)
Sb = Ng(bb)0 Vas b g(bb) = g(bb)0 V b g(bb)
b0 b0 b0 b0
que lon compare au quantile 1 de la loi du chi-deux p (le nombre de contraintes)

degrs de libert. On est contraint dans ce cas la mise en oeuvre du test de Wald.
Il ny a pas danalogue simple du test de Fisher puisque lestimation du modle sous
lhypothse nulle ne peut tre faite simplement.
5.4 Exemple
Pour illustrer les proprits asymptotiques des tests, on reprend le mme cadre que
celui utilis pour tudier la puissance du test de Student. On simule donc un modle un
grand nombre de fois avec des vraies valeurs direntes sur lintervalle [0, 2] et on fait le
test de lgalit du paramtre 1. On va examiner comment les rsultats sont modifi
lorsque lon met en oeuvre le test de Student asymptotique, bas sur la distribution
dune loi normale et non plus le test de Student bas sur la loi de Student. on va aussi
examin comment ces rsultats sont modifi lorsque les perturbations ne suivent plus une
loi normale. On prendra lexemple dune loi de Fisher 1 et 5 degrs de libert, normalise
pour que son esprance soit nulle et sa variance unitaire. On choisit cette loi car elle est
5.5. RSUM 79
asymtrique et que les lois de Fisher nont un moment dordre 2 que si le deuxime degrs
de libert est suprieur 4. On est donc dans un cas o les hypothses de convergence
sont juste satisfaites.
[A FAIRE]
5.5 Rsum
Dans ce chapitre on a :
rappel les dirents modes de convergence utiles pour lexamen des proprits
asymptotiques des estimateurs : convergence en loi et convergence en probabilit.
rappel les proprits asymptotiques importantes des moyennes empiriques de va-
riables : la loi des grands nombres et le thorme central limite.
montr que sous des hypothses trs faibles (existence des moments dordre 1 et 2),
lestimateur des mco est convergent et asymptotiquement normal.
Etendu la notion de test pour dfinir des tests asymptotiques, caractriss par le
fait que leur puissance tend vers 1 et gnralis les notions de test de Student et de
test de Fisher au cas asymptotique.
Chapitre 6
Le modle linaire sans lhypothse
dhomoscdasticit
6.1 Prsentation : Homoscdasticit et htroscdas-

ticit.
Jusqu prsent on a examin le cas du modle linaire
yi = xi b + ui
dans lequel les observations taient supposes Indpendantes et Identiquement Distri-
bues (IID). On a obtenu des rsultats de convergence de distribution doptimalit sous
direntes hypothses. On a vu quil tait possible dassouplir un peu ces hypothses et
de relcher lhypothse ID pour quelles ne portent que sur les moments dordre 1 et 2
de la loi des perturbations conditionnellement aux variables explicatives. Les hypothses
centrales qui taient faites portaient E (ui |x) = 0 qui est une condition didentifica-
tion et sur V (ui |x) = 2 et Cov (ui , uj |x) = 0, soit V (u |x) = 2 I. Cest dire une
variance des perturbations conditionnelle aux variables explicative indpendante des va-
riables explicatives et labsence de corrlation entre les perturbations. Ces hypothses
sont appeles hypothses dhomoscdasticit. Les situations alternatives sont qua-
lifies dhtroscdastiques. On distingue lhtroscdasticit relative aux perturba-
tions : V (u |x) = V (u) 6= 2 I, de lhtroscdasticit relative aux variables explicatives
V (u |x) 6= V (u) .
6.1.1 Quelques exemples

Exemple Sries temporelles avec erreurs distribues suivant une moyenne mobile :
yt = xt b + ut
ut = t + t1
81
82CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT
et E (t |X ) = 0, E (t t0 |X ) = 0 pour t 6= t0 , E (2t |X ) = 2 . Donc

E u2t |X = E (t + t1 )2 = E 2t + 2t t1 + 2 2t1 = 2 1 + 2
E (ut ut1 |X ) = E (t + t1 ) (t1 + t2 ) = 2
E (ut ut0 |X ) = 0 |t t0 | > 1
La matrice de variance covariance scrit alors pour un chantillon de taille T

(1 + 2 ) 0 0
... ... ... ..
.

2 . .
V (u |x) = 0 . . . . 0

. . . .
.
. . . . . . .
2
0 0 (1 + )
6= 2 IT
Exemple Sries temporelles avec erreurs distribues suivant un processus autoregres-
sif :
yt = xt b + ut
ut = ut1 + t
P s 0
ut = s=0 ts . L encore on suppose E (t |X ) = 0, E (t t0 |X ) = 0 pour t 6= t ,
2 2
E (t |X ) = . Un calcul similaire au prcdent donne
X X
E (ut utk |X ) = E s ts s tks
s=0 s=0
Xk1 X X
s s s
= E ts + ts tks
s=0 s=k s=0
X X
= E k s ts s tks = 2 k 1 2
s=k s=0
La matrice de variance covariance scrit alors pour un chantillon de taille T

1 2 T
... ... ... ..
.

2 2 ... ...
2
V (u |x) = 1 2

. ... ... ...
..
T 2 (1 + 2 )
6= 2 IT
Exemple Sries temporelles avec erreurs corrles sans restrictions :
yt = xt b + ut
6.1. PRSENTATION : HOMOSCDASTICIT ET HTROSCDASTICIT. 83
L encore on suppose E (ut |X ) = 0, mais par contre on ne fait plus dhypothses sur la
structure des corrlations. La matrice de variance covariance est quelconque. Dans une
spcification plus contrainte, on peut supposer que la variance des rsidus est constante
et que le coecient de corrlation entre deux priodes ne dpend que de lcart entre ses
deux priodes : Cov (ut , uts ) = 2u s . La matrice de variance covariance scrit alors pour
un chantillon de taille T

1 1 2 T
. . . ..
1 . . . . . . .

2 . .
V (u |x) = 2 . . .. 2

. . . .
.. .. .. .. 1
2
T 2 (1 + )
6= 2 IT
Le nombre de paramtre de la matrice de variance tend vers linfini lorsque la taille de

lchantillon augmente.
Exemple Modle coecients alatoires (dim (xi ) = 1)
yi = a + xi bi + vi
bi = b + vbi
avec , E (vi |X ) = 0, E (vi vj |X ) = 0 pour i 6= j, E (vi2 |X ) = 2v , E (vbi |X ) = 0,

2
E (vbi vbj |X ) = 0 pour i =
6 j, E (vbi |X ) = 2b ,et E (vbi vj |X ) = 0 i, j. Le modle se
rcrit donc
yi = a + xi bi + vi = a + xi (b + vbi ) + vi
= a + xi b + xi vbi + vi = a + xi b + ui
ui = xi vbi + vi
et on a donc les proprits
E (ui |x) = E (xi vbi + vi |x) = xi E (vbi |x) + E (vi |x) = 0
do lexpression de la matrice de variance
E (ui uj |x) = 0 i 6= j
= E ((xi vbi + vi ) (xj vbj + vj ) |x)
= xi xj E (vbi vbj |x) + xi E (vbi vj |x) + xj E (vi vbj |x) + E (vi vj |x) = 0
2
E ui |x = x2i 2b + 2v
2
= E (xi vbi + vi )2 |x = E x2i vbi + 2xi vbi vi + vi2 |x
La matrice de variance covariance scrit donc

V (u |x) = Diag 2v + x2i 2b
6= 2 IN
Dans ce cas, la matrice est bien diagonale, mais les lments diagonaux sont des fonctions
de xi .
Exemple Modle htroscdastique en coupe, forme dhtroscdasticit connue
yi = a + xi b + ui
avec , E (ui |x) = 0, (ui uj |x) = 0 pour i 6= j, E (u2i |x) = g (xi , ) . La forme de la fonction
g est connue mais le paramtre est inconnu. La matrice de variance covariance scrit
alors
V (u |x) = Diag (g (xi , ))

6= 2 IN
Dans ce cas la matrice de variance dpend dun nombre de paramtre infini.

Exemple Modle htroscdastique pur en coupe
yi = a + xi b + ui
avec , E (ui |x) = 0, (vi vj |x) = 0 pour i 6= j, E (vi2 |x) = 2i . La matrice de variance
covariance scrit donc

V (u |x) = Diag 2i
6= 2 IN
Dans ce cas la matrice de variance dpend dun nombre de paramtre infini.

Exemple Donnes de panel. Dautres exemples sont fournis par les donnes double
indice ou encore donnes de panel
yit , xit i = 1, . . . , N, t = 1, . . . , T
Ces donnes correspondent la situation dans laquelle on suit des individus au cours du
temp. i est un indice reprsentant les individus. Le nombre dindividus observs est en
gnral grand. t est lindice temporel, en gnral faible. Le modle scrit comme dhabi-
tude :
yit = xit b + uit i = 1, . . . , N, t = 1, . . . , T
ou encore en empilant les observations relatives un mme individu :
y i = xi b + ui i = 1, . . . , N
6.1. PRSENTATION : HOMOSCDASTICIT ET HTROSCDASTICIT. 85

On fait les hypothses : E (ui |x) = 0, E ui u0j |x = 0 i 6= j, cest dire la condition
didentification est satisfaites, et les observations relatives deux individus dirents sont
non corrles. En revanche on ne fait pas lhypothse E (ui u0i |x) = 2 IT . Le rsidu
uit incorpore des lments inobservs permanent dans le temps. Il est modlis suivant le
Modle erreurs composes
uit = i + wit
avec E (wi w0i |x) = 2W IT , E (i w0i |x) = 0, E (2i |x) = 2 . On dtermine facilement la
matrice de variance
2
+ 2W 2 2
... ... ..
2 .
= V (ui |x) = . . .
.. .. .. 2
2 2 2 + 2W
ainsi que la matrice de variance covariance des rsidus empils
V (u |x) = IN
6= 2 INT
On peut remarquer quun cas intressant est celui dans lequel sur le modle prcdent
on considre les dirences premires yit = yit yit1 . Dans ce cas leet individuel est
limin. En notant
uiT uiT 1
uiT 1 uiT 2

ui = ..
.
ui2 ui1
le modle se rcrit
y i = xi b + ui i = 1, . . . , N
et la matrice de variance des perturbations est alors :

2 1 0 0
...
1 2 0
= V (ui |x) = 2 . .
0 .. .. 1
0 0 1 2
La caractristique intressante est que cette matrice est connue une constante multipli-
cative prs.
Exemple Rgressions empiles : On a considr jusqu prsent le cas dans lequel il
ny avait quune quation. On est parfois amen sintresser un ensemble dquations.
On pourrait en toute gnralit se dire que lon va estimer ces quations une par une. Ce
serait possible mais parfois ce nest pas susant. En eet, on peut vouloir examiner si
certaines proprits faisant intervenir des coecients de direntes quations sont satis-
faites. On peut en fait gnraliser facilement le cadre une quation au cas dquations
multiples. On considre la situation dans laquelle il y a M variables expliquer, et K + 1
variables explicatives :
ymi , xi i = 1, . . . , N, m = 1, . . . , M
Le modle scrit pour chaque variable dpendante :
ymi = xi bm + umi i = 1, . . . , N
ou encore

y1i xi 0 b1 u1i
.. . .
. = 0 . . . 0 .. + ..
yMi 0 xi bM uMi
y i = Diag (xi ) b + ui i = 1, . . . , N,

On fait les hypothses E (ui |x) = 0, cov uiuj |x = 0 i 6= j, V (ui |x) = . Les rsidus
umi nont pas ncessairement la mme variance et peuvent en outre tre corrls entre eux.
La matrice de variance covariance des rsidus empils a alors pour expression
E (uu0 |x) = IN
6= 2 IN T
Tel quil est crit ce modle nimpose pas de contraintes entre les paramtres des direntes
quations. On pourrait nanmoins se trouver dans une situation dans laquelle les para-
mtres de la rgression sont fonction dun paramtre alternatif de dimension plus faible :
b = Hc avec dim b > dim c et H une matrice. le modle scrit dans ce cas :
y i = Diag (xi ) Hc + ui i = 1, . . . , N
ei c + ui
= x
6.1.2 Conclusion des exemples et dfinition du modle linaire

htroscdastique
On conclut de ces exemples quil y a une grande diversit de situations. La matrice de
variance des perturbations peut
dpendre de paramtres additionnels de dimension finie. Cest le cas par exemple
des donnes de panel, des rgressions empiles, des modles de srie temporelle
avec erreur distribue suivant un processus autoregressif dordre 1 ou une moyenne
mobile.
6.2. ESTIMATION PAR LES MCO ET LES MCG 87
dpendre ou non des variables explicatives. Cest le cas par exemple du modle
coecients alatoires, du modle htroscdastique avec htroscdasticit de forme
connue.
dpendre de paramtres additionnels de dimension infinie. Cest le cas du modle h-
troscdastique pur en coupe ou des sries temporelles avec structure de corrlation
quelconque.
Definition On appelle modle linaire htroscdastique le modle dans lequel un vecteur
de variables alatoires y dpend linairement de K + 1 variables explicatives x :
y = xb + u
avec les hypothses

1. H1 : E (u |x) = 0
2. H2 : V (u |x) = = (x, ) inversible
3. H3 : x0 x inversible
Le modle est dit htroscdastique car on na plus lhypothse H2 : V (u |x) = 2 I
dans un tel cas le modle aurait t dit homoscdastique.
On se pose les questions suivantes
Les proprits statistiques de lestimateur des MCO sont-elles modifies ?
Lestimateur est-il toujours sans biais et convergent ?
Quelle est sa matrice de variance et comment lestimer ?
Lestimateur des MCO est-il toujours optimal ?
Comment dtecter la prsence dhtroscdasticit ?
Quelles sont les proprits asymptotiques des estimateurs ?
On ne peut pas esprer avoir un cadre gnral permettant de traiter toutes les si-
tuations. Les rponses que lon va pouvoir apporter ces questions dpendent du cas
considr.
6.2 Estimation par les MCO et les MCG

6.2.1 Proprits des moindres carrs ordinaires
Proposition Sous les hypothses H1, H2, H3, lestimateur des MCO, bbMCO = (x0 x)1 x0 y,
est sans biais :
E bbMCO |x = 0,
et sa variance sachant x est

V bbMCO |x = (x0 x)1 x0 x(x0 x)1 .
Dmonstration On a
bbMCO = (x0 x)1 x0 y = (x0 x)1 x0 (xb + u)
= b + (x0 x)1 x0 u
On a donc pour lesprance de lestimation

E bbMCO |x = b + E (x0 x)1 x0 u|x
= b + (x0 x)1 x0 E (u|x) = b
De plus

b
V bMCO |x = V (x0 x)1 x0 u|x
= (x0 x)1 x0 V (u |x) x(x0 x)1
= (x0 x)1 x0 x(x0 x)1 .
On voit donc que la proprit de sans biais nest pas aecte par la relaxation de
lhypothse H2. En revanche, on voit que la formule de la variance de lestimateur est
dirente. Ce sont donc les carts-type des paramtres qui sont dirents. Cette conclusion
est gnrale. Dans le cadre du modle linaire, le principal problme pos par lexistence
dhtroscdasticit concerne le calcul de la prcision des estimateurs et corrlativement
la validit des dirents tests que lon peut mettre en oeuvre en transposant directement
les procdure issue de lhypothse IID.
6.2.2 La mthode des Moindres Carrs Gnraliss (MCG)

On introduit un autre estimateur appel estimateur des moindres carrs gnralis.
Il correspond la minimisation de la distance entre les observations et lespace engendr
par les variables explicatives, non plus dans la mtrique canonique de RN , mais dans celle
correspondant 1 .
Definition Lestimateur des MCG est solution du problme :

bbMCG = arg min y xb2
1
Proposition Sous les hypothses H1, H2, H3, lestimateur des MCG existe, il est
unique et est donn par :
bbMCG = (x0 1 x)1x0 1 y
Dmonstration Les conditions du premier ordre scrivent :
2

y xbb 1
0 1
= 2x y xb = 0 x0 1 xbb = x0 1 y
b
b
La matrice hessienne de lobjectif a pour expression

2
b
y xb 1

= 2x0 1 x
bb0
Sous H1, H2, H3, x0 1 x est inversible symtrique et positive : a 6= 0 RK+1 , a,
xa 6= 0 sinon x0 x non inversible. Comme est inversible on a (xa)0 1 xa > 0. Do
2

y xbb 1

0
<0:
bb
Les CN sont ncessaires et susantes, bbMCG = (x0 1 x)1 x0 1 y car x0 1 x inversible
Sphricisation.
Lanalyse des proprits de lestimateur des MCG est grandement simplifie lorsque
lon applique aux observations une opration appele sphricisation.
Proposition Pour toute matrice symtrique et dfinie positive W il existe une matrice
W 1/2 telle que
W 1/2 W W 1/20 = I
Cette matrice vrifie aussi
W 1/20 W 1/2 = W 1
Dmonstration Comme W est symtrique dfinie positive, elle est diagonalisable dans
le groupe orthogonal. Il existe donc une matrice orthogonale P (P 0 P = P 1 P = I) telle
que W = P 0 DP, o D est diagonale, les lments de la diagonale tant strictement positifs
puisque W est dfinie positive. On peut considrer W 1/2 = P 0 D1/2 P, o D1/2 est la
matrice diagonale dont les lment diagonaux sont les inverses de la racine des lments
diagonaux de D. On a
W 1/2 W W 1/20 = P 0 D1/2 P P 0 DP P 0 D1/2 P

= P 0 D1/2 DD1/2 P = P 0 P = I
En outre si W 1/2 W W 1/20 = I, alors
W 1/20 W 1/2 W W 1/20 W 1/2 = W 1/20 W 1/2
et donc
W W 1/20 W 1/2 = I
do
W 1/20 W 1/2 = W 1
Ceci permet donc de dfinir une matrice 1/2 . Cette dcomposition nest pas unique.
Par exemple on peut choisir 1/2 semi-dfinie positive. Mais on peut aussi la choisir de
telle sorte quelle ait dautres proprits, un choix qui peut tre utile est celui dans lequel
la matrice est triangulaire infrieure.
Lopration de sphricisation consiste multiplier le modle par lune de ces matrices
1/2
. On a :
1/2 y = 1/2 xb + 1/2 u

ye = x
eb + u
e
Les hypothses du modle peuvent se transposer en partie au cas du modle sphricis :

1/2 1/2
u |e
HS1 : E (e x) = E
u x = 1/2 E (u |x) = 0

HS2 : E (e
uu x ) = E 1/2 uu0 1/20 1/2 x = 1/2 E (uu0 |X ) 1/20 = 1/2 1/20 =
e0 |e
I
HS3 : x e0 x
e = x0 1/20 1/2 x = x0 1 x inversible
Lestimateur des MCG est lestimateur des MCO des coecients de la rgression de ye
sur les colonnes de x e:
b 1 1/20 1/2
ebMCO = (e
x0 x
1 0
e) xe ye = x0 1 x x y
0 1 1 1
= x x x y = bbMCG
Exemple Sphricisation du modle htroscdastique en coupe. On a vu que pour ce

modle la matrice de variance des perturbations scrit :
V (u |x) = Diag (g (xi , ))
On vrifie directement que pour sphriciser le modle on peut prendre

1

1/2 = Diag g (xi , ) 2
Exemple Sphricisation du modle perturbation AR (1). On a vu que pour ce modle

on a

1 2 T
... ... ... ..
.

2 2 . .
2
V (u |x) = 1 .. .. 2

. .
.. .. ... ...
T 2 (1 + 2 )
et on vrifie sans peine que lon peut prendre

p
1 2 0 0
... ..
1 .

... ... ..
0 .
1/2 = .. ... . . . . . . . . . ..
. .

.. ... ...
. 1 0
0 0 1
Lestimateur des MCG peut alors tre calcul comme estimateur des mco appliqu au
modle :
p p p
y1 1 2 x1 1 2 u1 1 2
y2 y1 x2 x1 u2 u1

.. = .. b+ ..
. . .
yT yT 1 xT xT 1 uT uT 1
Exemple Sphricisation des donnes de panel. On a vu que pour des donnes de panel
lorsque les rsidus taient modliss comme
uit = i + it
avec indpendance des i et des wit , la matrice de variance scrivait

2
+ 2 2 2
... ... ..
2 .
V (ui ) = .. ... ...
. 2
2 2 2 + 2
Il est commode dintroduire deux matrices permettant de dcomposer cette matrice

JT
B= , et W = IT B
T
avec JT = eT e0T , o e0T = (1, . . . , 1) . JT est donc une matrice T T dont chaque lment
vaut 1. On vrifie sans peine que ces deux matrices sont symtriques et semi-dfinies
positives. Elles vrifient en outre les proprits
B2 = B
W2 = W
BW = W B = 0
Ces deux matrices ont en outre une interprtation simple. En eet on vrifie que Bzi =
eT zi , o zi est la moyenne individuelle des observations de lindividu i : zi = (zi1 + + ziT ) /T.
Il en suit que W z i est le vecteur form des carts la moyenne individuelle. On peut expri-
mer simplement la matrice de variance des perturbations du modle erreurs composes
partir de ces deux matrices. On a en eet :

V (ui ) = 2 JT + 2 IT = 2 + T 2 B + 2 W
Les matrices de la forme B+W sont stables par multiplication (B + W ) (0 B + 0 W ) =

0 B + 0 W . On en dduit sans peine que
s
1 1 2
V (ui )1/2 = p B+p W W+ B = I + B
( 2 + T 2 ) 2 ( 2 + T 2 )
p
o = 2 / ( 2 + T 2 ) 1. On en dduit que pour sphriciser les donnes il est possible
de rajouter aux observations yit et xit la moyenne individuelle des observations (yi ou
xi ). La quantit est inconnue, mais on peut la calculer aisment partir de la matrice
de variance covariance des rsidus estims par les mco ou partir de deux estimateurs
annexes : lestimateur Between, estimateur des mco sur les moyennes individuelles dont
la variance rsiduelle est 2B = 2 + 2 /T et lestimateur Within, estimateur des mco sur
les carts aux moyennes individuelles dont la matrice de variance est 2W = 2 (T 1) /T
On voit donc que
2 2W T / (T 1) 2W
= =
( 2 + T 2 ) 2B T (T 1) 2B
6.2.3 Proprits statistiques de lesprance et de la variance

conditionnelle des MCG
Proposition Lestimateur des MCG vrifie les proprits
suivantes
Lestimateur des MCG est sans biais : E bbMCG |x = b
Lestimateur des MCG a pour matrice de variance V(bbMCG |x) = (x0 1 x)1
Lestimateur des MCG est lestimateur linaire sans biais de variance minimale (Th.
de Gauss Markov)
Dmonstration bbMCG = (x0 1 x)1x0 1 y = (x0 1 x)1 x1 (xb + u)
bbMCG = b + (x0 1 x)1 x1 u
On a donc

b
E bMCG |x = b + E (x0 1 x)1 x1 u |x
= b + (x0 1 x)1 x1 uE (u |x) = b
6.3. LESTIMATEUR DES MCQG 93
et aussi

V bbMCG |X = V (X 0 1 X)1 X 0 1 U |X
= (X 0 1 X)1 X 0 1 V (U |X ) 1 X(X 0 1 X)1
= (X 0 1 X)1 X 0 1 1 X(X 0 1 X)1
= (X 0 1 X)1
Loptimalit provient directement du fait que nimporte quel estimateur linaire sans biais
du paramtre est aussi un estimateur linaire sans biais du paramtre dans le modle
sphricis. Or dans ce modle lestimateur des MCO est optimal et cet estimateur est
b b
celui des MCG : bbMCG = ebMCO et ebMCO optimal
Les proprits algbriques de lestimateur des MCO du cas homoscdastique se trans-
posent directement au cas des MCG. Nanmoins cette transposition est peu utile en
pratique car on est rarement dans le cas o la matrice de variance est connue. Rappelons
toutefois que dans le cas des donnes de panel on a vu que pour le modle erreurs com-
poses la matrice de variance des erreurs du modle en dirence premire tait connue
un facteur multiplicatif prs.
6.3 Lestimateur des MCQG

Lestimateur des MCG ne peut en gnral pas tre mis en oeuvre car on ne connat pas
la matrice de variance des perturbations , sauf dans des cas trs spcifiques. Il en rsulte
que lestimateur des MCG et la matrice de variance des MCO ne sont pas calculables. Une
faon de procder est de chercher estimer cette matrice et remplacer dans lexpression
de lestimateur la matrice par son estimateur.
Definition Soit b un estimateur de . On appelle estimateur des Moindres Carrs
Quasi-Gnraliss lestimateur :
bbMCQG = (x0
b 1 x)1 x0
b 1 y.
Lestimateur des MCQG nest en gnral pas sans biais ni linaire en y puisque b d-
pend de y. Les proprits de bbMCQG ne peuvent donc tre quasymptotiques. Ces proprits
vont dpendre du cas considr. On sintresse donc la convergence et la distribution
asymptotique des paramtres. Il faut en fait examiner les proprits asymptotiques au cas
par cas suivant la nature de lhtroscdasticit. On peut alors tudier de faon similaire
les proprits asymptotiques de lestimateur des mco.
On va dans les trois chapitres suivants considrer les trois formes importantes dht-
roscdasticit survoles dans la premire partie de ce chapitre.
1. Cas o = IN () et de dimension finie. Cest le cas des donnes de panel

et des rgressions empiles. Lhtroscdasticit est relative des corrlations entre
observations, mais celle-ci sont susamment rgulire.
2. Cas o = IN h (xi , ). Cest le cas de lhtroscdasticit lie aux variables
explicatives.
3. Cas des sries temporelles.
Chapitre 7
Le modle htroscdastique en
coupe
La situation que lon considre est celle dun modle de rgression en coupe
yi = xi b + ui
pour lequel on fait certaines des hypothses prcdentes :

H1 E (ui |xi ) = 0
H2 N x0i xi est inversible
Ces hypothses garantissent lexistence de lestimateur des mco et le fait quil soit sans
biais. On a vu quil y a un grand nombre de situations dans lesquelles on ne peut pas
faire lhypothse dhomoscdasticit : V (ui |xi ) = 2 . ds que cette hypothse dhomos-
cdasticit nest plus satisfaite, on sait que dune part le calcul des cart-type est aect
et dautre part quil est en thorie possible de dfinir des estimateurs plus prcis. On peut
donc sintresser deux questions distinctes : comment faire de linfrence robuste cette
situation dhtroscdasticit ? Ceci revient sinterroger sur lestimation de la matrice
de variance de lestimateur des mco. On peut y rpondre sous des hypothses gnrales
en faisant un eort de spcification minimal du modle, i.e. en laissant la variance des
rsidus pour chaque observation tre spcifique lindividu : V (ui |xi ) = 2i . Il sagit
du modle htroscdastique pur. La deuxime question correspond la mise en oeuvre
destimateurs plus ecaces que les mco. Comme on la vu il sagit de lestimateur des
MCQG. Il est alors ncessaire de spcifier la forme de la variance partir dun nombre de
paramtre restreint : V (ui |xi ) = h (xi , ) . Comme on va le voir il est possible alors sous
certaines hypothses de mettre en oeuvre des estimateurs asymptotiquement quivalents
lestimateur des MCG. Nanmoins si les rsultats des estimations ne sont pas tellement
aects par ce type de procdure et la spcification de la variance, linfrence que lon fait
(le rsultat des tests) est fortement lie ces hypothses faites. Comme en gnral ces
estimations sont faites dans de grands chantillons, le gain decacit est parfois modeste
par rapport au risques lis une mauvaise spcification de la variance conditionnelle des
95
96 CHAPITRE 7. LE MODLE HTROSCDASTIQUE EN COUPE
rsidus. Au total la mise en oeuvre de lestimateur des mCQG dans ce cadre est assez
rare et la plupart du temps on se contente dappliquer les mco et de faire de linfrence
robuste la prsence dhtroscdasticit.
7.1 Infrence robuste lhtroscdasticit

On considre le modle
yi = xi b + ui
les rsultats que lon va montrer sont vrais sous des hypothses trs gnrales autorisant
par exemple le fait que les observations ne soient pas quidistribues. Cest par exemple
le cas dans le modle htroscdastique pur pour lequel V (ui |xi ) = 2i , et dans lequel
on pourrait aussi faire lhypothse que les rgresseurs ne sont pas distribus suivant une
mme loi. On va nanmoins se situer dans un cadre plus proche du prcdent dans lequel
on fera des hypothses dhomognit plus fortes :
H1 Les observations (yi , xi ) RR K+1 , i = 1, ..., N, sont indpendantes et qui-
distribues
H2 E (ui xi ) = 0
H3 V (x0i ui ) = E (u2i x0i xi ) existe
0
H4 H4 N x x et E(x0i xi ) sont inversibles
H5 Les moment |xki xli | existent
H6 Pour tout indice des variables explicatives l1 , l2 , l3 , l4 les moments u2i |xl1 i xl2 i |
|ui | |xl1 i xl2 i xl3 i | et |xl1 i xl2 i xl3 i xl4 i | existent
Comme on le voit la dirence essentielle avec le cadre homoscdastique est que lon
ne fait plus lhypothse V (ui |xi ) = 2 on a une situation beaucoup plus gnrale dans
laquelle par exemple V (ui |xi ) = g (xi ) avec g quelconque pourvu que E(g (xi ) x0i xi ) existe,
ce qui est garanti ds lors que V (ui xi ) existe. On voit que cette plus grande gnralit est
nanmoins paye par une exigence plus forte sur la distribution des variable puisquil faut
que les moments des variables existent jusqu lordre 4 (hypothse H6). Cette dernire
hypothse est utile pour lestimation de la matrice de variance. Elle permet dobtenir
la convergence en probabilit des moments dordre 4. On voit quelle est exigeante et
que, mme si elle est satisfaite, vraisemblablement il sera ncessaire quil y ait un grand
nombre dobservations pour que la moyenne empirique dun polynme de degrs 4 des
observations soit proche de sa valeur limite. Nimporte quelle observation dans les queues
de distributions aura un eet important sur ces moments qui ne sera rsorb que si le
nombre dobservations est grand. Cest pourquoi la notion de proprits asymptotiques
signifie ici plus quailleurs que le nombre dobservations est grand.
7.1. INFRENCE ROBUSTE LHTROSCDASTICIT 97
7.1.1 Proprits asymptotiques de lestimateur


bbmco = (x0 x)1 x0 y = x0 xi 1 x0 yi
i i
vrifie quand N
1. bbmco b, lestimateur est convergent
P

L
2. N bbmco b N 0, Vas bbmco , lestimateur est asymptotiquement normal

b
3. Vas bmco = [E(x0i xi )]1 E(u2i x0i xi ) [E(x0i xi )]1
Sous les hypothses H1-H7 on a en plus
1 1 P

4. Vb bbmco = (x0i xi ) u b2i x0i xi x0i xi V bbmco on peut estimer la matrice de variance
1/2
5. N Vb bbmco bbmco b L
N (0, I)
1 0
Dmonstration Convergence bbmco = b+ x0i xi xi ui . Lexistence des moments |xki xli |
P
de xi garantie la convergence de x0i xi E (x0i xi ) . La seule chose quil y ait montrer est
la convergence de x0i ui vers E (x0i ui ) . Pour cela on applique la loi des grands nombres :
E (x0i ui ) = 0 et V (x0i ui ) = E(u2i x0i xi ). On est dans les condition dapplication de la loi des
P
grands nombres : x0i ui E (x0i ui ) = 0.
Normalit asymptotique La encore la seule question est celle de la convergence
de Nx0i ui . mais comme prcdemment, lexistence des moments dordre 1 et 2 de x0i ui ,
L
E (x0i ui ) = 0, V (x0i ui ) = E(u2i x0i xi ) garantissent que Nx0i ui N (0, E(u2i x0i xi )) . Il en
1
rsulte que N bbmco b = Nx0i xi x0i ui N 0, E (x0i xi )1 E(u2i x0i xi )E (x0i xi )1
L
Convergence de lestimation de la matrice de variance.

P
Le point important est de montrer que u b2i x0i xi E (u2i x0i xi )
2
b2i x0i xi = xi b bbmco + ui x0i xi
u
2
= u2i x0i xi + xi b bbmco x0i xi +

b
2 b bmco x0i ui x0i xi
Pour que le premier terme converge en probabilit vers son esprance, il est ncessaire
que les lments qui la forme u2i xl1 i xl2 i satisfasse la loi de grands nombres. Ce qui est
garanti par la proprit H6. Le troisime terme tend alors vers zro en probabilit puisque
P
x0i ui x0i xi E (x0i ui x0i xi ) = 0. Le second
terme
tend aussivers zro puisque les lments
qui le constituent sont de la forme bk bbkmco bl bblmco xli xki xl1 i xl2 i et xli xki xl1 i xl2 i
P
P
E (xli xki xl1 i xl2 i ) puisque les moments dordre 4 existent et que bkmco bk 0.
Cet estimateur de la matrice de variance de lestimateur des mco est connu sous le
nom de matrice de variance de White robuste lhtroscdasticit. Il est trs
couramment utilis et systmatiquement propos dans les logiciels standards (sauf SAS).
Remarque L encore les rsultats peuvent tre gnraliss au cas dans lequel on ne
fait plus lhypothse dquidistribution. Ceci permet en particulier de traiter le cas du
modle htroscdastique pur, dans lequel V (ui |xi ) = 2i . Tous les rsultats dcoulent de
lapplication du thorme central limite de Liapounov x0i ui . . Il faut donc que la condition
P N
de Liapounov soit satisfaite. Si on considre 2N = n=1 2n N et si on considre 3i =
P . . 1
E (|u3i | |xi ) ainsi que 3N = N
n=1 n
3
N, il sut que 3
N N 6 2N 0, si par exemple
h i1
L
les variable explicatives sont iid. On sait qualors . 2N E (x0i xi ) Nx0i ui N (0, I) .
Ces rsultats se gnralisent directement sans modification au cas des donnes de panel
et au cas des quations empiles. Si on considre le modle
y i = xi b + ui , y i de dim M 1, xi de dim M K + 1
spcifi en terme de vecteur y i , xi et ui . Sous des hypothses convenables, dont la condition
didentification E (ui |xi ) = 0, et lanalogue de la condition prcdente pour la variance
E (x0i ui u0i xi ) existe et des conditions sur lexistence de moments des variables dun ordre
lev. On a lextension des rsultats prcdents :
P

L


3. Vas bbmco = [E(x0i xi )]1 E (x0i ui u0i xi ) [E(x0i xi )]1
1

b b 0 0 0 0 1 P b
4. V bmco = (xi xi ) xi b bi xi xi xi V bmco on peut estimer la matrice de va-
ui u
riance
1/2
L
5. N Vb bbmco bbmco b N (0, I)
7.1.2 Test dhypothses dans le modle htroscdastique

Lintrt de ces rsultats est bien sur la possibilit deectuer des tests. On sintresse
des tests dune hypothse nulle de la forme H0 : Rb = r.
Proposition Sous les hypothses H1-H7,
1
1/2
0 2 0 0 1 0 b L
N R(xi xi ) u bi xi xi xi xi R Rbmco r N (0, Ip )
o p est le nombre de ligne de la matrice R. Sous lhypothse H0 : Rb = r, la statistique

0 h 1
i1
b b 0 1 0 b L
0
S = N Rbmco r R(xi xi ) u 2 0
bi xi xi xi xi R Rbmco r 2 (p)
7.1. INFRENCE ROBUSTE LHTROSCDASTICIT 99
Un test de H0 contre H1o: Rb 6= r peut tre eectu partir de la rgion critique W =

n

Sb Sb > q (2 (p) , 1 ) o q (2 (p) , 1 ) est le quantile dordre 1 de la loi du
2 p degrs de liberts.
Remarque On remarque que dans ce cas le principe du test de Fisher se gnralise. Dans
le cas homoscdastique, le test de Fisher consistait regarder comme ici si Rbbmco r est
proche ou non de zro. On a vu que dans le cas homoscdastique, il est possible de rcrire
la statistique partir des sommes des carrs des rsidus sous les hypothses nulles et
alternatives. Ici cette dernire simplification nest plus possible. Il faut donc prendre garde
au fait que dans de nombreux logiciels on peut simplement mettre en oeuvre les tests de
Fisher, mais que ceux-ci sont faits sous lhypothse dhomoscdasticit.
Remarque Le principe du test se gnralise l aussi au test dhypothses non linaire de
la forme H0 : g (b) = 0. On utilise l encore la mthode delta. La statistique de test est de
b 0 1
b 0 g(bb) c b
b
la forme S = Ng(b) b0 Vas b g( b)
b0
g(bb). Par rapport au cas homoscdastique,
la seule dirence est que la matrice de variance prendre en compte est la matrice de
variance robuste.
7.1.3 Estimation sous contraintes linaires en prsence dht-

roscdasticit
On ne prsente pas ici tous les rsultats. Lestimateur des moindres carrs contraints
est toujours calcul de la mme manire comme
1
1 h i
= bmco (x0 x)1 R0 R(x0 x)1 R0 R bmco r
On a
h 1 i 0 1 0
bmcc b = I (x0 x)1 R0 R(x0 x)1 R0 R (x x) x u
h i1
1 0 1 0 1
= I x0i xi R Rx0i xi R R x0i xi x0i ui
Sous les mme hypothses que prcdemment, on peut dterminer la loi asymptotique de
lestimateur et un estimateur convergent de la matrice de variance asymptotique.
P

L

b
3. Vas bmco = [I H] E(x0i xi )1 E(u2i x0i xi )E(x0i xi )1 [I H 0 ]
1
avec H = E(x0i xi )1 R0 [RE(x0i xi )1 R0 ] R
h i h i
4. Vbas bbmco = I H b (x0 xi )1 u
b2 0
x xi x0 1
xi I b
H
P
Vas
bbmco ,
i i i i
h i1
avec H b = x0 xi 1 R0 Rx0 xi 1 R0 R
i i
1/2
5. N Vbas bbmco bbmco b L
N (0, I)
7.2 Test dhtroscdasticit

7.2.1 Le test de Breush-Pagan
La dirence essentielle entre lapproche avec htroscdasticit et lapproche sans h-
troscdasticit est que E (u2i xi x0i ) 6= E (u2i ) E ( xi x0i ) . Un test naturel dhomoscdasticit
consiste donc tester si E (u2i xi x0i ) = E (u2i ) E (xi x0i ) . Ce qui revient exactement tester
la nullit globale du vecteur des coecients de la projection orthogonale de u2i sur les
variables explicatives xli xmi l, m K + 1 sauf la constante. Le test ne fait intervenir que
la projection de u2i et pas une modlisation de la forme de lhtroscdasticit. On ne
spcifie pas en particulier
X
E u2i |xi = xli xmi lm
l,mK+1
P
et le test que lon fait nest pas H0 : E (u2i |xi ) = 2 contre H1 : E (u2i |xi ) = xli xmi lm
l,mK+1
mais simplement celui de

H0 : E u2i xi x0i = E u2i E (xi x0i )
contre
H1 : E u2i xi x0i 6= E u2i E (xi x0i )
Le test se fait nanmoins au moyen de la rgression
X
u2i = xli xmi lm + vi
l,mK+1
Ici vi est dfini par la proprit E (vi xli xmi ) = 0. Lide du test est de procder au
test de la nullit jointe des coecients de la rgressions prcdente. Pour cela il faut
connatre la loi asymptotique des estimateurs. On pourrait lobtenir sous des condi-
tions gnrales par exemple ne faisant pas dhypothses sur les moments dordre 2 de
la forme E (vi2 xli xmi xl0 i xm0 i ) . Nanmoins on fait en gnral le test de la nullit globale
sous lhypothse dhomoscdasticit des rsidus vi : cest dire E (vi2 xli xmi xl0 i xm0 i ) =
E (vi2 ) E (xli xmi xl0 i xm0 i ) . Dans ce cas le test est trs simple mettre en oeuvre il sagit
simplement du test de la nullit globale des coecients dans une rgression. Un problme
7.2. TEST DHTROSCDASTICIT 101
vient du fait que le rsidu nest pas observ mais seulement estim, mais xomme pour les
autres rsultats asymptotiques que lon a vu, il sut de remplacer le rsidu par le rsidu
estim On a le rsultat suivant :
yi = xi b + ui
avec les hypothses H1-H6, le test de lhypothse

H0 : E u2i xli xmi ) = E u2i E (xli xmi )
peut tre fait simplement comme un test de nullit jointe des coecients sauf celui de la
constnate dans le modle de rgression
X
u2i = xli xmi lm + vi
l,mK+1
o vi est dfini par E (vi xli xmi ) = 0 et dans lequel on fait lhypothse de rgularit
E (vi2 xli xmi xl0 i xm0 i ) = 2 E (xli xmi xl0 i xm0 i ) . Le test est mis en oeuvre partir du modle
de rgrsssion X
b2i =
u xli xmi lm + vi
l,mK+1
incluant (K + 1) (K + 2) /2 variables, dans lequel on fait un test de nullit jointes de tous

les paramtres excepte la constante. Sous H0 , la statistique NR2 suit un 2 ((K + 1) (K + 2) /2 1).
Un test convergent au niveau peut tre fait partir de la rgion critique {NR2 | NR2 >
q (2 ((K + 1) (K + 2) /2 1) , 1 )}
Dmonstration Il est dabord ncessaire de montrer que si pour une variable z1 de di-
mension 1 et une variable z2 de dimension q, lhypothse E (z1 z2 ) = E (z1 ) E (z2 ) est ana-
logue lhypothse de nullit de la valeur limite des coecients sauf la constante de la pro-
jection orthogonale de z1 sur (1, z2 ). En eet les coecients de z2 sont obtenus directement
comme ceux de la rgression
de la variable z1 E (z1 ) sur z2 E (z2 ) . Ils ont donc pour
expression V z21 E (z2 E (z2 ))0 (z1 E (z1 )) = V z21 E (z20 z1 ) E (z2 )0 E (z1 )
= 0.
Le seul point restant montrer est que sous les hypothses faites lestimateur des co-
ecients dans le modle avec u b est asymptotiquement quivalent celui avec u. Pour
2
P
cela il sut de montrer que N zi u bi zi u2i 0, avec z les lments du type xli xmi .
2
Comme u b
bi = ui + xi b b , do zi u 2 2 b 2 b
bi = zi ui + 2zi ui xi b b + zi xi b b . Il en
2 2
rsulte que N zi u bi zi u2i = 2zi ui xi N b bb + zi x2i N b bb . Sous les hy-
P
pothses H0 H6 : zi ui xi E (ziui xi ) = E (zi xi E (ui |xi )) = 0, donc
z
i ui xi = o (1)

et zi x2i E (zi x2i ) . En outre N b bb N (0, Vas ) , donc N b bb = O (1) et
P L
2
zi x2i N b bb = O (1) . Comme b bb = o (1) , zi x2i N b bb = o (1) . Comme

zi ui xi = o (1) et N b bb = O (1) , zi ui xi N b bb = o (1) .
Remarque 1. Lintrt de ce test dhtroscdasticit est dinformer sur les situa-

tions dans lesquelles il est ncessaire deectuer la correction de White pour lht-
roscdasticit. Si on accepte lhypothse dhomoscdasticit, alors on pourra estimer
la matrice de variance des estimateurs sous sa forme standard, et on pourra eectuer
les tests dhypothses linaires comme on a vu partir des sommes des carrs des
rsidus sous les hypothses nulles et alternatives, ce qui prsente un intrt pratique
certain. Sinon, on utilise la formule donnant la matrice robuste de White et les tests
doivent tre eectus comme on la montr dans le cadre htroscdastique.
2. Ce type de test stend aussi au cas dans lequel on spcifie un modle pour lh-
troscdasticit. On pourrait par exemple spcifierP une forme dhtroscdasticit
particulire, par exemple E (u2i |xi )) = 2 + xli xmi lm , ou plus gnralement
l,mK+1
P
E (u2i |xi )) = Pd (x) d , avec Pd un ensemble de fonction et eectuer un test de
d<D
la nullit jointe des paramtres pour tester labsence dhtroscdasticit de la forme
particulire impose. Dans ce cas on aura un test de lhypoyhse

H0 : E u2i |xi ) = 2
contre

H1 : E u2i |xi ) = 2 + z
dans lequel z est un sous-ensemble des variables explicatives, peut tre fait simple-
ment partir de la rgression
b2i = a0 + z + vi
u
incluant KZ variables entrant dans z, dans lequel on fait un test de nullit jointes
de tous les paramtres excepte la constante. Sous H0 , la statistique NR2 suit un
2 (KZ ). Un test convergent au niveau peut tre fait de la rgion critique
{NR2 |NR2 > q (2 (KZ ) , 1 )}
Le sens du test est nanmoins dirents. Ces test sont des test portant sur un para-
mtrage de lhtroscdasticit, alors que le premier test ne porte que sur labsence
de covariance entre le rsidus au carr et les polynmes dordre 2 des variables
explicatives. Postuler une forme dhtroscdasticit est utile pour la prendre en
compte par exemple pour mettre en oeuvre lestimateur des mcqg. Exaliner labsence
de corrlation au deuximeordre est utile pour le choix du calcul de la matrice de
variance.
7.2. TEST DHTROSCDASTICIT 103
7.2.2 Test de Goldfeld-Quandt

Une forme plus ancienne des tests dhtroscdasticit est donne par le test de Gold-
feld Quandt. Il sagit dune situation dans laquelle on suspecte quune variable donne z
joue sur la variance des rgresseurs de faon monotone, cest dire E (u2i |xi )) = 2 +h (z) ,
avec dim z = 1 et h une fonction croissante. Lide du test de Goldfeld et Quandt est dor-
donner les observations en fonction de zi et de partitionner ensuite les observations en
deux groupes tels que

y1 x01

y 1 = ... , x1 = ... ,
yN1 x0N1

yN2 +1 x0N2 +1

y 2 = ... , x2 = ... .
yN x0N
Les seuils N1 et N2 sont choisis de faon carter les deux chantillons. En pratique on
prend N1 N/3 et N2 2N/3. Lide du test de Goldfeldt et Quandt est de comparer
les estimateurs des variances dans chaque sous chantillons
X 1 N
1
b21
= (yi x0ibb1 )2 ,
N1 K 1 i=1
1 X
N
b22
= (yi x0ibb2 )2
N N2 K 1 i=N +1
2
Sous lhypothse dhomoscdasticit,

20
b21
2 ,
N1 K 1 N1 K1
20
b22
2 .
N N2 K 1 NN2 K1
Si bien que
b21

FN1 K1,NN2 K1 .
b22

Lhypothse nulle dhomoscdasticit est rejete au seuil si
b21

> FN1 K1,NN2 K1 (1 )
b22

o FN1 K1,NN2 K1 (1 ) est le quantile 1 de la loi de Fisher N1 K 1 et
N N2 K 1 degrs de libert. Ce test nest plus tellement utilis. Il a t dvelopp
dans le cadre spcifique dans lequel les rsidus sont normaux et la statistique de test est
exacte et non pas asymptotique. Cest la raison pour laquelle dailleurs les estimateurs
du paramtre b sont dirents dans les deux chantillons. Cela garantit en eet que les
deux estimateurs des variances sont indpendants, ce qui est important pour construire la
statistique de Fisher. Il en rsulte dailleurs que le test eectu nest pas ncessairement le
test dhtroscdasticit puisque les hypothses nulles et alternatives du test de Goldfeld
et Quandt sont
H0 : 21 = 22 et b1 b2 <
contre
H1 : 21 6= 22 et b1 b2 <
Alors que le test dhtrognit pur est un test de
H0 : 21 = 22 et b1 = b2
contre
H1 : 21 6= 22 et b1 = b2
En tout tat de cause rien nempche de considrer des indicatrices dappartenance aux
trois sous chantillons I1 = {i < N1 } , I2 = {N1 i < N2 } et I3 = {N2 i} , et dexami-
ner les resultats de la rgression
b2i = 2 + 1 I1 + 3 I3 + vi
u
et de tester lgalit 1 = 3 .
7.3 Lestimateur des MCQG dans le cas o V (ui |xi ) =

h (, xi)
Un cas pouvant se prsenter est celui dans lequel on spcifie le moment dordre 1 et
le moment dordre 2 dune variable conditionnellement des variables explicatives. On a
alors un modle de la forme
E (yi |xi ) = xi b
V (yi |xi ) = h (xi , ) > 0
o h est une fonction connue, mais un paramtre inconnu. On est typiquement dans un
cas htroscdastique, et on sait que lestimateur des MCG serait lestimateur linaire sans
biais le plus ecace du paramtre b. Cet estimateur pourrait tre obtenu en sphricisant
dabord
p les observations, i.e. en divisant les variables explicatives et la variable dpendante
par h (xi , ) puis en appliquant lestimateur des MCO. Nanmoins il nest pas possible
de mettre en oeuvre cette mthode directement car le paramtre est inconnu. On peut
7.3. LESTIMATEUR DES MCQG DANS LE CAS O V (UI |XI ) = H (, XI ) 105
nanmoins dans certaines situations avoir un estimateur convergent b

du paramtre
r , et
on met alors en oeuvre lestimateur des MCQG en divisant les variables par h xi , b
.
On tudie ici les conditions sous lesquelles lestimateur obtenu est asymptotiquement
quivalent lestimateur des MCG et sera donc lestimateur de variance minimale. Il
convient nanmoins de remarquer que ce type de dmarche est rarement mis en oeuvre. En
eet, on a tendance privilgier la robustesse des estimations et les tailles dchantillons
parfois trs grands dont on dispose incitent le faire. Il sagit ici non pas de la robustesse
de lestimateur du paramtre b mais de la robustesse et de la convergence de lestimateur
de la variance de ce paramtre. Les rsultats de linfrence faite lorsquon spcifie les deux
moments sont ncessairement plus fragiles que lorsquon ne spcifie quun seul de ces deux
moments.
H0 Les observations (yi , xi ) RR K+1 , i = 1, ..., N, sont IID
H1 E (ui |xi ) = 0
H2 H2 V (ui |xi ) = h (, xi ) mesurable et drivable
0
H5 Les moment |x li | existent
ki x
H6 b = 0 + O 1/ N o 0 est la vraie valeur du paramtre
0 1 0 1
H7
0 une fonction
d (xi ) telle que Max (|xli ui | |h (, xi )| , |xli ui | h (, xi ) ,
x xl2 i h (, xi ) < d (xi ) et E (d (xi )) <
1
l1 i
Ce modle spcifie donc la fois les moments dordre 1et 2 des rsidus condition-
nellement aux variables explicatives. La condition H7 garantie la convergence uniforme
P
en des moyennes empiriques de fonction de vers leur esprance h1 (, xi ) x0i xi
P P
E(h1 (, xi ) x0i xi ), h1 (, xi ) x0i ui E(h1 (, xi ) x0i ui ) et h1 (, xi ) x0i ui E(h1 (, xi ) x0i ui ).
Proposition Sous les hypothses H0 H7, lestimateur des MCQG
1
bbmcqg = x0i xi x0i yi

b
h xi , b
h xi ,
vrifie quand N
1. bbmcqg b, Convergence
P

L

2. N bbmcqg b N 0, Vas bbmcqg , Normalit asymptotique
h i1
b x0i xi b
3. Vas bmcqg = E( h(xi ,0 ) ) =V bmcg Equivalence des MCQG et des MCG
1
b as bbmcqg = x0i xi P
4. V h(xi ,0 )
Vas bbmcqg Estimation de la matrice de variance asymp-
totique Vas
1/2
b b b L
5. N Vas bmcqg bmcqg b N (0, I)

Dmonstration Soit b hi = h b , xi .
1
Convergence bbmcqg = b + b h1i x 0
x
i i
b
h1 0
i xi ui

h1 b P P
xi , x0i zi E (h1 (xi , 0 ) x0i zi ) comme 0 et par lhypothse H7 qui garan-
tit la convergence uniforme

b P
h1 x0 zi E h1 x0 zi
i i i i
Do la convergence de lestimateur puisque E (h1 (xi , 0 ) x0i ui ) = 0.

1 0 L x0 x
Le seul point montrer est N b hi xi ui N 0, E( h(xii ,i0 ) )
1 1
Nb
hi x0i ui = N b
hi h1 (xi , 0 ) x0i ui + Nh1 (xi , 0 ) x0i ui
Le deuxime terme converge clairement en loi puisque h1 (xi , 0 ) x0i ui a des moments
x0 x
dordre 1 et 2. On a dailleurs par un calcul immdiat V (h1 (xi , 0 ) x0i ui ) = E( h(xii ,i0 ) ). On

b 1 1
applique le thorme de la valeur moyenne hi h (xi , 0 ) = h 1 e b
, xi , avec

e
< b On peut donc crire N b h1
i h1 (x , ) x0 u = x0 u h1 e
i 0 i i i i , x i

N b et N b est born en probabilit et par lhypothse H7 x0i ui h1 e
P
, xi

E x0i ui h1 e 0 , xi = 0
Les deux derniers points se dmontrent de la mme faon que prcdemment
7.3.1 Application
On considre le modle en coupe
yi = xi b + ui
dans lequel on spcifie la forme de lhtrognit.

P
Cas : E(ui |xi ) = xli xmi lm
l,mK+1
On procde de la faon suivante

1. Calcul de bbMCO et des rsidus : u
bi = yi xibbMCO .
P
b2i sur les variables xli xmi : u
2. Rgression de u b2i = xli xmi lm + wi
l,mK+1
7.4. EXEMPLE : ESTIMATION DUNE QUATION DE SALAIRE 107
r P
bi par
3. Construction dun estimateur de bi = xli xmi lm
l,mK+1
4. Calcul des donnes sphricises : yei = yi /b ei = xi /b

i , x i
5. Calcul de lestimateur des MCO sur ces donnes
b converge bien vers la vraie valeur.
On a vu les conditions sous lesquelles lestimateur
Cette spcfication a nanmoins linconvnient de ne pas imposer la positivit de u2i . Bien
quelle soit naturelle, on lui rpfre souvent pour cette raison dautres traitement de
lhtroscdasticit en particculier avec des formes exponentielles.
!
P
Cas : ui = vi exp xli xmi lm
l,mK+1
On suppose de plus que vi est indpendant

! de xi avec E (vi ) = 0 et V (vi ) = 1. On a
P
donc E (u2i |xi ) = exp 2 xli xmi lm . Cette forme est utile et souvent choisie car
l,mK+1
elle garantit que la variance conditionnelle est positive. Il faut estimer le paramtre . Ceci
est fait partir du logarithme
P des rsidus des mco au carr. On a en eet E (ln (u2i ) |xi ) =
E (2 ln (|vi |) |xi ) + 2 xli xmi lm . Les coecients l,m , except celui de la constante
l,mK+1
sont donc estims de faon convergente partir dune rgression de ln (u2i ) .
On procde de la faon suivante :
bi = yi xibbMCO .
1. Calcul de bbMCO et des rsidus : u
u2i ) sur les variables zi : ln (b
2. Rgression de ln (b u2i ) = xli xmi lm + wi .
3. Construction dun estimateur de bi par bi = exp z 0bi
4. Calcul des donnes sphricises : yei = yi /b ei = xi /b
i , x i
5. Calcul de lestimateur des MCO sur ces donnes
7.4 Exemple : estimation dune quation de salaire

On illustre les rsultats de ce chapitre en estimant une quation de salaire. Cette qua-
tion dite de Mincer relie le salaire (en logarithme) au niveau dducation et lexprience.
Le niveau dducation est mesur par le nombre danne de scolarit, et lexprience en
nombre dannes coules depuis la fin des tudes. La spcification retenue est quadra-
tique :
wi = 0 + s scoi + e expi + e (expi 10)2 + h hom me + ui
le rendement de lducation est laccroissement du salaire li laugmentation dune an-
ne de la scolarit : s . Le paramtre s reprsente donc le rendement de lducation
bmco s(bmco) sw(bmco) sw(bmco)/s(bmco)

Cste 4.11090 (0.02932) (0.03587) 1.224
scolarit 0.06346 (0.00182) (0.00218) 1.196
exprience 0.02568 (0.00078) (0.00089) 1.144
exprience -0.00052 (0.00004) (0.00004) 1.049
homme 0.15131 (0.00829) (0.00832) 1.004
Tab. 7.1 Estimateur des mco avec cart-types robustes et standards
au bout de 12 annes dtude. De mme le rendement de lexprience est estim comme

e + 2 e (expi 20) . Le coecient e sinterprte donc comme le rendement de lexp-
rience 20 ans, et le coecients e reflte quant lui la nature croissante ou non des
rendements de lexprience. Lquation est dabord estime par les mco. On calcule pour
cette estimation les carts-type de deux faons : dabord avec la formule standard des
1
mco Vbas (1) = b2 x0i xi et Vbb (1) = Vbas (1) /N puis avec la formule robuste de White
1 2 0 1
Vbas (2) = x0i xi ubi xi xi x0i xi et Vbb (2) = Vbas /N. Les rsultats sont prsents dans le ta-
bleau 7.1
La premire colonne donne la valeur estime du paramtre. La deuxime lcart-type

estim par la formule ignorant lhtroscdasticit, la troisime colonne donne lcart-
type robuste calcul avec la matrice de White. Enfin la dernire colonne donne le ratio
entre les deux carts-type. Les rsultats sont obtenus sur un chantillon de 6975 salaris
dans le commerce en 2002. Les rsultats montrent que le rendement de lducation est
6.3%. Une anne dducation supplmentaire conduit donc un accroissement du salaire
de 6.2%. On observe que le rendement de lexprience est dcroissant avec lage. Il est
de 2.6% pour une anne supplmentaire 10 ans danciennet et de 2.0% 20 ans.
Enfin on voit que les hommes sont pays 15% plus que les femmes. Lintrt principal
de ce tableau rside nanmoins dans les carts-type estims. On voit quen gnral les
carts-type tenant compte de lhtroscdasticit sont plus levs et quen terme relatif
les dirences sont leves. Ainsi pour le coecient de la scolarit lerreur est de 20%. On
voit nanmoins que dans labsolu les carts-type ne sont pas fondamentalement dirents.
Ainsi pour la scolarit lintervalle de confiance 95% calcul avec le premier cart-type
est de [5.98 , 6.71] alors quavec le second il est de [5.91 , 6.78] .
Malgr cette faible dirence, on peut faire un test dhtroscdasticit. Pour cela
on rgresse le rsidu au carr sur les variables explicatives leurs carrs et leurs produits
ei = 1, scoi , expi , exp2i , Homme,
croiss : cest dire sur les treize variables explicatives x
scoi , scoi expi , scoi expi , scoi Homme, expi , expi Homme, exp2i Homme. On parvient au
2 2 3
rsultats reports dans le tableau 7.2 pour cette rgression.

parametre cart-type student

Cste 0.8783 (0.1262) 6.96
scolarit -0.1024 (0.0158) -6.50
exprience -0.0352 (0.0044) -8.04
exprience 0.0028 (0.0003) 8.21
homme -0.0101 (0.0524) -0.19
scolarit 0.0028 (0.0005) 5.45
scolarit x exprience 0.0030 (0.0003) 10.03
scolarit x exprience -0.0001 (0.0000) -5.95
scolarit x homme 0.0029 (0.0033) 0.88
exprience3 -0.0001 (0.0000) -5.50
exprience x homme -0.0018 (0.0014) -1.29
exprience4 0.0000 (0.0000) 4.00
exprience x homme 0.0001 (0.0001) 1.24
R F
0.0287605 187.51859
Tab. 7.2 Rgression du carr du rsidu sur les variables et leurs produits croiss
Le tableau donne le paramtre estim ainsi que son cart-type. On voit que de nom-
breux coecients sont significatifs : la scolarit, lexprience, lexprience au carr.... Le
test dhtroscdasticit consiste faire un test de nullit globale mis part la constante.
Ce test peut se faire partir du R2 de la rgression en examinant la statistique F = NR2 .
La statistique suit est un 2 (12) . Bien que le R2 soit trs faible, la statistique est trs
leve et excde trs largement la valeur seuil dun test 5% : 21.03. On rejette donc
lhypothse de nullit globale. Lhypothse dhomoscdasticit est ainsi trs fortement
rejete.
Si on spcifie la forme de lhtroscdasticit, on peut mettre en oeuvre lestimateur
des mCQG. On spcifie comme cela est fait en gnral cette htrognit sous la forme
dune exponentielle. On spcifie alors la perturbation comme
ui = vi exp (e
xi )
ei reprsente lensemble des variables explicatives, de leurs carrs et de leurs produits

o x
croiss. On fait lhypothse
vi xi
Sous cette hypothse
ln u2i = x
ei + ln vi2
Le paramtre est estim la constante prs partir de la rgression

E ln u2i |xi = x ei
parametre cart-type
Cste -0.1030 (0.9749)
scolarit -0.5734 (0.1216)
exprience -0.2728 (0.0338)
exprience 0.0220 (0.0026)
homme 0.0779 (0.4043)
scolarit 0.0170 (0.0039)
scolarit x exprience 0.0235 (0.0023)
scolarit x exprience -0.0008 (0.0001)
scolarit x homme 0.0018 (0.0256)
exprience3 -0.0004 (0.0001)
exprience x homme -0.0007 (0.0109)
exprience4 0.0000 (0.0000)
exprience x homme 0.0000 (0.0005)
257.72443 12
Tab. 7.3 Rgression du logarithme du carr du rsidu sur les variables et leurs produits
croiss
puisque E (ln (vi2 ) |xi ) = E (ln (vi2 ) |xi ) . Les rsultats auxquels on parvient sont reports
dans le tableau 7.3.
On voit que l aussi de nombreux paramtres sont significatifs, et on pourrait comme

prcdemment faire un test dhtroscdasticit correspondant au test de la nullit globale
des paramtres, partir du R2 .de la rgression. On parviendrait la statistique de 255.30,
plus leve que la prcdente mais conduisant la mme conclusion que lon rejette
fortement lhypothse dhomoscdasticit. Toutefois lintrt de cette rgression est de
rcuprer la valeur prdite et den dduire une estimation de la variance
conditionnelle.
A partir de ces estimations on peut en eet calculer 2
b (xi ) = exp x b , et on sphricise
ei

les donnes en divisant le modle par exp x b
ei /2 . On considre ainsi yisph = yi /b
(xi )
(xi ) , y compris la constante. Pour trouver lestimateur des mCQG, on
et xisph = xi /b
procde alors la rgression par les mco. Bien sur il est l aussi possible de calculer un
estimateur robuste de la matrice de variance du paramtre exactement comme on le fait
en labsence de correction dhtroscdasticit. Normalement les carts-type doivent tre
trs proches, si la correction retir toute lhtroscdasticit du modle. On parvient
aux rsultats reports dans le tableau 7.4.
bmcqg s(bmcqg) sw(bmcqg) s(bmcqg)/sw(bmco) sw(bmcqg)/sbmcqg)

Cste 4.26942 (0.03118) (0.03152) 0.869 1.011
scolarit 0.05496 (0.00194) (0.00197) 0.892 1.015
exprience 0.02275 (0.00080) (0.00079) 0.899 0.988
exprience -0.00046 (0.00003) (0.00004) 0.904 1.044
homme 0.14501 (0.00769) (0.00781) 0.924 1.015
Tab. 7.4 Estimateur des mcqg
On voit que les rsultats sont un peu changs. On remarque en particulier une baisse du
rendement de lducation qui passe de 6.3% 5,5%. Cette dirence faible est inquitante
car l encore les deux paramtres devraient tre trs proches et l il dirent plus que
ce quimplique lordre de grandeurs de la prcision des estimations. Ceci nest donc pas
une bonne nouvelle en ce qui concerne la convergence des estimateurs. On voit nanmoins
que les carts-type sont modifis. On vrifie bien la proprit des mCQG que les carts-
type correspondants sont plus petits que ceux des mco : le gain est ici de lordre de
10%. Toutefois compte tenu de la taille de lchantillon, cela ne reprsente quun gain
modeste en terme de largeur de lintervalle de confiance. Les changements ne sont pas
bouleversants. On observe par ailleurs une plus grande similitude entre les carts-type du
modle sphricis robuste et directement obtenus que dans le cas prcdent.
En conclusion de cet exemple, lhtroscdasticit est bien prsente ici, mais les dif-
frentes faons de la prendre en compte soit dans le calcul des carts-type, soit par la
mise en oeuvre des mCQG, ne conduisent pas des modifications considrables dans la
prcision des estimateurs et leur estimation. L encore on se rend compte que la vraie
question est plus lexistence de biais dans les estimations que celle de la possibilit de gains
importants dans la prcision des estimateurs. On verra par la suite que lorsque lon aborde
cette question, les estimateurs que lon pourra mettre en oeuvre vont devenir beaucoup
moins prcis. Dans ce cas, la correction de lhtroscdasticit pourra reprsenter un gain
apprciable de prcision.
Chapitre 8
Autocorrlation des rsidus dans les
sries temporelles
Dans les modles en srie temporelles, lhypothse de non-autocorrlation des pertur-

bations est assez forte et frquemment non-vrifie
On considre les modles sur srie temporelle :
yt = xt b + ut , t = 1, . . . , T
On est donc dans un cadre dans lequel on ne peut plus faire lhypothse dindpendance
des observations.
On va voir ce sujet :
direntes formes dautocorrlation,
les tests permettant de dtecter lautocorrlation,
les mthodes destimation adaptes en prsence dautocorrlation.
8.1 Direntes formes dautocorrlation des pertur-

bations
8.1.1 Processus stationnaires au premier et au second ordres
Un processus est une srie temporelle (zt ) . On dit quil est stationnaire au premier
et au second ordre lorsque les moments dordre 1 E (zt ) = est indpendant de t, et
Cov (zt , zs ) = ts , ne dpend que du nombre de dates sparant les deux observations.
On ne considrera que des processus stationnaires au premier et au second ordre.
On peut nanmoins citer quelques exemple de processus non stationnaires. Une variable
trende par exemple ne suit pas de processus stationnaire au premier ordre puisque
E (zt ) = a + bt. Une marche alatoire zt = zt1 + t , avec t , IID de moyenne nulle et de
variance 2 constante est un processus stationnaire au premier ordre E (zt ) = E (zt1 ) +
113
114CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES
2
E (t ) = E (zt1 ) , mais pas au second ordre : E (zt2 ) = E zt1 + 2E (zt1 t ) + E (2t ) =
2
E zt1 + 2 . La variance nest pas constante et on voit mme quelle tend vers l.
8.1.2 Perturbations suivant une moyenne mobile (MA)

Perturbations suivant une moyenne mobile dordre 1 (MA(1))
La perturbation ut suit un processus de moyenne mobile dordre 1 not MA(1) si :
ut = t + 1 t1
avec Et = 0, V t = 2 et cov (t , t0 ) = 0 t 6= t0
Les perturbations ut ne sont plus IID, mais ces hypothses sont transposes au pro-
cessus t .
On voit trs facilement que le les processus 2 MA(1) sont stationnaire lordre 2. On
2 2
a en eet E (ut |x) = 0, V (ut |x) = 1 + , E (ut ut1 |x) = et E (ut uts |x) = 0
pour s > 1. La matrice de variance covariance des perturbations a donc pour expression

1 + 2 0 0
...
1 + 2

2 . .
V (u) = 0 .. .. 0
. .
.. ..
0 0 1 + 2
Perturbations suivant une moyenne mobile dordre q (MA(q))

Ce cadre se gnralise directement au cas dun processus moyenne mobile dordre q.
La perturbation ut suit un processus de moyenne mobile dordre q not MA(q) si :
ut = t + 1 t1 + + q tq
avec Et = 0, V t = 2 et cov (t , t0 ) = 0 t 6= t0
On voit l aussi trs facilement que le les processus MA(q) sont stationnaires lordre
2. On a en eet E (ut |X ) = 0, et en outre

V (ut |x) = 1 + 21 + + 2q 2
Pour s > q, on a clairement E (ut uts |x) = 0, par ailleurs pour s q on a
E (ut uts |x) = E ((t + 1 t1 + + q tq ) (ts + 1 ts1 + + q tsq ))

= E ((s ts + s+1 ts1 + + q tq ) (ts + 1 ts1 + + qs tq ))
= (s + s+1 1 + + q qs ) 2
8.1. DIFFRENTES FORMES DAUTOCORRLATION DES PERTURBATIONS115
ne dpend que de s. Le processus est stationnaire lordre 2.

Une gnralisation de ce processus est le processus moyenne mobile . Il est simple-
ment dfini X
ut = t + q tq
q=1
Proposition Un processus moyenne mobile infini dfini par
X
ut = t + q tq
q=1
P
est stationnaire ds que 1 + 2
q=1 q <

On voit directement que
X
V (ut |x) = 1 + 2q 2
q=1
est fini ds que la srie 2q converge. Pour les covariances, on a aussi directement
X
E (ut uts |x) = s + s+q q 2
q=1
cette quantit ne dpend pas de t et est en outre finie ds lors que la srie 2q converge, de
P 2 P P

par lingalit de Cauchy
q=1 a q bq

q=1 a2q q=1 b2q .
8.1.3 Perturbations suivant un processus autorgressif (AR)

Perturbations suivant un processus autorgressif dordre 1 (AR(1))
Un processus (AR1), est un processus dans lequel les perturbations sont engendres
par le processus :
ut = ut1 + t , t = 1, ...T
avec :
E (t |x) = 0, V (t |x) = 2 , cov (t , t0 |X ) = 0, t 6= t0 : les hypothses
dhomoscdasticit et dindpendance des perturbations du modle sont l aussi
transfres aux t cest dire aux innovations du processus :
|| < 1
On peut calculer la matrice de variance covariance dun processus AR(1). On crit
facilement la faon dont la perturbation ut dpend des perturbations passes
ut = ut1 + t = ( ut2 + t1 ) + t = t + t1 + 2 ( ut3 + t2 )

= t + t1 + + t1 1 + t u0
Proposition Le processus AR(1) ut est stationnaire si E (u0 |X ) = 0 et V (u0 |X ) =

2 / (1 2 ) et cov (t , u0 ) = 0. Ces conditions sont satisfaites si le processus engendrant
ut dbute en .
Compte tenu de lexpression : ut = t + + t1 1 + t u0 . On a : E (ut |X ) =
E (t |X ) + + t1 E (1 |X ) + t E (u0 |X ) = 0
En outre ut est non corrl avec les perturbations futures. En eet, pour t0 > t,
E (ut t0 |X ) = E (t0 (t + + t1 1 + t u0 ) |X ) = 0, puisque E (t0 tl |x) = 0, et
E (t0 u0 |x) = 0. Par ailleurs, ut = t + + (ts1) s+1 + ts us , et donc compte

(ts1) ts
tenu du rsultat prcdent E (ut us |x) = E t + + s+1 + us us |x =
ts E (u2s |x) . Enfin
V (ut |x) = V (t |x) + 2 V (t1 |x) + + 2(t1) V (1 |x) + 2t V (u0 |x)

= 2 1 + 2 + + 2(t1) + 2t 2u0
2t

21 2t 2 2 2t 2 2
= + u0 = + u0
1 2 1 2 1 2
Si 2u0 = 2 / (1 2 ) on a

V (ut |x) = 2 / 1 2

Cov (ut , us ) = ts 2 / 1 2
Si le processus remonte en on a :
X

ut = s ts
s=0
On a donc
X

V (ut |x) = 2s 2 = 2 / 1 2
s=0
La matrice de variance-covariance des perturbations donc une expression trs simple

1 2 T 1
1 T 2
2
.. .. ..

V (u |x) =
1 2 T.2 . .
1
T 1 T 2
1
Ce type de processus est frquemment postul, car il traduit lide simple et importante
quun choc exogne un moment donn a un eet persistant mais dcroissant exponen-
tiellement avec le temps. De par la simplicit de lexpression de la matrice de variance, ce
8.1. DIFFRENTES FORMES DAUTOCORRLATION DES PERTURBATIONS117
type de spcification permet en outre une mise en oeuvre facile de mthodes destimation
plus ecaces que les MCO (telles les MCQG).
Perturbations suivant un processus AR(p)

La spcification prcdente se gnralise au cas o la perturbation ut dpend des p
perturbations prcdentes. On note ce type de processus AR(p) si :
ut = 1 ut1 + 2 ut2 + + p utp + t

Ce que lon reprsente par
A (L) ut = t
avec A (Z) = 1 1 Z 2 Z 2 p Z p , E (t |x) = 0. On fait l encore lhypothse
que V (t |X ) = 2 et cov(t , t0 |X ) = 0, t 6= t0
Proposition Pour que le processus AR (p) soit stationnaire lordre 2 il faut que les
racines du polynme A (X) soient de module suprieur 1.
Dmonstration On a en eet
t t
ut = =
A (L) 1 1 L 2 L2 p Lp
t Yp X X
k k k
= Qp = rs L t = k L t
s=1 (1 rs L)
s=1 k=0 k=0
o rs est linverse de la sieme racine (ventuellement complexe) du polynme A (Z) et est

donc de module strictement infrieur 1. Le processus apparat ainsi comme un processus
moyenne mobile infini dont les coecients
P k ksont directement dduit des racines rs . Chacun
des processus moyenne mobile k=0 rs L est stationnairePpuisque |rs |P< 1. En outre
q
on
P montre facilement
P que si on considre deux MA() ( aq L ) et ( bq Lq ) tels que
( |aq |) < et ( |bq |) < alors le produit de ces deux MA() est un MA() ayant
la mme proprit de sommabilit.
! !
X X X X
aq Lq bq Lq = bs aqs Lq
s
et
X X XX

X X
bs aqs |bs | |aqs | = |aq | |bq | <
s s
P P 2
On en dduit que ( k=0 | k |) < et donc k=0 | k | < . Le processus est donc
stationnaire.
Lexpression de la matrice de variance covariance peut tre nanmoins relativement

complexe. Si on considre le cas dun processus AR(2) par exemple, on peut calculer
12
V ut = 2u = 2
(1+2 )[(12 )2 21 ]
= 0 , t
1
cov (ut , ut1 ) = 1 2u = 1
2
2
cov (ut , ut2 ) = 2 2u + 11 2u
= 2 = 2 0 + 1 1
2
cov (ut , uts ) = s = 1 s1 + 2 s2 , s > 2
Ces formules illustrent la complexit de la forme de la matrice de variance covariance dans
le cas AR(2) . On voit toutefois merger une certaine rgularit dans la dtermination des
covariances, qui se gnralise au cas AR(p) . En eet pour un AR(p) : ut = 1 ut1 + +
p utp + t , pour des valeurs de s susamment leve( p), on a
E (ut uts ) = 1 E (ut1 uts ) + + p E (utp uts ) + E (t uts )

s = 1 s1 + + p sp
pour s = E (ut uts ) . Cette quation est connue sous le nom dquation Yule-Walker.
Elle est aussi vraie pour les corrlations (cest dire la covariance divise par la variance
puisque le processus est stationnaire)
8.1.4 Perturbation suivant un processus ARMA(p,q)

Une dernire gnralisation correspond la situation combinant les deux processus
prcdents : on dit que la perturbation ut suit un processus ARMA(p,q) si lon peut
crire :
A(L)ut = B(L)t
avec
A(L) = 1 1 L 2 L2 p Lp
B(L) = 1 + 1 L + 2 L2 + + q Lq
et
E (t ) = 0, V (t ) = 2 , Cov (t , t0 ) = 0 t 6= t0
On a le mme rsultat que le processus est stationnaire si les racines du polynme A (Z)
sont lextrieur du cercle unit.
On examine le cas particulier dun processus ARMA(1,1)
ut = ut1 + t + t1
Par consquent

2u = V ut = 2 E u2t1 + E 2t + 2 E 2t1 + 2E (ut1 t1 )
8.2. ESTIMATEUR DES MCO LORSQUE LES PERTURBATIONS SUIVENT UN AR(1)119
Comme E (ut t ) = E (2t ) = 2 , on a 2u = 2 2u + 2 + 2 2 + 2 2 , do

2 1 + 2 + 2
V ut = = 2 w0 , t
1 2
De mme

cov(ut , ut1 ) = E u2t1 + E (ut1 t1 )
(1 + )( + )
= 2u + 2 = 2 = 2 w1
1 2
et s > 1
cov(ut , uts ) = cov(ut1 , uts ) = cov(ut , ut(s1) ) = s1 2 w1
soit
w0 w1 w1 2 w1 T 2 w1
... ..
w1 w0 w1 w1 .

... ... ...
2 w1 w1 2 w1
V u = ... ...
2 w w1 w1 w1
1
.. ... ...
. w1 w0 w1
T 2 w1 2 w1 w1 w1 w0
8.2 Estimateur des MCO lorsque les perturbations

suivent un AR(1)
On considre le cas dun modle
yt = xt b + ut
dans lequel les perturbations suivent un processus AR(1) et sont indpendantes des va-
riables explicatives. On a donc :
1. E (u |x) = 0
2. V (u |x) = de dimension T T et on a vu que

1 2 T 1
1 T 2
2
.. . ..

() = ..
1 2 T.2 .
1
T 1 T 2
1
1 0 P
3. T
xx QXX , et que x0 x et QX sont inversibles.
Cette hypothse nest pas systmatiquement garantit en pratique. En particulier dans
le cas de la prsence dun trend ou dans le cas de la prsence de variables explicatives
distribues suivant une marche alatoire les moments dordre 2 nexistent pas.
P
On fait enfin lhypothse que la matrice T1 x0 x QXX
Sous ces hypothses lestimateur des mco
vrifie les proprits suivantes :

1. E bbmco |x = b : lestimateur est sans biais

2. V bbmco |x = (x0 x)1 x0 x (x0 x)1
P
3. bbmco b : lestimateur est convergent

b L
4. T bmco b N (0, Vas ) : lestimateur est asymptotiquement normal.

5. Vas = Q1 Q Q1
= p lim T V b
b |x
XX XX XX mco
6. Lestimateur de la variance des rsidus

1 T
b2 =
t=1 u2t
T
P
b2 2
est convergent :
7. Lestimateur du coecient dautocorrlation des rsidus est convergent
Tt=2 ut ut1 P
=
Tt=2 u2t1
L
8. T ( ) N (0, 1 2 ) il est asymptotiquement normal
On en dduit que
P
9. b b2 (, 2 ) ,
,
0 1 x0 b,b2 x 0 1
( ) xx P
10. Vbas bbmco |x = xTx T T
Q1 1
XX QXX QXX On peut donc obtenir
un estimateur convergent de la matrice de variance de lestimateur.
1/2
11. T Vbas bbmco |x bbmco b L
N (0, I)
Remarque 1. Les rsultats ne sont pas fondamentalement changs par rapport ceux
du chapitre prcdent : lestimateur est convergent, asymptotiquement normal et on
peut estimer de manire convergente sa matrice de variance.
8.2. ESTIMATEUR DES MCO LORSQUE LES PERTURBATIONS SUIVENT UN AR(1)121
2. La dfinition de lestimateur du coecient dautocorrlation une interprtation

simple. On peut construire le rsidu estim
bt = yt xtbbmco
u
et on estime par application des mco sur le modle
u ut1 + e
bt = b t
soit
Tt=2 ut ut1
=
Tt=2 u2t1
si les rsidus ntaient pas estims, on obtiendrait directement la loi asymptotique
L
de lestimateur en appliquant les rsultats standards : T ( ) N (0, V ) et
V = V (ut1 )1 V (e t ) . Comme V (ut ) = 2 V (ut1 ) + V (et ) et V (ut ) = V (ut1 ) ,
1
V (ut1 ) V (e t ) = (1 2 )
3. On peut prciser lallure de lexpression de la matrice T1 x0 x. Dans le cas dune
seule variable explicative, par exemple, on a
2
P 2 X P xt xts
1 0 t xt
x x = +2 s t
T 1 2 T s T
si le processus engendrant les x est stationnaire et de moyenne nulle, et que lon
dfinit s comme cov (xt , xts ) = s V (xt ) , ce terme scrit
1 0 2 X X
P s s
x x V (x t ) 1 + 2 s = V (u t ) V (xt ) 1 + 2 s
T 1 2 s s
et la matrice de variance de lestimateur est alors

V (u ) X
Vas bbmco |X =
t
1+2 s s
V (xt ) s
P
lerreur sur la matrice de variance est donc dun facteur multiplicatif (1 + 2 s s s ) .
On voit quelle est dautant plus importante que le coecient dautocorrlation est
fort. Si = 0 on voit que lon retrouve la formule standard de la variance des mco
(dans ce cas spcifique). On voit aussi que lerreur est dautant plus importante que
les variables explicatives sont elles-mmes corrles dans le temps. A la limite si les
s sont nuls, il ny a pas derreur.
4. Lobtention de ces rsultats repose sur des thormes de convergence tudiant la
moyenne de variable dpendante dans le temps. On donne les deux principaux. On
considre un processus stationnaire zt dont la moyenne est E (zt ) = m, avec des
covariances E (zt ztk ) = k dfinie pour k allant de +. On fait lhypothse
que ces covariances sont absolument sommables :
X+
| k | <

P P
(a) zt m et lim T E (zt m)2 + k
P P L
(b) si zt = m
P+ + s s ts , avec s |s | < et t IID, alors T (zt m)
N 0, k
P
Le rsultat lim T E (zt m)2 + k prsente le changement fondamental avec
la situation du chapitre prcdent. Dans le chapitre prcdent on avait simplement
NE (zt )2 = 2 , ici lanalogue de 0 . La dirence provient ici du fait quil est n-
cessaire de prendre en comte la corrlation entre les observations aux direntes
dates. Le rsultat na toutefois rien de trs surprenant. Dans le cas dune variable
de moyenne nulle, on a :
1
T zt 2 = (z1 + + zT )2
T
1 XT 2 1 XT 1 XT
= zt + 2 zt zt1 + + 2 zt ztT +1
T t=1 T t=2 T t=T
1 XT 2 T 1 1 XT 1 T XT
= zt + 2 zt zt1 + + 2 zt ztT +1
T t=1 T T 1 t=2 T T 1 t=T
et donc
T 1 1
T E zt 2 = 0 + 2 1 + + 2 T 1
T T
2 1 T 1
T E zt 0 + 2 1 + + 2 T 1 = 2( 1 + + T 1 )
T T
P
qui tend vers zro puisque la srie + | k | converge.
Comme on le voit pour que la loi des grands nombres soit satisfaite il faut que la
dpendance temporelle sestompe susamment rapidement. On voit aussi que la va-
riance de lestimateur de la moyenne prend en compte cette dpendance temporelle.
Plus la dpendance temporelle est forte moins les estimations sont prcises.
8.3 Lestimateur de Newey-West de la matrice de va-

riance de bbmco
Les rsultats prcdents sur la convergence de lestimateur et lestimation de sa ma-
trice de variance pourraient tre obtenus dans de trs nombreuses situations, cest dire
pour direntes spcifications du processus engendrant les perturbations. La proprit de
sans biais, de convergence et de normalit asymptotique ne va pas tre fondamentalement
remise en cause. Lexpression de la matrice de variance de lestimateur dpend en re-
vanche de la spcification du processus, car dans chacune des spcifications envisageables
la matrice de variance covariance des perturbations est dirente. Dans toutes ces spci-
fications toutefois, la matrice de variance des perturbations dpend dun nombre limit
bMCO 123
8.3. LESTIMATEUR DE NEWEY-WEST DE LA MATRICE DE VARIANCE DE B
de paramtres, et ces paramtres pourraient tre estims partir des rsidus de lesti-
mation ; comme on la montr pour le coecient de corrlation des perturbations. Il est
donc possible en thorie dobtenir une estimation convergente des la matrice , partir
de laquelle on peut estimer la matrice de variance de lestimateur des mco. Maintenant
il est clair que cette matrice va dpendre de lhypothse choisie pour des raisons parfois
incompltement explicites. On peut donc tre tent de rechercher un estimateur de la
matrice de variance covariance de lestimateur des mco qui soit robuste ce choix plus
ou moins arbitraire dune spcification du processus engendrant les perturbations. En
outre dans lapproche prcdente, on fait lhypothse que la corrlation entre les rsidus
direntes dates ne dpend pas des valeurs prises par les variables explicatives. On a
pourtant mis laccent dans le chapitre prcdent sur les possibilits de dpendance des
moments dordre 2 et des variables explicatives. Une telle question se pose pareillement
dans le cadreP des sries temporelles. Le point important concerne la variance du produit
T
1 x0 u = 1 0
T T t=1 xt ut . La variance de ce terme scrit
XT X
E (x0 uu0 x) /T = E x0t xt u2t /T + x0t xts ut uts /T + x0ts xt uts ut /T
t=1 t,s6=0
XT
= E x0t xt u2t /T +
t=1
XT
E x0t xt1 ut ut1 /T + x0t1 xt ut1 ut /T +
t=2
XT
E x0t xt2 ut ut2 /T + x0t2 xt ut2 ut /T + +
t=3
XT
0 0
E xt xtq+1 ut utq+1 /T + xtq+1 xt utq+1 ut /T + +
t=q
XT
0 0
E xT x1 uT u1 /T + x1 xT u1 uT /T
t=T
0 2
P 0
0
soit E (xP 0
t xt ut ) + s6 =0 E (xt xts u t uts ) + E x ts xt u ts ut (T s + 1) /T. Pour un s
donn, t xt xts ut uts /T est un estimateur convergent de E (x0t xts ut uts ) (T s + 1) /T.
Le problme est quil faut estimer cette quantit pour toutes les valeurs de s de s = 1
jusqu s = T, ce qui est impossible dans un chantillon de taille T. Loptique choisie
par Newey-West est de nestimer ces termes que pour les valeurs de s les plus faibles, le
nombre de valeurs retenues dpendant de la taille de lchantillon. Ceci est exact si la srie
xt ut est distribue suivant une moyenne mobile dordre fini. Cest une approximation si-
non, mais si le degrs de corrlation temporelle de xt ut dcrot assez vite et si lestimateur
retenu intgre un nombre de retard croissant avec la taille de lchantillon on peut montrer
que cette matrice est convergente. Ceci est conforme lide que les corrlations entre les
perturbations disparaissent un taux relativement lev. Par exemple dans le cadre du
modle AR (1) elles disparaissent exponentiellement. Lestimateur de Newey West estime
E (x0 uu0 x) /T par
XT X X
x0t xt u2t /T + s (T ) x0t xts ut uts + x0ts xt uts ut /T
t=1 s6=0 t
avec s (T ) dcroissant avec s et croissant avec T. Le poids propos par Newey-West

est linaire en s, de la forme s (T ) = (1 s/(q (T ) + 1)) 1 (s q (T )) . On fait bien sur
crotre q (T ) vers linfini lorsque T augmente, mais un rythme beaucoup plus faible que
T. On montre que sous des hypothses de rgularit satisfaisante cet estimateur converge
vers E (x0 uu0 x) /T. Au total lestimateur de la matrice de variance covariance robuste
lhtroscdasticit temporelles et lie aux variables explicatives est

x0 x 1 q(T )
X s
0 1
Vbas bbmco = b0 + 1 0 bs x x
bs +
T s=1
q (T ) + 1 T
o
X
T
x0 xt u
b2
b0 =
t t
t=1
T
XT
x0t xts u
bt u
bts
bs =

t=s+1
T
On rappelle encore que cette matrice est robuste la fois la corrlation temporelle des
rsidus, pourvu quelle sestompe assez vite et lexistence dhtroscdasticit relative
aux x. On vrifie bien au passage que si on fait lhypothse quil ny a pas de corrlation
temporelle dans les perturbations ou les variables explicatives, alors on retrouve la formule
de White (dans ce cas on na en eet que le terme 0 dans le terme central).
8.4 Les MCQG dans le modle AR (1) : lestimateur

de Prais-Watson.
On sait que sous les hypothses nonces :
1. E (u |x) = 0,
2. V (u |x) = de dimension T T inversible
3. x0 x inversible,
lestimateur des MCO nest pas lestimateur optimal. Le meilleur estimateur linaire
sans biais de b est lestimateur des MCG :
bmcg = (x0 1 x)1 x0 1 y

dont la variance est donne par :

V bmcg = (x0 1 x)1
8.4. LES MCQG DANS LE MODLE AR (1) : LESTIMATEUR DE PRAIS-WATSON.125
Il peut tre obtenu comme estimateur des mco dans le modle :
1/2 y = 1/2 xb + 1/2 u

0
o 1/2 1/2 = IT . La pre-multilplication du modle par 1/2 porte on le rappelle
le nom de sphricisation, ceci parce quelle rend les perturbations
indpendantes. Dans le cas particulier o les perturbations suivent un processus AR(1),
une telle transformation peut tre donne par :
p
1 2 0 0
... ..
1 .

... ... ..
0 .
1/2 = .. . . . . . . . . . . . . ..
. .

. . .
.. .. .. 1 0
0 0 1
Lestimateur des MCG peut alors tre calcul comme estimateur des mco appliqu au
modle :
p p p
y1 1 2 x1 1 2 u1 1 2
y y x x u u
2 1 2 1 2 1
.. = .. b + ..
. . .
yT yT 1 xT xT 1 uT uT 1
Dans dautre cas, si par exemple les perturbations sont dfinies suivant un AR (p) , ou
un MA (q) , on aurait dautres formules beaucoup plus compliques, faisant intervenir les p
ou q paramtres de la matrices de variance. Nanmoins dans le cas AR(1) comme dans les
autres, pour calculer lestimateur MCG, il faut connatre . Comme celui-ci est inconnu,
on utilise lestimateur des moindres carrs quasi gnraliss (mCQG). Le principe de cet
estimateur est de remplacer les paramtres inconnus, en nombre fini, par des estimateurs
convergents dans ltape de sphricisation. Dans le cas AR(1) , il faut ainsi remplacer
dans la prmultiplication du modle par 1/2 () par b, et donc multiplier le modle par
1/2
) . Comme on la vu on dispose partir de la mise en oeuvre de lestimateur des
(b
mco dun estimateur convergent de ce coecient partir des rsidus estims.
Sous les hypothses :
E (u |x) = 0
V (u |x) = () de dimension T T, de dimension finie
P
T1 x0 x QXX , x0 x et QX inversibles
1 0 1 P
T
x x QX1 X inversible
b P
on dispose dun estimateur convergent de
Lestimateur des MCQG

1 1x0 1
bbmcqg = x b
0
x b
y
vrifie
bbmcqg b : convergence
P

T bbmcqg b N (0, Vas (mcqg)) : normalit asymptotique
L
Vas (mcqg) = Q1 = p lim T V (mcg) quivalence entre mCQG et MCG

X1 X 1
1
b 1 0
Vas (mcqg) = T x b x
P
Vas (mcqg) estimation de la matrice de variance
Lestimateur de Prais-Watson, est lestimateur des mCQG dans le modle AR(1) . Il
est obtenu en plusieurs tapes :
1. estimation par MCO du modle yt = xt b + ut , t = 1, ..., T

2. calcul des rsidus estims : ut = yt xt bmco
3. estimation de par application des mco au modle :
ut = ut1 + t , t = 2, ..., T
soit
Tt=2 ut ut1
=
Tt=2 u2t1
On calcule alors les donnes transformes :
q
y1 = 1 2 y1 et yt = yt yt1 , t = 2, ..., T
q
x1 = 1 2 x1 et xt = xt xt1 , t = 2, ..., T
et on estime par les MCO sur ce modle :
yt = xt b + ut , t = 1, ..., T
Lestimateur b ainsi obtenu est convergent et asymptotiquement aussi ecace que lesti-
mateur des MCG. Les carts-type donns par les logiciels standards peuvent en outre tre
directement utiliss (Remarque : il ne faut pas oublier de retirer la constante du modle
et ne pas omettre non plus dappliquer la transformation toutes les variables du modle
initial, y compris la constante si il en comprend une).
8.5. DTECTION DE LAUTOCORRLATION 127
8.5 Dtection de lautocorrlation

8.5.1 Un test asymptotique
On se place dans le cadre du modle AR(1) : ut = ut1 + t . On souhaite tester
labsence dautocorrlation cest dire tester : H0 : = 0 contre H1 : 6= 0. Si on
sen tient aux rsultats prcdemment noncs, on peut estimer le modle par les mco,
rcuprer alors les rsidus et estimer le coecient dauto corrlation comme on la vu. On
L L
a asymptotiquement T ( ) N (0, 1 2 ) . Donc sous H0 , on a T N (0, 1) .
On peut donc former
la statistique de test S = T , et dfinir la rgion critique W =

S |S| > t1/2 . Ce test asymptotique est convergent au seuil .
8.5.2 Le test de Durbin et Watson

Nanmoins on se trouve parfois dans des chantillons de petite taille dans lesquels
lapproximation asymptotique ne vaut pas parfaitement. Cest pourquoi on utilise trs
frquemment, souvent par inertie le test dit de Durbin-Watson et qui repose sur la statis-
tique :
b Tt=2 (ut ut1 )2

d=
Tt=1 u2t
Cette statistique est lie asymptotiquement au paramtre par la relation suivante :
p lim db = 2(1 )
En eet :
1 T
b u2 2 T1 Tt=2 ut ut1 + T1 Tt=2 u2t1
T t=2 t
p lim d = p lim 1 T
u2
T t=1 t
= 1 2 + 1 = 2(1 )
puisque
1 T 2 1 1
p lim t=2 ut = p lim Tt=2 u2t1 = p lim Tt=1 u2t
T T T
et que
p lim T1 ut ut1 Cov (ut , ut1 )
1 T 2
= =
p lim T t=1 ut V (ut )
Par consquent :si est nul (absence dautocorrlation), db est proche de 2,

si est proche de 1 (forte autocorrlation positive), db est proche de 0
si est proche de -1 (forte autocorrlation ngative), db est proche de 4
La loi de probabilit de la statistique db est toutefois dicile tablir car elle dpend
des rsidus estims et donc des valeurs prises par les variables explicatives du modle. On
montre nanmoins que :
Sous lhypothse H0 : = 0, il existe deux statistiques, dl et du , qui encadrent toujours
db :
d` < db < du ,
et dont la loi ne dpend que de T et K, le nombre de variables explicatives.
Test de H0 : = 0 contre H1 : > 0
Si db est proche de 2 on accepte lhypothse et si db est faible on rejette lhypothse. Si on

connaissait la loi d0 de d,b on pourrait dterminer le fractile d? () de cette loi permettant
de conclure au rejet ou lacceptation de lhypothse H0 de non-autocorrlation pour un
test au seuil .
P (d0 < d? ()) =
Ne connaissant pas la loi asymptotique de db on dtermine les fractiles correspondants

d?` () de dl et d?u () de du
P (dl < d?l ()) =

P (du < d?u ()) =
Comme
dl < d0 < du
On a
d?l () < d? () < d?u ()
La rgle de dcision est alors la suivante :

Si db est infrieure d?` (), alors db < d? () : on refuse H0
Si db est suprieure d?u (), alors db > d? () : on accepte H0
Si d?` < db < d?u , on se trouve dans la zone dite inconclusive : le test ne permet pas de
conclure au rejet ou lacceptation de H0 .
La pratique courante consiste inclure la zone inconclusive dans la zone de rejet de
lhypothse H0 pour se garantir contre le risque daccepter tort labsence dautocorr-
lation. Lamplitude de la zone inconclusive, d?u d?` , est dautant plus importante que le
nombre T dobservations est faible et que le nombre de variables explicatives est impor-
tant. Lorsque le nombre dobservation devient important, on se trouve dans la situation
asymptotique et on peut utiliser lapproche prcdemment voque.
8.6. RSUM 129
Test de H0 : = 0 contre H1 : < 0

b et il faut nouveau la comparer 2 : on
La statistique de test utiliser est 4 d,
rejettera lhypothse pour des valeurs faibles de la statistique et on lacceptera si elle
prend des valeurs susamment importantes. On a en eet dans ce cas :
4 d?u < 4 d? < 4 d?`

Par consquent la rgle de dcision est donne par :
si 4 db > 4 d?` , alors 4 db > 4 d? : on refuse H0
si 4 db < 4 d?u , alors 4 db < 4 d? : on accepte H0
si 4 d?u < 4 db < 4 d?` : on est dans la zone inconclusive.
On inclut comme prcdemment la zone inconclusive dans la zone de rejet de H0 .

1. Les lois (tabules) de d` et du ont t tablies par Durbin et Watson pour un modle
avec constante et perturbations AR(1).
2. Bien quil soit spcifiquement destin tester labsence dautocorrlation contre
lhypothse alternative dune autocorrlation associe un processus AR(1), le test
de D.W. se rvle capable de dtecter dautres formes dautocorrlations ;
exemples : MA(1) ou AR(2). Dans les autres situations, il est prfrable de recourir
dautres tests.
8.6 Rsum
Dans ce chapitre, on a tudi
1. Les direntes formes de corrlations des perturbations
2. Prsent les modles AR (p) et MA (q) et mis laccent sur le modle AR (1) qui
modlise simplement une ide simple et importante : les innovations dun processus
peuvent avoir des eets durables mais qui sestompe progressivement.
3. Examin les proprits de convergence de lestimateur des mco dans le cas AR (1)
et tudi en quoi elle dire du cadre IID.
4. On retrouve le rsultat central que la corrlation des rsidus naecte pas les pro-
prits de convergence de lestimateur mais modifie en revanche les carts-type des
estimations.
5. On a propos une matrice de variance robuste lhtroscdasticit temporelle et re-
lative au x, la matrice de Newey-West, qui gnralise au cadre des sries temporelles
la matrice de White robuste lhtroscdasticit relative aux x seulement.
6. On a examin lestimateur des MCQG dans le cadre du modle AR (1) , estimateur
dit de Prais-Watson, simplement mis en oeuvre en deux tapes. une tape mco
permettant de calculer le coecient de corrlation , une tape mco sur le modle

sphricis, cette tape tant particulirement simple dans le cas AR (1) .
7. On a enfin examin les tests dauto-corrlation et prsent le test trs connu de
Durbin -Watson.
Chapitre 9
Lestimateur des MCQG dans le cas
o = IN ()
On examine ici le cas des donnes de panel et le cas des rgressions empiles. On
considre dune faon gnrale le modle
y i = xi b + ui , y i de dim M 1, xi de dim M K + 1
Le modle est ici spcifi en terme de vecteur y i , xi et ui . Comme on va le voir ce cas est
en fait une gnralisation directe du cas des mco prcdemment examin.
Estimateur des MCO

On montre dabord comment les rsultats obtenus pour lestimateur des moindres
carrs ordinaires se gnralisent au cas considr.
On fait les hypothses
H0 Les observations (y i , xi ) RR K+1 , i = 1, ..., N, sont IID
H1 E (ui |xi ) = 0
H2V (ui |xi ) = V (ui ) = () . est ici une matrice de dim M M, est alors n-
cessairement un paramtre de dimension finie, de taille au plus gale M (M + 1) /2
0
H5 Les moments de |xki xli | et de |uti usi | existent.

bbmco = (x0 x)1 x0 y = x0 x 1 x0 y
i i i i
vrifie quand N
P

b L b
2. N bmco b N 0, Vas bmco , lestimateur est asymptotiquement normal
131
132 CHAPITRE 9. LESTIMATEUR DES MCQG DANS LE CAS O = IN ()

3. Vas bbmco = [E(x0i xi )]1 E(x0i xi ) [E(x0i xi )]1
0
b b b
4. = y i xi bmco y i xi bmco = u
P
b0i , Estimation de la matrice de va-
bi u
riance des perturbations
1

b b 0 0b 0 1 P b
5. Vas bmco = (xi xi ) xi xi xi xi Vas bmco Estimation de Vas
1/2
6. N Vbas bbmco bbmco b L
N (0, I)

Dmonstration Si M est la dimension du vecteur y i : y 0i = y1i yMi , alors
i=N,m=M
X X X
i=N m=M X
i=N
0 0 0
xx = xim xim = xim xim = x0i xi , et pareillement pour x0 y, do lex-
i=1,m=1 i=1 m=1 i=1
pression de bbmco
1 0
Convergence Pour montrer la convergence on crit bbmco = b + x0i xi xi ui . Comme
les observations sont indpendantes et quidistribues entre deux individus i et j et que
P
les moments |xki xli | existent x0i xi E (x0i xi ) . Comme dans le cas standard, les mo-
ments dordre 1 et 2 de x0i ui existent. On a en eet E (x0i ui ) = E (x0i E (ui |xi )) = 0 et
1 0 P
V (x0i ui ) = E (x0i V (ui |xi ) x0i ) + V (x0i E (ui |xi )) = E (x0i x0i ) . On a donc x0i xi xi ui
0 1 0
E (xi xi ) E (xi ui ) = 0 par application de la loi faible des grands nombres.
0 1 0
Normalit asymptotique N bbmco b = x x i i Nx u
i i
On applique le Thorme central limite x0i ui . On a dj vu que les deux premiers
L
moments de ce vecteur existent . On a donc Nx0i ui N (0, E (x0i xi )) . On applique
1 P L
alors le thorme de Slutsky x0i xi E (x0i xi )1 et Nx0i ui N (0, E (x0i xi )) donc
1 0
N bbmco b = x0i xi Nxi ui

L 1 1
N 0, E (x0i xi ) E (x0i xi ) E (x0i xi )
Estimation de 0
b b b bi = y i xibbmco =
b0i et u
bi u
Lestimateur de est = y i xi bmco y i xi bmco = u

xi b bbmco + ui . Donc
0
b =
xi b bbmco + ui xi b bbmco + ui
0
b b
= ui ui + xi b bmco b bmco x0i +
0
0
b b
xi b bmco ui + ui b bmco x0i
0
133
Le premier terme converge vers par la loi des grands nombres puisque |usi uti | existent.

k
Le deuxime terme est une matrice dont les lments sont somme de termes xli b bmco b b bbmco
m
P P 0
b bbmco b bbmco 0 xkli xkl0 i Comme b bbmco 0 et que xkli xkl0 i E xkli xkl0 i ce
0 0
m m
terme tend vers zero en probabilit.
De mme pour le troisime et le quatrime terme. 1
Estimation de la variance de lestimateur des mco V bbmco = (x0i xi ) x0i x b i x0 xi 1
P
i

V bbmco
b i et on a
Le seul terme important est x0i x

b i E (x0i xi ) =
x0i x b i x0 xi + x0 xi E (x0i xi )
x0i x i i

0 b

= xi xi + x0i xi E (x0i xi )
Le deuxime terme tend vers zro en probabilit par la loi forte des grands nombres. Le
premier terme tend vers zro en probabilit par le mme genre dargument que prcdem-
b P
ment, puisque
P
L

Enfin, comme V bbmco V bbmco et N bbmco b N 0, V bbmco on a di-
b
rectement par le thorme de Slutsky
1/2
b b
N V bmco b L
bmco b N (0, I)
Remarque L encore on peut tendre les rsultats au cas o bien que les hypothses H1
H5 soient satisfaites (en particulier identit des moments dordre 2, les observations ne
sont pas quidistribues. Ceci correspondrait par exemple au cas dans lequel les moments
dordre suprieur deux soient spcifiques chaque individu. Il faut comme dans le cas
des MCO du modle homoscdastique imposer des restrictions sur les moments dordre 3
de la valeur absolue de chaque composante du rsidu.
Estimateur des MCQG
On sintresse maintenant lestimateur des MCQG. On introduit une hypothse

supplmentaire :
H6 b
P
,
Cette hypothse nen est pas vraiment une si on lui adjoint les hypothses prcdentes
puisquon a vu qualors on pouvait construire un estimateur convergent de la matrice de
variance. On peut alors a fortiori obtenir un estimateur convergent du paramtre sous
jacent .
Proposition Sous les hypothses H0 H6, lestimateur des MCQG

1 1 1
bbmcqg = x b
0
x x0
b
yi
i i i
vrifie quand N
1. bbmcqg b, lestimateur est convergent
P

2. N bbmcqg b N 0, Vas bbmcqg , lestimateur est asymptotiquement normal
L

3. Vas bbmcqg = [E(x0i 1 xi )] = V bbmcg lestimateur est asymptotiquement qui-
1
valent lestimateur des MCG

1
b b 0 b 1 P b
4. Vas bmcqg = x x V bmcg Estimation de la matrice de variance
i i
1/2
b b
5. N Vas bmcqg b L
bmcqg b N (0, I)

b= b P P
Dmonstration Soit . Comme b , b
1
Convergence bbmcqg = b + x0i
b 1 xi b 1 ui
x0i
Chaque terme de x0i b 1 xi est somme de termes de la forme xk b 1 k0 b 1 k k0
li m,m0 xl0 i = m,m0 xli xl0 i
P k k0
qui convergent tous vers b 1 0 xk xk00 1
m,m li l i m,m0 E xli xl0 i qui est le terme correspondant de
E (x0i 1 xi ) . On a donc
P
b 1 xi
x0 E x0i 1 xi
i
De mme
P
b 1 ui
x0i E x0i 1 ui = E x0i 1 E (ui |xi ) = 0
Do la convergence de lestimateur
L
b 1 ui
Le seul point montrer est Nx0i N (0, E (x0i 1 xi ))

0 b 1 0 b 1
Nxi ui = Nxi 1 ui + Nx0i 1 ui

Chaque terme de Nx0i b 1 1 ui est de la forme Nxk b 1 0 1 0 ul0 i =
li m,m m,m

b 1 1 k
m,m0 m,m0 Nxli ul0 i Le premier terme converge en probabilit vers 0. Le deuxime
terme converge en loi vers une loi normale. Comme on la rappel au dbut du chapitre 5,
une suite variables alatoires convergent en loi est born en probabilit, cest un O (1) , et
on a vu aussi au dbut du chapitre 5 que o (1) O (1) = o (1) . Le comportement asympto-

tique de Nx0i b 1 ui est donc le mme que celui de Nx0 1 ui . Comme V (x0i 1 ui ) =
i
E (x0i 1 xi ) , il converge donc en loi vers une loi normale N (0, E (x0i 1 xi ))
Les deux derniers points se dmontrent de la mme faon que prcdemment
135
Application : Donnes de panel et Rgressions empiles
La mise en oeuvre de lestimateur des MCQG dans le cas des donnes de panel ou des
rgressions empiles est trs simple. Elle se fait en plusieurs tapes.
On estime dabord le modle
y i = xi b + ui

par les MCO : bbMCO = (x0 x)1 x0 y
On calcule ensuite le rsidu pour chaque individu
bi = y i xibbMCO
u
A partir de cet estimateur on calcule un estimateur de la matrice de variance des

rsidus
b =u
b0i
bi u
On peut alors estimer la variance asymptotique et la variance de lestimateur des

MCO par
1
b b b i x0 xi 1
Vas bmco = (x0i xi ) x0i x i
1 b b
Vb bbmco = Vas bmco
N
Dans une deuxime tape, on calcule lestimateur des MCQG

1
bbmcqg = x0
b 1 xi b 1 y
x0i
i i
Cette mise en oeuvre peut tre facilite sil existe un moyen simple de sphriciser le
modle.
La variance est alors donne par :
1
Vbas bbmcqg = x0i
b 1 xi
1 b b
b b
V bmcqg = Vas bmcqg
N
Suivant les cas on peut avoir un nombre plus ou moins important de paramtres
estimer. Dans le cas des donnes de panel la matrice de variance ne dpend que de deux
paramtres la variance de leet individuel et la variance de leet temporel. Direntes
mthodes peuvent tre utilises pour estimer ces paramtres et donc mettre en oeuvre
lestimateur des MCQG.
9.1 Le cas des rgressions empiles.

Lorsque lon a aaire des rgressions empiles pour lesquelles il nexiste pas de
restriction entre les paramtres, alors le calcul de lestimateur est facilit par la proposition
suivante connue sous le nom de Thorme de Zellner
Proposition Dans le cas des rgressions empiles, lorsquil nexiste pas de contraintes
entre les paramtres dune quation lautre (et que les rgresseurs sont les mmes) les-
timateur des MCG est identique lestimateur des MCO eectu quation par quation.
La matrice de variance de lestimateur a alors pour expressions
1
Vas = x0i xi
Dmonstration Le modle scrit
y i = IM xi b + ui
Lestimateur des MCG scrit :

1
bmcg = (IM x0i ) 1 (IM xi ) (IM x0i ) 1 y i
On peut rcrire 1 = 1 1. x0i est un vecteur (K + 1) 1. Donc (IM x0i ) 1 =

(IM x0i ) (1 1) = 1 x0i . Car (A B) (C D) = AB CD pour des matrices aux
dimensions qui conviennent. Donc
(IM x0i ) 1 (IM xi ) = 1 x0i xi
en outre

(IM x0i ) 1 y i = (IM x0i ) 1
yi 1

= 1 y
i
= x0i (1 0
IK ) y i xi
1
0
= IK y i xi
donc lestimateur des MCQG scrit

1
1 1

bmcg = x0i xi IK y i x0i = IM x0i xi y i x0i
1

= IM x0i xi V ec x0i y 0i
1

= V ec x0i xi x0i y 0i
On utilise ici la proprit de loprateur Vec : V ec (ABC) = C 0 AV ecB

9.2. ILLUSTRATION : ESTIMATION DUNE FONCTION DE PRODUCTION SUR DONNES INDI
9.2 Illustration : estimation dune fonction de pro-

duction sur donnes individuelles
On considre un chantillon de 381 entreprises observes sur les annes 1986-1989,
pour lesquelles on dispose de la valeur ajoute, des eectifs du stock de capital et du
stock de capital recherche. On considre une technologie de production de Cobb-Douglas
y = + L l + C c + K k + v
les coecients sont donc les lasticits de la production aux eectifs, au capital et au
capital de recherche. Les observations dont on dispose sont des donnes de panel puisque
chacun des 381 individu est suivi sur 4 ans : y 0i = (yi86 , yi87 , yi88 , yi89 ) . On estime le modle
par les mco. Il est alors possible destimer la matrice de variance des perturbations
b=u
b0i
bi u
on peut alors calculer les carts-type de deux faons : soit en ignorant la nature de donnes
de panel des donnes, i.e. en faisant comme si la matrice tait diagonale, soit en prenant
cette information en compte. Dans un cas les carts-type sont simplement donns par la
1
formule standard Vbas = b2 x0i xi et Vbb (1) = Vbas /N. Dans lautre cas les carts-type
1 0
sont calculs suivant la formule Vbas = x0i xi b i x0 xi 1 et toujours Vbb (2) = Vbas /N.
xi x i
Le tableau suivant prsente les rsultats de cette estimation par les mco et les carts-type
calculs suivant les deux modes de calcul :
b b (1)
b (2)

un 4.78 (0.120) (0.226)
l 0.509 (0.023) (0.044)
c 0.235 (0.022) (0.040)
k 0.229 (0.017) (0.026)
On voit que les carts-type sont nettement plus lev avec la formule qui tient compte
des corrlations entre les rsidus aux direntes dates. On peut regarder la matrice de
variance des perturbations estime. On parvient la matrice symtrique suivante :
86 87 88 89
86 0.209 . . .
87 0.191 0.214 . .
88 0.184 0.186 0.203 .
89 0.176 0.177 0.192 0.210
et on voit quelle est trs loin dtre une matrice diagonale. Les lments sur la diago-
nale sont plus ou moins constants, mais on voit aussi que les lments hors de la diagonale
sont certes plus faibles que ceux sur la diagonale mais dun ordre de grandeur comparable.
Lhtroscdasticit est ainsi une caractristique essentielle et lomettre serait une grave
erreur. Compte tenu de lordre de grandeur des coecients de la matrice de variance cova-
riance on voit quon est beaucoup plus prs dune situation dans laquelle les observations
seraient rptes quatre fois que dune situation dans laquelle les quatre observations de
chaque individu constitueraient quatre tirages indpendants. Le nombre total dobserva-
tions est donc 381x4=1524 mais on est trs loin davoir linformation de 1524 observations
indpendantes. On est bien plus prs davoir 381 observations rpliques 4 fois. De fait les
estimateurs tant convergent en N. Comme la dimension temporelle est de 4, on doit se
tromper approximativement dun facteur 4 = 2 dans les carts-type. Cest bien ce que
lon observe en gros. La conclusion que lon doit tirer de cet exemple est que la correction
des carts-type tenant compte de lhtroscdasticit est essentielle pour les donnes de
panel.
On peut aussi chercher mettre en oeuvre lestimateur des MCQG la formule est :
1
bbmcqg = x0
b 1 xi b 1 y
x0i
i i
1
et la matrice de variance peut tre estimes par Vbasmcqg = b 1 xi
x0i et Vbb (3) =
Vbasmcqg /N. Les rsultats sont donns dans le tableau suivant :
bbmcqg bmcqg

ste
C 4.67 (0.193)
l 0.505 (0.032)
c 0.352 (0.026)
k 0.086 (0.009)
On voit que par rapport lestimateur des mco, cet estimateur est sensiblement plus
prcis. Le coecient du capital recherche en particulier est environ 3 fois plus prcis. La
mise en oeuvre de ce type destimation est donc dans ce cas un gain prcieux. On remarque
aussi que les deux estimateurs sont en fait assez dirents en particulier les coecients
concernant le capital physique et le capital de recherche. Le coecient du capital physique
augmente fortement alors que celui du capital recherche baisse au contraire. Ces dirences
importantes sont en outre grandes devant lordre de grandeur des carts-type. Bien quil
ny est pas de test formel ici, il est vraisemblable que ces dirences soient significatives.
Ceci nest pas un bon signe, comme on le verra plus tard. En eet on peut remarquer ds
maintenant une sorte dincohrence : normalement sous les hypothses faites lestimateur
des mco et celui de mCQG sont tous les deux convergents : les valeurs estimes devraient
donc tre assez proches.
9.3 Rsum
Dans ce chapitre on a :
9.3. RSUM 139
exhib direntes situations frquentes en pratique dans lesquelles lhypothse dho-

moscdasticit nest plus satisfaite.
prsent un estimateur alternatif lestimateur des mco, de variance minimale parmi
les estimateurs linaires sans biais : lestimateur des MCG
cet estimateur est fonction de la matrice de variance des perturbations qui est incon-
nue. Lestimateur nest donc pas calculable. On a prsent lestimateur de mCQG
dans lequel la matrice de variance des perturbations, inconnue, est remplace par
un estimateur.
Lestimateur nest plus sans biais. Ses proprits ne sont quasymptotiques. Dans le
meilleur des cas il est asymptotiquement quivalent lestimateur des mco.
On a montr comment dans le cas o la matrice de variance dpend dun nombre fini
de paramtres, il est possible de prciser les proprits asymptotiques de lestimateur
des mCQG.
Sous des hypothses peu exigeantes, cet estimateur et ne peut pas tre calcul en pra-
tique ralisant examin les proprits asymptotique de lestimateur des mco rappel
les proprits asymptotiques importantes des moyennes empiriques de variables : la
loi des grands nombres et le thorme central limite.
montr que sous des hypothses trs faibles (existence des moments dordre 1 et 2),
lestimateur des mco est convergent et asymptotiquement normal.
Etendu la notion de test pour dfinir des tests asymptotiques, caractriss par le
fait que leur puissance tend vers 1 et gnralis les notions de test de Student et de
test de Fisher au cas asymptotique.
Chapitre 10
Variables instrumentales
On a considr jusqu prsent le cas de modles scrivant
yi = b0 + x1i b1 + + xK
i bK + ui
avec lhypothse
0
E xi ui = 0 ou E (ui |xi ) = 0
Cette hypothse peut aussi constituer une dfinition statistique du paramtre b. Le
coecient b sinterprte alors comme le vecteur des coecients de la rgression linaire
de yi sur le vecteur de variables xi . Une telle dfinition prsente un intrt dans une
approche descriptive des donnes. Nanmoins on est frquemment amen estimer des
modles structurels dans lesquels les paramtres ont un sens conomique. Le plus simple
dentre eux est certainement la fonction de production
yi = a + ki + li + ui
le paramtre mesure en pourcentage lincidence dune augmentation de 1% du stock de

capital sur la production. Ce paramtre conomique na pourtant aucune raison de con-
cider avec celui de la rgression linaire, et on peut mme avancer de nombreuses raisons
pour lesquelles il pourrait ne pas concider. On est ainsi frquemment amen consid-
rer des modles structurels pour lesquels on a une quation linaire entre une variable
dintrt et des variables explicatives mais pour laquelle on a des raisons de remettre en
doute lhypothse E (ui |xi ) = 0. Ce chapitre est consacr la prsentation des mthodes
destimations lmentaires adaptes lestimation des paramtres structurels dans ce cas.
On va voir que lon peut identifier le paramtre dintrt en ayant recours des hypo-
thses alternatives E (ui |xi ) = 0 qui mobilisent des informations extrieures. Elles vont
prendre la forme suivante : il existent des variables extrieures dites instrumentales telles
que E (ui |zi ) = 0 et E (zi0 xi ) de rang K + 1. On va voir aussi deux tests trs importants
dits tests de spcifications qui permettent de guider dans le choix des variables extrieures
141
142 CHAPITRE 10. VARIABLES INSTRUMENTALES
(test de Sargan) et de tester lhypothse des mco : E (ui |xi ) = 0 (test dexognit). Si
dans les chapitres prcdents on mettait beaucoup laccent sur lecacit des estimateurs
(le Thorme de Gauss-Markov), ici on va mettre au contraire laccent sur lidentification
des paramtres et sur la robustesse des estimations, et on va voir quil y a un arbitrage
entre robustesse et ecacit.
10.1 Trois exemples types dendognit des rgres-

seurs
10.1.1 Erreur de mesure sur les variables
On considre la situation dans laquelle on a un modle structurel
yi = xi b + ui
La variable xi est suppose pour simplifier de dimension 1 et centre comme la variable

yi et on fait l0 hypothse E (ui |xi ) = 0.
On suppose en outre que la variable xi est mesure avec erreur :
xi = xi + ei
avec E (ei |xi ) = 0 et ui et ei non corrls.

Dans ces conditions le modle dont on dispose est
yi = xi b + ui bei
On est dans une situation dans laquelle le rsidu de lquation vi = ui bei est corrl
avec la variable explicative
E (vi xi ) = E ((ui bei ) (xi + ei ))

= E (ui xi ) + E (ui ei ) bE (ei xi ) bE e2i
= b 2e =
6 0
On voit alors trs facilement qu la limite le paramtre de la rgression linaire ne concide

pas avec celui du modle : lestimateur des mco nest pas convergent.
0
P E xi vi 2e
bmco b+ 0 =b 1 2
E xi xi e + 2x
10.1. TROIS EXEMPLES TYPES DENDOGNIT DES RGRESSEURS 143
10.1.2 Simultanit
La simultanit est la situation dans laquelle certains des rgresseurs et la variable
expliquer sont dtermins simultanment. Un exemple typique est celui dun quilibre
ore demande. Une quation de demande va ainsi scrire
yi = d pi + xdi bd + udi
La variable de prix pi ne peut pas tre considre comme exogne. En eet, il y a aussi
une quation dore
yi = s pi + xsi bs + usi
On peut rsoudre ce systme pour exprimer
1 d d
pi = xi b xsi bs + udi usi
s + d

un choc de demande udi est transmis dans les prix : E udi pi 6= 0. On peut voir aisment
que lestimateur des mco de lquation de demande ou dore sera biais. On peut pour cela
considrer le graphe reprsentant lquilibre ore demande reprsent sur la figure 10.1.
Les observations correspondent lensemble des intersections des courbes dore et de
demande. Ces courbes se dplacent, sous laction des variations des variables explicatives
et aussi sous laction des chocs de demande et dore. On voit que sil ny a que des chocs
de demande, lensemble des points dintersection des courbes dore et de demande va
dcrire la courbe de demande, de mme, sil ny a que des chocs de demande, lensemble
des points dquilibre va dcrire la courbe dore. Dans le cas gnral, il y a des chocs
dore et de demande, et lensemble des quilibres ne dcrit ni la courbe dore ni la
courbe de demande, la droite de rgression passe au milieu.
10.1.3 Omission de rgresseurs, htrognit inobserve

On considre le modle
yi = xi b + zi c + ui
Il y a donc un facteur zi dont on sait quil explique la variable yi . On considre la situation
dans laquelle cette variable nest pas observe.
Lomission de cette variable conduit une estimation non convergente du modle par
les mco ds lors quelle est corrle avec les rgresseurs. On a en eet
0 1 0 0 1 0
P
bbmco b + E xi xi E xi (zi c + ui ) = b + E xi xi E xi zi c
= b + zi /xi c
0
Avec E xi ui = 0 et zi /xi le coecient de la rgression linaire de zi sur xi .
y y
Offre
Y*
Demande
p p
P*
Uniquement des chocs doffre
Equilibre Offre-Demande
y y
Droite de rgression
p p
Uniquement des chocs de demande Chocs doffre et de demande
Tab. 10.1 dirents quilibre ore-demande

10.2. LA MTHODE DES VARIABLES INSTRUMENTALES 145
Un exemple important est donn par les quations dites de Mincer reliant le salaire
lducation
wi = 0 + s si + ui
Le paramtre s mesure leet dune anne dtude supplmentaire sur le niveau de salaire.
Dans lensemble des causes inobserves aectant le salaire se trouve entre autres le niveau
daptitude de lindividu. Le choix dun niveau dtude si est une dcision rationnelle de
la part de lagent, fonction de laptitude de lindividu.
On peut considrer aussi le cas dune fonction de production agricole : yi est le
rendement de la terre, xi la quantit dengrais b est le rendement des pandages et
zi la qualit de la terre. Lomission de cette variable biaise lestimation du paramtre
technologique b si les dcisions dpandages dengrais dpendent de la qualit de la terre. Le
paramtre estim nidentifie pas seulement le paramtre structurel mais une combinaison
non dsire de ce paramtre et de celui refltant le comportement de lagriculteur.
10.2 La mthode des variables instrumentales

10.2.1 Modle variables endognes et non convergence de les-
timateur des mco
Le modle
yi = xi b + ui
est dit variables endognes si on na pas la proprit
0
E xi ui = 0

Les variables xki pour lesquelles E ui xki 6= 0 sont dites endognes, les autres sont
dites exognes
Dans ce modle lestimateur des mco nest pas convergent. En eet, il est donn par :
N !1 N !1
X X
N X X
N
bbmco = x0i xi x0i yi = x0i xi x0i (xi b + ui )
i=1 i=1 i=1 i=1
N !1
X X
N
1
= b+ x0i xi x0i ui b + E (x0i xi ) E (x0i ui ) .
i=1 i=1
comme E (x0i ui ) 6= 0 on a E (x0i xi )1 E (x0i ui ) 6= 0 et donc
p lim bbmco 6= b
Remarque On a introduit une distinction entre variable endogne et variable exogne,

nanmoins lensemble des coecients est biais et pas seulement ceux des variables en-
dognes. Pour le voir on peut considrer lexemple de la fonction de production que lon
considre en taux de croissance
yi = li + ki + ui
On fait en gnral lhypothse que le stock de capital sajuste lentement et nest de ce fait
pas corrl avec la perturbation. Par contre le travail est un facteur variable, positivement
corrl la perturbation : E (li ui ) = > 0. On calcule sans peine la valeur limite du
paramtre :

1 V (ki ) cov (li ki )
p lim biaismco =
V (li ) V (ki ) cov (li ki ) cov (li ki ) V (li ) 0

V (ki )
= V (li ) V (ki ) cov (li ki )
cov (li ki )
On constate donc que les deux coecients sont biaiss : celui du travail sans ambigut
la hausse, et celui du capital la baisse si comme cest probable le capital et le travail
sont corrls positivement.
10.2.2 Rsoudre le problme de lidentification par lutilisation

de variables instrumentales
Sans prtendre produire ici des estimateurs, on sintresse aux conditions didentifica-
tion. On considre pour cela nouveau le modle dore et de demande
yi = d pi + xdi bd + udi
yi = s pi + xsi bs + usi

On note xi = xdi , xsi , certains lments peuvent tre commun aux deux ensembles et
ninterviennent dans ce cas quune fois dans xi . On fait les hypothses
0 0
E xi udi = 0, E xi usi = 0 (10.1)
c.--d. que les variables observables qui dplacent lore et la demande sont exognes pour
udi et usi . On peut rsoudre comme prcdemment en pi mais aussi en yi :
1 d d
pi = xi b xsi bs + udi usi
s + d
s d s d
yi = xdi bd + xsi bs + udi + us
s + d s + d s + d s + d i
Compte tenu des relations 10.1, on peut exprimer les coecients des rgressions li-
naires de yi et pi sur xi partir des paramtres structurels.
La modlisation, cest dire la spcification dune fonction dore et de demande et
des restrictions stochastiques (exognit de xi ), conduit des restrictions sur les para-
mtres des rgressions linaires des variables endognes qui sont susceptibles de permettre
lidentification des paramtres structurels du modle.
Proposition Sil existe une variable exogne intervenant spcifiquement dans lquation
dore, lquation de demande est identifie.
De mme, sil existe une variable exogne intervenant spcifiquement dans lquation
de demande, lquation dore est identifie
Dmonstration Si xs1i est une telle variable, le coecient de cette variable dans la
1
rgression linaire de pi sur xsi et xdi est s + bs , et le coecient de cette variable dans
d 1
la rgression linaire de yi sur xsi et xdi est s+
d
bs . La comparaison de ces deux coecients
d 1
permet lidentification de d
Ce rsultat est obtenu en ayant recours une modlisation de lensemble des variables
endognes du modle : la production et le prix, ou de faon quivalente le systme dqua-
tions qui les dtermine simultanment. Dans de nombreuses situations on ne sintresse
qu une des deux quations, par exemple lquation de demande, les hypothses identi-
s
ficatrices peuvent tre assouplies. Il sut
quil existe
au moins une variable x1i entrant
0
dans lquation dore et vrifiant E xdi xs1i udi = 0. Dans ce cas si on considre les

ei = xdi xs1i sont
coecients y et p des rgressions linaires de yi et pi sur x
0 1 0 0 1 0
ei x
y = E x ei ei yi = E x
E x ei x
ei ei d pi + xdi bd + udi
E x
0 1 0 0 1 0
= d E x ei x
ei E x ei pi + E x ei x
ei E xei xdi bd
0
= d p + bd 0
Le vecteur y est identifi par les donnes : il sagit du vecteur des coecients de la
ei . Il en est de mme pour le vecteur p . ds lors que le coe-
rgression linaire de yi sur x
s
cient de la variable x1i dans la rgression de la variable de prix sur x ei , lment de p , est
non nul, et que la variable xs1i ne figure pas dans la liste des rgresseurs exognes (struc-
turels) de lquation de demande, on voit que les coecients de lquation de demande
sont identifis. Il nen est pas ncessairement de mme pour lquation dore, soit parce
que lon ne mesure pas toutes les variables xsi garantissant E (usi xsi ) = 0, soit parce quil
ny a pas de variables aectant la demande qui naecte pas directement lore. Enfin on
remarque quil nest pas ncessaire de spcifier lquation dore.
Cet exemple illustre bien la dmarche des variables instrumentales. Celle-ci correspond
la mobilisation de variables extrieures au modle qui possdent la particularit de ne
pas tre corrles avec le rsidu de lquation structurelle et qui sont nanmoins corrles
avec la variable endogne. Lidentification vient alors du fait que leet de la variable
instrumentale sur la variable dpendante ne fait que reflter celui de la variable endogne.
Dire quune variable est une variable instrumentale revient postuler une relation
dexclusion : il existe une variable aectant la variable expliquer et la variable explicative
endogne et dont tout leet sur la variable expliquer "transite" par son eet sur la
variable explicative endogne.
On voit donc quune variable instrumentale ne tombe pas du ciel. Dans lexemple on
justifie le choix de la variable comme tant une variable appartenant un modle plus
gnral, le systme ore-demande, conduisant lquation structurelle de demande et
une quation rduite expliquant la formation de la variable endogne.
10.2.3 Identification
On considre le modle structurel
yi = x1i b1 + x2i b2 + ui
les variables x2i , (dim = K2 + 1) contiennent la constante et sont exognes, mais on

ne fait pas lhypothse dexognit de la variable x1i (dim x1i = K1 = K K2 ) .
e
Definition Un ensemble variables zi = (zi , x2i ) , de dimension H + 1, non parfaite-
0 de
ment corrles (rang E zi zi = H + 1), est dit ensemble de variables instrumentales si
les deux conditions suivantes sont satisfaites :
0
E zi ui = 0. (10.2)
et 0
rang E zi xi = K + 1
La premire condition, appele condition dorthogonalit, consiste supposer que le
vecteur des variables instrumentales nest pas corrl avec le rsidu de lquation struc-
turelle. Il fait intervenir les K2 + 1 variables exognes x2 ainsi que (H + 1) (K2 + 1) =
H K2 instruments extrieurs zie .
Lhypothse (10.2) est parfois introduite sous la forme :
E(ui |zi ) = 0
qui est plus forte que la prcdente (non corrlation) puisquelle implique en particulier
E (g (zi ) ui ) = 0 pour toute fonction g.
La deuxime condition est dite condition de rang. Elle joue un rle essentiel, parfois
oubli, et que lon dtaillera par la suite.
La condition (10.2) peut tre rcrite comme suit :
0
E zi (yi xi b) = 0
Soit encore : 0 0
E zi yi = E zi xi b (10.3)
Cette condition dfinit un systme de H + 1 quations K + 1 inconnues b.

Le modle est identifi si le systme (10.3) admet pour unique solution le paramtre
structurel b
On distingue trois situations
Si H < K, le modle est sous identifi, puisquil y a moins dquations que de
variables. Il ny a pas susamment
de variables instrumentales
0
Si H = K et rang E z
0 i ix = K + 1 le modle est juste identifi.
Si H > K, rang E zi xi = K + 1 le modle est dit sur-identifi. Dans ce cas il y a
plus de variables instrumentales quil nest ncessaire
La condition de rang garantit que lon se trouve dans lune des deux dernires situa-
tions.
Proposition Considrant le modle
yi = xi b + ui
Sous les hypothses

zi tel que E (zi0 ui ) = 0
E (zi0 xi ) est de rang K+1,
Le paramtre b est identifi.
Dmonstration En multipliant le modle par zi0 et en prenant lesprance, il vient
E (zi0 yi ) = E (zi0 xi ) b + E (zi0 ui ) = E (zi0 xi ) b
Comme E (zi0 xi ) est de rang K+1, il existe ncessairement une matrice A de dimension
(K + 1) dim zi telle que AE (zi0 xi ) de dimension (K + 1) (K + 1) soit inversible (il
sut par exemple de considrer A = E (zi0 xi )0 ). On en dduit donc que
1
b = (AE (zi0 xi )) AE (zi0 yi )
b sexprime donc comme la limite dune fonction ne dpendant que des observations par
1 0
exemple Azi0 xi A zi yi
10.2.4 Moindres carrs indirects

0
Si H = K et si E zi xi est inversible, ce qui est le cas ds lors que la condition de rang
0 1 0
est satisfaite, alors on peut rsoudre b = E zi xi E zi yi . On obtient un estimateur
de b appel Estimateur des Moindres Carrs Indirects en remplaant les esprances par
leurs contreparties empiriques :
!1
1 X 0 1 X 0
N N
bbmci = z xi z yi
N i=1 i N i=1 i
= (z 0 x)1 z 0 y
o z est la matrice dont la i-ime ligne est zi , x la matrice dont la i-ime ligne est xi et y
le vecteur dont la i-ime composante est yi .
Si H > K, on se ramne au cas prcdent en slectionnant K +1 combinaisons linaires
des instruments : Azi , o A est une matrice K + 1 H + 1, de rang K + 1. Lhypothse
que lensemble des H + 1 variables dans zi est un ensemble de variables instrumentales
conduit la proprit que pour A tel que AE (zi0 xi ) est inversible,
1
b = (AE (zi0 xi )) AE (zi0 yi ) .
On en dduit une classe destimateur :

bbmci (A) = Az 0 xi 1 Az 0 yi
i i
0 1 0
= (Az x) Az y
10.2.5 Proprit asymptotiques des estimateurs des MCI

yi = xi b + ui
K + 1 variables explicatives. Sous les hypothses :
H1 E (zi0 ui ) = 0 avec zi de dim 1 H + 1
H2 Les observations (xi , zi , yi ) sont iid
H3 E(u2i |zi ) = 2
H4 Les moments de (xi , zi , yi ) existent jusqu un ordre susant
0 0
H5 E zi xi et zi xi sont de rang K + 1
Alors, il existe au moins1
une matrice A de dimension K + 1 H + 1 pour laquelle les-
timateur bbmci (A) = Az xi
0 0
i Az yi existe, et pour toute matrice A telle que lestimateur
i
p
des MCI existe et toute suite de matrice, ventuellement dpendant des donnes An A,
on a :
1. bbmci (A) est convergent : p lim bbmci (A) = b
2. bbmci (A) est asymptotiquement normal :

b L
N bmci (A) b N(0, (A)),
avec h 0 i1 h 0 i1
2
(A) = AE zi xi AE (zi zi ) A E xi zi A0
0 0
h i1 h i1
b
3. (A) = b2 Azi xi
0 0
Azi0 zi A0 xi zi A0 o b (A)2i , est un estimateur convergent
b2 = u
de (A)
Dmonstration
0 0 Existence dau moins un estimateur
0 0 des MCI : Il sut de prendre
0 0 0 0
A = E zi xi on a alors E zi xi zi xi E zi xi E zi xi qui est inversible puisque
0 0
rang E zi xi = K + 1. Comme le dterminant est une fonction continue det Azi xi
0
det AA0 6= 0 et donc la matrice Azi xi est inversible pour N assez grand.
Convergence :
1 1
bbmci (AN ) = AN z 0 xi A z
0
N i iy = b + A z
0
N i ix
0
AN zi ui .
i
La convergence dcoule simplement de la loi des grands nombres :

p
0
0
zi ui E zi ui = 0.
p 0 p 0
et du fait que AN A et zi xi E zi xi
1 0
b 0
N bmci (A) b = AN zi xi AN Nzi ui
0 0 0 0
Comme V zi ui = E(zi zi u2i ) = E zi zi E(u2i | zi ) = 2 E zi zi , la normalit asympto-
tique dcoule directement du thorme central limite :
0 L
Nzi ui N(0, 2 E (zi zi0 ))
1 p 0 1
0
et AN zi xi AN AE zi xi A
Estimation de la matrice de variance-covariance asymptotique
2
b (A)2i = ui + xi b bb (A)
Comme pour lestimateur des mco, on vrifie facilement que u
2 puisque b bb (A) 0
Remarque Estimation robuste de la matrice de variance : Comme pour lestimateur des
mco, il existe une version de la matrice de variance-covariance (A) pour le cas de rsidus
htroscdastiques, i.e. lorsque E(u2i |zi ) dpend de zi . On peut donc supprimer lhypothse
H3. Les conclusions sont simplement modifies en : bbmci (A) est asymptotiquement normal :

b L
N bmci (A) b N(0, het (A)),
avec h 0 i1 2 0 0 h 0 0 i1
het (A) = AE zi xi AE ui zi zi A E xi zi A
h i1 h i1
b het (A) = Az 0 xi
et Ab
u (A)2 0
z z A0
x
0
z A0
est un estimateur convergent de la ma-
i i i i i i
trice de variance.
10.3 Lestimateur des doubles moindres carrs

10.3.1 Existence dun estimateur optimal
On peut se demander sil nexiste pas une matrice A qui conduise un estimateur
devariance minimale,
cest
dire tel que pour toute combinaison linaire b, on ait
b b
V b (A ) V b (A) . Une telle matrice existe et mne lestimateur des doubles
moindres carrs.
Proposition Il existe une matrice A optimale au sens o pour toute suite de matrice
AN A , la variance asymptotique de bbmci (AN ) est de variance minimale dans la classe
des estimateurs bbmci (A). Cette matrice a pour expression :
0
1
A = E xi zi E (zi0 zi )
La matrice de variance correspondante a pour expression

h 0 0 i1
1
(A ) = 2 E xi zi E (zi0 zi ) E zi xi
Dmonstration Pour montrer que (A) > (A ) au sens des matrices, i.e. on a
0
((A) (A )) > 0 on peut clairement liminer le facteur 2 . La matrice de variance
(A ) scrit :
h 0 0 i1
0 1 1
(A ) = E xi zi E (zi zi ) E zi xi = (C 0 C)
0
avec C = E (zi0 zi )1/2 E zi xi de dim H + 1 K + 1.La matrice (A) scrit :
h 0 i1 h 0 i1
(A) = AE zi xi AE (zi0 zi ) A0 E xi zi A0 = BB 0
0 1
avec B = AE zi xi AE (zi0 zi )1/2 de dim K + 1 H + 1.On a la relation
h 0 i1 0
1/2 1/2
BC = AE zi xi AE (zi0 zi ) E (zi0 zi ) E zi xi
h 0 i1 0
= AE zi xi AE zi xi = IK+1
10.3. LESTIMATEUR DES DOUBLES MOINDRES CARRS 153
On a donc
1 1
(A) (A ) = BB 0 (C 0 C) = BB 0 BC (C 0 C) C 0B0
puisque BC = I. On a donc :
h i
1
(A) (A ) = B I C (C 0 C) C 0 B 0
Comme I C (C 0 C)1 C 0 est une matrice semi-dfinie positive, (A) (A ) est aussi
une matrice semi-dfinie positive
Remarque On a vu que dans le cas htroscdastique, la variance de lestimateur des
0 1 0 1
moindres carrs indirects scrivait : het (A) = AE zi xi AE (u2i zi0 zi ) A0 E xi zi A0 .
O voit par analogie avec le cas prcdent homoscdastique que
0 dans
ce cas 1 aussi il y a un
estimateur optimal et quil correspond la matrice A = E xi zi E (u2i zi0 zi ) .
10.3.2 Lestimateur optimal comme estimateur des doubles moindres

carrs
0
La matrice A = E xi zi E (zi0 zi )1 est inconnue. Pour mettre l0 estimateur en oeuvre,
1
on la remplace par un estimateur convergent. AN = x0i zi zi0 zi est un choix naturel.
1 0
1 1 0
bbmci (AN ) = 0
xi zi zi0 zi zi xi
0
xi zi zi0 zi zi yi
1
1 1
= x0 z (z 0 z) z 0 x x0 z (z 0 z) z 0 y
Cet estimateur a les mmes proprits asymptotiques que lestimateur bbmci (A ) puisque
AN A .
On peut rcrire lestimateur en faisant intervenir la matrice de projection orthogonale
sur z, Pz = z (z 0 z)1 z 0
bb2mc (A ) = (x0 Pz x)1 x0 Pz y = ((Pz x)0 Pz x)1 (Pz x)0 y
On voit que la projection des variables explicatives sur les variables instrumentales joue
un rle trs important. Il correspond de faon vidente lestimateur des mco de la
variable endogne y sur la projection x b = Pz x des variables explicatives sur lensemble
des instruments. On peut vrifier directement ce point en considrant nouveau le modle
et en dcomposant les variables explicatives en x= Pz x + Mz x. Le modle scrit :
y = xb + u
= Pz xb + Mz xb + u = Pz xb + v
Ici la perturbation comprend le vrai rsidu mais aussi la partie des variables expli-
catives orthogonales aux variables instrumentales : v= Mz x+u. On voit que pour ce
nouveau modle dans lequel les rgresseurs ont t remplacs par leurs projections sur
les variables explicatives, il y a orthogonalit entre le rsidu et les variables explica-
tives puisque (Pz x)0 u/N = x0 z/N (z 0 z/N)1 z 0 u/N E (x0 z) E (z 0 z)1 E (z 0 u) = 0 et
(Pz x)0 Mz x = x0 Pz Mz x = 0. On en dduit que lestimateur des mco de la rgression de y
sur Pz x est bien convergent.
Cest pourquoi on appelle cet estimateur estimateur des doubles moindres carrs et on
le note bb2mc puisquil pourrait tre obtenu partir dune premire rgression des variables
explicatives sur les variables instrumentales puis par rgression de la variable endogne
sur les variables prdites de cette rgression.
Lestimateur peut tre dtermin en deux tapes :
1. On rgresse x sur z et on rcupre b
x la valeur prdite.
2. On rgresse y sur b
x
La matrice de variance asymptotique de bb2mc est
h 0 0 i1
Vas (bb2mc ) = 2 E xi zi E (zi0 zi ) E zi xi
1
et la matrice de variance de lestimateur dans un chantillon de taille N est

h 0 0 i1
V (bb2mc ) = Vas /N = 2 E xi zi E (zi0 zi ) E zi xi
1
/N
On peut lestimer par

1 0 1
Vb (bb2mc ) =
1
b2 x0 z (z 0 z) z 0 x b2 (x0 Pz x)1 =
= b2 x
bxb
Lcart-type des rsidus retenir est celui du modle
yi = xi b + ui
2
et peut tre estim par yi xibb2mc . Il faut remarquer quici il sagit du rsidu u
bi =
yi xibb2mc et non du rsidu de la deuxime tape yi x
bibb2mc .
Cette criture de lestimateur variables instrumentales montre quon peut linterpr-
ter comme oprant un filtrage de linformation. On ne retient de la variabilit des variables
explicatives que la partie qui correspond des chocs non corrls avec la perturbation.
Ce filtrage est opr en projetant les variables explicatives sur un ensemble de variables
non corrles avec la perturbation. La condition de rang garantit que lon ne perd pas le
minimum dinformation requis pour identifier le paramtre.
10.3. LESTIMATEUR DES DOUBLES MOINDRES CARRS 155
On voit aussi que dans cette opration de filtrage on perd de linformation et que cette
perte dinformation conduit une moins grande prcision de lestimateur :

b
Vas b2mc = p lim ((Pz x) Pz x/N) % (x x/N) = Vas bmco
2 0 1 2 0 1 b
La prcision de lestimateur variables instrumentales ne peut donc dpasser celle

quaurait lestimateur des mco si les variables explicatives taient exognes. On voit que
lorsque la dimension de lespace sur lequel on projette augmente, la prcision de lesti-
mateur variables instrumentales saccrot. A la limite, si la taille de lespace sur lequel
on projette augmente susamment, on retrouve la prcision de lestimateur des mco,
mais alors on retrouve aussi lestimateur des mco. Dans la dcision dintroduire ou non
telle ou telle variable dans la liste des variables instrumentales, il y a donc un arbitrage
entre prcision de lestimateur et convergence de lestimateur : plus il y a de variables
instrumentales plus lestimateur est prcis, mais plus les risques de biais sont importants.
10.3.3 Cas des rsidus htroscdastiques

Dans ce cas lestimateur des doubles moindres carrs nest plus optimal, et la formule
de sa variance nest plus correcte.
La formule exacte est donne comme dans le cas gnral par
h 0 i1 h 0 i1
Vas,het (A ) = A E zi xi A E u2i zi0 zi A0 E xi zi A0
h 0 0 i1 0
1 1
= E xi zi E (zi0 zi ) E zi xi E xi zi E (zi0 zi )
0 h 0 0 i1
1 1
E u2i zi0 zi E (zi0 zi ) E zi xi E xi zi E (zi0 zi ) E zi xi
0 1 0 0 1
= E x ei x
ei E u2i x ei x
ei E x ei x
ei
0
ei = zi E (zi0 zi )1 E zi xi .
o x
La matrice de variance de lestimateur des doubles moindres carrs est

b
Vhet b2mc = Vas,het (A )/N
Elle peut tre estime par
V
1 XN
! N
X
!1
(A ) 0 0 0
Vbhet bb2mc = = bei b b2i b
ei b b
ei b
as,het
x ei
x u x ei
x x ei
x
N i=1 i=1
0 1 0
b
ei = zi zi zi
o x zi xi qui est exactement la matrice de White.
10.4 Interprtation de la condition rang E (zi0xi) = K +1

La mise en oeuvre de la mthode des variables instrumentales repose sur la condition
rang E (zi0 xi ) = K + 1. Les variables du modle sont scindes en K1 variables endognes
x1i et K2 + 1 variables exognes. Ces variables interviennent galement dans la liste des

instruments qui contient en outre H K2 variables extrieures zei : zi = zei x2i .
0
Compte tenu de lhypothse E zi zi inversible, la condition rang E (zi0 xi ) = K + 1 est
0 1
analogue la condition rang E zi zi E (zi0 xi ) = K + 1. Cette matrice correspond
la matrice des coecients des rgressions des variables explicatives sur les instruments.
Comme les variables du modle et les instruments ont les variables x2 en commun, on a :
0 1
0
0 1 0 0
E zi zi E (zi xi ) = E zi zi E (zi x1i )
IK2 +1

1ez 0
=
1x2 IK2 +1
o 1ez et 1x2 sont les coecients de ze et x2 des rgressions des variables endognes sur
0 1
les instruments. La condition rang E zi zi E (zi0 xi ) = K + 1 est donc quivalente la
condition
rang 1ez = K1
Cette condition sinterprte comme le fait que les variables instrumentales extrieures
expliquent susamment bien les variables endognes. Il nexiste pas de test formel de
cette condition qui puisse tre facilement mis en oeuvre. Nanmoins il est important de
regarder la faon dont les variables instrumentales expliquent les variables endognes,
mme si on peut mettre en oeuvre lestimateur des doubles moindres carrs directement
sans faire cette rgression intermdiaire. On peut par exemple, bien que cela ne garantisse
pas que la condition est satisfaite ds quil y a plus dune variable endogne, eectuer
chaque rgression des variables endognes sur lensemble des variables instrumentales et
faire un test de la nullit globale des coecients des variables instrumentales extrieures.
Dans le cas o la condition rang E (zi0 xi ) = K+1 nest pas satisfaite, on aura nanmoins
en gnral distance finie rang zi0 xi = K + 1 et lestimateur pourra tre numriquement
mis en oeuvre. La consquence du fait que rang E (zi0 xi ) < K + 1 est que
1 1
x0 z (z 0 z) z 0 x E (x0i zi ) E (zi0 zi ) E (zi0 xi )
non inversible. Lestimateur sera donc trs instable et prsentera des carts-type trs
levs sur certains coecients, linstar de ce qui se produit avec les mco dans le cas de
multicolinarit.
Lorsque lon est la limite de cette situation, cest dire lorsque lon dispose de
variables instrumentales expliquant trs mal les variables endognes on parle dinstruments
faibles.
10.5. TEST DE SURIDENTIFICATION 157
On peut tre tent de pallier ce manque de pouvoir explicatif des instruments par luti-
lisation dun grand nombre dentre eux : on est dans la situation ou il y a beaucoup de
variables instrumentales mais ou toutes, prises ensemble ont un pouvoir explicatif faible.
Cette situation prsente des eets indsirables dont on peut avoir facilement lintuition.
Lorsque le nombre dinstruments sur lequel on projette les variables devient grand et m-
caniquement, sans que cela rsulte dune proprit statistique, la prdiction de la variable
explicative va devenir meilleure : elle va se rapprocher des variables explicatives simple-
ment parce que lespace sur lequel on projette devient plus grand. On comprend alors que
dans ce cas lestimateur variables instrumentales se rapproche de lestimateur des mco.
Lutilisation dun grand nombre de variables instrumentales au pouvoir explicatif m-
diocre est donc une situation peu souhaitable. On considre pour sen prmunir quil faut
que le F de Fisher testant la nullit globale des coecients des variables instrumentales
dans la rgression des variables explicatives endognes soit plus grand que 1.
10.5 Test de suridentification

En pratique, on est souvent amen eectuer des estimations dune mme quation
en tendant ou restreignant la liste des variables instrumentales. On a vu en eet que
lon pouvait avoir intrt accrotre le nombre de variables instrumentales dans la me-
sure o cela conduit des estimateurs plus prcis. On a vu aussi quaccrotre indment
lensemble des variables instrumentales pouvait conduire faire apparatre des biais dans
lestimation. On va prsenter dans cette section un test trs important et trs couramment
utilis permettant de contrler quil ny a pas dincohrence dans le choix des variables
instrumentales. Ce test, appel test de Suridentification, ou test de Sargan constitue un
guide incontournable dans le choix des variables instrumentales. On prsente dabord
lide et le sens du test de Sargan dune faon informelle, on aborde ensuite la question
plus formellement et de faon plus pratique.
10.5.1 Ide du test

Lorsquil y a plus dinstruments que de variables explicatives le modle est suridentifi.
On a vu que dans le modle
yi = xi b + ui
avec pour restriction identifiante 0
E zi ui = 0,
on pouvait estimer le modle par les MCI de trs nombreuses faons, lestimateur le plus
performant tant celui des doubles moindres carrs. On avait

bbmci (A) = Az 0 xi 1 Az 0 yi
i i
contrepartie empirique de la relation

1
b = (AE (zi0 xi )) AE (zi0 yi )
Cette dernire relation doit tre vraie pour toute matrice A telle que AE (zi0 xi ) est in-
versible. Elle montre bien que le modle impose plus de structure entre les donnes quil
nest ncessaire pour identifier le modle : tous les paramtres bbmci (A) doivent converger
vers une mme valeur.
Considrons par exemple le cas dun modle ne prsentant quune variable explicative
et pour lequel il existe h variables instrumentales. On pourrait considrer h estimateurs
variables instrumentales obtenus en utilisant chaque fois une seule des variables ins-
trumentales.
bbV I (k) = zi (k) yi
zi (k) xi
Si toutes ces variables sont compatibles entre elles, les estimateurs obtenus doivent tous
tre proches les uns des autres on doit avoir p lim bbV I (k) indpendant de k. Lide du test
de suridentification est de comparer entre eux les dirents estimateurs et de juger sils
sont ou non proches. Ceci constitue lide du test de suridentification, cela ne reprsente
nullement la faon dont on le met en oeuvre. On va voir ultrieurement une procdure
permettant de tester directement lhypothse que pour un jeu de variables instrumentales
donn lensemble des estimateurs bbmci (A) convergent tous vers la mme valeur, sans avoir
calculer tous ces estimateurs.
Remarquons que ce test nest pas proprement parl un test de validit des instruments
mais un test de compatibilit des instruments. Il signifie en eet uniquement eb tq
bbmci (A) eb . Ceci est une proprit statistique des donnes, qui peut tre teste. Il
ne signifie pas nanmoins bbmci (A) eb = b le paramtre structurel que lon souhaite
identifier.
10.5.2 Approche formelle

La convergence de chaque estimateur des moindres carrs indirects provient de la
proprit E (zi0 ui ) = 0. Cest elle que lon pourrait souhaiter tester directement. Il sagirait
du test de lhypothse nulle
H00 : E (zi0 ui ) = 0
Si le rsidu tait connu un tel test serait trs facile mettre en oeuvre. Il consisterait
simplement regarder si la moyenne empirique zi0 ui de zi0 ui est proche de zro, cest dire
si la norme de ce vecteur est proche de zro.
Nanmoins comme on la dit, le test que lon peut esprer mettre en oeuvre nest pas
le test de H00 , soit le test de
H00 : E (zi0 (yi xi b)) = 0

ou b est le paramtre structurel mais simplement le test de

eb tq E zi0 yi xieb = 0
Il est clair que sous H00 : p lim bb2mc = eb et donc que la faon naturelle de tester une telle
hypothse est dexaminer si zi0 ubi est proche de zro.
Remarque 1. Sous lhypothse H00 on aurait donc en appliquant le thorme centrale
limite, et compte tenu de lhypothse dhomoscdasticit
0
0 2
Nzi ui N 0, E zi zi
et donc
N 0 0 0 1 0
z ui E zi zi zi ui 2 (dim (zi ))
2 i
ou encore
N 0 0 0 1 0
zi ui zi zi zi ui 2 (dim (zi ))
b2

2. On rappelle le rsultat suivant
W N (0, V (W )) W 0 V (W ) W 0 2 (rang (V (W )))
o V (W ) est un inverse gnralis de la matrice V (W ) , i.e. tel que
V (W ) V (W ) V (W ) = V (W )
bi .
Ici on ne peut pas utiliser ui le rsidu structurel mais u
La statistique de test va rester la mme ceci prt que :
bi et non ui
1. on utilise u
2. le nombre de degrs de libert nest pas le nombre de variables instrumentales
dim (zi ) = H + 1 , mais H K, cest dire le nombre dinstruments en excs.
Ce dernier point exprime bien le fait quune partie des conditions dorthogonalit est
mobilise pour identifier le paramtre et illustre bien le nom de suridentification donn
au test.
Proposition Sous les hypothses de rgularit garantissant la convergence et la nor-
malit asymptotique
de lestimateur variables instrumentales, dans le cas de rsidus
2
homoscdastiques (V yi xieb |zi = 2 ),

Sous H0 : ebtqE zi0 yi xieb = 0, la statistique Sb
0 1
0 zi zi
Sb = Nzi0 u
bi 2 bi 2 (H K)
zi0 u
b

bi = yi xibb2mc et
o u b2 = u
b2i .
Le test de H0 contre H1 : @eb tq E zi0 yi xieb = 0 bas sur la rgion critique
n o
b b 2
W = S S > q 1 , (H K)
o q (1 , 2 (H K)) est le quantile dordre 1 dun 2 (H K) est un test

convergent au seuil .

Dmonstration Sous H0 , soit eb la valeur du paramtre telle que E zi0 yi xieb = 0
ei le rsidu correspondant. Ces grandeurs sont a priori distinctes rappelons le des
et soit u
quantits ayant sens sur le plan conomique eb et ui . Nanmoins, pour ne pas alourdir, on
les note b et ui ,

b b b
bi = yi xi b2mc = xi b + ui xi b2mc = ui xi b2mc b
u
do
1 0
zi0 u
bi = zub = zi0 ui zi0 xi bb2mc b
N
comme
1 0
1 1 0
bb2mc = 0
xi zi zi0 zi zi xi
0
xi zi zi0 zi zi yi
1 0
1 1 0
0 0
= b + xi zi zi0 zi zi xi xi zi zi0 zi zi ui
on a :
1
0 0 0 1 0 0 0 1 0 0
zi0 u
bi = IH+1 zi xi xi zi zi zi zi xi xi zi zi zi zi ui = (IH+1 MN ) zi ui
0 0 0 1 0
et MN M = E zi xi E xi zi E (zi0 zi )1 E zi xi E xi zi E (zi0 zi )1 . M vrifie
en outre M 2 = M
On en dduit que
0 L
Nzi0 u
bi = (IH+1 M) Nzi ui + op (1) N (0, )
0 0
avec = (IH+1 M) V zi ui (IH+1 M 0 ) = 2 (IH+1 M) E zi zi (IH+1 M 0 ) .On
0 0
vrifie que (IH+1 M) E zi zi = E zi zi (IH+1 M 0 ) si bien que Vas Nzi0 u
bi =
2
0
(IH+1 M) E zi zi
Comme M 2 = M on vrifie immdiatement que MVas Nzi0 u
bi = 0 et donc que
0
Vas 0
Nzi ubi nest pas de plein rang. Comme Vas 0
Nzi u bi = 2 (IH+1 M) E zi zi ,

le rang de Vas bi est clairement celui de (IH+1 M) et comme M 2 = M, les
Nzi0 u
valeurs propres de M sont soit 1 soit 0. On en dduit que

0
rangVas Nzi ubi = T r (IH+1 M) = rang (IH+1 M) = H + 1 T r (M)
= H+ 1
0 0 0 1 0
0 1 0 1
T r E zi xi E xi zi E (zi zi ) E zi xi E xi zi E (zi zi )
= H+ 1
0 0 1 0 0
0 1 0 1
Tr E xi zi E (zi zi ) E zi xi E xi zi E (zi zi ) E zi xi
= H K
On a aussi
1 0 1 0
0 0 2
Vas Nzi u bi 2 E zi zi Vas bi = (IH+1 M) E zi zi
Nzi u

1 0 1 2 0
E zi zi (IH+1 M) E zi zi
2 0
= 2 (IH+1 M) (IH+1 M) E zi zi
0
2
= (IH+1 M) E zi zi

= Vas Nzi0 u
bi
0 1
on en dduit que 12 E zi zi est un inverse gnralis de la matrice de variance asymp-
0
totique N zi ubi . On a donc
1 0 1 0 L 2
Nu bi zi 2 E zi zi bi (H K)
zi u

0
et on peut clairement remplacer en appliquant le thorme de Slutsky E zi zi par zi0 zi et
b2 .
2 par
1
0 (z 0 zi ) L
Donc, sous H0 : Sb = zi0 u
bi i b 2 zi0 u bi 2 (H K) .

P
bi = zi0 yi xibb2mc = zi0 yi xi p lim bb2mc + op (1) 6= 0,
En outre sous H1 , zi0 u
1 1
(z0 zi ) P 0 (z 0 zi ) P
comme i b 2 inversible, zi0 u bi 0 , sous H1 , donc Sb et il en
bi i b 2 zi0 u
rsulte que P (W |H1 ) 1.
10.5.3 Mise en oeuvre du test

Le test de suridentification est trs simple mettre en oeuvre. Il correspond au test
bi sur les variables instrumentales,
de la nullit globale des coecients de la rgression de u
y compris la constante. En eet, si on considre le modle
bi = zi + wi
u
0 1 0
b
lestimateur des mco de est = zi zi b = V (wi ) z 0 zi 1 /N. Sous lhy-
bi , V
zi u i
pothse H : = 0, V (wi ) = V (b b2 et donc le test de = 0 doit tre men

ui ) =
1 1 0 2 0 1 0 1 0
b0V
partir de b b=u
bi zi z 0 zi N z zi /b
z zi zu bi zi z 0 zi
bi = N u 2
bi /b
zu
i i i i i i
qui est la statistique. Le test est donc formellement quivalent au test de la nullit globale
des coecients de la rgression de u bi sur les variables instrumentales zi . On sait que ce
mme test peut tre eectu (asymptotyiquement) partir du R2 de la rgression. La
statistique de test est NR2 et est quivalente sous lhypotyse nulle au F de la rgression.
Le test peut donc tre eectu partir du F de cette rgression. Nanmoins il convient
dtre prudent en ce qui concerne le calcul de cette statistique et celui de la pvalue. Ceci
tient au nombre de degrs de libert retenu dans le calcul. Considrons Sb la statistique
de test de la proposition prcdente. La statistique donne par le logiciel FLog est relie
b
cette statistique Sb par la formule FLog = S/H. On divise par H car le logiciel prend en
compte le nombre de rgresseurs. La pvalue qui accompagne le F de la rgression donn
dans tous les logiciels, fait lhypothse que cette statistique suit une loi F (H, N H 1)
degrs de libert, o H est le nombre de variables explicatives non constantes de la rgres-
sion, ici on a N . Pour N F (k, N k 1) 2 (k) /k. La p value indique
correspond donc une statistique 2 (H) /H. Elle nest donc pas correcte, la statistique
non plus. On sait que HFLog 2 (H K) et donc FRec = (H/ (H K)) FLog suit une
loi F (H K, N (H K) 1) . On doit donc considrer soit la statistique HFLog et
calculer la p-value partir dune loi du 2 (H K) , soit considrer FRec et calculer la
p-value partir dune loi F (H K, ) .
Remarque 1. On a a priori toujours intrt avoir un ensemble dinstrument le

plus large possible. En eet retirer une variable instrumentale et mettre en oeuvre
lestimateur des doubles moindres carrs correspond slectionner une matrice par-
ticulire pour lestimateur des moindres carrs indirects avec le jeu complet dins-
truments. Comme on la montr cet estimateur est alors ncessairement moins ou
aussi bon que lestimateur des doubles moindres carrs avec lensemble dinstrument
complet. Quand on tend lensemble des variables instrumentales, il est important de
bien vrifier la compatibilit globale des instruments utiliss et de mettre en oeuvre
le test de suridentification.
2. La matrice de variance de lestimateur des doubles moindres carrs est toujours plus
grande que celle de lestimateur des mco. Ceci se voit immdiatement en examinant
lexpression des variances
1 1
V (bmco ) = 2 (x0 x) et V (b2mc ) = 2 (x0 Pz x)
10.6. TEST DEXOGNIT DES VARIABLES EXPLICATIVES 163
En outre, on voit aussi en comparant les expressions des estimateurs

1 1
bmco = (x0 x) x0 y et b2mc = (x0 Pz x) x0 Pz y
que lorsque lon tend la liste des variables instrumentales la dimension de lespace
sur lequel on projette les variables du modle augmente et quon en a donc une re-
prsentation de plus en plus fidle. La variance de lestimateur des doubles moindres
carrs va samliorer, mais lestimateur des doubles moindres carrs va se rappro-
cher de lestimateur des moindres carrs ordinaires. Il y a donc un risque tendre
trop la liste des instruments. A distance finie, on pourrait avoir une mise en oeuvre
fallacieuse conduisant un estimateur proche de celui des mco. Il est utile pour
se prmunir de ce risque de regarder la rgression des variables endognes sur les
instruments et de contrler la significativit globales des instruments.
10.6 Test dexognit des variables explicatives

10.6.1 Intrt et ide du test
Ayant estim le modle par les doubles moindre carrs, cest dire sous lhypothse
0
H1 : c tq E zi (yi xi c) = 0
on peut vouloir tester lhypothse que les rgresseurs xi sont exognes.

On considre donc lhypothse
0 0
H0 : c tq E zi (yi xi c) = 0 et E xi (yi xi c) = 0
Lintrt de tester une telle hypothse est immdiat compte tenu du fait que sous cette
hypothse lestimateur optimal sera lestimateur des mco qui domine nimporte quel esti-
mateur variables instrumentales. Une ide naturelle consiste examiner si les coecients
estims sous lhypothse nulle et sous lhypothse alternative sont identiques, cest dire
si p lim bb2mc = p lim bbmco . Notons que l encore il ne sagit que dun test de compatibilit
des conditions dorthogonalit entre elles et non pas un test de leur validit dans le cadre
de lestimation dun paramtre structurel.
10.6.2 Approche formelle

Test de Hausman
Lide prcdemment avance de tester lhypothse p lim bb2mc = p lim bbmco peut tre
mise en oeuvre en se
fondant sur la
0 comparaison
de bb2mcbbmco avec 0.
Pour faire ce test on

va donc examiner N bb2mc bbmco Vas bb2mc bbmco bb2mc bbmco . Plusieurs questions
se posent naturellement. On a vu quau sein des variables explicatives x soprait une

distinction naturelle entre les K1 variables endognes x1 et les 1 + K2 variables exognes
x2 . On peut sattendre ce que le test ne porte que sur les coecients des variables
potentiellement
endognes. En outre se pose les questions du rang de la matrice de variance

Vas bb2mc bbmco qui conditionne le nombre de degrs de libert de la loi limite de la
statistique et de la dtermination dun inverse gnralis. On examine tour tour chacune
de ces questions.
Le test peut tre bas sur les coecients des endognes

Lemme On a
1 !
11
bb2mc bbmco = x 1 b0 x
x b bb(1) bb(1)
b0 x
b 2mc mco
0K2 +1,K1
Le test de p lim bb2mc = p lim bbmco est identique celui de p lim bb2mc = p lim bbmco . En outre
(1) (1)
0 11 0
bb(1) bb(1) = x
bxb x b1 Mx y
2mc mco
0 1 0
Dmonstration En eet bb2mc = x
bxb b y et bbmco = (x0 x)1 x0 y donc
x
h i
1 0
b bb2mc bbmco = x
1
b0 x
x b0 x
b x b0 x
b b y (x0 x) x0 y
x
h i
1
= x b0 y x
b0 xb (x0 x) x0 y
h i
1
= x b0 y x
b0 x (x0 x) x0 y = x b0 Mx y
b = (Pz x)0 (Pz x) = x0 Pz Pz x = (Pz x)0 x = x

b0 x
Puisque x b0 x et avec Mx = IN x (x0 x)1 x0 .
Comme x2 z, x b2 = (Pz x2 ) = x2 et donc x b02 Mx = x02 Mx = 0.
x b01 Mx y

0
bx
x b b
b b2mc bmco =
0
Dont on en dduit que

x b01 Mx y

bb2mc bbmco = x0 1
bx b
0
soit, avec b(1) le vecteurs des coecients de x1i et symtriquement pour b(2) , et les notations
standards 0 0 1 " 0 11 0 12 #
b
x b
x
0 11 xbx b12 bx
x b bx
x b
0 = 0 21 0 22
bx
x b 21 x bx b 22 bx
x b bx
x b
10.6. TEST DEXOGNIT DES VARIABLES EXPLICATIVES 165
0 (1)
bx
x b 21 bb2mc bb(1)
mco + b
x0
b
x 22
bb(2) bb(2) = 0
2mc mco
et
0 11 0
bb(1) bb(1) = x
bxb x b1 Mx y
2mc mco
Le test de p lim bb2mc = p lim bbmco et donc quivalent celui de p lim bb2mc = p lim bbmco . Ce
(1) (1)
11 0
test peut en outre tre pratiqu partir de lexpression bb2mc bbmco = x
(1) (1)
b0 x
b x b1 Mx y
Rang de la matrice de variance de bb2mc bbmco

(1) (1)
0
Lemme Sous lhypothse rang z x = K + 1, le rang de la matrice de variance de
bb(1) bb(1)
mco est K1 , le nombre de variables explicatives endognes.
2mc
Dmonstration Lexpression prcdente montre que la matrice de variance de bb2mc

(1)
0 11 0 0 11
bb(1)
mco est
2
bx
x b x b1 Mx x
b1 xbxb . Son rang est donc gal celui de x b01 Mx xb1 , donc celui
de Mx x b1 . Supposons que lon ait pour un vecteur : Mx x b1 = 0 alors Px xb1 = x b1 il existe
donc un vecteur tel que x b1 = x. Comme x b1 appartient lespace engendr par z =
z , x2 ] , la combinaison linaire x est ncessairement une combinaison linaire des seules
[e
variables explicatives exognes : x = x2 2 . Notant comme prcdemment 1 = [1ez , 1x2 ] ,
o 1ez et 1x2 sont les coecients de ze et x2 des rgressions des variables endognes sur
les instruments. Lquation x b1 = x2 2 , scrit ze1ez + x2 (1x2 2 ) =0. Comme Z
0
est de rang K + 1 ceci ncessite 1ez = 0. Et on a vu que la condition rang z x = K + 1
est quivalente 1ez de rang K1 on a donc ncessairement sous cette condition = 0 et
donc la matrice de variance de bb2mc bbmco est inversible : le nombre de degrs de libert
(1) (1)
du test dexognit est gal K1 .
Le test de Hausman
Proposition Lorsque lhypothse dhomoscdasticit, E(u2i |xi , zi ) = 2 est satisfaite,
sous lhypothse nulle dexognit de xi , la statistique
" 0 11 #1
N 0 x
b0 11
b
x xx
Sb = 2 bb2mc bb(1) bb(1) bb(1)
(1) L
mco 2mc mco 2 (K1 )
b
N N
Un test convergent au niveau de H0 peut tre eectu en comparant la valeur de la

statistique Sb au quantile dordre 1 dune loi du 2 K1 degrs de libert
Dmonstration Sous lhypothse dhomoscdasticit et sous lhypothse nulle, bbmco est
lestimateur de variance minimale dans la classe des estimateurs sans biais dont fait parti
lestimateur des doubles moindres carrs. On a donc

b b b
Vas b2mc bmco = Vas b2mc Vas bmco b
Un estimateur convergent de la matrice de variance de la dirence bb2mc bbmco est donc

donn par " 11 #
b
x0
b
x (x0
x) 11
Vbas bb2mc bbmco =
b 2

N N
On en dduit que Sb suit une loi du 2 K1 degrs de libert sous H0 . Sous lhypothse
alternative p lim bb2mc p lim bbmco 6= 0 et donc Sb +
(1) (1)
Test dexognit par le biais de la rgression augmente

Le test dexognit peut tre mis en oeuvre trs simplement par le biais dune simple
rgression de la variable dpendante y sur les variables potentiellement endognes du
modle et les variables exognes x1 et x2 et sur la projection des variables endognes sur
b1 :
les variables instrumentales x
b1 + w
y = x1 c1 + x2 c2 + x
Lestimateur MCO du coecient de sobtient aisment partir de thorme de Frish-

Waugh : il sagit du coecient de la rgression des mco sur le rsidu de la rgression de
b1 sur les autres variables, cest dire x. On a donc
x
0 1 0
b
= x b1
b1 Mx x b1 Mx y
x
or on a vu prcdemment
bb(1) bb(1) = (bb)11 x
xx b01 Mx y
2mc mco
On en dduit que lon a :

0
bb(1) bb(1) = (bb)11 x
xx b1
b1 Mx x b
2mc mco
le test de p lim bb2mc p lim bbmco = 0 est donc quivalent au test de = 0 et peut tre eectu
(1) (1)
partir de lestimateur b. Il peut donc tre eectu trs simplement par lintermdiaire
dun test de Wald ou dun test de Fisher.
Remarquons enfin que le test peut tre men de faon analogue sur les rsidus des
rgressions des variables explicatives endognes sur les instruments (x1 ) = x1 x b1 .
Lquation
b1 + w
y = x1 c1 + x2 c2 + x
se rcrit de faon analogue comme
y = x1 (c1 + ) + x2 c2 (x1 ) + w
10.7. ILLUSTRATIONS 167
10.7 Illustrations
10.7.1 Rduction du temps de travail et gains de productivit
Une des questions importantes dans leet du passage 35 heures sur lconomie est
son eet sur les gains de productivit. Par exemple si on considre que la production reste
inchange, leet sur lemploi sera important si il y a peu de gains de productivit. Les
rsultats prsents ici ne sont quillustratifs et ne prtendent pas donner un avis sur la
rduction du temps de travail. Ils montrent nanmoins si besoin tait que lconomtrie
permet de rpondre des questions importantes et soulignent le rle essentiel des hy-
pothses identificatrices dans la rponse que lon apporte. On peut considrer le modle
suivant :
ln yi = ln li + (1 ) ln ki + RT Ti + ui
o li reprsente lvolution des eectifs entre 1997 et 2000, ki celle capital et RT Ti
une indicatrice correspondant au fait que lentreprise ait sign un accord de rduction du
temps de travail sur cette priode. ui reprsente un choc de productivit ou de demande.
Ce modle est structurel, cest dire que lon sintresse leet de la rduction du
temps de travail et des variations des facteurs sur lactivit. Dans un tel contexte il est
clair que dimportants problmes dendognit des facteurs se posent : ln li en premier
lieu, mais aussi ln ki sont susceptibles dincorporer les nouvelles conditions dactivit
ui : ces variables sont trs certainement endognes. La variable RT Ti est, elle aussi,
probablement endogne : toutes les entreprises sont senses passer terme 35 heures. Les
entreprises ayant de bonnes perspectives de productivit peuvent plus facilement et donc
plus rapidement trouver un moyen avantageux de le faire. Ceci a pu tre particulirement
vrai dans le contexte de la fin des annes 1990 o aprs une longue stagnation, la croissance
qui avait dj soutenu longuement lactivit aux USA, arrivait en France. Compte tenu
des dclarations des dirigeants politiques, il ny avait aucun doute quun jour ou lautre
il faudrait passer aux 35 heures. La question ntait donc pas faut-il ou non passer la
rduction du temps de travail, mai quand faut-il passer aux 35 heures. Pour se concentrer
sur leet de la RT T on limine le problme de lestimation du paramtre en le mesurant
comme la part des salaires dans la valeur ajoute dans le secteur. Lquation scrit alors :
ln yi ln li (1 ) ln ki = P GFi = RT Ti + ui
Pour attnuer lendognit potentielle de la variable RT Ti on peut introduire certains

rgresseurs Xi : le secteur, la taille, la part des salaires dans la valeur ajoute, la structure
des qualifications... Le modle scrit alors
P GFi = Xi b + RT Ti + vi
o vi reprsente le choc de productivit rsiduel, cest dire une fois pris en compte les
facteurs Xi .
Pour estimer ce modle on fait lhypothse que les aides potentiellement reue par les
entreprises si elles signent un accord de rduction du temps de travail Aidei aectent sa
dcision de passer la RTT, mais pas les gains de productivit. On considre aussi que
linformation dont disposaient les entreprises sur la rduction du temps de travail aecte
la dcision de passage mais pas la productivit. On mesure cette variable par la part des
entreprises Robien dans le secteur Infi . On considre de mme que le taux dendettement
des entreprises aecte la dcision de passage mais pas la productivit Endti . Enfin, on
considre que la part des femmes dans lentreprise P fi naecte pas les gains de produc-
tivit mais influence la dcision de passage. On a ainsi quatre variables instrumentales
potentielles : Aidei , Infi , Endti et P fi .
On vrifie dabord la condition de rang en rgressant la variable RT Ti sur Xi et les
variables instrumentales. On voit clairement sur le tableau 10.2 que les coecients des
variables instrumentales sont significatifs ce qui garantit que la condition de rang soit
satisfaite.
Le tableau 10.3 donnent le rsultat des estimations par les mco et par les variables
instrumentales. On ne fait figurer que la variable RTT, mais les rgressions comprennent
toutes les variables de contrle qui figurent dans le tableaux prcdent. On observe deux
rsultats importants sur ces tableaux : dune part les coecients estims pour la variable
RTT sont trs dirents suivant la mthode destimation. Dans le cas mco on a -0.036, ce
qui signifie que les entreprises ayant sign un accord de rduction du temps de travail on
vu leur production baisser de 3.6% facteurs inchangs. Pour une baisse de 10.3% (4/39)
de la dure du travail, cest assez peu et cela correspondrait lexistence dimportant
gains de productivit dans les entreprises passes aux 35 heures. Le coecient estim
par la mthode des variables instrumentales est trs dirent. Il est de -0.107 ce qui
correspond une baisse de la production de 10.7%. Ceci signifierait quil ny a pas eu de
gains de productivit associs au passage 35 heures. On voit donc que la conclusion
laquelle on parvient dpend trs fortement des hypothses identificatrices eectues. Un
autre enseignement des deux tableaux est la dirence importante entre les carts-type
estims : lcart-type est de 0.003 pour la rgression par les mco et de 0.032 pour les
variables instrumentales. Il y a donc un facteur 10 dans la prcision. Il faudrait pour
obtenir un estimateur aussi prcis que celui des mco multipli la taille de lchantillon
par 100 ! Les rgressions prsentes sont eectues sur 30.000 observations. On voit donc
clairement le prix des variables instrumentales en terme de prcision.
Le tableaux 10.4 prsentent le test de suridentification. Il est ralis en rgressant le

rsidu de la rgression variable instrumentale sur les variables exognes du modle cest
dire les instruments et les rgresseurs exognes. On rcupre le F de cette rgression donn
par le logiciel FLog , et on applique la correction prsente FRec = (H/ (H K)) FLog . Ici
H est le nombre de variables exognes (rgresseurs plus instruments) i.e. H = 25, et K
Rgression de la variable RTT sur les instruments

Instruments parametres cart-type Student Pvalue
un -0.801 0.082 -9.732 0.000

N16b 0.163 0.017 9.868 0.000
N16c 0.205 0.015 13.568 0.000
N16d 0.065 0.032 2.034 0.042
N16e 0.027 0.014 1.940 0.052
N16f 0.055 0.012 4.448 0.000
N16g 0.510 0.053 9.680 0.000
N16h 0.096 0.014 7.072 0.000
N16j 0.119 0.011 10.544 0.000
N16k -0.014 0.015 -0.945 0.344
N16n 0.167 0.013 12.483 0.000
taille1 -0.240 0.027 -8.856 0.000
taille2 -0.187 0.027 -6.909 0.000
taille3 -0.164 0.027 -6.011 0.000
taille4 -0.077 0.032 -2.433 0.015
eja1 0.413 0.037 11.203 0.000
eja2 0.211 0.026 8.132 0.000
eja3 0.294 0.031 9.508 0.000
ejq1 0.022 0.018 1.209 0.227
ejq2 0.000 0.019 0.021 0.983
pi97 -0.031 0.014 -2.223 0.026
Taux d'endettement 0.013 0.006 2.211 0.027
robien 1.466 0.161 9.095 0.000
aide 0.113 0.009 12.711 0.000
part des hommes -0.086 0.015 -5.772 0.000
Tab. 10.2 Condition de rang
Estimation par les mco

variables parametres cart-type Student Pvalue
RTT -0.036 0.003 144.387 0.000
Estimation par les variables instrumentales

variables parametres cart-type Student Pvalue
RTT -0.107 0.032 11.564 0.001
Tab. 10.3 Estimation pas les MCO et le VI

Test de Sargan
Instruments parametres cart-types
Taux d'endettement -0.00201 0.00329

robien 0.17451 0.06910
aide -0.00826 0.00373
part des hommes -0.00254 0.00753
Statistique degrs p-value

7.57 3 5.6%
Tab. 10.4 Test de Sargan
est le nombre de variables explicatives exogne et endognes du modle. Ici K = 22, la

rgression inclue en eet les variables de contrle qui ne sont pas montres ici. La correction
est donc trs importante puisquon multiplie la statistique du logiciel par 25/3 = 8.33. Le
nombre de degrs de libert est le nombre dinstrument en excs cest dire 3. On voit
que ce test nest que lgrement accept, puisque la statistique est de 7.57 ce qui conduit
une p-value de 5.6% pour 3 degrs de libert. Notons que si on accepte lhypothse
(5.6% > 5% on pourrait donc accepter la limite pour un test 5%) ce que lon accepte
nest pas le fait que les instruments sont valides, cest dire quils vrifient la condition
E (zi ui ) = 0, autrement dit que le paramtre estim converge vers le vrai paramtre.
Ce que lon accepte cest que les estimateurs auxquels conduirait chacune des variables
instrumentales prise sparment ne seraient pas statistiquement dirents : en rsum on
accepte que si il y a biais, le biais sera le mme avec nimporte lequel de ces instruments.
On insiste ici dessein sur le fait quil sagit dun test de compatibilit des instruments
et pas un test de validit des instruments. Lidentification repose ncessairement sur une
hypothse non testable. On peut en vrifier la cohrence interne le cas chant, cest
dire lorsquil y a suridentification, mais pas la validit. Les tests de spcification sont un
guide trs utile mais pas une rponse dfinitive.
Le tableau 10.5 prsente le rsultat du test dexognit. Lhypothse teste est :

conditionnellement au fait que lon accepte la validit des instruments (ce qui na de sens
que si le test de suridentification a t accept, et qui nest le cas qu 5,6% ici) peut
on accepter que la variable suppose endogne est en fait exogne. Cest dire peut on
se baser sur lestimateur des mco. La dirence de prcision des estimations motive de
faon convaincante lutilit de se poser cette question. Le test est eectu par le biais
de la rgression augmente. On introduit la variable suppose endogne et la variable
prdite par la rgression de la variable endogne sur les instruments (celle du tableau1)
lhypothse est rejete si cette dernire variable est significative. Cest nettement le cas
ici. Ce test signifie que si on croit la validit des instruments, on ne peut pas croire
Test d'Exognit
variables parametres cart-type Chi2 Pvalue
RTT prdit -0.072 0.031 5.208 0.022

RTT -0.036 0.003 136.164 0.000
Tab. 10.5 Test dexognit
Variables Instrumentales
Variables BIV SBIV0 CHIBIV0 PROBBIV0
RTT -0.161 0.039 17.317 0.000
Test de Sargan
Instruments parametres cart-types
Endt -0.0012 0.0033
aide -0.0026 0.0030
Hommes -0.0075 0.0074
Statistique degrs p-value

1.152 2 56.2%
Test d'Exognit
variables parametres cart-type Chi2 Pvalue
RTT prdit -0.126 0.038 10.993 0.001

RTT -0.035 0.003 135.507 0.000
Tab. 10.6 Rsultat sans la part des Robien
lexognit de la variable de RTT.
Le tableau 10.6 montre le rsultat des estimations lorsque lon retire la variable Infi
de la liste des instruments. Le hypothse de compatibilit des variables instrumentales
est beaucoup plus largement accepte. Lhypothse dexognit est quant elle rejete
et le coecient estim pour la variable de RTT est un peu modifi. Il atteint un niveau
de -16%, ce qui est trs lev et signifie quil ny a pas eu de gains de productivit horaire
mais plutt des pertes. Il est aussi moins prcis.
10.8 Rsum
Dans ce chapitre, on a tudi
1. Direntes raisons de remettre en cause lhypothse identificatrice fondamentale
E (x0i ui ) = 0
2. Certaines variables apparaissent ainsi endognes et dautres restent exognes.
3. On a montr que lon peut recourir des hypothses identifiantes alternatives celle
des moindres carrs ordinaires bases sur des variables instrumentales. Il sagit de
variables corrles avec les variables explicatives mais non corrles avec les pertur-
bations.
4. On a vu que parmi lensemble des estimateurs possibles il en existait, dans le cadre
homoscdastique tudi, un plus ecace que les autres appel estimateur variables
instrumentales.
5. Cet estimateur sinterprte comme lestimateur obtenus en rgressant la variable
dpendante sur la ; projection des variables explicatives sur les variables instrumen-
tales.
6. Cet estimateur est toujours moins prcis que lestimateur des moindres carrs ordi-
naires
7. On a vu un test trs courant : le test de suridentification, ou test de Sargan, qui teste
la compatibilit des variables instrumentales. Il ne sagit pas dun test de validit des
instruments mais dun test permettant de vrifier quil ny a pas dincompatibilit
entre les dirents instruments utiliss.
8. On a vu aussi quil tait possible de tester lexognit des variables instrumentales
ce qui permet davoir recours, le cas chant, lestimateur des moindres carrs
ordinaires.
Chapitre 11
La Mthode des moments gnralise
11.1 Modle structurel et contrainte identifiante :

restriction sur les moments
Les mthodes destimation que lon a vu jusqu prsent exploitaient sans le dire
explicitement lexistence de fonctions des paramtres et des variables du modle dont
lesprance est nulle. Par exemple dans le cas du modle linaire vu jusqu prsent
yi = xi b + ui
On a vu que lestimateur des mco exploitait largement lhypothse de non covariance entre
les variables explicatives et le rsidu :
E (x0i ui ) = 0
Cette restriction se rcrit de faon analogue comme
E (x0i (yi xi b)) = 0
Elle est directement lie lexpression de lestimateur des mco. Celui-ci peut en eet tre
vu comme la valeur du paramtre qui annule la contrepartie empirique des conditions
dorthogonalit :

0 b
x yi xi bmco = 0
i
Il en va de mme pour les variables instrumentales. La contrainte identifiante centrale

prenait en eet la forme :
E ziV I0 ui = 0
et on a alors des relations du type

E ziV I0 (yi xi b) = 0
173
174
Les estimateurs de mci sont caractriss par le fait quils annulent une combinaison linaire
donne de la contrepartie empirique des conditions dorthogonalit :

A.ziV I0 yi xibbmci (A) = 0
Ces restrictions ont en commun le fait quun vecteur de fonctions des observations et des
paramtres dont lesprance est gale zro pour la vraie valeur du paramtre. Dans le
0 0
premier cas il sagit de xi (yi xi b) et dans le second cas de zi (yi xi b) . La mthode des
moments gnralise est la mthode adapte pour estimer des modles conomtriques
dfinis par lexistence de fonctions des observations et des paramtres desprance nulle.
La mthode des moments gnralise va avoir pour nous plusieurs avantages :
On va pouvoir tendre les procdure destimation et de test des domaines plus
gnraux. Dans le cas des variables instrumentales par exemple, on va pouvoir
dfinir
V I0 des estimateurs
optimaux ne reposant que sur les contraintes identifiantes
E zi (yi xi b) = 0. En particulier, ils ne feront pas dhypothses de rgularit
sur la constance des moments dordres suprieurs. On va aussi pouvoir tendre les
procdures de tests de suridentification et dexognit au cas dans lequel les rsidus
sont htroscdastiques.
On va aussi pouvoir aborder des situations plus gnrales que celle examines jusqu
prsent en considrant pas exemple des systmes dquations variables instrumen-
tales. Ce type de gnralisation est essentiel dans lconomtrie des donnes de panel.
L aussi on va pouvoir discuter les conditions didentification des paramtres, dfinir
des estimateurs optimaux, dvelopper des procdure de tests de suridentification.
La mthode des moments gnralise va aussi tre loccasion destimer et dtudier
des modles se prsentant sous des formes moins standards que celle dune qua-
tion ou dun systme dquation avec rsidu. Dans certains cas, cest spontanment
sous la forme de fonctions des paramtres et des variables desprance nulle quun
modle merge de la thorie. Cest le cas en particulier des quations dEuler. Consi-
drons par exemple le cas dune entreprise dcidant de son investissement. Notons
F (Kt , Lt , ) la fonction de production, et M (Kt , It , ) la fonction de cot dajus-
tement. Lquation daccumulation du capital scrit Kt = (1 ) Kt1 + It . La
fonction de profit de lentreprise scrit
+ !
X 1
Et (p F (K , L , ) w L pI I M (Kt , It , ))
=0
(1 + r)
Lentreprise cherche maximiser ce profit sous contrainte daccumulation. Le La-

grangien de lobjectif de lentreprise scrit
+ !
X 1
Et (p F (K , L , ) w L pI I M (K , I , )) + (K (1 ) K 1 It )
=0
(1 + r)
11.2. DFINIR UN MODLE PAR LE BIAIS DE CONDITIONS DORTHOGONALIT 175
On en dduit les conditions du premier ordre :

F (K , L , ) M (K , I , ) 1
Et p + +1 = 0
K K 1+r

M (K , It , )
Et pI + + = 0
I

F (K , L , )
Et p w = 0
L
On en dduit en particulier pour la date = t la relation

F (Kt , Lt , ) M (Kt , It , ) M (Kt , It , )
0 = Et pt + pIt +
Kt Kt It

1 M (Kt+1 , It+1 , )
pIt+1 +
1+r It+1
Ce qui signifie que pour nimporte quelle variable zt appartenant lensemble din-
formation de la date t, on a

F (Kt , Lt , ) M (Kt , It , ) M (Kt , It , )
0 = E pt + pIt +
Kt Kt It

1 M (Kt+1 , It+1 , )
pIt+1 + zt
1+r It+1
On voit donc que dans ce cas le modle conduit un grand nombre (a priori infini) de
relations entre les variables et les paramtres dont lesprance est gale zro. Lun
des intrts de la mthode des moments gnralise est justement associ cette
particularit du modle. Si le modle est juste alors on doit avoir la proprit quil
existe un paramtre de dimension finie annulant les conditions dorthogonalit bien
quelles soient en trs grand nombre. Dans une certaine mesure peu importe la valeur
du paramtre, ce qui compte vraiment est de savoir si lensemble des restrictions
que la thorie conomique impose aux donnes sont bien vrifies empiriquement ;
cest dire que lon puisse trouver une valeur du paramtre telle que lon accepte
lhypothse de nullit de la contrepartie empirique des conditions dorthogonalit
lorsquelles sont values en ce point.
11.2 Dfinir un modle par le biais de conditions

dorthogonalit
La mthode des moments gnralise concerne la situation dans laquelle on dispose
dun vecteur de fonctions g de dimension dim g dun paramtre dintrt de dimension
176
dim et de variables alatoires observables, zi dont lesprance est nulle pour = 0 la

vraie valeur du paramtre :
E (g (zi , )) = 0 = 0
et pour 0 seulement. De telles relations portent le nom de conditions dorthogonalit.
Cest un cadre trs gnral englobant de nombreuses situations spcifiques :
11.2.1 Maximum de vraisemblance

On a des observations zi et un modle dont la vraisemblance scrit LogL (zi , ) .
Comme
Z Z
L (zi , ) L (zi , )
E = L (zi , 0 ) dzi = L (zi , ) dzi = 1
L (zi , 0 ) L (zi , 0 )
et que du fait de lingalit de Jensen

L (zi , ) L (zi , )
log E > E log
L (zi , 0 ) L (zi , 0 )
pour 6= 0 , on a
0 > E (log L (zi , )) E (log L (zi , 0 ))
Lesprance de la vraisemblance est maximale pour = 0 :
log L (zi , )
E = 0 = 0

11.2.2 Modle desprance conditionnelle, moindres carrs non

linaires
Il sagit de la situation dans laquelle le modle dfini lesprance dune variable ala-
toire yi conditionnellement des variables explicatives xi :
E (yi |xi ) = f (xi , 0 )
Les moindres carrs non linaires
h dfinissent ile paramtre comme celui minimisant la
somme des carrs des rsidus : (yi f (xi , ))2 . On peut montrer que la vraie valeur du

paramtre 0 minimise E (yi f (xi , ))2 En eet, comme

E (yi f (xi , ))2 = E [yi f (xi , 0 ) + f (xi , 0 ) f (xi , )]2

= E (yi f (xi , 0 ))2
+2E [(yi f (xi , 0 )) (f (xi , 0 ) f (xi , ))]

+E (f (xi , 0 ) f (xi , ))2

> E (yi f (xi , 0 ))2

on en dduit que E (yi f (xi , ))2 est minimal pour = 0 . On en dduit que la vraie
valeur du paramtre et la vraie valeur seulement vrifie

f (xi , )
E (yi f (xi , )) = 0 = 0

11.2.3 Mthode variables instrumentales pour une quation

seule
Il sagit de la gnralisation du cas vu au chapitre prcdent dans lequel on fait lhy-
pothse quil existe un systme de variables extrieures dites instrumentales, non corrls
avec les rsidus :

E ziV I0 (yi xi 0 ) = 0
o yi est la variable dpendante, xi le vecteur ligne des variables explicatives de dimension
1 dim () et zi le vecteur ligne des instruments de dimension 1 H.
On a 0 0
E zi (yi xi ) = E zi xi (0 )
0
ds lors que E zi xi est de rang dim ()
0
E zi (yi xi ) = 0 = 0
Il sagit dune gnralisation du cas du chapitre prcdent dans la mesure o on ne fait plus
que les hypothses minimales : existence des conditions dorthogonalit et condition de
rang. En particulier on ne fait plus lhypothse dhomoscdasticit. De ce fait comme on va
le voir lestimateur optimal ne sera plus lestimateur des doubles moindres carrs, le test de
suridentification se gnralise mais ne prend plus la mme forme, le test dexognit peut
tre mis en oeuvre mais fait partie dune classe plus gnrale de tests de spcification. Le
but principal de ce chapitre est tout en prsentant les lments gnraux de la mthode des
variables instrumentales de prsenter lextension des rsultats prcdents cette situation
plus gnrale.
11.2.4 Mthode variables instrumentales pour un systme d

quations.
La situation prcdente peut tre gnralise un systme dquations. On considre
ainsi le cas o les conditions dorthogonalit sont donnes par :
0
E Z i y i xi 0 =0
178
o y i est un vecteur de variables dpendantes de dimension M 1, xi une matrice de

variables explicatives de dimension M dim () et Z i une matrice dinstruments de di-
mension M H o la ligne m contient les instruments zm de lquation m : Z i = diag (zmi )
de telle sorte que
0
0
z1i 1i z1i 1i
0 ... .. ..
Z i i = . = .
0 0
zMi Mi zMi Mi
On a 0 0
E Z i y i xi = E Z i xi (0 )
0
ds lors que E Z i xi est de rang dim ()
0
E Z i y i xi = 0 = 0
Ce cas simple, linaire, englobe lui-mme de trs nombreuses situations, comme celles
vues jusqu prsent mco, variables instrumentales dans le cas univari mais bien dautres
encore comme lconomtrie des donnes de panel, lestimation de systme de demande,
ou encore lestimation de systmes ore-demande.
11.2.5 Lconomtrie des donnes de panel

Le cadre prcdent constitue un cadre gnral dans lequel il est possible de traiter
lconomtrie des donnes de panel. Le modle considr est le suivant :
yit = xit b + i + it
Les perturbations suivent donc le modle erreurs composes. On sintresse aux di-
rentes possibilits de corrlation entre les variables explicatives et les perturbations, cest
dire la matrice
= E ui V ec (xi )0
Loprateur V ec est loprateur qui transforme une matrice en vecteur en empilant les
colonnes de la matrice les unes en dessous des autres. Dune faon gnrale, les direntes
possibilit de corrlation vont conduire des paramtrages dirents de la matrice . On
aura des matrices () direntes suivant la nature des corrlations entre les variables ex-
plicatives et les perturbations. Lensemble de conditions dorthogonalit que lon considre
est
E y i xi b V ec (xi )0 = ()
Tel quel cet ensemble est exprim comme une matrice. On peut le transformer pour
lexprimer sous forme vectorielle en appliquant loprateur V ec. On voit que mis sous cette
forme, il y a toujours le mme nombre de conditions dorthogonalit : dim g = (K + 1) T 2

et un nombre de paramtre variant dune spcification lautre. On voit bien que plus
on va paramtrer la matrice de variance () , moins on va conserver dinformation pour
estimer le paramtre dintrt b. Des situations dans lesquelles la matrice () est nulle
par exemple vont exploiter toutes les covariances entre les perturbations et les variables
explicatives toutes les dates pour estimer le paramtre. Cette situation est trs exigeante
vis vis des donnes. En revanche, dans la situation extrme dans laquelle la matrice
() serait laisse totalement libre, on voit que le paramtre b ne serait plus identifi. En
pratique les paramtres sont des paramtres de nuisance et on na pas toujours envie
de les estimer car ils peuvent tre nombreux et leur examen serait long fastidieux et pas
ncessairement trs utile. Dans les cas considrs il est en gnral possible dliminer tout
ou partie de ces paramtres de nuisance en appliquant des transformations aux donnes.
On a ainsi en gnral des relations prenant la forme

E H y i xi b V ec (xi )0 = 0
On voit que formellement, la situation considre est analogue celle dun systme
dquations avec variables instrumentales. Les instruments ici sont dits internes dans la
mesure o ce sont les valeurs passes prsentes ou futures des variables explicatives qui
sont utilises comme instruments. On voit aussi que ce cadre est trs gnral, et quil
est susceptible de dlivrer des estimateurs des paramtres dans des situations nouvelles
pour lesquelles il ntait pas possible de le faire auparavant, dans le cadre standard. On
dtaille maintenant les direntes situations possibles et on donne lensemble de conditions
dorthogonalit correspondant.
Exognit forte
La premire situation que lon considre est celle dite dexognit forte et correspond
au cas dans lequel il ny a pas de corrlations entre les perturbations et les variables
explicatives passes prsentes et futures, soit
E (i xks,i ) = 0 s = 1, . . . , T
E (t,i xks,i ) = 0 s, t = 1, . . . , T
Ces hypothses sont autant de restrictions intervenant explicitement dans les estima-
tions. Sous ces hypothses ne nombreux estimateurs standards : MCO, Between, Within,
MCQG, sont tous convergents. On va voir comment ces estimateurs sinterprtent main-
tenant dans le cadre plus gnral considr ici. On peut remarquer quil y a ici (K + 1) T 2
conditions dorthogonalit :
E (ut,i xks,i ) = 0, t, s
et que ces conditions dorthogonalit peuvent de rcrire de faon quivalente comme
E (u1i xks,i ) = 0, s
E (uti xks,i ) = 0t > 1, s
180
Eets corrls
Une deuxime situation correspond au cas o lon ne souhaite pas faire reposer les
estimations sur lhypothse E (i xks,i ) = 0. On introduit donc des paramtres de nuisance
ks = E (i xks,i ) . On autorise donc le fait que les lments dhtrognit individuelles
soient corrls avec les variables explicatives, do le nom deets corrls. Il y a donc
(K + 1) T paramtres de nuisance. On maintient par contre lhypothse E ( t,i xks,i ) = 0.
On a donc comme condition dorthogonalit :
E (ut,i xks,i ) = ks , t, s
De faon quivalente, on peut liminer les paramtres de nuisance, liminant au passage
certaines conditions dorthogonalit. Les (K + 1) T 2 conditions dorthogonalit peuvent
ainsi tre rcrites aprs limination des (K + 1) T paramtres de nuisance comme
E (ut,i xks,i ) = 0, t > 1, s
Il y a alors (K + 1) T (T 1) conditions dorthogonalit. On remarque en outre quil
sagit aussi du deuxime ensemble de conditions dorthogonalit identifi dans le cas de
lexognit forte.
Exognit faible
Lhypothse E ( t,i xks,i ) = 0 s, t = 1, . . . , T peut paratre excessive elle aussi.
Ainsi dans le cas des conditions dEuler on est plutt amen utiliser comme variables
instrumentales des variables passes. On peut ainsi prfrer ne retenir comme restric-
tion identifiante que E ( t,i xks,i ) = 0 t = 1, . . . , T et s < t. On autorise ainsi que
les chocs passs aectent les dcisions concernant le niveau de la variable xks,i . Cest
cette spcification qui porte le nom dexognit faible. Elle consiste donc introduire
(K + 1) T + (K + 1) T (T + 1) /2 paramtres de nuisance :
E (i xks,i ) = ks
E ( t,i xks,i ) = t,ks pour s t
On maintient en revanche
E (t,i xks,i ) = 0 t = 1, . . . , T et s < t
Finalement les conditions dorthogonalit scrivent dans ce cas sous la forme
E (ut,i xks,i ) = ks + t,ks 1 (t s) , t, s
L aussi on peut de faon quivalente rcrire ces conditions dorthogonalit pour liminer
les paramtres de nuisance. Les (K + 1) T 2 conditions dorthogonalit peuvent ainsi tre
rcrites aprs limination des paramtres de nuisance comme
E (ut,i xks,i ) = 0, t > s + 1, s
Exognit forte Eets Corrls Exognit faible

Restrictions - E (i xks,i ) = 0 E(i xks,i ) =0,
relches E( t,i xks,i ) = 0 s t
Restrictions E(i xks,i ) =0, E ( t,i xks,i ) = 0 E ( t,i xks,i ) = 0
maintenues E ( t,i xks,i ) = 0 s, t s < t s, t
Conditions gF = gC = g C/f , gf gf
dorthogonalit g F /C , g C/f , gf
Tab. 11.1 Conditions dorthogonalit et choix dune spcification
Il y a alors (K + 1) T (T 1) /2 conditions dorthogonalit. On remarque en outre quil

sagit aussi dune sous partie de lensemble de conditions dorthogonalit de celui obtenu
dans le cas des eets corrls.
Synthse
On voit que lon peut synthtiser les rsultats prcdents en introduisant trois en-
sembles de conditions dorthogonalit :
gf = (ut,i xks,i )t>s+1

g C/f = (ut,i xks,i )ts+1
g F /C = (u1i xks,i )
Le tableau 11.1 rcapitule les trois situations examines. Les direntes spcifications sont
embotes les unes dans les autres. La plus gnrale est la spcification exognit faible.
Dans ce cas les estimations ne reposent que sur un ensemble minimal dinformation.
La spcification eets corrls introduit plus dinformation. Lensemble des conditions
dorthogonalit inclus outre celles dj prsentes dans la spcification exognit faible
certaines conditions supplmentaires spcifiques aux eets corrls. Enfin dans le cas de
lexognit forte, on adjoint lensemble de conditions dorthogonalit prcdent des
conditions additionnelles, spcifiques lexognit forte. On va pouvoir dfinir des esti-
mateurs ne reposant que sur ces dirents sous-ensembles de conditions dorthogonalit.
On va aussi pouvoir, comme dans le cas des variables instrumentales, tester la cohrence de
chacun de ces sous-ensembles de conditions dorthogonalit. Le test eectu sera analogue
au test de Sargan. Enfin, on va pouvoir tester la compatibilit des dirents sous-ensembles
dinformation entre eux. Ainsi on va pourvoir tester si par exemple lorsque lon a estim le
modle sous lhypothse eets corrls, les conditions dorthogonalit additionnelles sp-
cifiques lexognit fortes sont compatibles avec les conditions dj mobilises. Le test
sapparente alors au test dexognit examin dans le cas homoscdastique univari.
182
11.3 Principe de la mthode :

Le principe des GMM est de trouver b
, rendant

g zi , b

la contrepartie empirique de E (g (zi , )) aussi proche que possible de zro.

b
- Si dim (g) = dim () on peut exactement annuler g zi , : le modle est juste
identifi (cas des mco, du maximum de vraisemblance, des moindres carrs non linaires,
de la mthode des variables instrumentales lorsquil y a autant dinstruments que de
variables endognes)
- Si dim (g) > dim () On ne peut pas annuler exactement la contrepartie empirique
des conditions dorthogonalit. Le modle est dit suridentifi. Cest le cas le plus frquent
lorsque lon met en oeuvre des mthodes de type variables instrumentales.
Remarque lcriture du modle signifie quon peut annuler exactement lesprance E (g (zi , ))
mme dans le cas de la suridentification, alors que cest en gnral impossible distance
finie pour la contrepartie empirique des conditions dorthogonalit.
Dans le cas de la suridentification, la mthode consiste rendre aussi proche de zro
que possible la norme de la contrepartie empirique des conditions dorthogonalit dans
une certaine mtrique :

0
g (zi , ) = g (zi , ) SN g (zi , )
SN
Lestimateur est alors dfini par :

0
b
SN = Arg min g (zi , ) SN g (zi , )

Remarque Dans le cas des variables instrumentales, on rglait le problme de la su-

ridentification en considrant des combinaisons linaires des conditions dorthogonalit.
Ceci conduisait aux estimateurs des moindres carrs indirects bbmci (A) , dfinis par

AziV I0 yi xibbmci (A) = 0
Ici on aurait pu procder de mme et dfinir des estimateurs bass sur une combinaison
linaire des conditions dorthogonalit. On aurait alors dfini des estimateurs de la forme

Ag zi , b
AN = 0
Les deux approches sont en fait analogues.

11.4. CONVERGENCE ET PROPRITS ASYMPTOTIQUES 183
Exemple Cas o les conditions dorthogonalit sont linaires dans le paramtre din-
trt. Cest par exemple le cas des variables instrumentales dans un systme dquations
puisqualors
0
0 0
g (zi , ) = Z i y i xi = Z i y i Z i xi = g1 (zi ) g2 (zi )
On note g1 = g1 (zi ) et g2 = g2 (zi ). Lestimateur est alors dfini par :

0
b
S = Arg min (g1 g2 ) SN (g1 g2 )

Il existe dans ce cas une solution explicite :

0 1 0
b
S = g2 SN g2 g2 SN g1
Dans le cas des variables instrumentales, on a par exemple

1 0
b 0 0
S = xi Z i SN Z i xi
0
Z i xi SN Z i y i
Dans le cas dune seule quation, les estimateurs obtenus par la mthode des moments
gnralise sont ainsi : 1
b 0 0
S = x zi SN z xi
0 0
x zi SN z yi
i i i i
0 1
Si on prend par exemple pour mtrique SN = zi zi On obtient lestimateur des doubles
moindres
0 carrs. On en conclut que dans le cas o les conditions dorthogonalit sont
E zi (yi xi 0 ) = 0, cest dire celles vues dans le chapitre prcdent sur les variables
instrumentales, on retrouve comme estimateur GMM particulier lestimateur des doubles
moindres carrs. Nanmoins le cadre dans lequel on se situe est plus gnral puisquon ne
fait plus lhypothse dhomoscdasticit. On va voir que pour cette raison, lestimateur des
doubles moindres carrs nest plus lestimateur de variance minimal.
11.4 Convergence et proprits asymptotiques

Comme dans les cas examins prcdemment on va voir que les estimateurs GMM
prsents sont convergents et asymptotiquement normaux. Comme prcdemment lob-
tention de ces rsultats ncessite des hypothses. Elles vont porter ici sur les moments des
variables zi mis aussi sur la rgularit de la fonction g (zi , ) .
Proposition Sous les hypothses
1. H1 Lespace des paramtres est compact. La vraie valeur est 0 intrieure ,
2. H2 E (g (zi , )) = 0 = 0 ,
184
3. H3 g (zi , ) est continment drivable en ,

2
4. H4 E sup |g (zi , )| + sup |g (zi , )| +sup | g (zi , )| < ,

5. H5 gk (zi , 0 ) a des moments finis dordre 1 et 2,

6. H6 Le Jacobien G = E ( g (zi , 0 )) de dimension dim g dim est de rang dim ,
P
7. H7 SN S0 dfinie positive.
0
Lestimateur GMM b SN minimisant QN () dfini par QN () = g (zi , ) SN g (zi , ), est
convergent et asymptotiquement normal. Sa matrice de variance asymptotique est fonction
de S0 et de la matrice de variance des conditions dorthogonalit. Elle peut tre estime
de faon convergente.
P
1. b
S 0 convergence

2. N b S 0 N 0, Vas b
L
(S) normalit asymptotique

3. Vas b S = [G0 S0 G]1 G0 S0 V (g (zi , 0 )) S0 G [G0 S0 G]1 o S0 = p lim SN et V (g (zi , 0 )) =
h 0
i
E g (zi , 0 ) g (zi , 0 )
0
b b b b g
4. V (g (zi , 0 )) = g zi , S g zi , S V (g (zi , 0 )) et G = zi , S G b
h i1 h i1
5. Vbas b
S = G b
b0 S0 G b0 SN Vb (g (zi , 0 )) SN G
G b G b0 S0 G
b Vas b (S)
Parmi ces conditions la deuxime est de loin la plus importante puisque cest elle qui
dfinit lidentification du paramtre. Cest sur le choix des fonctions g (zi , ) que porte le
travail du modlisateur. La condition 3 est essentielle pour obtenir la loi asymptotique
des paramtres. En eet il est central de pouvoir linariser autour de la vraie valeur du
paramtre. La condition 4 est technique. Elle garantit quil y a convergence uniforme
en probabilit de g (zi , ) vers E (g (zi , )) (et pareil pour les autres fonctions concernes
g (zi , ) et g (zi , ) g (zi , )0 ). La condition 5 est lanalogue de la condition zi ui a des
moments dordre 1 et 2, dans le cas des variables instrumentales. Elle est essentielle dans
lapplication du thorme central limite dans la drivation de lexpression de la matrice
de variance. La condition 6 sert aussi pour driver lexpression de la matrice de variance.
Dans le cas linaire, elle est analogue la condition didentification 2.
0
Dmonstration Convergence : Soit QN () = g (zi , ) SN g (zi , ) et Q () = E (g (zi , ))0
S0 E (g (zi , )) . On peut crire
h i
Q b S Q (0 ) = QN b
S + Q b S QN b S
[QN (0 ) + (Q (0 ) QN (0 ))]
11.4. CONVERGENCE ET PROPRITS ASYMPTOTIQUES 185

comme QN b
S QN (0 ) et Q (0 ) Q b
S ,on a

0 Q b S QN b
S Q (0 ) Q b S (Q (0 ) QN (0 ))
2sup |Q () QN ()|

La condition E sup |g (zi , )| < + permet de montrer quil y a convergence uniforme

0
de g (zi , ) vers E (g (zi , ))
,et donc de QN () vers Q () = E (g (zi , )) S0 E (g (zi , )) .
P
On en dduit donc que Q b S Q (0 ) . Comme la fonction Q est continue, que est
compact, que Q (0 ) = 0 et Q () = 0 E (g (zi , )) = 0 = 0 on en dduit b
P
S 0 .
0
b b b
La condition du premier ordre dfinissant le paramtre S est dfinie par g zi , S SN g zi , S =

b b
0. En appliquant le thorme de la valeur moyenne g zi , S , on a 0 = Ng zi , S Ng (zi , 0 )

+ g zi , eS N b S 0 , o e S se trouve entre b
S et 0 converge donc aussi en proba-
0 0
bilit vers 0 . En multipliant par g zi , S SN , on a g zi , S SN g zi , e
b b S N b S 0 =
0
b
g zi , S SN Ng (zi , 0 )

La condition E sup | g (zi , )| < + garantit la convergence uniforme en proba-

0
bilit de g (zi , ) vers E ( g (zi , )) . On en dduit que g zi , b
P
S SN G0 S et que
!
0
g zi , b
S SN g zi , e
P
S G0 S0 G, matrice dim dim inversible compte tenu
de rang G = dim . La condition que gk (zi , 0 ) a des moments dordre 1 et 2 permet dap-
Loi
pliquer le thorme central limite Ng (zi , 0 ) : Ng (zi , 0 ) N (0, V (g (zi , 0 ))) .
On en dduit la normalit asymptotique de lestimateur et lexpression de sa matrice de
variance. Remarquons que le dveloppement prcdent conduit aussi une approximation
de lcart entre lestimateur et la vraie valeur :
0 1 0
b
N S 0 = G SN G G SN Ng (zi , 0 ) + o (1)
Estimation de la matrice de variance asymptotique

0
Le seul point montrer est que g zi , b
S g zi , b S V (g (zi , 0 )) . La condition

2 0
E sup |g (zi , )| < , permet de montrer quil y a convergence uniforme de g (zi , ) g (zi , )

186
0

vers E g (zi , ) g (zi , )
11.5 Estimateur optimal

Comme dans les cas prcdemment abords, on montre quil existe un estimateur
GMM optimal.
11.5.1 Existence dun estimateur optimal

Proposition Les estimateurs b
obtenus partir de matrice de poids SN S avec
S = V (g (zi , 0 ))1
sont optimaux, au sens o dans la classe des estimateurs GMM, ils conduisent des
estimateurs de variance minimale. La matrice de variance asymptotique de cet estimateur
est 1
Vas b
1
= [G0 S G] = G0 V (g (zi , 0 ))1 G
et peut tre estime par h i1
b b b 0 b
Vas = G SN G
b est comme prcdemment un estimateur convergent de G.
ou G
Dmonstration La dmonstration se fait comme dans le cas des variables instrumen-
tales. La variance asymptotique de lestimateur optimal scrit
1
Vas b
1
= G0 V 1 G = (C 0 C)
avec C = V 1/2 G de dimension dim g dim

La variance asymptotique de lestimateur gnral scrit

Vas b
1 1
S = [G0 S0 G] G0 S0 V S0 G [G0 S0 G] = BB 0
avec B = [G0 S0 G]1 G0 S0 V 1/2 de dimension dim dim g. On a

1
BC = [G0 S0 G] G0 S0 V 1/2 V 1/2 G = Idim
do
Vas S Vas b
b 1 1 0
= BB 0 (C 0 C) = BB 0 BC (C 0 C) C 0 B
puisque BC = Idim . On voit donc que

Vas b S Vas b
1
= B Idim g C (C 0 C) C 0 B 0
est une matrice semi-dfinie positive, do loptimalit.

11.6. APPLICATION AUX VARIABLES INSTRUMENTALES 187
11.5.2 Mise en oeuvre de lestimateur optimal : deux tapes

Dans le cas gnral, la mise en oeuvre de la mthode des moments gnralise pour
obtenir un estimateur optimal prsente un problme : la mtrique optimale faire intervenir
le paramtre estimer et est donc inconnue.
S0 = V (g (zi , 0 ))1
Pour mettre cet estimateur en oeuvre on a recours une mthode en deux tapes :
Premire tape : On utilise une mtrique quelconque ne faisant pas intervenir le pa-
ramtre. En fait on a intrt rflchir et chercher une matrice qui ne soit pas trop
loin de la matrice optimale. SN = Idim g est un choix possible mais certainement pas le
meilleur. La mise en oeuvre des GMM avec cette mtrique permet dobtenir un estimateur
convergent mais pas ecace b 1.
A partir de cet estimateur on peut dterminer un estimateur de la matrice de variance
des conditions dorthogonalit :
0
Vb (g)N = g zi , b
1 g zi , b
P
1 V (g (zi , 0 ))
ainsi que

b = g zi , b
G
P
1 E ( g (zi , 0 ))
On peut ds lors dterminer un estimateur de la matrice de variance asymptotique de ce
premier estimateur
1 1
Vbas b
1 = G b0 SN G
b b0 SN Vb (g) SN G
G N
b G b0 SN G
b
N
Deuxime tape : On met nouveau en oeuvre lestimateur des GMM avec la mtrique

SN = Vb (g)1
N . On obtient ainsi un estimateur convergent et asymptotiquement ecace
dont on peut estimer la matrice de variance asymptotique
1
b
Vas b b 0 b
= G SN G
N
11.6 Application aux Variables Instrumentales

11.6.1 Variables instrumentales dans un systme dquations -
cas gnral
On considre le cas dun systme dquations avec variables instrumentales
0
0 0
g (zi , ) = Z i y i xi = Z i y i Z i xi
188
Vrification des hypothses de convergence des estimateurs GMM

0 0 0
H2 E Z i y i E Z i xi = 0 admet une unique solution si rang E Z i xi = dim .
Il sagit l dune simple gnralisation de la condition dj vue dans le cadre univari.
H3 est satisfaite du fait de la linarit.
0 0 2

H4 et H5 sont satisfaites si E sup Z i y i + sup Z i xi < +, cest dire si les
moments de Z i , xi et y i existent jusqu un ordfre susant.
0
0
H6 g (zi , 0 ) = Z i xi . Si E Z i xi est de rang dim G = E ( g (zi , 0 )) =
0
E Z i xi est de rang dim
Expression de la matrice de variance des conditions dorthogonalit :

La variance des conditions dorthogonalit scrit :
0
0
V (g (zi , 0 )) = E Z i y i xi 0 y i xi 0 Z i
0
= E Z i ui u0i Z i
Cette expression est trs proche de celle vue dans le cadre des variables instrumentales.
Nanmoins, comme on le voit elle fait en gnral intervenir le paramtre . Il est donc
souvent ncessaire de mettre en oeuvre une mthode en deux tapes.
Mise en oeuvre de lestimation

Premire tape : Il faut choisir une mtrique pour lestimateur de premire tape. La
mtrique optimale est linverse de la matrice de variance des conditions dorthogonalit.
Elle a lexpression donne prcdemment. On a intrt choisir pour mtrique de premire
tape une mtrique qui soit proche de la mtrique optimale. Pour cela on peut choisir pour
mtrique ce quaurait t la mtrique optimale en prsence dhypothses de rgularit
supplmentaires. Une hypothse de rgularit importante pourrait tre lhomoscdasticit
E (ui u0i |Z i ) = E (ui u0i )
Qui pourra tre utilise si

E (ui u0i ) = 2 D
o D est une matrice donne. Par exemple D = IM , ce qui correspondrait lhypothse
que les rsidus des quations sont indpendants et quidistribus. On utiliserait alors pour
mtrique de premire tape
0
SN = Z i DZ i
On peut se trouver dans des situations ou spontanment la matrice de variance des rsidus
aurait une allure dirente. Cest en particulier le cas parfois dans le cas de lconomtrie
des donnes de panel. Quel que soit le choix eectu, lestimateur de premire tape a
pour expression :
1
b 0
S = x Z SN Z x
0 0 0
x Z SN Z y
i i i i i i i i
La matrice de variance des conditions dorthogonalit peut tre alors tre estime par
0
b 0
b b 0
b0i Z i
bi u
V (g) = Z i y i xi S y i xi S Z i = Z i u
A partir de cette estimation, on peut aussi estimer la variance de lestimateur de premire

tape :
1 0 0 1
Vb b Z i xi SN Vb (g) SN xi Z i Z i xi SN Z i xi
0 0 0 0
(S) = xi Z i SN Z i xi
ainsi que lestimateur optimal :

1
b 0
b 1 0
S = xi Z i V (g) Z i xi xi Z i Vb (g)1 Z i y i
0 0
et sa variance asymptotique :
1
Vbas b
S = xi Z i Vb (g)1 Z i xi
0 0
11.6.2 Rgressions variables instrumentales dans un systme

homoscdastique
On a vu que dans le cas de M rgressions empiles homoscdastiques, lorsque les
rgresseurs taient les mmes et quil nexistait pas de restrictions sur les paramtres,
la mise en oeuvre de la mthode des MCQG conduit aux mmes estimateurs que ceux
obtenus par les moindres carrs ordinaires quation par quation. On peut voir que ce
rsultat se gnralise au cas des variables instrumentales dans un systme dquation.
Si les rgresseurs sont les mmes, si il nexiste pas de contraintes entre les paramtres
des quations (xi = IM xi ) , et si les instruments sont les mmes dune quation
lautre (Z i = IM zi ), dans le cas dhomoscdasticit des perturbations : E (ui u0i |Z i ) =
, lestimateur GMM optimal est identique lestimateur variables instrumentales
quation par quation. Sous lhypothse dhomoscdasticit,
0 la matrice de variance des
0
conditions dorthogonalit a pour expression E Z i Z i = E zi zi . (Rappel :
pour des matrices aux tailles appropries (A B) (C D) = AC BD). On a donc
0 0 0
Z i = ( 1) (IM zi ) = zi . Do Z i Z i = IM zi ( zi ) = zi zi . On a
190
donc
0 0 0
0 1
0

xi Z i S Z i xi = IM xi zi E zi zi IM zi xi
0 1
= 1 x0i zi E zi zi zi0 xi
et
0 0 0 1
0

xi Z i S Z i y i =IM x0i zi E zi zi IM zi y i

0
0 1 z i y1i
..
= 1 x0i zi E zi zi .
zi0 yMi

zi0 y1i
0
puisque IM zi y i = ... . Lestimateur optimal a donc pour expression
zi0 yMi

0
0 1 1 0 1 z i y 1i
b ..
S = x0i zi E zi zi zi0 xi 1 x0i zi E zi zi .
zi0 yMi

0 bb2mc1
0 1 zi y1i
.. ..
= IM x0i zi E zi zi . = .
0
zi yMi bb2mcM
On voit que dans ce cas, lestimateur optimal est identique lestimateur des doubles moindres carrs
eectu quation par quation. Il ny a donc pas non plus dans ce cas de mthode en deux
tapes mettre en oeuvre. La matrice de variance des paramtres a pour expression
0 1 1
b 0
V = E (xi zi ) E zi zi 0
E (zi xi )
on voit donc que les estimateurs ne sont pas indpendants les uns des autres ds que la
matrice de variance nest pas diagonale.
11.6.3 Application aux donnes de panel

Le cas des variables instrumentales dans un systme dquation correspond aussi don-
nes de panel. On a vu dans la premire section Les dirents types de spcification que
lon pouvait retenir. On a examin le cas de lexognit forte, des eets corrls et de
lexognit faible. Dans ce dernier cas, on a vu que le modle tait mis en dirence pre-
mire et que lon utilisait les variables explicatives retardes partir de lordre 2 comme
instrument. On a ainsi la spcification matricielle suivante :

x1i 0 0
0 x1i 0

x 2i x1i u
3i
0 x2i u4i

x3i u5i
Z 0i ui =
.. ..
. 0 .
.. x1i
. uT i
..
.
0 0 0 xT 2i
De mme pour les eets corrls, on a

xi 0 0
0 xi 0

0 xi u2i

0 u4i

0 u5i
Z i ui =
.. ..
. .
..
. uT i

0
0 0 0 xi
et enfin pour lexognit forte on a

xi 0 0
0 xi 0
u1i
0 xi
u2i

0
u4i
u1i
Z 0i = u5i
ui ..
. ..
.. .
.
uT i
0
0 0 0 xi
Pour mettre en oeuvre lestimateur optimal on applique la mthode expose prcdem-

ment. On peut remarquer que dans le cas de lexognit faible et des eets corrls, la
structure des conditions dorthogonalit est telle quelle ne fait intervenir que la di-
rence premire des rsidus. Ceci est lorigine dune possibilit dun choix judicieux de la
192
matrice de variance de premire tape. En eet, sous lhypothse dhomoscdasticit des

rsidus On aurait
E (Z 0i ui u0i Z i ) = E (Z 0i E (ui u0i ) Z i )
Or E (ui u0i ) = 2 D, o

1 2 0
... ...
1
D= ... ...
1
0 1 2
ne dpend pas des paramtres. On va que dans ce cas on peut choisir comme matrice de
premire tape une matrice approximant lhypothse dhomoscdasticit prs la matrice
de variance des conditions dorthogonalit. La matrice S1 a ainsi pour expression
0
S1 = Z i DZ i
11.6.4 Estimateur VI optimal dans le cas univari et htrosc-

dastique
On considre la situation dun modle linaire univari
yi = xi + ui
avec un ensemble dinstruments zi . Les conditions dorthogonalit sont donc

0
E zi (yi xi ) = 0
Les rsultats du chapitre prcdent montre que dans le cas univari homoscdastique, i.e.
E (u2i |zi ) = E (u2i ) , lestimateur GMM optimal concide avec lestimateur des 2mc. On
examine la situation dans laquelle il ny a plus homoscdasticit. La matrice de variance
des conditions dorthogonalit est donne par
0
0
V (g) = E (yi xi 0 )2 zi zi = E u2i zi zi
et lestimateur optimal a pour expression

1
b
S = xi zi V (g)1 zi xi
0 0
xi zi V (g)1 zi yi
0 0
on voit quil est dirent de lestimateur des 2mc dont lexpression est
1 0
1 1 0
b 0 0
2mc = xi zi zi zi zi xi
0 0
xi zi zi zi zi yi
11.7. TEST DE SPCIFICATION 193
L aussi il faut mettre en oeuvre la mthode en deux tapes. Un bon choix dans ce cas
est lestimateur des 2mc, qui est certainement proche de lestimateur optimal. On peut
alors calculer un estimateur de la matrice de variance des conditions dorthogonalit :
Vb (g) = u
0
b22mci zi zi
puis dterminer lestimateur optimal,

1 0
1 1 0
b 0 0
b22mci zi zi zi xi
S = xi zi u
0 0
b22mci zi zi zi yi
xi zi u
ainsi que les matrice de variance de chacun des estimateurs :
1 0
1 1 1
1 0
1
Vas b
0 0 0 0 0 0 0 0 0
2mc = xi zi zi zi zi xi xi zi zi zi u b2i zi zi zi zi xi zi xi zi zi zi zi xi
pour lestimateur des doubles moindres carrs, et

1 0
1
b 0
Vas = xi zi u 2 0
bi zi zi zi xi
pour lestimateur optimal.
11.7 Test de spcification

11.7.1 Test de suridentification
Comme pour les variables instrumentales, dans le cas o il y a plus de conditions dor-
thogonalit que de paramtres estimer, le modle impose des restrictions aux donnes.
Elles doivent vrifier la proprit :
| E (g (zi , )) = 0
Tous les estimateurs obtenus avec direntes mtriques doivent converger vers une
mme valeur. Le principe est ici analogue celui des variables instrumentales. La suriden-
tification exprime la mme ide qu la limite lestimateur ne dpend pas de limportance
que lon accorde telle condition dorthogonalit, tout comme le test de spcification
avec les variables instrumentales exprimait qu la limite lestimateur ne dpend pas de
telle variable instrumentale. Il ne sagit en fait que dune gnralisation valable pour des
cas dans lesquels les conditions dorthogonalit prennent une forme dirente de celle du
produit dun rsidu et dun instrument.
Le principe du test reste le mme que celui que lon appliquerait pour tester la nullit
de lesprance dune variable alatoire : regarder si la moyenne empirique est proche de
zro g (zi , 0 ) est proche de 0, mais on ne connat pas 0 . Plus prcisment : on regarde
194

si gbi = g zi , b
est proche de 0, cest dire si la contrepartie empirique des conditions
dorthogonalit value avec lestimateur optimal est proche de zro.
Le rsultat gnral sapplique
0

2
N gbi Vas gbi gbi rang V gbi

Pour eectuer le test il faut donc dterminer le rang de Vas gbi ainsi quun inverse
gnralis et un estimateur convergent de cet inverse. Pour ce qui est du rang, on retrouve
la mme ide que pour les variables instrumentales : on teste la suridentification, cest
dire la compatibilit du surcrot dinformation introduit dans le modle par rapport au
minimum requis pour estimer le paramtre. Le rang va donc tre la dirence entre le
nombre de conditions dorthogonalit et la dimension du paramtre estimer.
Proposition Sous H0 : | E (g (zi , )) = 0, on a
0
L
NQN ( ) = N gbi SN

gbi 2 (dim (g) dim ())

0 1
b b 1 b
o gbi = g zi , et SN = V (g (zi , 0 )) = g zi , g zi , b . On remarque que la
statistique utilise pour le test est N fois la valeur de lobjectif loptimum.
Dmonstration Comme

N gbi ' Ngi0 + G N b
0
et
0 1 0
N b
0 ' G SN G G S Ngi0
on a
0 1 0

N gbi ' Idim g G G S G G S Ngi0 = (Idim g PG ) Ngi0
0 1 0 2
avec PG = G G S G G S . PG = PG . PG est donc un projecteur dont le rang est celui
0
de G, i.e. dim par hypothse. Comme en outre PG S 1 PG = PG S 1 , et Vas (gi0 ) = S 1 ,
on a 0
Vas gbi = (Idim g PG ) S 1 (I PG ) = (Idim g PG ) S 1

On en dduit immdiatement le rang de Vas gbi :

rang V gbi = dim g dim
et un inverse gnralis :

Vas gbi S Vas gbi = (Idim g PG ) S 1 S (Idim g PG ) S 1
= (Idim g PG )2 S 1 = (Idim g PG ) S 1

= Vas gbi
do

S = Vas gbi
Estimation convergente de linverse gnralise : Comme la matrice g (zi , ) g (zi , )0 est

une fonction continue de convergent uniformment vers E g (zi , ) g (zi , )0 , SN
=

0
g zi , b
g zi , b
converge vers S
11.7.2 Tester la compatibilit de conditions dorthogonalit ad-

ditionnelles
On peut tre amener vouloir adjoindre un ensemble de conditions dorthogonalit
des conditions additionnelles. Cette adjonction peut en eet conduire des estimations
plus prcises. Lexemple le plus manifeste est celui dans lequel on adjoint une liste de
variables instrumentales supposes vrifier les conditions dorthogonalit, des conditions
dorthogonalit formes en utilisant les variables explicatives comme instrument. Dans
le cas homoscdastique on avait dj envisag ce type de test que lon avait appel test
dexognit. Cette notion peut en fait se gnraliser.
Proposition On sintresse au test de lhypothse nulle
H0 : 0 tq E (g1 (zi , 0 )) = 0 et E (g2 (zi , 0 )) = 0
soit
0 tq E (g (zi , 0 )) = 0
o g0 = (g10 , g20 ) contre lhypothse alternative
H1 : 0 tq E (g1 (zi , 0 )) = 0
Sous H0 la statistique

0

0

Sb = N g zi , b
Vb (g (zi , 0 ))1 g zi , b
Ng1 zi , b
1 Vb (g1 (zi , 0 ))1 g1 zi , b
1

= QN QN b
0 b 1
1 2 (dim g dim g1 )
196

0

b 0 b b b
o est lestimateur GMM optimal sous H0 et QN = Ng zi , V (g (zi , 0 )) g zi , 1 b

la valeur atteinte par lobjectif loptimum sous H0 , et b 1 lestimateur GMM optimal sous

0

H1 et Q1N b 1 = Ng zi , b 1 Vb (g1 (zi , 0 ))1 g zi , b
1 la valeur atteinte par lobjectif
loptimum sous H1 . n o

Le test dfini par la rgion critique Sb Sb > q1 (2 (dim g dim g1 )) est un test
convergent au niveau .
Ce type de test est proche des tests du rapport des maxima de vraisemblance. On
pourrait en donner des quivalents correspondants au test de Hausman ou au test du
multiplicateur de Lagrange.
11.7.3 Application test de suridentification et dexognit pour

un estimateur variables instrumentales dans le cas uni-
vari et htroscdastique
Test de suridentification
Le test est eectu sur la contrepartie empirique des conditions dorthogonalit va-

lues en = b , lestimateur optimal. On calcule donc :

zi yi xib
= zi ubi
0 0
et sa norme 0 1
zi ubi ubi 2 zi zi zi ubi
0 0 0
bi = yi xib
o u 1 est le rsidu de lquation estim partir dune premire tape
0
Corollaire Sous lhypothse nulle, H0 : | E zi (yi xi ) = 0, la statistique
0 1
Sb = Nzi ubi ubi 2 zi zi zi ubi 2 (dim z dim x)
0 0 0
On rejettera lhypothse nulle si Sb est trop grand, i.e. pour un test au niveau Sb >
Q (1 , 2 (dim z dim x)) . On voit que lexpression de la statistique est trs proche
de celle vue prcdemment dans le cas homoscdastique mais nanmoins dirente car :
elle nest pas base sur le mme estimateur, . elle na pas exactement la mme expression,
1 1
faisant intervenir ubi 2 zi zi et non zi zi ubi 2 , ce qui est une consquence directe de
0 0
labandon de lhypothse dhomoscdasticit et enfin quelle ne peut plus tre mise en

oeuvre de faon aussi directe et simple que prcdemment par le biais de la rgression des
rsidus estims sur les variables instrumentales.
Test dexognit des variables explicatives.

Lhypothse nulle scrit
H0 : b0 tq E (zi0 (yi xi b0 )) = 0 et E (x01i (yi xi b0 )) = 0
et lhypothse alternative
H1 : b0 tq E (zi0 (yi xi b0 )) = 0
o x1i reprsente les variables endognes. On lui associe bb0 lestimateur GMM bas sur
lensemble les conditions dorthogonalit de H0 ainsi que la valeur Sb0 atteinte par lob-
jectif loptimum. Dans la mesure o on ne fait plus lhypothse dhomoscdasticit, cet
estimateur nest pas ncessairement lestimateur des mco : les conditions dorthogonalit
portant sur les variables instrumentales extrieures peuvent apporter une information ne
se trouvant pas dans les conditions dorthogonalit fondes sur les seules variables expli-
catives. On considre aussi bb1 lestimateur GMM bas sur les conditions dorthogonalit
sous H1 ainsi que la valeur Sb1 atteinte par lobjectif loptimum. Le rsultat stipule que
la statistique
Sb0 Sb1 2 (K1 )
o K1 est le nombre de variables explicatives endognes.
11.7.4 Application aux donnes de panel

On peut appliquer ces rsultats lconomtrie des donnes de panel. On a vu en
eet que les spcifications que lon tait susceptible de retenir taient embotes. Il est
ainsi possible destimer le modle avec lensemble dinformation minimal, cest dire avec
la spcification exognit faible. On obtient alors des estimateurs robustes de nom-
breuses sources de corrlations entre variables explicatives et perturbations. En revanche,
les estimateurs nincluant que peu de restrictions ont de grandes chances dtre imprcis.
On peut donc chercher amliorer leur prcision en faisant des hypothses restrictives
supplmentaires comme lhypothse deets corrls. On peu tester les hypothses restric-
tives supplmentaires par la mthode que lon vient de dtailler. Ici elle prendra la forme
suivante :
1. Estimation du modle sous la spcification
2exognit faible : On retient la valeur
0
de lobjectif loptimum : Vf = Z f i ufi , o Sf est la mtrique optimale pour
Sf
cette spcification.
2. Sous lhypothse nulle que la spcification est adapte, la statistique Vf suit un 2
dont le nombre de degrs de libert d est la dirence entre le nombre de conditions
dorthogonalit et le nombre de paramtres estimer. On peut donc calculer la
198
p-value associe la statistique de test (1 F 1 (Vf , d)) et on accepte lhypothse

nulle si la p-value excde la valeur seuil retenue. Si on rejette lhypothse nulle,
il faut rflchir une spcification alternative. Si en revanche lhypothse nulle est
accepte, on peut tester si des contraintes additionnelles sont compatibles avec celles
dores et dj retenues.
3. Estimation du modle sous la spcification
2 deets corrls : On retient la valeur de
lobjectif loptimum : VC = Z Ci ui S ,
0 C
C
4. On forme la dirence VC Vf qui suit sous lhypothse nulle de compatibilit

des conditions dorthogonalit additionnelles un 2 dont le nombre de degrs de
libert est la dirence entre les nombre de conditions dorthogonalit dans les deux
spcifications. On calcule la p-value de cette statistique et on accepte lhypothse
nulle si la p-value excde le seuil retenu.
5. Si on rejette lhypothse on conserve lestimateur avec exognit faible, sinon on
peut estimer le modle avec lhypothse
0 dexognit forte. On retient la valeur de
F 2
lobjectif loptimum : VF = Z F i ui S ,
F
6. On procde comme au 3 et 4 en comparant les valeurs atteintes loptimum. On

peut remarquer quil est possible de tester lhypothse de compatibilit avec soit les
conditions de lexognit faible soit celles des eets corrls. Si ceci naecte pas la
puissance du test, il nen est pas de mme avec le risque de premire espce.
11.8 Illustrations
11.8.1 Rduction du temps de travail et gains de productivit
On reprend lillustration du chapitre prcdent et on montre comment les rsultats
sont modifis. Par la mise en oeuvre de la mthode des moments gnralise. On rappelle
que lquation que lon estime scrit :
P GFi = Xi b + RT Ti + vi
o vi reprsente le choc de productivit rsiduel, cest dire une fois pris en compte les
facteurs Xi .
Les variables instrumentales retenues sont : Aidei , Infi , Endti et P fi . Lintrt de la
mise en oeuvre de la mthode des moments gnralis est de pouvoir traiter le cas dune
possible (et vraisemblable) htroscdasticit du rsidu.
On ne prsente pas la condition de rang qui est la mme que dans le cas prcdent
(tableau 10.2 du chapitre prcdent). On ne prsente pas de tableau de rsultat mais
seulement certains dentre eux. Lestimateur variable instrumentale usuel sert desti-
mateur de premire tape. Il est identique celui du chapitre prcdent : le coecient
de la variable de RTT est -0.107 et son cart-type est de 0.032, calcul avec la mthode
standard. On peut aussi calculer cet ecart-type sans faire lhypothse dhomoscdasticit
comme on la expliqu plus haut. On voit quil ny a pas de dirence dans le calcul de cet
cart-type : On trouve nouveau 0.032. Le biais li la prsence dhtroscdasticit dans
lestimation des carts-type de lestimateur variables instrumentales est trs faible dans
le cas prsent. On peut aussi calculer lestimateur GMM optimal et son cart-type. L
aussi on ne trouve pas de dirence les coecients estims sont les mme et lcart-type
galement. La seule dirence notable entre les deux estimations rside en fait dans la sta-
tistique de Sargan : elle est plus faible lorsque lon prend en compte lhtroscdasticit.
La statistique avec lestimateur standard (bas sur la rgression du rsidus sur toutes les
variables exognes) donne une statistique de 7.57 soit une p-value de 5.6% pour un 2 (3) .
Avec lestimateur optimal elle est de 6.58 soit une p-value de 8.7% : on accepte beaucoup
plus facilement lhypothse de compatibilit des instruments. On peut aussi mettre en
oeuvre le test dexognit. Avec la mthode du chapitre prcdent, sous hypothse dho-
moscdasticit, on procdait une rgression augmente. Ici on fait une rgression par VI
par la mthode des GMM en incluant la variable de RTT dans la liste des instruments.
On sintresse dabord au test de compatibilit des instruments Cette hypothse est trs
fortement rejete la statistique est de 11.53 pour 4 degrs de libert soit une p-value trs
faible de 2%. La statistique du test dexognit est la dirence entre les deux statistiques
de suridentification de la rgression GMM avec et sans la variable de RTT. On trouve
une statistique de 11.53-6.58=4.95 la aussi fortement rejet pour un degrs de libert de
1 (4-1).
11.8.2 Salaires et heures

On peut aussi aborder la question de la relation entre productivit et heures en exa-
minant un quation de salaire sur des donnes de salari. En eet, sous lhypothse que
la rmunration est gale la productivit marginale le salaire peut tre utilis comme
une mesure de la productivit marginale. On peut donc considrer lquation
wi = hi + xi b + ui (11.1)
o wi reprsente le logarithme du salaire et hi le logarithme des heures. Les variable xi sont

celles qui aectent le niveau de productivit et donc les variables de capital humain : niveau
dducation et exprience. Nanmoins dans cette rgression la variable dheure est, elle
aussi, endogne. Le salaire et le nombre dheure refltent galement un choix du salari qui
arbitre entre rmunration et loisir. Parmi toutes les ores demploi qua reu lindividu,
celle que lon observe est celle qui est prfre (on naborde pas ici la question pourtant
centrale du choix entre emploi et non emploi qui sera traite dans le chapitre suivant).
Pour la rmunration propose les agents sont prts travailler un certain nombre dheures
qui leur est propre. Dans les prfrences des salaris interviennent les caractristiques
familiales : nombre denfants, revenus alternatifs (conjoint, autres membres du mnage),
200
parametres std robuste std sandards

Constante 3.8236 (0.1138) (0.0803)
scolarit 0.0541 (0.0030) (0.0026)
exprience 0.0197 (0.0012) (0.0011)
(exprience-10) -0.0004 (0.0001) (0.0000)
heures (log) 1.1422 (0.0315) (0.0210)
Tab. 11.2 Rgression par les MCO
clibataire... Ces variables sont susceptibles de jouer le rle de variables instrumentales

dans la rgression 11.1.
On considre un chantillon de femmes employes dans le commerce. On se restreint
la population fminine car cest sur elle que les variables instrumentales retenues ont
le plus de chance de jouer fortement. Lchantillon retenu provient de lEnqute Emploi
faite par lINSEE et comprend 3192 individus. Le tableau 11.2 prsente les rsultats de la
rgression par les moindres carrs ordinaires. La premire colonne prsente le paramtre,
la seconde lcart-type robuste et la dernire lcart-type obtenu avec la formule standard.
Lintrt principal de ce tableau est de fournir la valeur du coecient des heures, qui slve
ici 1.14. Ceci signifie quune augmentation des heures de 1% conduit une hausse du
salaire (et donc de la productivit de 1,14%). Le coecient est significativement dirent
de 1, ce qui implique quil y a de lgers gains de productivit horaire lorsque les heures
augmentent.
.
Le tableau 11.3 prsente la rgression de la variable explicative endogne, le logarithme
des heures, sur les variables explicatives exognes : le nombre danne dtude, lexprience
et lexprience au carr et les variables instrumentales : le nombre denfant, lexistence de
revenus alternatifs dans le foyer (salaire du conjoint, allocations chmage), le logarithme
de ce revenu le cas chant (zro sinon), le nombre de revenus salaris dans le mnage
et une indicatrice indiquant si lindividu vit seule ou non. Le tableau donne le coecient
estim, son cart-type et son cart-type robuste. On examine lapport des direntes
variables instrumentales lexplication de la variable endogne. On observe comme on
sy attend que plus le nombre denfants est lev, plus lincitation travailler est faible.
On observe aussi que le fait dtre clibataire conduit des heures plus leves. Leet du
salaire annexe sur les heures est en revanche non significatif, bien que positif.
Le tableau 11.4 prsente les rsultats de lestimation du modle par les variables instru-
mentale, en ignorant lhtroscdasticit
dans la dtermination
1 de lestimateur. Lexpres-
1 1
sion de lestimateur est donc bbIV = x0 zi z 0 zi z 0 xi
i i i x0 zi z 0 zi z 0 yi . La deuxime colonne
i i i
prsente lcart-type robuste et la dernire lcart-type obtenu avec la formule valable

Constante 3.3186 (0.0380) (0.0360)
scolarit 0.0102 (0.0022) (0.0021)
exprience 0.0045 (0.0010) (0.0010)
(exprience-10) -0.0002 (0.0000) (0.0000)
nombre d'enfants -0.0568 (0.0070) (0.0061)
vit seule 0.0609 (0.0167) (0.0164)
revenu alternatif 0.0026 (0.0015) (0.0015)
Tab. 11.3 Rgression de la variable dheure sur les exognes et les instruments

Constante 2.5613 (0.4393) (0.3891)
scolarit 0.0494 (0.0034) (0.0031)
exprience 0.0193 (0.0013) (0.0011)
(exprience-10) -0.0004 (0.0001) (0.0001)
heures (log) 1.5252 (0.1312) (0.1173)
Tab. 11.4 Rgression par les variables instrumentales
pour lhomoscdasticit
du rsidu. Les matricesde variance
correspondantes 1 scrivent
1 1 1 1
Vbhom o bbIV = 2
b x0i zi zi0 zi zi0 xi et Vbhetero bbIV = x0i zi zi0 zi zi0 xi x0i zi zi0 zi
1
1
1
b2i zi0 zi zi0 zi zi0 xi x0i zi zi0 zi zi0 xi
u . On observe que la variable dheure est sensiblement
plus lev que dans la rgression par les mco. Alors que la rgression par les mco donne
un coecient de 1.14, le chire obtenu ici est nettement plus lev puisquil slve
1.52. Cela signifie que lorsque lallongement du temps de travail saccompagne de gains de
productivit horaire important : une augmentation de 1% des heures conduit une aug-
mentation des rmunrations de 1.5%. On peut noter que ce coecient nest pas loign
de celui trouv dans lapproche par les fonctions de production lorsque lon nutilisait pas
la variable Robien, comme instrument. On remarque aussi que le coecient est l aussi
statistiquement dirent de 1 mais que lcart-type estim est quatre fois plus important
que celui des moindres carrs ordinaires. On remarque quil existe des dirences lies
la prise en compte de lhtroscdasticit mais quelles ne sont pas phnomnales.
Le tableau 11.5 prsente lesrsultats obtenus

1 par la mthode des moments gnralise.
Lestimateur est donc bbIV = x0 zi b z 0 xi
i i x0 zi i i
b =
b z 0 yi , avec = E (u2i zi0 zi )1 et
1
b2i zi0 zi
u , o u bi est le rsidu estim obtenu partir dune premire tape utilisant une
matrice de pondration quelconque. Le choix naturel qui est celui qui a t eectu ici
consiste se baser sur lestimateur par variable instrumentale. On voit que les changements
sont modestes par rapport au tableau prcdent. Cest une bonne nouvelle priori. Si entre
202
parametres std robuste

Constante 2.6139 (0.4373)
scolarit 0.0498 (0.0034)
exprience 0.0195 (0.0013)
(exprience-10) -0.0004 (0.0001)
heures (log) 1.5081 (0.1305)
Tab. 11.5 Rgression par la mthode des moments gnralise
la premire et la deuxime tape, il y avait des changements importants, cela signifierait

que vraisemblablement les conditions dorthogonalit ne sont pas compatibles entre elles.
Ici le fait que les rsultats soient trs proches signifie aussi peut tre que lhtroscdasticit
nest pas un phnomne de premier ordre. Le coecient auquel on parvient est de 1.51
et on observe quil nest pas beaucoup plus prcis que lestimateur prcdent. Dans le cas
prsent, les gains lis lutilisation de lestimateur GMM sont assez faibles.
Enfin, on peut examiner la question de la spcification, en procdant aux tests de suri-

dentification et dexognit. Les tests ont la mme interprtation que dans le cas variables
instrumentales, mais la mise en oeuvre est dirente. Les tests dans le cas homoscdas-
tiques, sont eectus partir de rgressions auxiliaires : rgression du rsidu estim sur
les instruments et test de la nullit globale des coecients pour le test de suridentification
et rgression tendue dans laquelle on introduit en plus des variables explicatives la pr-
vision des variables endognes par les instruments et les variables exognes. Dans le cas
GMM, on na pas ce genre de simplification et les tests sont bass sur lobjectif atteint par
0 0
lestimateur optimal : S = zi0 u b zu
bi i bi . Les tests de suridentification compare la valeur
obtenue de S la valeur seuil pour un test de niveau donn. Le test dexognit compare
quant lui la valeur S la valeur Se , obtenue avec pour ensemble dinstruments z, xend .
La statistique de test Se S suit un 2 dont le nombre de degrs de libert est le nombre
de variables endognes. On voit dans le tableau 11.6 que lhypothse de suridentification
est accepte mais pas celle dexognit. Il y a en outre l aussi peu de dirence entre
la mthode variables instrumentales et la mthode des moments gnralise. Les statis-
tiques de suridentification sont trs proches et les statistiques pour le test dexognit,
bien que non directement comparables, conduisent aux mmes conclusions.
Enfin le tableau 11.7 prsente les rsultats pour dirents secteurs. Les deux premires
colonnes donnent la valeur du paramtre et son cart-type en utilisant pour instruments
le fait dtre clibataire, le nombre denfants et le revenu alternatif. Les deux colonnes
suivantes prsentent le test de Sargan et sa p-value. On prsente le test dexognit.
Ceci nest pas eectu pour les Industries Agricoles, le Transport et la Finance puisque
dans ces secteurs, le test de validit de suridentification conduit au rejet de lhypothse de
11.9. RSUM 203
Test Statistique degrs pvalue

GMM
Suridentification 2.522 2.000 0.283
Exognit 8.650 1.000 0.003
VI
Suridentification 2.805 2.000 0.246
Exognit 1.128
(0.021)
Tab. 11.6 Tests de spcification

Par std S p S(e) p(e) Par std S p
Industries Agricoles 0.51 (0.67) 8.33 0.02
Biens de consommation 1.68 (0.71) 2.85 0.24 0.91 0.34 1.13 (0.09) 3.76 0.29
Automobiles et Equipements 0.79 (0.38) 4.13 0.13 2.01 0.16 1.22 (0.07) 6.15 0.10
Biens Intermdiaires 1.04 (0.26) 0.77 0.68 0.08 0.77 0.98 (0.05) 0.85 0.84
Commerce 1.51 (0.13) 2.52 0.28 8.65 0.00
Transport 1.92 (0.52) 2.42 0.30 2.76 0.10 1.19 (0.08) 5.18 0.16
Finance 1.20 (0.24) 6.02 0.05
Services Entreprises 1.23 (0.16) 10.09 0.01
Services Particuliers 2.69 (0.48) 0.14 0.93 82.10 0.00
Education Sant 1.18 (0.11) 4.76 0.09 18.02 0.00
Administration 1.30 (0.15) 3.13 0.21 4.87 0.03
Tab. 11.7 Rsultats Sectoriels
compatibilit des instruments. On ne peut donc pas tester la compatibilit de restrictions

identifiantes supplmentaires. Les colonnes 7 et 8 prsentent la valeur du paramtre estim
en utilisant comme instruments les trois variables retenues et la variable dheure. Enfin
les deux dernires colonnes prsentent le test de suridentification lorsque lon utilise tous
ces instruments. On vrifie que la valeur de la statistique est la somme des statistiques
obtenus dans les colonnes (3) et (5). Ce que montre ce tableau est que les instruments
ne sont pas toujours considrs comme compatibles. Lorsquils le sont les valeurs sont
assez direntes dun secteur lautre, quoique toujours suprieure 1. On voit aussi que
les estimations sont peu prcises et que lorsque lhypothse dexognit est accepte, on
obtient des gains decacit non ngligeables.
11.9 Rsum
Dans ce chapitre on a prsent une mthode destimation trs gnrale, englobant la
totalit des mthodes vues jusqu prsent. Elle permet aussi de considrer facilement des
gnralisations utiles des situations envisages jusqu prsent. En particulier elle permet
204
de gnraliser la mthode des variables instrumentales aux cas htroscdastiques et au

cas de systmes dquations.
1. Cette mthode est base sur lexploitation de conditions dorthogonalit, qui sont
des fonctions des variables et des paramtres du modle dont lesprance est nulle.
2. Le principe de la mthode des moments gnralise consiste choisir le paramtre
de telle sorte que la contrepartie empirique des conditions dorthogonalit soit le
plus proche possible de zro.
3. Lorsquil y a juste identification, cest dire lorsque le nombre de paramtre
estimer est le mme que le nombre de conditions dorthogonalit, on peut exactement
annuler (en gnral) les contreparties empiriques des conditions dorthogonalit.
4. Lorsquil y a plus de conditions dorthogonalit que de paramtres estimer, on
est dans la situation dite de suridentification. On ne peut en gnral pas annuler
directement la contrepartie empirique des conditions dorthogonalit. On minimise
alors la norme de ces contreparties.
5. Les estimateurs auxquels on parvient sont sous certaines hypothses de rgularit
convergents et asymptotiquement normaux. La convergence ne dpend pas de la
mtrique choisie pour estimer mais la matrice de variance de lestimateur si.
6. Parmi tous les estimateurs envisageable, il en existe un plus prcis que tous les
autres : cest lestimateur GMM optimal. Il est obtenu en utilisant pour mtrique
linverse de la matrice de variance des conditions dorthogonalit.
7. La mthode des moments gnralise permet comme la mthode des variables ins-
trumentale de procder des tests de spcification. Il est ainsi possible de tester
la compatibilit des conditions dorthogonalit entre elles ( linstar des tests de
compatibilit des variables instrumentales). Ce test est un test de compatibilit et
pas un test de validit.
8. La mthode permet aussi de tester la compatibilit dun ensemble de conditions
dorthogonalit additionnel avec un ensemble de conditions dorthogonalit initial
dont la validit constitue lhypothse alternative.
Chapitre 12
Variables dpendantes limites
On a examin jusqu prsent le cas de modles linaires pour lesquels la variable

dpendante yi avait pour support <. On examine dans ce chapitre trois types de modles
aux applications trs nombreuses et qui sont des extensions directes du modle linaire :
Les modles dichotomiques, les modles Tobit et le modle Logit Multinomial
Modle dichotomique : yi {0, 1} . Par exemple : participation au march du travail,
un programme de formation, faillite dune entreprise, dfaut de paiement, signature
dun accord de passage aux 35 heures etc.... Les informations dont on dispose dans
les enqutes sont souvent de cette nature : avez vous au cours de la priode du tant
au tant eectu telle ou telle action. On va prsenter dix modles trs couramment
utiliss pour modliser ce type de situation : les modles Logit et les modles Probit
et on va insister sur la relation entre la modlisation statistique des variables prenant
leurs valeurs dans {0, 1} et la modlisation conomique. Ceci va nous conduire
introduire la notion importante de variable latente : une variable dont le support
peut tre R mais qui nest quen partie observe. On est ainsi conduit modliser
cette variable, ce qui correspond une modlisation conomique (dans le cas de la
faillite dune entreprise il peut sagir de la valeur des profits futurs de lentreprise),
et modliser aussi la faon dont une censure sopre dans les observations, ce qui
peut rsulter l aussi dun comportement conomique (dans le cas de la faillite il
peut sagir du fait que la valeur de lentreprise passe sous un certain seuil) mais
aussi dune caractristique statistique des donnes.
Le modle logit Multinomial Modle de choix discret comme par exemple le choix du
lieu de vacances (pas de vacances, montagne, mer, campagne) ou le choix du moyen
de transport domicile-travail (bus, auto, metro, pied). Ces situations conduisent
des variables prenant un nombre fini de modalits yi {0, 1, 2, . . . , M} . Le modle
que lon va introduire est trs utilis dans de nombreux domaines appliqus. Il insiste
lui aussi sur la modlisation conomique. Lide gnrale est qu chaque modalit est
associe une valeur dpendant des prfrences intrinsques dun individu mais aussi
de caractristiques conomiques telles que les prix ou le revenu. Le choix slectionn
205
206 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
par un individu est celui correspondant la valorisation maximale. Ce type de

modlisation, du lorigine Mac Fadden, est trs utilis dans la modlisation des
systmes de demande pour des biens direncis et intervient souvent en conomie
industrielle empirique.
Le Modle Tobit est un modle central dans lanalyse conomique. Il correspond
la prise en compte de slectivit dans les observations : le fait que lon observe un
phnomne nest pas indpendant de ce phnomne. Pour lanalyser il faut donc
modliser le phnomne et les conditions qui conduisent son observation. Par
exemple le salaire nest observ que conditionnellement au fait que lindividu ait un
emploi. On a alors deux variables modliser : la variable de censure Ii {0, 1}
indiquant si le salaire est observ ou non et la variable de salaire wi lorsquil est
observ. Cette modlisation fait comme le modle Probit appelle des variables
latentes. Il existe dirents types de modles Tobit qui correspondent autant
de situations conomiques. Le classement de ces situations en dirents types de
modles Tobit est du Amemiya. Il y a ainsi des modles Tobit de type I, de type
II, de type III, IV et V. On va voir dans ce chapitre les modles de type I III.
12.1 Modle dichotomique

On souhaite expliquer une variable endogne yi prenant les valeurs 1 ou 0 en fonction
de variables explicatives "exognes" xi ,
Dune faon gnrale on spcifie la probabilit dobserver yi = 1 conditionnellement

aux variables explicatives xi .
e (xi )
P (yi = 1 |xi ) = G
qui dfinit compltement la loi conditionnelle de yi sachant xi . Cette probabilit est aussi
lesprance conditionnelle de la variable yi :
X
E (yi |xi ) = yi 1(yi =1) P (yi = 1 |xi ) + 1(yi =0) (1 P (yi = 1 |xi ))
yi {0,1}
e (xi )
= P (yi = 1 |xi ) = G
On spcifie en gnral cette fonction comme dpendant dun indice linaire en xi :
e (xi ) = G (xi b)
G
Les direntes solutions que lon peut apporter la modlisation de la variable dichoto-
mique yi correspondent dirents choix pour la fonction G.
12.1. MODLE DICHOTOMIQUE 207
12.1.1 Modle probabilits linaires

Cest la situation dans laquelle on spcifie simplement
E (yi |xi ) = P (yi = 1 |xi ) = xi b
Le modle peut alors tre estim par les MCO.

En dpit de sa simplicit attractive, ce choix de modlisation prsente nanmoins
linconvnient majeur que le modle ne peut contraindre P (yi = 1 |xi ) = xi b appartenir
lintervalle [0, 1]. Il y a donc une incohrence dans cette modlisation.
Un autre problme vient de lestimation. Compte tenu du fait que yi2 = yi , toute
estimation de modle de choix discret par les moindres carrs, linaire dans le cas prsent
ou non linaire dans le cas gnral, cest dire base sur la spcification E (yi |xi ) =
G (xi b) , doit prendre en compte le fait que le modle de rgression correspondant
yi = G (xi b) + ui
est htroscdastique. En eet on a :

V (yi |xi ) = E yi2 |xi E (yi |xi )2 = E (yi |xi ) E (yi |xi )2
= E (yi |xi ) [1 E (yi |xi )] = G (xi b) [1 G (xi b)]
Lestimateur des mco dans le cas linaire a donc pour variance

0 1 0 0 1
b
Vas bmco = E xi xi E u2i xi xi E xi xi
que lon estime par la mthode de White

1 1
b b 0
Vas bmco = xi xi u
0 0
b2i xi xi xi xi
On pourrait tre tent destimer plus directement cette matrice compte tenu de la forme
de lhtroscdasticit, ou mme mettre en oeuvre lestimateur des MCQG puisque
lon connat lexpression de la matrice de variance des rsidus conditionnellement xi :
E (u2i |xi ) = G (xi b) (1 G (xi b)) = 2 (xi b) . Par exemple pour lestimateur des MCQG
1 0
bbmcqg = x0
ei x
ei xei yei
r
avec zei = zi 2 xibbmco . Ceci est en pratique impossible avec le modle de probabilit
linaire puisquil nest pas exclu que xi b (1 xi b) soit ngatif.
12.1.2 Les modles probit et logit.

Il est prfrable de faire un autre choix que lidentit pour la fonction G. On souhaite
que cette fonction soit croissante, quelle tende vers 1 en + et vers 0 en . En
principe, la fonction de rpartition de nimporte quelle loi de probabilit pourrait convenir.
En pratique les modles de choix discret sont spcifis en utilisant deux fonctions de
rpartition :
, la fonction de rpartition de la loi normale :
Z z
G (z) = (t)dt = (z)

o (t) = 12 exp 12 t2 . On a donc dans ce cas
P (yi |xi ) = (xi b)
Un tel modle est appel Modle Probit.

F , la fonction logistique
1
F (z) =
1 + exp (z)
Dans ce cas
1
P (yi |xi ) = F (xi b) =
1 + exp (xi b)
Un tel modle est appel Modle Logit
Eet marginal dune variation dun rgresseur continu x

Lun des avantages majeurs du modle de probabilit linaire est quune variation
marginale dun rgresseur a un eet constant dans la population. Cette proprit simple et
attractive nexiste plus dans le cas des modles probit ou logit. On peut nanmoins prciser
leet dune variable sur la probabilit conditionnelle dobserver lvnement modlis.
Comme E (yi |xi ) = G (xi b) , on a
E (yi |xi ) 0
k
= G (xi b) bk
xi
et llasticit 0
LogE (yi |xi ) G (xi b)
= bk
xki G (xi b)
Pour le modle Probit on a ainsi :
E (yi |xi ) LogE (yi |xi ) (xi b)
k
= (xi b) bk , k
= bk
xi xi (xi b)
12.2. VARIABLES LATENTES 209
et pour le modle Logit
E (yi |xi )
= F (xi b) (1 F (xi b)) bk
xki
LogE (yi |xi )
= (1 F (xi b)) bk
xki
0
puisquon vrifie facilement F = F (1 F ) .
Leet marginal de laccroissement dun facteur dpend donc du point o lon se situe.
En pratique on est amen considrer une situation de rfrence qui peut tre un groupe
dindividus lorsque les variables explicatives sont elles mmes des variables de catgories,
ou bien le point moyen de lchantillon. Dans ce cas par exemple, on calculerait
E (yi |xi ) 0
k
= G (xi b) bk
xi
12.2 Variables latentes

La modlisation prcdente est une modlisation statistique. Les modles variables
dpendantes discrtes peuvent souvent tre introduits en rendant plus explicites les hy-
pothses conomiques sous-jacentes la modlisation. Ceci est eectu par le biais de ce
que lon appelle une variable latente, cest dire une variable inobserve mais qui dter-
mine compltement la ralisation de la variable indicatrice tudie. Dans le cas prsent,
on modlise la ralisation de la variable indicatrice tudie par le biais dune variable :
yi = xi b + ui
Dans cette modlisation on suppose que le rsidu intervenant dans lexpression de la

variable latente est indpendant des variables explicatives. La variable latente yi nest
jamais observe compltement mais elle est lie la ralisation de la variable dintrt
par :
yi = 1 yi > 0 xi b + ui > 0
Lorsque lon spcifie la loi du rsidu ui , on est capable de dfinir compltement la pro-
babilit P (yi = 1 |xi ) . Si on suppose que le rsidu intervenant dans modlisation de la
variable latente est normal, on obtient le modle Probit. Supposons ui N (0, 2 )
b ui
yi = 1 xi + >0

et vi = ui / N (0, 1) . Les paramtres b sont identifiables un facteur multiplicatif

prt. Si on pose c = b/, on a

b ui
P (yi = 1 |xi ) = P xi + > 0 = P (vi > xi c) = P (vi < xi c)

= (xi c)
o on utilise le fait que la loi normale est symtrique, et que donc P (v > a) = P (v < a) .
Exemple Dcision de participer un stage de formation. Ce stage reprsente un gain

futur Gi pour lindividu, dont le capital humain aura augment. Supposons que lon soit
capable de modliser ce gain partir de variables explicatives
Gi = xgi bg + ugi
La participation au stage comporte aussi un cot court-terme Ci , incluant le fait quil faut
dabord apprendre, et donc fournir un eort, mais aussi souvent payer pour la formation
et subir des cots indirects comme des cots de transport. Supposons l encore que lon
soit capable de modliser ce cot
Ci = xci bc + uci
Le gain net pour lindividu est donc yi = Gi Ci .
yi = xgi bg xci bc + ugi uci = xi b + ui
On peut modliser la participation comme le fait que le gain net soit positif :
yi = 1 yi > 0 xi b + ui > 0
yi est alors la variable latente associe au modle.

Le modle logit est lui aussi compatible avec cette modlisation. On suppose alors
que ui suit une loi logistique de variance . La variable ui / suit alors une loi logis-
tique de densit f (x) = exp (x) / (1 + exp (x))2 et de fonction de rpartition F (x) =
1/ (1 + exp (x)) . Cette densit est l encore symtrique en zro, et on aura

b ui
P (yi = 1 |xi ) = P xi + > 0 = P (vi > xi c) = P (vi < xi c)

= F (xi c)
On pourrait considrer dautres cas comme par exemple le fait que la loi de ui suive une
loi de Student, on obtiendrait alors dautres expressions pour P (yi = 1 |xi ) .
12.3. ESTIMATION DES MODLES DICHOTOMIQUES 211
12.3 Estimation des modles dichotomiques

Mis part le modle de probabilit linaire qui sestime directement par les MCO, les
modles dichotomiques sestiment par le maximum de vraisemblance. En eet la spcifica-
tion de la probabilit conditionnelle conduit spcifier entirement la loi des observations.
Compte tenu dune modlisation conduisant
P (yi = 1 |xi ) = G (xi b)
avec G une fonction de rpartition connue, de densit g. La probabilit dobserver yi pour

un individu peut scrire comme
P (yi |xi ) = P (yi = 1 |xi )yi [1 P (yi = 1 |xi )]1yi

= G (xi b)yi [1 G (xi b)]1yi
La vraisemblance de lchantillon scrit donc

Y
N Y
N
L (y |x) = P (yi |xi ) = G (xi b)yi [1 G (xi b)]1yi
i=1 i=1
compte tenu de lhypothse dindpendance. La log vraisemblance s0 crit alors
X
N
log LN = [yi log G (xi b) + (1 yi ) log (1 G (xi b))]
i=1
Lorsque lon fait lhypothse que les observations sont indpendantes, la maximisation
de la vraisemblance conduit des estimations convergentes. On a vu en eet dans le
chapitre prcdent que la mthode du maximum de vraisemblance, base sur la nullit de
lesprance du score
log L (zi , )
E = 0 = 0

est une mthode de type GMM et que lon peut tudier les proprits asymptotiques des
estimateurs dans le cadre gnral de la convergence des estimateurs GMM. On rappelle
ici les principaux rsultats de la mthode des moments gnralise et leur transcription
au cas et leur transcription au cas du maximum de vraisemblance.
On considre un modle dont la vraisemblance scrit L (zi , )
Proposition Sous les hypothses
1. H1 Lespace des paramtres est compact. La vraie valeur est 0 intrieure ,
2. H2 , 0 tq L (zi , 0 ) est la vraie densit des observations
3. H3 L (zi , ) est deux fois continment drivable en ,

2 2 0
4. H4 E sup | log L (zi , )/ | + sup | log L (zi , )/ | +sup | log L (zi , )/ | <

,
5. H5 log L (zi , )/ k a des moments finis dordre 1 et 2,
6. H6 Le Jacobien J = E ( 2 log L (zi , 0 )/ 0 ) de dimension dim dim est de
rang dim ,
Alors lestimateur du maximum de vraisemblance b SN maximisant QN () = LogL (zi , ),
vrifie les proprits :
P
1. b
S 0 convergence

L

b
2. N S 0 N 0, Vas (S) b normalit asymptotique

3. Vas b S = J 1 = I 1 o I = E [ log L (zi , )/ log L (zi , )/ 0 ]
. . .
4. Ib = log L zi , b
log L zi , b
0 I et Jb = 2 log L zi , b 0 J
Dmonstration Il sagit dune transcription directe des rsultats concernant la conver-
gence de lestimateur de la mthode des moments gnralise au_ cas du score E log L(zi ,)
=
0, quelques exception prs. On a vu que si le modle est bien spcifi, cest dire si ef-
fectivement la densit des observations peut tre paramtre par le modle utilis, alors
la vraisemblance est maximale pour la vraie valeur des paramtres. Cest le sens de la
condition HMV 2 analogue de la condition H2 de la mthode des moments gnralise.
Par rapport la mthode des moments gnralise, une caractristique importante pro-
vient du fait que le modle est juste identifi. Lexpression de la matrice de variance en
est simplifie.
Dans le cas gnral son expression est Vas b S = [G0 S0 G]1 G0 S0 V (g (zi , 0 )) S0 G [G0 S0 G]1 .
Ici les notations sont direntes, G = J et V = I et en outre G est de dimension
dim dim puisque dim g = dim et de rang
dim par hypothse. G est donc inver-
b
sible, do une expression plus simple Vas S = J 1 IJ 1 .
Une simplification supplmentaire provient du fait quil sagit dune vraisemblance. On
a alors : 2 " 0
#
log L (zi , ) log L (zi , ) log L (zi , )
E 0 = E .

Cette dernire relation provient simplement du fait que pour une famille de densit de
probabilit f (x, ) , Z
f (x, ) dx = 1
donc
Z Z
f Logf Logf
(x, ) dx = 0 soit f (x, ) (x, ) = 0, i.e.E =0

En drivant nouveau en , il vient

Z Z
2 Logf Logf f
f (x, ) 0 (x, ) dx + (x, ) 0 (x, ) dx = 0

Z 2 Z
Logf Logf Logf
f (x, ) 0 (x, ) dx + (x, ) (x, ) f (x, ) dx = 0
0
2
log f (x, ) log f (x, ) log f (x, ) 0
E + E = 0
0
Finalement on retrouve a partir des formules GMM que dans le cas du maximum de
vraisemblance
2 1 0 1
log L (z , ) log L (z , ) log L (z , )
Vas b
i i i
= E =E
0
12.3.1 Conditions de 1er ordre pour la maximisation

Lestimateur du maximum de vraisemblance est dfini par :

XN b
g xi b g xibb
log LN 0
= yi + (1 yi ) xi = 0
i=1 G xibb 1 G xibb
soit

log LN
N h
X i g xibb
yi G xibb
0
= h i xi = 0
b i=1 G xibb 1 G xibb
Ces quations sont en gnral non linaires et ncessitent la mise en oeuvre dun algorithme
doptimisation.
On voit que ces quations dans le cas gnral sexpriment sous la forme
X
N h i 0

xi , b yi E yi xi , bb xi = 0
b
i=1
Elles sont donc assez similaires aux conditions vues pour les moindres carrs, mis part
la pondration et la non linarit. On remarque galement que la pondration sinterprte
naturellement par le fait que V (yi |xi ) = G (xi , b) (1 G (xi , b)) , et que g (xi , b) x0i est la
drive par rapport b de G (xi b) . La pondration est donc analogue la sphricisation
pratique dans la mthode des mCQG du modle linaris autour de la vraie valeur du
paramtre.
Pour le modle Logit on a G (z) = F (z) = 1/ (1 + exp (z)) , et g (z) = exp (z) / (1 + exp (z))2 =
F (z) (1 F (z)) . On a donc simplement
N h
X i 0
log LN
= yi F xibb xi = 0
b Logit i=1
Pour le modle Probit on a G (z) = (z) , et g (z) = (z) . On a donc simplement

XN h i xibb
log LN b 0
= yi xi b h i xi = 0
b Pr obit i=1 xibb 1 xibb
12.3.2 Drives secondes de la log-vraisemblance - condition de

concavit
On sait quasymptotiquement, la vraisemblance a un maximum global unique. Ceci ne
signifie pas quil ny ait pas de maximum local. Ceci ne signifie pas non plus quil ny ait
pas distance fini des maxima locaux. Il est donc important dexaminer les conditions
du second ordre de lobjectif maximis qui permettent dtudier lexistence doptima mul-
tiples. On montre que dans le cas du modle probit et du modle logit on est dans un cas
favorable dans lequel la matrice hessienne est toujours ngative : la log-vraisemblance est
donc globalement concave. Ceci garantit donc que loptimum trouv est bien celui quil
faut considrer.
Pour le modle Logit, on le vrifie directement aisment. La matrice des drives
secondes de lobjectif a en eet pour expression :
XN h i
2 log LN
xibb F xibb xi xi
0
H= 0 = 1 F
bb Logit i=1
Pour le modle probit on montre plus gnralement une proposition base sur la log
concavit de la densit. On prsente dabord un lemme :
Lemme Si log (g) est concave, alors le ratio g (z) /G (z) est une fonction dcroissante
de z.
g(z) g0
Dmonstration G(Z)
est dcroissant si g 0 G < g 2 cest dire si g
G < g. Si log (g) est
0 0 g 0 (z)
concave alors gg dcroissante. Dans ce cas g 0 (t) = gg(t) (t)
g (t) > g(z)
g (t) pour t z donc
Z z 0 Z z
g (z) 0 (z)
g 0 (t) dt > g (t) soit g (z) > gg(z) G (z) .
g (z)
Proposition Si log (g) est concave et si g est symtrique, alors le hessien de la vraisem-
blance du modle dichotomique probabilit G (xib ) est dfini ngatif.
Dmonstration On peut rcrire la log vraisemblance en sparant les observations pour

lesquelles yi = 1 de celles pour lesquelles yi = 0, on note I1 et I0 les ensembles dindividus
correspondants. En notant gi = g (xi b) et Gi = G (xi b) , on a alors
log LN X
N
gi
= [yi Gi ] x0i
b i=1
Gi [1 G i ]
X gi X gi
= [1 Gi ] x0i + [0 Gi ] x0i
I1
Gi [1 Gi ] I0
Gi [1 Gi ]
X gi X gi
= x0i + x0i
I
G i
I
1 G i
1 0
On a alors :
2 log LN X gi 0 X gi
0
0
0
= xi xi + x0i xi
bb I
Gi I
1 Gi
1 0
g(z) g(z)
Comme g est symtrique G (z) = 1 G (z) , on a 1G(z) = G(z) , il en rsulte que
g(z)
si Gg est une fonction dcroissante, alors 1G(z) est aussi une fonction dcroissante. Le
Hessien est ngatif puisque les drives des ratios Ggii et 1Ggi
i
sont ngatives.

Dans le cas Probit, g (z) = 12 exp 12 z 2 , cest bien une fonction symtrique et

log g (z) = log 2 12 z 2 , est bien une fonction concave. Lobjectif est donc globalement
concave.
12.3.3 Matrice de variance-covariance de bb

La matrice de variance covariance asymptotique est gale
2
log L
1
log L log L
1
Vas bb = E = E
bb0 b b0
Elle peut tre estime partir des drive secondes values en bb :

1
2 b
log L yi , xi , b
Vas (bb) =
bb0
ou des drives premires value en :

0 1
b
log L yi , xi , b b
log L yi , xi , b
Vas (bb) =

b b
Compte tenu de lexpression donne plus haut

b
log L yi , xi , b h i 0
b b
= xi , b yi E yi xi , b xi
b
. h i
avec xi , bb = g xibb G xibb 1 G xibb , on note que dans ce cas la matrice de
variance scrit sous une forme sapparentant celle des mCQG
1
Vas (bb) = b 2i b
2i xi xi
0

i = yi G xi , bb
o b
La matrice de variance covariance de lestimateur est dans tous les cas estime par
V (bb) = Vas (bb)/N
12.4 Illustration : participation des femmes sur le

march du travail
On peut mettre en oeuvre les mthodes destimation prcdentes en examinant le
comportement de participation des femmes sur le march du travail. La modlisation de
la dcision de participation fait intervenir le salaire de march wi et le salaire de rservation
wi . Le salaire de march est modlis comme une fonction du capital humain, cest dire
comme une fonction de la scolarit et lexprience sur le march du travail. Le salaire de
rservation est fonction lui de la situation familiale : revenu alternatif, clibat, nombre
denfants... Au lieu de modliser le capital humain par lexprience, fonction des dcisions
passes de participation sur le march du travail, on peut faire intervenir directement
lage. Au total on a une dcision de participation prenant la forme :
I = 1 wi > wi
wi = 0 + 1 scoi + 2 agei + 3 age2i + ui
wi = 0 + 1 wai + 2 sin glei + 3 nenfi + 4 agei + 5 age2i vi
On a donc la modlisation de participation :
I = 1 0 + 1 scoi + 2 agei + 3 age2i + 4 wai + 5 sin glei + 6 nenfi + i > 0
On peut estimer ce modle en faisant lhypothse que les rsidus sont distribus de telle
sorte que lon ait un modle Probit, Logit ou probabilit linaire. On met en oeuvre cette
estimation sur un chantillon de femmes en 2002, tir de lenqute emploi. Lchantillon
comprend 36249 femmes. Les rsultats sont prsents dans le tableau 12.1. On voit que
12.5. SLECTIVIT : LE MODLE TOBIT 217
Probit Logit Linaire

b sb b sb b sbh sb
Constante -0.207 (0.057) -0.379 (0.095) 0.441 (0.020) (0.019)
Nenf -0.317 (0.008) -0.530 (0.013) -0.108 (0.002) (0.002)
wa 0.043 (0.002) 0.071 (0.003) 0.015 (0.001) (0.001)
single 0.297 (0.024) 0.490 (0.039) 0.103 (0.008) (0.008)
scolarit 0.089 (0.003) 0.151 (0.005) 0.029 (0.001) (0.001)
age -0.006 (0.001) -0.010 (0.001) -0.002 (0.000) (0.000)
age/1000 -0.237 (0.008) -0.401 (0.013) -0.081 (0.003) (0.003)
Tab. 12.1 Estimation du modle de participation des femmes
les paramtres sont distincts dune rgression lautre mais que les sens de variations sont
toujours les mmes. On note aussi que les estimations sont trs prcises, ce qui tient la
taille importante de lchantillon. Les rsultats sont bien ceux auxquels on sattend : plus le
capital humain est important : ge et scolarit levs, plus la participation est importante.
De mme plus le nombre denfants est lev, moins la participation est leve. Le clibat
conduit aussi comme on sy attend une participation plus importante. On remarque
enfin que le revenu alternatif (celui du conjoint) na pas le signe attendu. On aurait pu
penser en eet que le salaire du conjoint conduisait une participation plus faible. Ceci
pourrait tre li au fait que dans la dcision de mise en couple les capacits sur le march
du travail des deux individus sont corrles positivement.
Pour aller plus loin dans la comparaison des estimateurs entre eux, il faudrait comparer
les eets marginaux, cest dire calculer en chaque point leet prdit par le modle dun
accroissement marginal de la variable.
12.5 Slectivit : le modle Tobit

12.5.1 Prsentation de la slectivit
La slectivit est une des causes principales de biais dans les estimations des modles
linaires. Elle correspond la situation dans laquelle le phnomne que lon tudie est
observ uniquement sous certaines conditions qui ne sont pas indpendantes du phno-
mne tudi. Pour certains individus, on nobserve pas le phnomne tudi, il y a donc
un problme de donnes manquantes, et la raison pour laquelle on nobserve pas le
phnomne est elle mme lie ce phnomne. Le fait de ne pas observer le phnomne
apporte donc paradoxalement une information sur le phnomne lui-mme. On dit dans
ce cas que le processus de slection nest pas ignorable.
Exemple Le modle dore de travail dHeckman. Pour illustrer le problme de la slec-
tivit on prsente le modle dore de travail dHeckman. On modlise le salaire de march
dun individu comme :

wi = xi b + ui
avec xi comprenant les variables aectant le capital humain : la scolarit et lge ( la
place de lexprience) et le salaire de rserve comme
wi = xri br + uri
avec xri comprenant le nombre denfant, une indicatrice valant 1 en cas de clibat, le cas
chant, le revenu du conjoint. On introduit en plus de ces variables un polynme de lge
pour prendre en compte les spcificits du march du travail franais qui subventionne le
retrait dactivit des travailleurs gs. On introduit en outre une modlisation des heures.
Les heures de travail oertes dpendent de lcart entre le salaire de march et le salaire
de rserve :
hi = (wi wi )
et on a donc un nombre dheures non nul, donc observ si wi > wi . Le paramtre
est particulirement intressant puisquil correspond llasticit de lore de travail au
salaire. A cette modlisation correspond direntes possibilits dobservation.
1. On nobserve que la dcision de participation :

pi = 1 si hi > 0
pi = 0 si hi 0
Il sagit du modle Probit dj examin.
2. On observe la dcision de participation et le nombre dheures :

hi = hi = xi b xri br + u uri = zic + vi
si hi > 0
pi = 1
si hi 0
pi = 0
Il sagit du modle Tobit dit simple ou de type I car la variable dfinissant la censure
est aussi celle qui est observe lorsquil ny a pas censure. Dans le cas considr
ici, il est clair que lestimation de ce modle ne permet pas lestimation simple du
paramtre dlasticit dore de travail au salaire. On peut identifier l (hi |zi , hi > 0)
qui est bien sur dirente de l (hi |zi ) . Le processus de slection nest donc pas
ignorable dans ce cas de faon vidente.
3. On observe le salaire et la dcision de participation

wi = xi b + ui
si hi > 0
pi = 1
si hi 0
pi = 0
Il sagit du modle Tobit dit de type II car la variable dfinissant la censure nest pas
celle qui est observe lorsquil ny a pas censure. On peut identifier ici l (wi |zi , hi > 0)
qui peut tre dirente ou non de l (wi |zi ) . Le processus de slection peut donc tre
ignorable ou non dans ce cas. On voit que si l (wi |zi , hi ) = l (wi |zi ) , cest dire
si la variable ralisant la censure est indpendante de la variable tudie condition-
nellement aux variables explicatives, le processus de slection sera ignorable.
4. On observe le salaire, le nombre dheures et la dcision de participation

wi = xi b + ui

hi = hi = xi b xri br + ui uri si hi > 0

pi = 1 si hi 0

pi = 0
Ce modle est dit modle Tobit de Type III. Il permet sous certaines conditions
destimer le paramtre dlasticit de lore de travail aux heures.
Lestimation de ce type de modles est en gnral complexe lorsque lon ne spcifie
pas la loi des rsidus. On va examiner ici la situation dans laquelle la loi jointe des deux
rsidus uwi de lquation de salaire et uhi de lquation dheure, conditionnellement aux
variables explicatives, est une loi normale bivarie :

uwi 0 2w w h
N ,
uhi 0 w h 2h
Une caractrisitique importante de cette modlisation est de laisser possible une corrlation
entre les deux quations de salaire et de participation. Cest justement dans le cas o il
y a corrlation que le processus de slection nest pas ignorable dans le cas du modle de
type II.
Definition 1. On appelle Modle Tobit de type I, ou modle Tobit simple le modle
dans lequel une variable dintrt modlise comme
yi = xi b + ui
avec ui N (0, 2u ) , est observe sous la condition, elle mme observe,
yi > 0
Cest dire, on observe :

yi = yi = xi b + ui
si yi > 0
Ii = 1
sin on
Ii = 0
2. On appelle Modle Tobit de type II, le modle dans lequel une variable dintrt,
modlise comme
yi = xi b + ui
est observe sous la condition elle mme observe
Ii = zi c + vi > 0
avec (ui , vi ) distribus suivant une loi normale de moyennes nulle et de variance 2u
et 2v et de corrlation . On observe donc

yi = yi = xi b + ui
si Ii > 0
Ii = 1
sin on
Ii = 0
Pour mesurer limportance potentielle des biais auquel peut conduire une information
incomplte, on considre la situation dans laquelle il y a deux variables alatoires

y1 = x + u1
y2 = x + u2
Les variables x, u1 et u2 sont toutes trois normales, centre et rduites. x est choisie ind-
pendante de u1 et u2 . En revanche on envisage deux situations polaires pour la corrlation
de u1 et u2 : corrlation nulle et corrlation de 0.9. On sintresse la relation entre y1 et
x, et on considre deux cas. Dans le premier cas on observe y1 et x sans restriction, dans
le second cas on observe y1 et x uniquement pour y2 positif. Les graphiques reports dans
le tableau 12.2 montrent les nuages de points observs.
On voit que les nuages de points dans les chantillons non tronqus se ressemblent
beaucoup, que la corrlation soit nulle ou de 0.9. Les droites de rgressions linaires
donnent toutes deux des coecients proches des vraies valeurs : 1 pour la variable x
et 0 pour la constante. On voit aussi que la troncature par la variable y2 ne change pas
beaucoup lallure de lchantillon dans le cas de la corrlation nulle. On observe nanmoins
que comme on a slectionn les observations pour lesquelles x+u2 > 0, on a eu tendance
retenir plus de valeurs leves de x. Nanmoins, cette slection des variables explicatives
naecte pas la proprit dindpendance des variables explicatives et du rsidu dans
lquation de y1 . On vrifie que les coecients de la droite de rgression sont l encore trs
proches des vraies valeurs. En revanche les changements pour le cas = 0.9 en prsence
de troncature sont trs importants. On a t amen ne retenir que les observations pour
lesquelles x + u2 > 0. L encore on a eu tendance retenir plus souvent les observations
de x avec des valeurs leves. Pour une observation retenue pour une valeur de x donne,
on na retenu que les observations avec une valeur importante de u2 et donc de u1 puisque
ces variables sont fortement corrles. On en dduit que x donn, on a retenu des
observations pour lesquelles u1 est susamment important. Pour une valeur donne de x
la moyenne des rsidus des observations slectionnes sera donc positive contrairement
ce quimplique lhypothse dindpendance. En outre, si on considre une valeur de x plus
importante, on sera amen slectionner des observations de u2 de faon moins stricte,
et la moyenne des rsidus de u1 slectionns sera donc toujours positive, mais plus faible.
5 5
y = - 0,01+1,01x y = 0,01+1,00x+
0 0
-4 0 4 -4 0 4
-5 -5
Complet = 0 Complet = 0.9

5 5
0 0
-4 0 4 -4 0 4
y = 0,75+0,58x
y = - 0,03+1,03x
-5 -5
Tronqu = 0 Tronqu = 0.9

Tab. 12.2 Nuages de points et troncatures : direntes configurations
On en dduit que lesprance des rsidus conditionnelle une valeur donne de x est une
fonction dcroissante de x : le rsidu de lquation de y1 sur les observations slectionns
ne sont plus indpendants de la variable explicative. Ce rsultat se matrialise par une
droite de rgression de pente beaucoup plus faible que dans le cas prcdent : le biais
dit de slectivit est ici trs important. Une autre consquence que lon peut voir sur le
graphique et qui est intimement lie dans ce cas la slection, est que la relation entre y1
et x est htroscdastique.
12.5.2 Rappels sur les lois normales conditionnelles.

Quelques rappels sur les lois normales sont ncessaires pour tudier le modle de
slectivit.
Densit
La densit dune loi normale centre rduite est note et a pour expression
2
1 u
(u) = exp
2 2
Z u
La fonction de rpartition est note (u) = (t) dt. Compte tenu de la symtrie de

la fonction on a (u) = 1 (u)
Une variable alatoire de dimension k suivant une loi normale multivarie de moyenne
et de variance : y N(, ) a pour densit :

1 1 0 1
f (y) == q exp (y ) (y )
k 2
(2) det()
On considre une loi normale bivarie

y1 1 21 1 2
N ,
y2 2 1 2 22
la densit de la loi jointe de u1 et u2 est donc donne par

1 (21 + 22 2 1 2 )
f (y1 , y2 ) = p exp
2 1 2 1 2 2(1 2 )
avec 1 = y1
1
1
et 2 = y2
2
2
.
La loi marginale de y1 est donne par

1 1 2
f (u1 ) = exp 1
1 2 2
un calcul simple permet de montrer que la loi y2 conditionnelle y1 donne par f (y2 |y1 ) =
f (y1 ,y2 )
f (y1 )
est aussi une loi normale, mais de moyenne et de variance dirente. La moyenne
dpend de la valeur prise par y1 , mais pas la variance :

2
f (y2 |y1 ) N 2 + 2 2
(y1 1 ) , 2 (1 )
1
Moments dune loi normale tronque

Definition On appelle inverse du ratio de Mills la quantit

M (c) = (c)

Ce ratio est central dans lanalyse des biais de slectivit. On a vu prcdemment en
tudiant le modle probit que ce ratio est une fonction dcroissante de c.
Proposition Soit u N (0, 1) , et c un scalaire. On sintresse aux moments de la loi
normale tronque E(u|u > c) et E(u|u < c), ainsi que V (u|u > c) et V (u|u < c). On a
E(u|u > c) = M (c)

E(u|u < c) = M (c)
et
V (u|u > c) = 1 + cM (c) M (c)2 < 1

V (u|u < c) = 1 cM (c) M (c)2 < 1
0
Dmonstration u a pour densit (u) . Compte tenu de (u) = u (u) , on a :
R
c
u(u)du [(u)] c (c) (c)
E(u|u > c) = = = = = M (c)
1 (c) 1 (c) 1 (c) (c)
de mme
E(u|u < c) = E(u| u > c) = M (c)
Pour les moments dordre 2 on a :
R
u2 (u)du
E u2 |u > c = c
= 1 + cM (c)
1 (c)
R R
o on intgre par partie c u2 (u)du = [u (u)] c + c
(u)du = c (c) + 1 (c) .
On en dduit la variance conditionnelle
V (u|u > c) = E(u2 |u > c) [E(u|u > c)]2 = 1 + cM (c) M (c)2

de faon similaire on a pour la loi normale tronque suprieurement
E(u2 |u < c) = E((u)2 | u > c) = 1 cM (c)

V (u|u < c) = 1 cM (c) M (c)2
Le lemme que lon avait pour une loi normale z + (z) > 0 et aussi z + 1

(z) > 0 soit
2 2
encore zM (z) + M (z) > 0 et zM (z) M (z) < 0 on en dduit que lon a toujours,
comme on sy attend V (u|u c) < 1.
Lemme Quelque soit z, on a

z+ (z) > 0

et

z + (z) > 0
1
Dmonstration Compte tenu de 0 (z) = z (z) on dduit de / dcroissant 0 (z) /
2 /2 < 0, soit z (z) / 2 /2 < 0. En multipliant cette ingalit par (z) , on en
dduit un rsultat qui sera utile par la suite : z + (z) > 0. En appliquant cette ingalit

z, on en dduit aussi z + 1 (z) > 0.
Remarque Dans le cas dune variable non centre rduite v N (, 2 ) , on peut dduire
des rsultats prcdents les moments des lois tronques en notant que (v ) / suit une
loi N (0, 1) et que v c u = (v ) / e c = (c ) /. on a donc

c
E(v|v > c) = E(u + |u > e c) = + M

c
E(v|v < c) = E(u + |u < e c) = M

et 2 !
c c c
V (v|v > c) = 2 1+ M M

Pour les moments de la loi tronque suprieurement on a galement
2 !
c c c
V (v|v < c) = 2 1 M M

On a aussi comme on sy attend pour toute transformation linaire
V (a + bv|v > c) = b2 V (v|v > c)

V (a + bv|v < c) = b2 V (v|v < c)
Moments dune variable normale tronque par une autre variable normale
On sintresse au cas dune variable alatoire suivant une loi normale bivarie

y1 1 21 1 2
N ,
y2 2 1 2 22
et on cherche les moments dordre 1 et 2 de la variable y2 tronque par y1 > 0.
Proposition On a

1
E (y2 |y1 > 0) = 2 + 2 M

1

E (y2 |y1 > 0) = 2 2 M 1
1
et
2 !

1 1 1
V (y2 |y1 > 0) = 22 2 22 +MM
1 1 1
2 !

V (y2 |y1 < 0) = 22 2 22 1 M 1 + M 1
1 1 1
Dmonstration On a vu que la loi de y2 conditionnelle y1 est une loi normale de

moyenne 2 + 21 (y1 1 ) et de variance 22 (1 2 ) . On en dduit que

2
E (y2 |y1 > 0) = E 2 + (y1 1 ) |y1 > 0
1

y1 1
= 2 + 2 E |y1 > 0
1

y1 1 y1 1 1
= 2 + 2 E >
1 1 1

1
= 2 + 2 M
1
De mme,
V (y2 |y1 > 0) = V (E (y2 |y1 ) |y1 > 0) + E (V (y2 |y1 ) |y1 > 0)

2
= V 2 + (y1 1 ) |y1 > 0 + 1 2 22

1
2 2 y1 1 y1 1 1
= 2V >
1 1 1
2 !
1 1
= 2 22 1 1 M M + 1 2 22
1 1 1
2 !
1 1 1
= 22 2 22 M +M
1 1 1
Compte tenu du rsultat prcdent sur la loi normale unidimensionnelle et puisque V (y2 |y1 ) =
(1 2 ) 22 .
On obtient directement les moments de la loi normale y2 tronque par y1 < 0 en
remplaant 1 par 1 et par
12.6 Estimation du modle Tobit

On considre nouveau le modle Tobit
yi = xi b + ui
Ii = zc + vi
dans lequel la loi jointe des rsidus conditionnellement aux variables explicatives est une
loi normale bivarie

ui 0 2u u v
N ,
vi 0 u v 2v
Les observations sont rgies par :

yi = yi
si Ii > 0
Ii = 1
si Ii 0
Ii = 0
12.6.1 Pourquoi ne pas estimer un modle Tobit par les MCO ?

Si on se restreint aux observations pour lesquelles le salaire est renseign, on a
E (yi |xi , zi , Ii = 1) = E (yi |xi , zi , Ii > 0)

12.6. ESTIMATION DU MODLE TOBIT 227
En appliquant les rsultats prcdents y2 = y , et y1 = I on a directement :

zi c
E (yi |xi , zi , Ii > 0) = xi b + u M
v
On voit donc que ds lors que la corrlation entre les lments inobservs de lquation de
salaire et de lquation de participation sont corrls, cest dire ds que 6= 0, ne pas

prendre en compte la slectivit revient oublier une variable dans la rgression : M zivc .
Cet oubli est donc susceptible
de conduire une estimation biaise des paramtres ds
lors que les variables M zivc et xi sont corrles.
Si on considre titre illustratif que lquation de slection scrit yi > y, on a = 1
et v = xiby
zi c
u
. Lquation prcdente scrit alors

xi b y
E (yi |xi , zi , Ii > 0) = xi b + u M
u
(z)
Dans ce cas comme M (z) = est une fonction dcroissante de z le biais est ngatif.
(z)
Dans le cas gnral tout dpend de et de la corrlation entre le ratio de Mills et M zivc
les variables explicative entrant dans la modlisation de yi .
Si on introduit galement les observations pour lesquelles yi = 0, on a
E (yi |xi , zi ) = E (yi |xi , zi , Ii = 1) P (Ii = 1 |xi , zi ) +

E (yi |xi , zi , Ii = 0) P (Ii = 0 |xi , zi )
= E (wi |xi , zi , Ii = 1) P (Ii = 1 |xi , zi )

zi c zi c
= (xi b) + u
v v
et on voit que la forme linaire nest pas non plus adapte.
12.6.2 Estimation par le maximum de vraisemblance

Comme on a spcifi la loi des perturbations, on a spcifi la loi des observations.
Lestimateur du maximum de vraisemblance est donc le plus ecace. Les estimations
vont tre bases sur la densit des observations. celle-ci se calcule de la faon suivante :
on crit la probabilit dobserver chaque ralisation du couple (yi , Ii ) .

Pour Ii = 0 on nobserve pas yi la seule probabilit est P (Ii < 0) , cest dire
P (zi c + vi < 0) = zcv = 1 zcv
Pour Ii = 1 on observe yi = yi et Ii > 0. La densit correspondante est
Z Z

f (yi = wi , ii = 1) = f (yi , Ii ) dIi = f (yi ) f (Ii |yi ) dIi
Ii >0 Ii >0
et la loi de Ii conditionnelle yi = yi est pas dfinition une loi normale de moyenne

y
eI (yi ) = I + v iu y et de variance
e2v = 2v (1 2 ) la probabilit pour quune telle
y

e I (yi )
I + v i y
variable alatoire soit positive est e v = u
2
. Finalement, la densit
v (1 )
des observations est
Y Y !
zc 1 yi xi b zi c + v yi x
u
ib
L = 1 p
Ii =0
v
Ii =1 u
u v (1 2 )
!
Y 1Ii yi xi b Ii
zc 1 yi xi b z i c + v u
= 1 p
i
v u u v (1 2)
On voit que comme dans le cas du modle Probit, on ne peut pas identifier la totalit des
paramtres de lquation de slection : seul le paramtre e c = cu est identifiable. Compte
tenu de cette redfinition des paramtres du modle, la vraisemblance scrit :
!
Y yi xi b Ii
1 yi xi b zie
c + u
L= c)]1Ii
[1 (zie p
i
u u (1 )2
Remarque 1. Dans le cas o = 0 on voit que la vraisemblance est sparable entre

une contribution correspondant lobservation de Ii = 0/1 et une contribution as-
socie aux observations de wi :
! Ii !
Y Y 1 yi xi b
L= c)]1Ii (zie
[1 (zie c)Ii
i i
u u
On retrouve donc le fait que dans le cas = 0 on peut ignorer la slection des
observations. On voit aussi que dans le cas gnral o 6= 0 la slectivit importe.
2. La fonction de vraisemblance nest pas globalement concave en (, u , b, e
c).Elle est
concave globalement en = ( u , b, e
c) pour fix.
3. Une solution consiste fixer la valeur de et estimer les paramtre correspondant
b
() et balayer sur les valeur possible de .
12.6.3 Estimation en deux tapes par la mthode dHeckman

Il existe une mthode destimation trs simple et trs largement utilise dans le cas o
les perturbations sont normales. Elle ouvre aussi la voie des spcifications plus gnrales
dans lesquelles on laisse non spcifies la loi des perturbations. Cette mthode est base
sur lquation prcdente
E (yi |xi , zi , Ii = 1) = xi b + u M (zie

c) = xi b + u Mi (e
c)
Le principe de la mthode dHeckman consiste estimer dabord

le modle
Probit associ
c = c/ v on tire un estimateur Mi b
Ii . De lestimation de e c = M zib
e e
c . On procde
ensuite la rgression augmente sur les seules observations pour lesquelles les donnes
sont disponibles :
yi = xi b + u Mi b
e
c + $i
Ces estimateurs sont asymptotiquement sans biais, mais ils ne sont pas asymptotique-
ment ecaces. Par exemple, cette mthode permet destimer seulement le produit u ,
alors que la mthode du maximum de vraisemblance permet destimer et u sparment.
Remarque Le calcul des carts-type est un peu compliqu. Il fait intervenir deux aspects.
Dune part le modle est htroscdastique. En eet, compte tenu des rsultats obtenus
prcdemment pour V (y2 |y1 > 0) , on a :
V (yi |xi , zi , Ii = 1) = V (yi |xi , zi , Ii > 0)

= 2u 2 2u zie cMi (e c)2
c) + Mi (e
Cette formule montre bien la prsence dhtroscdasticit. Elle donne aussi une voie pour
estimer le modle de faon plus ecace en utilisant lestimateur des mCQG. Nanmoins ce
nest pas le seul problme, en eet la variable additionnelle introduite dans la rgression
fait intervenir le paramtre ec qui nest pas connu et est remplac par une estimation.
Lintroduction de ce paramtre estim est aussi une source de complication dans le calcul
des carts-type. Plus prcisment, le paramtre est lui mme issu dune estimation (par
le MV) que lon peut rsumer par lannulation de la contrepartie empirique de conditions
dorthogonalit
E (hec (Ii , zi , e
c)) = 0
Lestimation du modle par les mco conduit quant elle lannulation de la contrepartie
empirique de

x0i
E [yi xi b u Mi (e
c)] 1Ii =1
Mi (ec)
= E (hb,u (Ii , yi , xi , b, u )) = 0
Le calcul des carts-type doit se faire en considrant les formules de lestimation par la
mthode des moments gnralise associe la totalit des conditions dorthogonalit, cest
dire
hec (Ii , zi , e
c)
E =0
hb,u (Ii , yi , xi , b, u )
On utilise parfois lestimateur de Heckman comme une premire valeur pour le calcul
de lestimateur du maximum de vraisemblance. On utilise lestimateur du modle Probit,
lestimateur du modle de Heckman et lexpression de la variance des rsidus qui permet
dobtenir une estimation convergente de et w .
12.6.4 Des extensions paramtriques simples

Le cas normal conduit des spcifications particulirement simple. La loi normale peut
nanmoins paratre trop restrictive et on peut vouloir spcifier encore la loi des rsidus
mais dans des ensembles de lois plus gnrales.
Loi quelconque donne pour le rsidu de lquation de slection.

Tant que la loi du terme de lquation de slection a une fonction de rpartition F
strictement croissante, on peut reformuler le modle de telle sorte quil entre dans le cadre
prcdent. Cette reformulation repose sur la proprit suivante :
Proposition Si une variable alatoire une fonction de rpartition F strictement crois-

sante, alors la variable alatoire ve = F (v) suit une loi uniforme sur [0, 1] .
Dmonstration En eet, comme F est valeurs dans [0, 1] le support de ve est bien
[0, 1] . De plus on a

v t) = P (F (v) t) = P v F 1 (t) = F F 1 (t) = t
P (e
On en dduit alors la proposition suivante concernant le modle de slection : En

appliquant ce rsultat la transformation : ve = 1 F (v) , on en dduit que ve suit une
loi normale. Le modle de slection I = 1 I = zc + v 0 est donc quivalent
I = 1 ve = 1 F (v) 1 F (zc) soit encore 1 F (zc) + ve 0, avec
dans ce cas ve normal. On peut donc gnraliser les rsultats prcdents en substituant
1 F (zc) zc. On parvient alors au rsultat que
1
E (y |I = 1, x, z ) = xb + u F (zc)

Compte tenu du fait que
P (z) = P (zc + v 0) = P (v zc) = 1 F (zc)
on a
1
E (y |I = 1, x, z ) = xb + u (1 P (z))

En utilisant le fait que (x) = 1 (x) , soit 1 (P ) = 1 (1 P ) , on a :
1 P (z)
E (y |I = 1, x, z ) = xb + u
P (z)
Des lois plus gnrales que la loi normale

On peut considrer le modle de slection prcdent en faisant lhypothse que les
lments inobservs ont pour loi jointe une loi de Student de degrs et non pas une loi
normale.
La densit de la loi jointe des lments inobservs scrit alors :

1 1 2 2
(1/2)(+2)
h (u, v) = 1+ u 2uv + v
2 (1 2 )1/2 2 ( 2) (1 2 )
On peut montrer la proprit suivante sur la loi jointe de u et v :
E (u |v ) = v
La loi de u, g (u) a pour expression :
s
(( + 1)/2) (+1)/2
g (u) = 1 + t2
(/2)
On note G (u) sa fonction de rpartition.
On peut montrer que lexpression de lesprance de la loi de Student de degrs
tronque est :
+ t2 g
E (v |v < t ) = (t)
1 G
Do
G (t) G (t) + t2 g
E (v |v > t) = E (v |v < t) = (t)
(1 G (t)) (1 G (t)) 1 G
+ t2 g + t2 g
= (t) = (t)
1 1 G 1 G
Ceci permet de gnraliser les rsultats obtenus prcdemment pour le modle de slection
E (y |I = 1, x, z ) = xb + E (u |d = 1, x, z )
= xb + E (u |zc + v > 0, x, z )
= xb + E (E (u |v, x, z ) |zc + v > 0, x, z )
= xb + E (v |v > zc)
+ zc2 g
= xb + (zc)
1 G
On peut obtenir une gnralisation supplmentaire en combinant les deux approches et

en considrant que lquation de slection un rsidu dune loi quelconque connue. Par
le mme genre dargument que dans la premire situation envisage, on a
2
+ G1 1
(P (z)) g G (P (z))
E (y |I = 1, x, z ) = xb +
1 P (z)
12.6.5 Le modle de slection semi paramtrique.

On reprend le modle de slectivit sur inobservables :
y = xb + u
avec la modlisation de laectation au traitement :
T = zc + v
T = 1 T 0
on suppose comme prcdemment lindpendance entre les variables de conditionnement

et les lments inobservs.
(u, v) (x, z)
mais on ne fait plus dhypothse sur la loi jointe des perturbations. On montre que lon
obtient une relation pour lesprance conditionnelle qui sapparente celles obtenues dans
les cas prcdents :
Proposition Dans le cas du modle de slectivit sur inobservables, si les fonctions de
rpartition de v est strictement croissante, il existe une fonction K (P (zc)) telle que
E (y |I = 1, x, z ) = xb + K (P (zc))
o
P (zc) = P (T = 1 |r, z )
Dmonstration On montre dabord que P (I = 1 |r, z ) = P (zc) . On a
Z Z
P (I = 1 |r, z ) = E (1 (zc + v > 0) |r, z ) = f (v |r, z ) = f (v) = 1F (zc) = P (zc)
v>zc v>zc
On en dduit en outre que zc = H1 (P (zc)) , puisque F est strictement croissante. On

crit ensuite lesprance de la variable dintrt
E (y |I = 1, x, z ) = xb + E (u |I = 1, x, z )
et on montre que E (u |I = 1, x, z ) est une fonction de P (zc)

Z
E (u |I = 1, x, z ) = E (uI |x, z ) P (I = 1 |r, z ) = 1 (zc + v 0) uf (u, v) dudvP (I = 1 |zc)1
1
= H2 (zc) = K (P (zc))
Remarque On peut voir partir des expressions prcdentes un point trs important.
Dans le cas de la normalit, on a une relation non linaire dtermine entre lesprance de
la variable laquelle on sintresse et la probabilit de slection. Cette non linarit permet
lobtention destimation mme dans le cas o les variables entrant dans lquation de
slection et lquation dintrt principal sont identiques. Dans le cas plus gnral, on voit
nanmoins que ce nest plus le cas. En eet quelque soit la fonction de probabilit retenue P,
si la fonction K est quelconque, et que xp est identique xw , on ne pourra dissocier leet
des variables intervenant au travers de la slectivit de leur eet intervenant directement :
le modle nest pas identifi. Ce nest que lorsque lon introduit dans lquation de slectivit
une variable intervenant dans la slectivit mais pas dans lquation principale que lon
peut identifier le modle. Le raisonnement est ici trs proche de celui fait dans le cas des
variables instrumentales : il faut postuler une relation dexclusion. Cette ncessit est un
peu masque dans le cas de la normalit par la non linarit du modle, mais elle nen est
pas moins essentielle.
Ce type de modle peut tre estim sans faire dhypothse sur la forme de la fonction
K. On considre lquation :
E (y |I = 1, x, z ) = xb + K (P (zc))
Une premire faon destimer le modle consiste utiliser des sries. Lide est trs simple
elle consiste introduire direntes puissance du score : P (zc) , P (zc)2 , . . . . Les proprits
asymptotiques de ce type destimateur ont t tudie par Andrews (1991).
E (y |I = 1, x, z ) = xb + 1 P (zc) + + dN P (zc)dN
Cette mthode est trs simple mettre en oeuvre, et de ce fait trs utile. Ses proprits
asymptotiques ont t clairement tablies, par Newey (1999) qui montre en particulier

que les paramtres dintrt de la partie linaire du modle sont convergent en N. Le
problme de ce type de mthode rside dans le choix du degr du polynme retenu.
Une mthode destimation alternative est fournie par la mthode destimation de (Ro-
binson 1988) cest une sorte de super mthode de Frish-Waugh. LIde de la mthode de
Robinson est de projeter cette quation sur lensemble des fonctions de P (zc)
E (y |I = 1, P (zc)) = E (E (y |I = 1, x, z ) |I = 1, P (zc))
= E (x |I = 1, P (zc)) b + K (P (zc))
En prenant la dirence avec lquation prcdente on peut liminer la fonction K (P (zc)) .

On a alors :
E (y E (y |I = 1, P (zc)) |I = 1, x, z ) = (x E (x |I = 1, P (zc))) b
En notant Py = y E (y |I = 1, P (zc)) et Px = x E (x |T = 1, P (zc)) les rsidus des

rgressions non paramtriques de y et des variables explicatives r sur le score P (zc) , on
a clairement
E Py Pr = Pr b
On peut estimer le paramtre b en rgressant Py sur Pr . Dans ce cas, on peut montrer

que lestimateur de b obtenu est convergent en N bien quil incorpore un intermdiaire
de calcul non paramtrique. Toutefois sa variance est dicile calculer et on est amen
utiliser des mthodes de bootstrap trs intensives en calculs, notamment pour ce type
destimateur par noyaux.
Remarque Cette mthode permet destimer le paramtre b. Nanmoins ceci nest pas
vrai pour tous les paramtres : la constante du modle nest pas identifie. Ceci se voit
trs bien puisque la fonction K est estime en toute gnralit, donc une constante prs.
Ceci nest en gnral pas grave car on naccorde que peu dintrt la constante, sauf
dans certains cas prcis qui peuvent tre trs importants. Cest en particulier le cas de
lvaluation des politique publiques que lon aborde dans le chapitre suivant. On reviendra
alors sur cette question dlicate.
12.6.6 Illustration : le modle dore de travail dHeckman

Pour illustrer les rsultats du cadre prcdent on estime le modle dore de travail
prsent dans lexemple de la page 217. Il sagit dun modle Tobit dit de TypeIII, dans
la terminologie de Amemiya. La forme rduite de ce modle scrit :
wi = xi b + ui
hi = xi b xri br + ui uri = zi c + vi
En appliquant le formalisme de la mthode dHeckman, on voit que lon a :
E (wi |zi , hi > 0) = xi b + (ui |zi , hi > 0)

= xi b + (zi c)

E (hi |zi , hi > 0) = xi b xri br + h h (zi c)

On voit clairement que les paramtres b, et br sont identifis. En eet, le modle Probit
identifie le paramtre c, la rgression de salaire identifie b et , la rgression dheure
identifie b, br et h h . On voit que lon peut en dduire une estimation de ds lors
quil y a une variable entrant dans la liste des variables aectant le salaire de march
mais pas le salaire de rserve. La variable retenue ici assurant cette identification est la
variable de scolarit. En eet on fait intervenir la variable dge dans le salaire de rserve
et dans le salaire de march. Nanmoins lidentification du paramtre est lie ici la
forme fonctionnelle, cest dire la forme du ratio de Mills. On voit que si on avait retenu
une autre loi et que pour cette loi le terme analogue au ratio de Mills avait t linaire le
modle ne serait pas identifi puisquil impose que zi c soit proportionnel xi b xri br .
Mme si le modle impose des restrictions qui peuvent tre testes comme le fait que les
paramtres de la partie xi b xri br sont bien proportionnels ceux de la partie zi c, on
ne peut en dduire destimateur de ces paramtres, sauf faire une hypothse comme
celle faite ici que les variables inobserves sont distribues suivant une loi normale. On
peut noter que le modle de salaire de march peut lui aussi faire intervenir les heures.
Dans ce cas lidentification porte comme pour le modle dheures oertes sur la forme
fonctionnelle. Enfin, on voit aussi que lestimation sapparente ici une estimation par la
mthode des moments gnralise. En eet, on peut rcrire lquation dore de travail
par exemple sous la forme

E (hi wi + xri br |zi , hi 0) = E (uri |zi , hi 0) = e eh
h (zi c)

Soit

E hi wi + xri br e eh (zi c) |zi , hi 0 = 0
h

avec e eh = cov(uri , ui uri )/ (ui uri ) . Il en rsulte que les paramtres peuvent
h
tre estims en utilisant comme conditions dorthogonalit

zi
E
hi wi + xri br e eh (zi c)
h h 0 =0

(zi c) i
De mme, pour lquation de salaire, on a

zi
E
whi hi xi b (zi c) hi 0 = 0

(zi c)

qui peut tre utilise avec contraint 1 (lidentification des autres paramtres est alors
garanti quelle que soit la forme fonctionnelle retenue) ou librement estim (lidentification
des paramtres repose alors sur lhypothse de normalit).
Remarque Pour la dtermination des carts-type, il faut tenir compte de deux aspects
importants. Le premier est que le modle est htroscdastique. Lutilisation de la mthode
des moments gnralise permet de traiter ce problme. Le deuxime est que le ratio de
Mills fait intervenir lestimation de lquation de participation. Il faut en thorie corriger
les carts-type pour cette estimation intermdiaire. Ceci peut tre fait en considrant les-
timation comme un problme destimation par la mthode des moments gnralise. On
adjoint lensemble de condition dorthogonalit prcdent les conditions dorthogona-

lit correspondant lestimation prliminaire, et qui sont les conditions du premier ordre
du maximum de vraisemblance. Ici, compte tenu du fait que le modle Probit est estim
sur 36249 femmes et que les estimations sont eectus dans le secteur du commerce sur
seulement 3164 femmes, on nglige le problme.
On prsente dans le tableau 12.3 les rsultats obtenus pour lestimation de lquation
de salaire. On voit que le ratio de Mills joue significativement et que son coecient est
ngatif. Le signe est celui de la corrlation entre ui uri et ui . Si on crit uri = ui + i ,
avec ui et i non corrl, on a cov(ui uri , ui ) = ( ) 2u . Le signe ngatif sinterprte
donc comme le fait que les lments inobservs dans lquation de salaire et lquation
de salaire de rserve sont fortement corrls. On voit quignorer la slectivit, oublier la
variable de ratio de Mills, conduit biaiser les coecients. Ici il sagit surtout de celui
de la scolarit. Le coecient est en eet de 0.03 avec prise en compte de la slectivit
au lieu de 0.04 lorsquon lignore. On voit que lorsque lon introduit la variable dheures
comme rgresseur lerreur lie au fait doublier la variable de slectivit est encore plus
forte. En eet llasticit du salaire de march (donc de la productivit) aux heures est
leve et significativement dirente de 0 lorsque lon ignore la slectivit. Par contre
lorsquon prend en compte la slectivit, on voit que cette variable est deux fois plus
faible et quelle nest plus significativement dirente de 0. Ceci est susceptible de remettre
fortement en cause les rsultats prsents dans le chapitre sur la mthode des moments
gnralise. Toutefois, il ne faut pas oublier que lorsque lon introduit la variable dheure,
lidentification des paramtres repose sur le choix de la normalit pour distribution jointe
des rsidus.
Le tableau 12.4 prsente les rsultats de lquation dore de travail. On voit l aussi
que la variable de slectivit est significativement dirente de zro. Son signe est celui de
e eh = cov(uri , ui uri ). Soit pour uri = ui + i , celui de 2 + ( ) 2u . Le signe
h
obtenu est donc compatible avec le prcdent. On voit que l aussi les changements sont
importants lorsque lon estime le modle avec et sans prise en compte de la slectivit.
En eet sans prise en compte de la slectivit, on a un coecient faible de lordre de 0.10.
Une baisse de la rmunration de 10% conduit une baisse des heures oertes de 1%.
Lorsque lon prend en compte la slectivit, on parvient une valeur beaucoup plus leve
de 0.4 : une baisse de la rmunration de 10% conduit une baisse des heures de 4%.
Sans les heures

Avec Slectivit Sans Slectivit
b sb b sb
Constante 4.6368 (0.0768) 4.4496 (0.0555)
Age 0.0096 (0.0008) 0.0098 (0.0008)
Age -0.0004 (0.0001) -0.0005 (0.0001)
Scolarit 0.0333 (0.0034) 0.0414 (0.0026)
Ratio de mills -0.1662 (0.0456) -- --
Avec les heures
Constante 3.7674 (0.8199) 2.6204 (0.5044)
Age 0.0094 (0.0008) 0.0094 (0.0008)
Age -0.0004 (0.0001) -0.0005 (0.0001)
Scolarit 0.0346 (0.0035) 0.0369 (0.0029)
Ratio de mills -0.0967 (0.0708) -- --
h 0.2380 (0.2251) 0.5454 (0.1496)
Tab. 12.3 Estimation de lquation de salaire avec et sans prise en compte de la slec-
tivit, avec et sans prise en compte des heures
Avec Slectivit Sans Slectivit

b sb b sb
Constante -0.0805 (1.1674) 2.3980 (0.2713)
Age -0.0051 (0.0015) -0.0019 (0.0004)
Age -0.0002 (0.0001) -0.0001 (0.0001)
Nenf -0.0665 (0.0150) -0.0349 (0.0054)
wa 0.0071 (0.0025) 0.0022 (0.0012)
single 0.0672 (0.0133) 0.0554 (0.0133)
Ratio de mills 0.3055 (0.1421) -- --
w 0.4124 (0.1314) 0.1332 (0.0309)
Tab. 12.4 Estimation de lquation dore de travail avec et sans prise en compte de la
slectivit
12.7 Modles de choix discrets : le Modle Logit Mul-

tinomial
On sintresse dans cette dernire section un modle de choix entre direntes alter-
natives. Le choix dun type de vhicule, dun lieu de vacances, etc... Ce modle, appel
modle Logit Multinomial est trs simple et trs facile estimer. Il est trs largement
employ. Il est en outre susceptible de gnralisations importantes qui permettent no-
tamment de prendre en compte lexistence de caractristiques inobserves des individus
oprant les choix. Le dveloppement et lestimation de ce type de modle est aujourdhui
un thme de recherche trs actif aux nombreuses applications.
Supposons quun individu i ait choisir, parmi un ensemble de K modalits, une et
une seule de ces modalits, note k.
Pour modliser cette situation on associe chaque modalit un niveau dutilit
Uik = ik + ik = xi bk + ik k = 1, ...K
o ik est une variable alatoire non observable. Lindividu choisit la modalit que lui
procure lutilit maximale.
yi = Arg max (Uik )
k
Proposition Si les {ik }k=1,...K sont des v.a. indpendantes et identiquement distribues
selon une loi des valeurs extrmes de fonction de rpartition.
G(x) = exp[ exp(x)],
de support ], +[ alors la probabilit de choisir la modalit k scrit :

exp(ik ) exp(xi bk )
P [yi = k] = = K
K
l=1exp (il ) l=1 exp (xi bl )
Ce modle est appel modle logit multinomial.
Dmonstration Notons g la fonction de densit des :
0 d
g (z) = G (z) = exp [ exp (z)] = exp (z) exp ( exp (z)) = exp (z) G (z)
dz
On peut remarquer en prliminaire la proprit suivante :
1
E exp (t exp (z)) =
1+t
En eet :
Z +
E exp (t exp (z)) = exp (t exp (z)) exp (z) exp ( exp (z)) dz

12.7. MODLES DE CHOIX DISCRETS : LE MODLE LOGIT MULTINOMIAL 239
en faisant le changement de variable v = exp (z) , on a

Z +
1
E exp (t exp (z)) = exp (tv) v exp (v) v =
0 1+t
On peut crire par exemple la probabilit de choisir la premire solution

K ! K !!
Y Y
P (y = 1) = E 1 (Uk < U1 ) =E E 1 (Uk < U1 |U1 )
k=2 k=2
K !
Y
= E E (1 (Uk < U1 |U1 ))
k=2
Puisque les valeurs des direntes options sont indpendantes les unes des autres. Comme
P (k + k < 1 + 1 |1 ) = G (1 k + 1 ) = exp [ exp (1 + k 1 )] , on a
!
Y
K
P (y = 1) = E exp [ exp (1 + k 1 )]
k=2
" #!
X
K
= E exp exp (1 + k 1 ) = E (exp [t exp (1 )])
k=2
X
K
avec t = exp (1 + k ) . On en dduit que
k=2
1 1
P (y = 1) = = K
1+t X
exp (1 + k )
k=1
Remarque 1. Les probabilits ne dpendent que des dirences
l k = x(bl bk ), l 6= k
Elles ne sont pas modifies si tous les bl sont translats en ebl = bl + c.

2. En consquence, les bk sont non identifiables sauf poser par exemple b1 = 0
3. Les paramtres estims sinterprtent alors comme des carts la rfrence b1 . Un
signe positif signifie que la variable explicative accrot la probabilit de la modalit
associe relativement la probabilit de la modalit de rfrence.
12.7.1 Estimation du modle logit multinomial :

Proposition Posons
yki = 1 (yi = k)
exp(xki bk )
Pki = P (yi = k |xi ) = XK
exp(xli bl )
l=1
b1 = 0
La log-vraisemblance de lchantillon scrit :
X
n X
K
log L = yik log Pik
i=1 k=1
Cette fonction est globalement concave. Les conditions du premier ordre pour la dtermi-
nation du paramtre b = (b2 , ..., bK )0 , scrivent simplement sous la forme
0

0
(yi2 P i2 ) x
log L X
n 2i
..
= . =0
b i=1 0
(yiK PiK ) xKi
Pn PK
Dmonstration La vraisemblance scrit log L = k=1 yik log Pik = log L =
Pn PK i=1
XK
i=1 k=2 yik xki bk log 1 + l=2
exp(xli bl ) . On calcule facilement la drive par
rapport bl :
log L X X
n n
exp(xli bl )
= yil x0li XK x0
li = (yil Pli ) x0li
bl i=1 1+ exp(xli bl ) i=1
l=2
On dtermine ensuite la drive seconde

2 log L X X
n n
0 exp(xli bl ) 0 exp(xli bl )
0
= 0 yil xli X K xli = 0
X K x0li
bl bm i=1
bm 1+ exp(xli bl ) i=1
bm 1+ exp(xli bl )
l=2 l=2
Pour m 6= l, on a
exp(xli bl ) exp(xli bl ) exp(xmi bm ) 0

0
XK x0li = XK
0
2 xli xmi = Pmi Pli xli xmi
bm 1 + exp(xli bl )
l=2
1+ exp(xli bl )
l=2
12.8. RSUM 241
Pour m = l, on a
exp(xli bl ) 0 exp(xli bl ) 0 exp(xli bl )2 0
x = x x 2 xli xli
b0l 1 + XK exp(x b ) li 1+
XK
exp(xli bl )
li li XK
l=2
li l
l=2
1+ exp(xli bl )
l=2

= Pli Pli2 x0li xli
Pour montrer la concavit de lobjectif, on calcule 0 H, pour un vecteur quelconque. La

matrice H a pour dimension dim b2 + + dim bK . On peut donc crire 0 = (02 , . . . , 0K ) .
Comme H est une matrice bloc dont les blocs sont de la forme : Hl,m = mli x0li xmi , avec
P P
mli = Pmi Pli et mmi = Pmi + Pmi 2
, 0 H = l,m 0l Hl,m m = l,m mli 0l x0li xmi m . En
dfinissant P
vi le vecteur de dimension K 1 dont la mime composante P est xmi m , on
a 0 H = l,m mli vmi vli et compte tenu de lexpression de mli , on a l,m mli vmi vli =
P 2 2
P P 2
P 2
m (P mi + P mi ) vmi + 2 m6=l Pmi P li vmi vli = m Pmi vmi ( m Pmi vmi ) 0 et
0 0
gal zero seulement si vi = 0. On en dduit que H 0 et H = 0 si et seulement
si vi = 0i, ce qui signifie que tel que i xmi m = 0 ce qui correspond au fait que les
variables explicatives ne sont pas indpendantes.
12.8 Rsum
Dans ce chapitre on a prsent trois exemples de modles non linaires gnralisant
directement les modles linaires vus prcdemment. On a ainsi examin
1. Les modles dichotomiques, caractriss par le fait que la variable explicative prend
ses valeurs dans {0, 1} . On a vu que des modlisations adaptes faisaient intervenir
des variables latentes i.e. des variables dont seulement une partie de la ralisation
est observe.
2. Deux exemples types sont les modles Logit et les modles Probit. Ces deux modles
sestiment par le maximum de vraisemblance et ncessitent une tape doptimisation.
3. On a galement prsent les modles Tobit. Ce sont des modles dans lesquels on
observe une variable conditionnellement la valeur prise par une autre variable.
4. La situation standard est celle dans laquelle il y a une variable dintrt et une
variable dcrivant la slection.
5. Un exemple typique est celui du salaire : on nobserve le salaire que conditionnelle-
ment au fait que le nombre dheures de travail soit strictement positif.
6. Ces modles ncessitent en gnral des hypothses sur la loi des rsidus des quations
de slection et de la variable dintrt.
7. On fait en souvent lhypothse de rsidus normaux. Dans ce cas le modle peut
tre estim simplement soit par la mthode du maximum de vraisemblance, soit par
une mthode alternative, dite de Heckman. Cette mthode donne simplement des
estimateurs mais est moins ecace que la mthode de maximum de vraisemblance.

Elle consiste estimer dabord un modle Probit pour lquation de slection, puis
partir des estimations calculer un terme correctif dit ratio de Mills introduit
ensuite dans la rgression de la variable dintrt.
8. Dans ces modles slection endogne il faut traiter la slection comme on traiterait
un rgresseur endogne dans une quation linaire. Il est ainsi ncessaire de disposer
dune variable intervenant dans lquation de slection et nintervenant pas dans
lquation dintrt, faute de quoi les paramtres ne sont estims que sur la non
linarit de la forme fonctionnelle.
9. Direntes gnralisations ont t proposes pour obtenir des estimations avec des
lois plus gnrales que la loi normale. Le modle de slection semiparamtrique g-
nralise ainsi lapproche de Heckman. Une fonction polymries de la probabilit de
slection est ainsi introduite au lieu du ratio de Mills. Ces modles ne permettent
pas en gnral lestimation de la constante et ncessitent une fois abandonne lhy-
pothse de normalit lexclusion dun rgresseur de la liste des variables explicatives
aectant la variable dintrt.
10. Enfin on a prsent succinctement les modles de choix discrets qui orent une
modlisation de la situation dans laquelle un individu doit arbitrer entre plusieurs
choix possibles. Lintrt de ces modles est de prsenter un lien troit entre la
thorie des choix et lconomtrie.
Chapitre 13
Evaluation
Lvaluation des politiques publiques ncessite souvent la connaissance de paramtres

de comportements des agents qui sont inconnus. La mesure de leet dune politique
instaurant une taxe sur certains produits fait ainsi intervenir les lasticits dore et de
demande de ces biens. De mme, leet dune politique favorisant le retour lemploi,
tel que lEarning Income Taxe Credit aux Etats Unis ou la Prime pour lEmploi en
France font intervenir llasticit de lore de travail. La mesure de ces paramtres est
une proccupation importante de lconomtrie. Les chapitres prcdents ont montr la
dicult de lestimation de ces paramtres et la ncessit de contextes observationnels trs
exigeants. La connaissance de ces paramtres permet dapporter de nombreux clairages
sur les eets des politiques publiques. Par exemple lestimation dquations dore de
travail permet de mesurer la valeur que les agents accordent au temps libre. Lvolution
dune telle valeur et sa dispersion dans la population est bien sur intressante dans le
contexte de la rduction du temps de travail. Connatre les paramtres structurels du
comportements des agents permet de mesurer ex ante les eets probables dune mesure
de politique conomique. Elle permet aussi de mesurer leet de politiques ayant dj t
mises en oeuvre.
Exemple Laroque Salani (2000) Modlisation de lore de travail en fonction de la
rmunration et des transferts(modlisation dun salaire de rserve), modlisation de la
demande de travail (productivit dun travailleur). Il y a emploi si le salaire oert (la
productivit) est suprieur au salaire de rserve et au smic. On peut alors examiner leet
dun relvement du smic ou leet dune modification des transferts.
Ces valuations reposent sur la spcification de modles de comportement et leur
estimation. De nombreux paramtres structurels sont susceptibles dintervenir et il est
probable que les conditions de lidentification de ces paramtres ne soient pas runies
pour chacun dentre eux. On peut tre tent dapporter une rponse plus prcise une
question plus gnrale. Plutt que lvaluation dune politique base sur la dcomposition
et la mesure des direntes composantes dune politique (eet via lore et via la demande
par exemple) et qui ncessitent lestimation de tous les paramtres structurels (lasticits
243
244 CHAPITRE 13. EVALUATION
dore et de demande par exemple) on peut chercher rpondre la question globale quel
a t leet de la politique au total ? Ceci ne ncessite que lestimation de combinaisons des
paramtres structurels et pas leur identification individuelle. Une branche de lconomtrie
sest dveloppe fortement au cours des dernires annes qui cherche rpondre cette
question. Cest essentiellement aux travaux de James Heckman que lon doit ces avances.
Elle ne sintresse qu des valuations ex-post et aux situations dans laquelle la politique
in fine a concern une partie de la population seulement. Par exemple eet du relvement
du salaire minimum dans certains tats aux Etats Unis. Mise en place dun systme
de formation pour les chmeurs, ou dun systme daide la recherche demploi (PAP)
etc... Lide centrale est quune partie de la population bnficie de la mesure et lautre
non. On peut sous certaines hypothses, l aussi parfois exigeantes, retrouver leet de la
politique sur les individus qui en ont bnficis, partir de comparaisons entre les deux
populations. On voit bien que mesurer leet global de la politique mise en oeuvre de
cette faon est moins exigeant que la mesure de lensemble des paramtres structurels
sous-jacents. Seule la faon dont ils se combinent pour conduire au rsultat final compte.
En pratique, on considre des politiques se traduisant par le fait que la population va
tre rpartie dans dirents tats. On introduit ainsi une variable appele variable de
traitement T prenant ses valeurs dans {0, 1, ..., M} . Ltat T = 0 correspondant au fait
de ntre pas directement touch par la politique. On va sintresser principalement la
situation dans laquelle il ny a que deux tats : T {0, 1} . Les valuations auxquelles on
procde sont des valuations ex post : elles concernent les politiques qui ont t dj mises
en oeuvre et ont dj produit leurs eets. Le but est de dfinir et de mesurer lampleur
de ces eets sur la base des information dont on dispose pour les individus traits et les
individus non traits. Cette approche est ainsi dite observationnelle car ancre dans
lobservation des eets dune politique.
Exemple Stage de formation. La population va se dcomposer en deux types dindividus :

ceux bnficiant du stage T = 1,dits traits, et ceux nen bnficiant pas T = 0, dits non
traits. Il sagit en fait du cas type qui a t largement tudi par Heckman (voir Heckman
Lalonde et Smith (1999))
Exemple Modification de certains paramtres de la lgislation. Certains individus ne

sont pas concerns par le changement de lgislation, dautres le sont. Un exemple pourrait
tre le relvement du Smic : les individus dont la rmunration avant le relvement se
trouve entre lancien et le nouveau smic sont dits traits et ceux dont la rmunration
se trouve au del du nouveau smic avant son relvement sont dits non traits. Abowd,
Kramarz et Margolis (1999) utilisent les augmentations successives du Smic depuis 1981
pour comparer chaque anne les pertes demploi des salaris rattraps par le Smic avec
celle des autres salaris.
13.1. LE MODLE CAUSAL 245
13.1 Le Modle causal

On dfinit pour chaque individu deux outputs potentiels y1 et y0 . y1 est la variable
alatoire caractrisant la situation de lindividu sil bnficie de la mesure, par exemple
sil suit le stage de formation. y0 est la situation de lindividu lorsquil ne bnficie pas de
la mesure par exemple sil ne suit pas le stage.
Ces deux grandeurs existent pour chaque individu, quil bnficie ou non de la mesure.
On dfinit leet causal comme tant :
= y1 y0
Il sagit donc de la dirence entre la situation dun individu lorsquil suit le stage avec
sa situation lorsquil ne le suit pas.
13.1.1 Choix de la variable dintrt et choix de ltat de rf-

rence
Le choix de la variable y est important. Lorsquil sagit dvaluer une politique il est
ncessaire de dfinir un critre. Concernant les stages de formation ce critre nest pas
ncessairement vident. Il peut sagir de la situation vis vis de lemploi, du salaire, de
la valeur dun individu sur le march du travail, du bien tre de lindividu... Chacune de
ces caractristiques correspond une valorisation dirente du passage par un stage de
formation et qui reprsente aussi le point de vue de dirents agents.
La dfinition de ltat de rfrence est aussi une question importante. On peut au
moins distinguer deux types de dfinitions pour ltat de rfrence :
le traitement existe et on ny participe pas y0 .
le traitement nexiste pas ye0 .
On pourrait dfinir un eet causal e = y1 ye0 = (y1 y0 )+(y0 ye0 ) = +(y0 ye0 ) .
Le fait que y0 puisse tre dirent de ye0 correspond lexistence deets indirects. Le fait
quune mesure de politique conomique soit prise peut aecter un individu mme sil nest
pas directement concern par la mesure. Si on considre la situation dans laquelle deux
individus sont en concurrence pour un emploi et quil y a un stage disponible seulement,
on conoit que les deux grandeurs y0 et ye0 soient direntes, et quomettre les eets
indirects puisse conduire une valuation erronne de la politique mise en oeuvre. Dans
le cas du relvement du smic examin par Abowd Kramarz et Margolis, il est possible
que la situation des individus non concerns directement par le relvement du smic, cest
dire les individus dont la rmunration avant le relvement du smic est au dessus de la
nouvelle valeur soient aects malgr tout par le relvement du smic. En eet ils ne sont
plus en concurrence avec ceux dont la rmunration tait en dessous du nouveau smic.
13.1.2 Paramtres dintrt

On sintresse en gnral deux types de paramtres :
T T (x) = E (y1 y0 |T = 1, x)
AT E (x) = E (y1 y0 |x)
Le premier paramtre est leet moyen du traitement sur les individus de caractris-
tiques x ayant bnfici de la mesure (Average Treatment Eect). Le second paramtre
est leet moyen du traitement sur les individus de caractristiques x quils aient ou non
bnfici de la mesure (Treatment on the Treated). Linterprtation des ces deux para-
mtres est dirente. Le premier ne concerne que la mesure des gains pour les individus
ayant bnfici du traitement alors que le second mesure leet du traitement sil tait
tendu lensemble de la population. Ils ont toutes les chances dtre dirents puisque
vraisemblablement le gain que lon retire du traitement conditionne la dcision de parti-
cipation.
Ces paramtres ne sont pas directement identifis. Dans lidal on souhaiterait pouvoir
identifier la distribution jointe :
l (y1 , y0 , T )
Ceci permettrait didentifier la loi jointe de leet causal et du traitement l (, T ) , la
source du calcul de nombreux paramtres prsentant un intrt. On observe en eet un
individu soit sil bnficie du traitement soit sil nen bnficie pas, mais jamais dans les
deux situations la fois. Les observations sont ainsi :

T {1, 0}
y = T y1 + (1 T ) y0
Les donnes ne permettent didentifier que l (T ) , l (y1 |T = 1) = l (y |T = 1) et l (y0 |T = 0) =

l (y |T = 0) . On voit que cest toujours insusant pour estimer nimporte lequel des
deux paramtres. En eet le premier paramtre scrit AT E = E (y1 y0 |T = 1, x) =
E (y |T = 1, x)E (y0 |T = 1, x) , de telle sorte quil est ncessaire didentifier E (y0 |T = 1, x)
qui est inobserv. Le second paramtre ncessite lidentification non seulement de E (y0 |T = 1, x)
mais aussi de E (y1 |T = 0, x) .
Remarque Ces paramtres sinterprtent comme les gains de surplus lis la mise en
oeuvre de la politique ou son extension. Si on considre les trois outputs potentiels
f0 , W, WT , associs respectivement aux situations
pertinents : y1 , y0 et ye0 , et les surplus W
sans la politique, avec la politique telle quelle a t mise en oeuvre et lorsque la politique
est tendue. On calcule simplement les gains associs aux deux situations :

W W f0 = N P (T = 1) E T T (x) |T = 1 + E (y0 ) E (e y0 ) E (c |T = 1)
Lorsque la politique est mise en oeuvre et que les individus y participent librement, et

WT Wf0 = N E AT E (x) + E (y0 ) E (e y0 ) E (c)
13.1. LE MODLE CAUSAL 247
Lorsque la politique est tendue toute la population. On voit que le premier paramtre
est pertinent pour juger de lecacit de la politique telle quelle a t mise en oeuvre alors
que le second est pertinent pour juger de lopportunit de son extension. On voit galement
quune valuation complte doit aussi prendre en compte les eets indirects : la situation de
rfrence change par linstauration mme du dispositif. De mme une valuation complte
doit aussi faire intervenir les cots du traitement. Les deux paramtres considrs, bien
que centraux napporte donc quune partie de linformation ncessaire des valuations
compltes. Enfin on remarque que pour la premire situation, la probabilit de suivre le
traitement intervient aussi de faon importante.
Remarque Modlisation des outputs potentiels Une modlisation permet de mieux
comprendre la nature des paramtres T T (x) et AT E (x) et leurs dirences. On
modlise :
y1 = 1 + x 1 + u1
y0 = 0 + x 0 + u0
o on fait lhypothse que (u1 , u0 ) x. Les coecients 0 et 1 sont des paramtres
susceptibles de recevoir une interprtation conomique : ce sont des paramtres struc-
turels caractrisant le comportement des agents. Les deux paramtres sont alors :
AT E (x) = E (y1 y0 |x) = 1 0 + x ( 1 0 )
et
T T (x) = E (y1 y0 |x, T = 1) = 1 0 + x ( 1 0 ) + E (u1 u0 |x, T = 1)
On voit que le premier paramtre ne fait intervenir que les variables observes et les
paramtres structurels et est donc de ce fait un paramtre standard de lconomtrie.
Il nen est pas de mme en revanche du second paramtre qui fait intervenir les
caractristiques inobserves u1 et u0 . Les deux paramtres ne sont identiques que
lorsquil y na pas dhtrognit inobservable dans leet du traitement, soit u1 =
u0 ou lorsquune telle htrognit existe mais nest pas prise en compte par les
individus lors de la dcision de participation au programme T (u1 u0 ) |x = 1.
13.1.3 Biais de slectivit

Definition Lestimateur naf est celui qui correspond la comparaison de la situation
moyenne des individus ayant fait lobjet dun traitement et celle de ceux nen ayant pas
fait lobjet
b 0 = y T =1 y T =0

Cest estimateur est trs populaire, largement rpandu mais potentiellement biais.
En eet la situation moyenne des individus ne bnficiant pas du traitement nest pas
ncessairement la mme que celle qui est pertinente : la situation moyenne des individus
ayant bnfici du traitement sil nen avait pas bnfici.
Proposition Pour que lestimateur naf soit un estimateur convergent de T T il faut que
laectation au traitement soit indpendante de loutput potentiel y0 . Pour quil soit un
estimateur convergent de AT E, il faut que laectation au traitement soit indpendante
des deux outputs potentiels y0 et y1 .
Dmonstration
b 0 0 = E (y1 |T = 1) E (y0 |T = 0)

= E (y1 |T = 1) E (y0 |T = 1) + E (y0 |T = 1) E (y0 |T = 0)
= T T + B T T
On voit quil apparat un biais de slectivit : B T T = E (y0 |T = 1) E (y0 |T = 0) . Il est
nul si y0 T. Pour AT E on a
E (y1 ) = P (T = 1) E (y1 |T = 1) + (1 P (T = 1)) E (y1 |T = 0)
do
E (y1 |T = 1) = E (y1 ) + (1 P (T = 1)) [E (y1 |T = 1) E (y1 |T = 0)]
de mme
E (y0 |T = 0) = E (y0) P (T = 1) [E (y0 |T = 1) E (y0 |T = 0)]
do
0 (x) = AT E + (1 P (T = 1)) [E (y1 |T = 1) E (y1 |T = 0)] +
P (T = 1) [E (y0 |T = 1) E (y0 |T = 0)]
= AT E + B AT E
Il est ncessaire davoir lindpendance de T et du couple doutput potentiels (y1 , y0 ) condi-
tionnellement aux x.
Remarque On voit en outre que
B AT E = B T T + (1 P (T = 1)) [E (y1 y0 |T = 1) E (y1 y0 |T = 0)]
La deuxime source de biais provient de lhtrognit du traitement, alors que la premire
source de biais provient du problme classique dendognit de la variable de traitement.
13.2 Lestimateur des Dirences de Dirences

Le cadre des rgressions prcdentes permet de prsenter certains estimateurs stan-
dards trs frquemment utiliss. Il sagit de lestimateur Avant-Aprs ou Before-
After, de lestimateur en coupe Cross section et de lestimateur par double dirence
Dierence in dierence
13.2. LESTIMATEUR DES DIFFRENCES DE DIFFRENCES 249
Les estimateurs Avant Aprs et par Dirence de dirence font intervenir le temps.
On suppose donc que le traitement est mis en oeuvre une date t0 et que lon dispose
dinformations sur les individus en t< t et en t > t pas ncessairement pour des individus
similaires.
13.2.1 Estimateur en coupe

Lestimateur en coupe est trs proche de celui que lon pourrait dduire du modle de
rgression prcdent. Le modle sous sa forme gnrale scrirait comme :

yt = 0 + xt 0 + T (1 0 + x ( 1 0 )) + u0,t + T u1,t u0,t
| {z }
vt
Les estimateurs standards en coupe ignorent lhtrognit de leet du traitement.
Lquation prcdente se rcrit donc :
yt = + xt + T c + ut
Dans ce cadre le biais est simplement li au fait que lon na pas forcment E (ut |x, T ) = 0.
Le biais a pour expression :
B Cross = E (ut |x, T = 1) E (ut |x, T = 0)
La mise en oeuvre de cet estimateur ne ncessite que des informations en coupe sur une
priode suivant le traitement. Une version encore plus simple de cet estimateur consiste
ngliger les variables de conditionnement. Dans ce cas lestimateur est simplement
b Cross = yt T =1 yt T =0

13.2.2 Estimateur Avant-Aprs

Lestimateur avant aprs est bas sur des informations sur des donnes temporelles
dindividus ayant fait lobjet du traitement. Lide gnrale est que les informations dont
on dispose sur les individus avant le traitement permettent de reconstituer ce quaurait
t leur situation en labsence de traitement. Lestimateur est dfini comme la dirence
des moyennes des individus traits aprs et avant le traitement. Dans sa forme la plus
simple son expression est donne par :
b BA = yt T =1 yt T =1

Dans le cadre des rgressions prcdentes il scrirait partir des rgressions :
yt = + xt + c + ut pour T = 1
yt = + xt + ut pour T = 1
Soit le modle de rgression :

yt = + xt + c1 t = t + ut 1 t = t + ut 1 (t = t) pour T = 1
Il y a deux problmes principaux avec cet estimateur. Le premier problme provient du
biais classique dj analys. Le biais pour cet estimateur est donn par :
BBA = E (ut |x, T = 1) E (ut |x, T = 1)
Supposons que le terme de perturbation soit la somme de deux lments : ut = u + t

avec t non corrl dans le temps, alors le terme de biais prcdent se rcrit :
E (ut |x, T = 1) E (ut |x, T = 1) = E (u |x, T = 1) + E (t |x, T = 1)

E (u |x, T = 1) E (t |x, T = 1)
= E (t |x, T = 1) E (t |x, T = 1)
Si la dcision de participation dpend de la chronique des lments inobservs alors ce

terme est non nul. En particulier on a observ que la participation des programme de
formation aux Etats-Unis tait en gnral associe une baisse des revenus passs, cest
dire des lments t faibles.
Le second terme de biais est encore plus radical. Supposons quen labsence de politique
le modle scrive
yt = t + xt + ut
Le t reprsente par exemple des chocs macroconomiques. Alors le modle prcdent se
rcrit :

yt = t + xt + (c + t t ) 1 t = t + ut 1 t = t + ut 1 (t = t) pour T = 1
Il est impossible de sparer leet du traitement de leet de chocs macroconomiques.

Remarquons que si le traitement sadresse des individus qui sont reprables ex ante :
T = {z Z} , alors lestimateur prcdent ne ncessite pas de donnes temporelles. Seules
des coupes successives pour les individus tels que {z Z} sont ncessaires.
13.2.3 Estimateur par dirence de dirence.

Cet estimateur combine les deux estimateurs prcdents. Il correspond la situation
dans laquelle le traitement correspond la ralisation partir dune date donn dun
certain nombre de conditions dligibilit qui sont observables. On peut donc dfinir une
variable T correspondant aux conditions dligibilit, sur des observations temporelles.
Elle ne correspond au traitement que pour t = t postrieur la date de traitement.

Dans le cadre du modle de rgression prcdent, il correspond la situation dans la-
quelle on introduit une indicatrice correspondant la date, une indicatrice correspondant
aux conditions dligibilit et le produit crois indicatrice temporelle post et conditions
dligibilit :

yt = xt + c + t 1 t = t + T T + t,T T 1 t = t + vt
Proposition Lorsque le biais dune estimation en coupe est constant dans le temps ce
qui est quivalent au fait que le biais avant-aprs soit le mme pour les ligibles et les
non ligibles, la rgression introduisant comme variables une indicatrice temporelle post,
une indicatrice pour les conditions dligibilit et le produit de ces deux variables permet
destimer leet du traitement.
Dmonstration On peut examiner quoi correspondent ces dirents termes dans le
cadre du modle prcdent :
yt = xt + t + cT + ut
On a
E (yt |xt , t, T ) = xt + t + cT + E (ut |xt , t, T ) = xt + t + cT + E (ut |t, T )
On introduit mt,T = E (vt |t, T ) , on a

E (ut |t, T ) = mt,1 T 1 t = t + mt,0 (1 T ) 1 t = t + mt,1 T 1 (t = t) + mt,0 (1 T ) 1 (t = t)

= mt,0 1 t = t + mt,0 1 (t = t) + mt,1 mt,0 T 1 t = t + (mt,1 mt,0 ) T 1 (t = t)

= mt,0 + mt,0 mt,0 1 t = t + (mt,1 mt,0 ) T

+ mt,1 mt,0 (mt,1 mt,0 ) T 1 t = t
On voit donc que les coecients de la rgression scrivent :
c = mt,0

t = mt,0 mt,0 = BBA (T = 0)

T = (mt,1 mt,0 ) = B Cross t

t,T = mt,1 mt,0 (mt,1 mt,0 ) = B Cross t B Cross (t)

t,T = mt,1 mt,1 mt,0 mt,0 = BBA (T = 1) BBA (T = 0)
Lestimateur par dirence de dirence rsout donc directement le problme prcdent
dinstabilit du modle sous-jacent.
On en conclut que la rgression en incluant une indicatrice correspondant au traite-
ment, capture le biais de slectivit de la coupe, en incluant une indicatrice temporelle
capture le biais de lestimation Before After, et quen introduisant le produit crois condi-
tion dligibilit indicatrice post elle va estimer le coecient + B Cross,t B Cross,t =
+ B BA,T =1 B BA,T =0 . Le biais est donc nul dans le cas de lestimateur par dirence
de dirence lorsque B Cross,t B Cross,t = 0 ou encore si B BA,T =1 B BA,T =0 .
Si on reprend la modlisation simple des perturbations prsentes pour lestimateur

Avant Aprs : ut = u + t La dirence des termes de biais scrit :
B BA,T =1 B BA,T =0 = {E (t |x, T = 1) E (t |x, T = 1)}

{E (t |x, T = 0) E (t |x, T = 0)}
On voit que si la participation au traitement est conditionne par des chocs ngatifs sur
la variable doutput, alors ce terme nest pas nul.
On appelle cet estimateur dirence de dirence car dans le cas o il ny a pas de
variables explicatives il scrit simplement. Il ncessite aussi en gnral des informations
longitudinales sur les individus traits et non traits. Dans sa forme la plus simple cet
estimateur scrit simplement

b DD = yt T =1 yt T =1 yt T =0 yt T =0
= b BA,T =1 b BA,T =0
T =1
= yt yt T =0 yt T =1 yt T =0
= b Cross,t
b Cross,t
13.2.4 Exemple : La Contribution Delalande

La contribution Delalande est une taxe sur le licenciement des travailleurs gs. Elle
a t cre en 1987 linstigation du dput Delalande. Dans le schma initial, le licen-
ciement dun salari de plus de 50 ans conduisait une taxe correspondant 3 mois de
salaire. Ce schma initial a t profondment modifi deux reprises, une fois en 1992 et
une fois en 1998. Le schma final est particulirement dsincitatif puis quil conduit une
taxe correspondant un an de salaire pour les salaris de plus de 56 ans. ds 1992 lge
seuil dentre dans le dispositif a t abaiss 50 ans. Ce type de politique est susceptible
davoir deux eets, lun direct et lautre indirect. Leet direct correspond au fait que le
licenciement des travailleurs gs deviennent moins attractif et donc se rduise. Leet
indirect correspond au fait que ce type de politique est susceptible de rendre lembauche
de salaris moins attractive et donc rduise les embauches. A ce titre la modification du
dispositif Delalande en 1992 introduisait une spcificit qui permet de mesurer lampleur
de ce phnomne. A partir de 1992 les employeurs embauchant un salari de plus de 50 ans
ne sont plus redevable de la contribution Delalande en cas de licenciement de ce salari.
Une faon naturelle dtudier leet dsincitatif de la contribution Delalande consiste donc
comparer les taux dembauche de salaris de plus de 50 ans et de moins de 50 ans autour
de 1992. Lide est que le renforcement important du dispositif en 1992 a conduit rduire
les embauches de salaris de moins de 50 ans. Dans la mesure o les demandeurs demploi
de plus de 50 ans ont t exclus de ce dispositif, on ne doit pas observer de dgradation
similaire de lembauche de chmeurs de plus de 50 ans. On peut donc examiner leet de
la contribution Delalande de direntes faons :
Sans contrles Avec contrles

48-51 ans 46-53 ans 44-55 ans 48-51 ans 46-53 ans 44-55 ans
20,0 20,3 19,7 19,4 20,0 18,8
Avant 1992, <50 ans
2,9 1,7 1,3 2,8 1,7 1,2
20,5 14,9 13,7 19,1 14,5 13,9
Avant 1992, >50 ans
2,9 1,4 1,0 2,7 1,4 1,0
14,3 14,6 14,9 14,6 14,7 14,8
Aprs 1992, <50 ans
1,7 1,0 0,8 1,7 1,0 0,8
14,6 15,2 13,0 15,3 15,5 13,4
Aprs 1992, >50 ans
1,8 1,1 0,8 1,8 1,1 0,8
Avant 1992, diffrence - -0,5 5,4 6,0 0,3 5,5 4,9
50/+50 4,1 2,2 1,6 3,9 2,1 1,6
Aprs 1992, diffrence - -0,3 -0,7 2,0 -0,6 -0,8 1,4
50/+50 2,5 1,5 1,1 2,5 1,5 1,1
0,2 -6,1 -4,1 -0,9 -6,3 -3,5
Diffrence de diffrence
4,7 2,7 2,0 4,6 2,6 1,9
Nombre d'observations 1 211 3 661 6 179 1 211 3 661 6 179
Tab. 13.1 Contribution Delalande - Estimation de leet indirect par la mthode des
dirences de dirences
Avant aprs : Comparaison de la variation du taux dembauche des moins de 50 ans

entre avant et aprs 1992
En coupe : Comparaison des taux dembauche des moins de 50 ans et des plus de
50 ans aprs 1992
En Dirence de Dirence : Comparaison de la variation du taux dembauche des
moins de 50 ans et des plus de 50 ans avant et aprs 1992
On peut examiner cette question partir des transitions Chmage-Emploi. LEnqute
Emploi fournit les informations ncessaires. Dans lidal on souhaiterait comparer les
taux dembauche de chmeurs de juste moins de 50 ans et de juste plus de 50 ans. En
pratique ceci nest pas possible car il ny a pas susamment dobservations de ce type
dans lenqute emploi. On est amen considrer des fentres plus larges. On parvient
aux rsultats reports dans le tableaux 13.1
Le tableau se prsente en deux parties droite et gauche. La partie droite reporte

les rsultats portant sur des comparaisons brutes, celle de gauche ceux obtenus lorsque
lon corrige des caractristiques inobservables des agents. Chaque partie comprend trois
colonnes correspondant aux direntes fentres considres : troite, moyenne, large. Les
quatre premires lignes prsentent les taux de retour lemploi en CDI pour les moins de
50 ans et pour les plus de cinquante ans avant 1992, puis aprs 1992.
On constate que le taux annuel de retour lemploi des hommes de 48 ans, avant
1992, tait de 20% en moyenne, quantit estime de faon peu prcise comme en tmoigne
lcart-type (2,9%). Le taux de retour lemploi des plus de cinquante ans slve alors
20,5% et est lui aussi peu prcisment estim. Cette imprcision tient largement la taille
de lchantillon mobilis (1 211 individus-annes). Introduire des variables de contrle ne

change les ordres de grandeur ni des paramtres, ni des carts-type. Cest cette imprcision
qui motive le choix de fentres plus larges. Ceci conduit introduire des individus moins
directement reprsentatifs de la comparaison eectue mais permet dobtenir des carts-
type plus rduits. Llargissement conduit au rsultat attendu : les taux bruts ou nets
estims sont beaucoup plus prcis
Les cinquimes et siximes lignes prsentent les dirences entre les taux de retour
lemploi des plus et des moins de 50 ans, avant et aprs 1992. Avant 1992, le taux de retour
lemploi des moins de 50 ans est gnralement plus lev que celui des plus de 50 ans
(dirence de 5,4 points pour la fentre 46-53 ans). On constate que les carts-type sont
beaucoup plus importants que pour les estimations des taux eux-mmes, ce qui provient du
fait que (pour les taux bruts) les estimateurs sont indpendants et que de ce fait la variance
de leur dirence est la somme des variances. Limprcision est trs sensible pour la fentre
troite si bien que la dirence entre les taux nest pas statistiquement significative. Dans
les chantillons plus larges (pour les deux autres fentres), on voit apparatre un cart
positif et significatif entre les taux de retour lemploi des plus et moins de 50 ans, avant
1992. Ce rsultat nest pas totalement satisfaisant, dans la mesure o le choix des fentres
dobservation tait motiv par le fait que les deux catgories dindividus devaient tre trs
proches. Les dirences de taux de retour lemploi sinversent ou sattnuent aprs 1992,
et restent plus sensibles au choix de la fentre.
La dernire ligne du tableau prsente les rsultats en dirence de dirence, cest--
dire compare la faon dont les carts de taux de retour lemploi des plus et des moins de
50 ans ont volu entre les priodes antrieures et postrieures 1992. La fentre de 46-53
ans est un bon compromis entre taille et comparabilit des chantillons. Selon cet estima-
teur, le taux relatif de retour lemploi se serait dgrad pour les moins de 50 ans de 6,1
points (6,3 points aprs contrle des eets de structure). Cet eet est statistiquement dif-
frent de 0, et il est dune ampleur consquente. Il convient nanmoins de noter que leet
napparat pas sur une petite fentre dge, peut-tre en raison dchantillons trop petits
(les carts-type sont plus levs), et apparat attnu et la limite de la significativit si
on considre la fentre dges largie.
13.3 Indpendance conditionnelles des observables

13.3.1 Identification sous lhypothse dindpendance condition-
nelles des observables
Leet moyen du traitement pour les individus de caractristiques x nest pas iden-
tifi sans hypothses sur la loi jointe des outputs potentiels et du traitement condi-
tionnellement x. En eet, pour estimer leet moyen du traitement sur les traits
E (y1 y0 |x, T = 1) ,il est ncessaire didentifier E (y0 |x, T = 1) alors que les donnes
13.3. INDPENDANCE CONDITIONNELLES DES OBSERVABLES 255
ne permettent didentifier que E (y0 |x, T = 0) = E (y |x, T = 0) . De mme pour identi-

fier leet du traitement dans la population, il est ncessaire didentifier E (y0 |x, T = 1) et
galement E (y1 |x, T = 0) , alors que concernant y1 seul E (y1 |x, T = 1) = E (y |x, T = 1)
est identifiable.
Un premier ensemble dhypothses identifiantes consiste faire lhypothse que ces
quantits sont gales :
Definition On dit quil y a indpendance forte conditionnellement des observables sil
e tel que :
existe un ensemble de variables observables x
e ) = l (y1 , y0 |e
l (y1 , y0 |T, x x)
On dit quil y a indpendance faible conditionnellement des observables sil existe un

e tel que :
ensemble de variables observables x
e ) = l (y0 |e
l (y0 |T, x x)
Proposition Lhypothses dindpendance faible est susante pour identifier le para-

mtre T T , en revanche, pour identifier le paramtre AT E il est ncessaire davoir recours
lhypothse dindpendance forte.
Proposition En eet dans ces conditions, l (y0 |e e ) = l (y0 |T = 0, x
x ) = l (y0 |T, x e) =
e ) la densit de loutput potentiel est identifie et on peut donc estimer E (y0 |e
l (y |T = 0, x x, T = 1) =
E (y |ex, T = 0)
Pour comprendre la signification de cette hypothse, on peut revenir la modlisation
des outputs prcdentes :

y1 = 1 + x 1 + u1
y0 = 0 + x 0 + u0
On a pour y0 par exemple :
E (y0 |T, x) = 0 + x 0 + E (u0 |T, x) = g0 (x, T )

si il existe une source de variabilit commune u0 et T conditionnellement x alors on aura
E (y0 |T = 1, x) 6= E (y0 |T = 0, x) . Si nanmoins on est capable dtendre lensemble des
variables observables en x e de telles sorte que lon puisse puiser les sources de variabilit
commune entre u0 et T alors on aura
e ) = 0 + x 0 + E (u0 |T, x
E (y0 |T, x e ) = g0 (e
x)
Lhypothse dindpendance conditionnellement des observables consiste supposer
que lon est capable de contrler pour ces sources de variabilit. Remarquons qualors
la fonction g0 (e
x) ne reoit plus dinterprtation conomique alors que cela pouvait tre
le cas pour 0 + x 0 . Dans cette approche on accepte de perdre des informations sur le
comportement des individus : on ne peut plus distinguer leet spcifique de x sur y0 de

son eet transitant par E (u0 |e
x ) . Le point important est qu ce prix, il est possible de
construire pour chaque individu trait de caractristique x e un contrefactuel, cest dire
une estimation de ce quaurait pu tre sa situation en labsence de traitement, par le biais
de g0 (e
x).
13.3.2 Le score de propension (propensity score)

La dimension de lensemble des variables de contrle introduire pour assurer lin-
dpendance entre le traitement et les outputs potentiels est souvent lev, ce qui peut
conduire des complications importantes, notamment pour la mise en oeuvre de version
semi paramtrique des estimateurs. Rubin et Rosenbaum (1983) ont montr un rsultat
important permettant de nombreuses simplifications pratiques :
Proposition Sil y a indpendance conditionnellement des observable, alors il y a
indpendance conditionnellement au score : P (Ti = 1 |xi ) :
y0 T |e
x = y0 T |P (T = 1 |e
x)
Dmonstration On note s = P (T = 1 |e x)
Z Z
P (T = 1 |s, y0 ) = P (T = 1 |e x |s, y0 ) dx = P (T = 1 |e
x, y0 ) l (e x |s, y0 ) de
x ) l (e x
Z
= x |s, y0 ) de
sl (e x=s
De mme, P (T = 1 |s) = s
On a donc : P (T = 1 |s, y0 ) = P (T = 1 |s)
Ainsi le problme de la dimension peut tre rsolu de faon drastique : il est seulement
ncessaire de conditionner par une unique variable quelque soit la dimension de lensemble
initialement introduit.
Ainsi une tape initiale de toute valuation consiste en une rgression expliquant
laectation au traitement. Elle est faite par exemple en utilisant un modle Logit.
Remarque Si se est un ensemble dinformation plus large que s, par exemple se =
{s, g (e
x)} , le rsultat demeure : P (T = 1 |e
s, y0 ) = P (T = 1 |e
s ) . un tel ensemble din-
formation est appel balancing score. La proprit de Rosenbaum et Rubin est en
toute gnralit que lorsquil y a indpendance conditionnelle des observables, il y a
aussi indpendance conditionnellement nimporte quel balancing score.
13.3.3 Mthodes destimation

Il y a principalement trois mthodes destimation. Une base sur des rgressions, une
base sur des appariements entre individus trait et individus non traits et une base sur
des pondrations. Toutes ces mthodes mettent laccent sur lhtrognit de leet du
traitement au sein de la population.
Les deux premires estimations ont des caractristiques communes. Pour chaque indi-
vidu trait de caractristique xi on cherche un estimateur de ce quaurait pu tre sa si-
tuation en labsence de traitement, i.e E (y0 |T = 1, x = xi ) . La proprit dindpendance
permet dcrire E (y0 |T = 1, x = xi ) = E (y0 |T = 0, x = xi ) = E (y |T = 0, x = xi ) . Les
procdures destimation consiste estimer de faon aussi peu restrictive que possible la
fonction E (y |T = 0, x = xi ). Lestimateur calcul in fine est alors dfini par
1 X
b ( |T = 1, xi X ) =
E b (y |T = 0, x = xi )
yi E
N1,X
{Ti =1,xi X}
La fonction E (y |T = 0, x = xi ) peut tre estime de dirente faon correspondant aux

approche par rgression ou par appariement.
Rgression :
Une premire faon destimer leet du traitement consiste procder la rgression
de la variable doutput observe sur le traitement et les variables de contrle.
Proposition Dans la rgression
E (y |T, x) = h (x) + T g (x)
La proprit dindpendance faible E (y0 |T, x) = E (y0 |x) permet didentifier g (x) =
E (y1 y0 |T = 1, x) . On peut estimer T T = E (g (x) |T = 1) partir dune estimation
convergente de g comme
X
b TT = 1 b
g (xi )
N1 T =1
i
La proprit dindpendance forte E (y0 |T, x) = E (y0 |x) et E (y1 |T, x) = E (y1 |x) per-
met didentifier g (x) = E (y1 y0 |T = 1, x) = E (y1 y0 |T = 1, x) . On peut estimer
T T = E (g (x) |T = 1) partir dune estimation convergente de g comme prcdemment
etAT E = E (g (x))
X
b AT E = 1 b
g (xi )
N
Dmonstration Comme y = y0 (1 T ) + y1 T = y0 + T (y1 y0 ) , on a :
E (y |T, x) = E (y0 |T, x) + T E (y1 y0 |T, x) = E (y0 |T, x) + T E (y1 y0 |T = 1, x)
Comme E (y0 |T, x) = E (y0 |x) , on a donc
E (y |T, x) = E (y0 |x) + T E (y1 y0 |T = 1, x)
et on a bien g (x) = E (y1 y0 |T = 1, x)

Une estimation non paramtrique de y sur la variable de traitement et les variables

de conditionnement permet donc en prsence de la seule hypothse y0 T |x didentifier le
paramtre T T (x) . En pratique : si la proprit dindpendance est vraie, elle est aussi
vraie pour le score (proprit de Rosenbaum et Rubin) Les rgressions peuvent donc tre
bases sur le score et non sur lensemble des variables explicatives. On peut en pratique
procder aux rgressions suivantes sur les populations spares :
X
J
y = 1j fj (s) + w1 pour T = 1
j=1
X
J
y = 0j fj (s) + w0 pour T = 0
j=1
o s est le score. Pour leet du traitement sur les traits, on estime alors :
X XJ
b ( |T = 1) = 1
E y1i b 0j fj (si )

N1 T =1 j=1
i
ou aussi :
XX J
1
b ( |T = 1) = 1
E b 0j fj (si )
bj

N1 T =1 j=1
i
Le deuxime estimateur est un peu moins prcis puisquil incorpore la variance du rsidu
mais il vite davoir spcifier et estimer lquation doutput pour les individus traits.
Remarque Lintrt de cette mthode est quelle apparat comme un prolongement na-
turel de la rgression variables de contrle y = xb + T + u.
Appariement
Pourchaque
individu trait ei, ayant des caractristiques xei ,on
cherche un individu non
trait j ei , ayant les mmes caractristiques observables, i.e j ei {j |Tj = 0, xj = xe } .On
i
estime alors leet du traitement pour lindividu i par b i = yi y e . On compare ainsi

j (i)
loutput de lindividu considr et loutput dun individu non trait ayant les mmes ca-
ractristiques observables. Le terme dappariement provient de lide que chaque individu
trait est appari avec son jumeau non trait.
La quantit yj (ei) est un estimateur (non paramtrique) de
E (y |T = 0, x = xei ) = E (y0 |T = 0, x = xei ) = E (y0 |x = xei ) = E (y0 |T = 1, x = xei )

Lestimateur calcul finalement est obtenu en prenant la moyenne de la quantit cei =

yei yj (ei) sur la population traite laquelle on sintresse :
X
b ( |T = 1) = 1
E yi yj(i)
N1 T =1
i
En pratique il nest pas toujours possible de trouver pour chaque individu trait, un
individu non trait ayant les mmes caractristiques que lindividu trait considr. On

peut alors choisir lindividu appari de telle sorte que xei xj (ei) soit minimal, pour

une mtrique donne. Une mtrique naturelle dans ce cas est la mtrique de Mahalanobis
= V (x)_1 .
Nanmoins la qualit de cet appariement peut tre mauvaise en pratique : pour certains
individus traits, il nexiste pas dindividu proche non trait notamment dans le cas o il y
a un grand nombre de variables de conditionnement. La proprit de Rosenbaum et Rubin
simplifie beaucoup lappariement dans ce cas. En eet cette proprit permet de procder
des appariements sur la base du seul rsum des variables de conditionnement que
constitue le score. On peut ainsi apparier des individus dont les caractristiques peuvent
tre trs loignes, mais qui ont des scores proches.
Ceci constitue le principe de lappariement tel quil a t dvelopp par les statisticiens.
De nombreuses questions restent nanmoins non rsolues : doit on faire lappariement avec
ou sans rejet ? Un individu non trait une fois appari doit-il tre vinc de lensemble des
individus susceptibles dtre apparis avec les individus non traits restants. Si on choisit
quun individu ne peut tre appari quune seule fois alors la qualit de lappariement se
dgradera progressivement. La question est alors de savoir par o commencer. De mme,
si on dispose dun chantillon dindividu non trait trs vaste, ne peut on pas tirer partie
des individus qui in fine nauront pas t apparis. Enfin, ce principe dappariement tel
quil est exprim ne permet pas de prciser le comportement asymptotique de lestimateur
propos.
Extension Kernel matching estimator Les mthodes dappariement se gnralisent

directement ds lors que lon interprte yj (ei) comme un estimateur non paramtrique de
E (y0 |T = 0, x = xei ) . Dirents autres types destimateurs non paramtriques peuvent
tre envisags. Ils consistent tous remplacer yj (ei) par une moyenne pondre des obser-
vations de lchantillon de contrle :
X
b (y0 |T = 1, x = xe ) =
E w e
N i, j yj
i
Tj =0
On peut ainsi considrer une moyenne pondre dun nombre donn n, choisir, de voisins
les plus proches. n nearest neighbours. Lestimateur propos par Rubin est en fait celui
du voisin le plus proche. Considrer un nombre plus important de voisins aecte lerreur
quadratique moyenne de lestimateur, elle mme somme du carr du biais et de la variance

de lestimateur. Lorsque le nombre dindividus considr augmente le biais augmente : on
prend en compte des individus dont les caractristiques sont plus loignes que celle de
lindividu trait. En revanche la variance baisse car on prend la moyenne sur un ensemble
plus important dindividus. On peut montrer que le nombre optimal dindividus prendre
en compte crot avec la taille de lchantillon.
Lestimateur propos par Heckmann Ichimura and Todd (1998) est un estimateur
noyau de la quantit E (y0 |T = 1, x = xei ) .
P
Kh (xj xei ) yj
Tj =0 X Kh (xj xei ) X
b (y0 |T = 1, x = xe ) =
E P = P yj = wN j, ei yj
i
Kh (xj xei ) T =0
Kh (xj xei ) T =0
j j
Tj =0 Tj =0

dans cette expression Kh (z) = h1 K hz ou K est un noyau et h un paramtre appel la
fentre. Le noyau est une fonction maximale en zro, positive en zro, symtrique autour
de zro et dintgrale unitaire (cette condition ne joue pas de rle dans le cas de lestima-
tion dune fonction de rgression). Il existe de multiples exemples de noyau, par exemple
le noyau uniforme valant 0.5 sur [1, 1] , Dans ce cas lestimateur non paramtrique cor-
respondant consiste simplement prendre la moyenne des observations pour des individus
dont les caractristiques se situent dans lintervalle [x hN , x + hN ] . Un autre exemple
correspond (z) la densit de la loi normale. Ce noyau prsente lavantage davoir <
pour support Un noyau frquemment choisi en pratique dans le cas unidimensionnel est
2
le noyau quartique : K (z) = 1516
(1 z 2 ) 1 {|z| 1}
Dans les expressions prcdentes, h est la fentre. Plus elle est faible, moins on prend
en compte les observations sloignant de xei . Dans ce cas lestimateur sera trs peu prcis
mais le biais sera en revanche faible. A linverse, lorsque la fentre slargit lestimateur
considr devient plus prcis autour de sa valeur limite, mais cette valeur limite tend
elle mme scarter de la quantit que lon cherche estimer. Le choix de la fentre
est tel quil minimise lerreur quadratique moyenne, somme du carr du biais et de la
variance de lestimateur. On peut montrer que lorsque elle est choisie comme une fonction
croissante de la dispersion des variables x et dcroissante du nombre dindividu. Un choix
possible pour la fentre est dans le cas unidimensionnel : h (N) = x /N 1/5 . En gnral
les estimateurs non paramtriques ont une vitesse de convergence plus faible que les
estimateurs paramtriques. Ici le rythme de convergence est en Nh soit une vitesse de
2
convergence en N 5 .
Finalement lestimateur de leet moyen du traitement sur les traits est estim par :

1 X X
b ( |T = 1) =
E yi wN (j, i) yj
N {Ti = 1} Tj =0
{Ti =1}
Bien que bas sur des estimateurs non paramtriques qui donc convergent lentement,
Heckman Ichimura et Todd ont montr que la vitesse de convergence de cet estimateur
est en N. Ceci tient au fait que lestimateur final est une moyenne destimateurs non
paramtriques. Il est dit semi -paramtrique. Lexpression de la variance de cet estima-
teur est complexe et son estimation partir de sa formule littrale ncessite l aussi le
calcul dintermdiaires non paramtrique. En pratique, on dtermine la variance de cet
estimateur par bootstrap. Ceci consiste tirer avec remise un grand nombre dchan-
tillons alatoires dans la population, et appliquer sur chacun de ces chantillons toute
la procdure destimation. La distribution des estimateurs que lon obtient in fine est la
distribution exacte de lestimateur. On peut lutiliser pour dterminer les carts-type ou
les intervalles de confiance.
L aussi la proprit de Rubin est trs importante. En eet elle autorise proc-
der la rgression non paramtrique sur la seule variable que constitue le score s (x) .
On est ainsi amen calculer pour chaque individu : E b (y0 |T = 1, s (x) = s (xe)) et non
i
plus Eb (y0 |T = 1, x = xe ) . Cette simplification ne remet pas en cause la validit de les-
i
timateur alternatif bas sur lappariement sur chacune des caractristiques. La vitesse
de convergence nest pas plus leve avec lun quavec lautre estimateur. Nanmoins le
nombre dobservations ncessaires pour que ce comportement asymptotique soit obtenu
est vraisemblablement plus faible avec lappariement sur le score. Cet estimateur apparat
plus fiable ce titre.
Remarque : Les rsultats prcdents peuvent tre appliqus en sens inverse pour appa-
ris chaque individu non trait avec un (des) individus traits. On estime alors E ( |T = 0, xi X ) .
On peut donc par appariement estimer leet moyen du traitement.
Pondrations
Une dernire mthode destimation est base sur des pondrations.
Proposition Sous lhypothse dindpendance faible conditionnelle aux observables, lef-
fet moyen du traitement vrifie la relation

T (1 T )
E (c) = E y
P (x) (1 P (x))
Sous lhypothse dindpendance faible conditionnelle aux observables, leet du traitement
sur les traits vrifie la relation

P (x) T (1 T )
E (c |T = 1) = E y
P (T = 1) P (x) (1 P (x))
Dmonstration En eet, les proprits dindpendance conditionnelles permettent diden-
tifier trs simplement les esprances des outputs potentiels.
yk T |x = E (yk 1 (T = k) |x) = E (yk |x) E ((1 (T = k)) |x) = E (yk |x) P (T = k |x)
On a donc :
1 (T = k)
E (yk |x) = E yk |x
P (T = k |x)
Do la premire relation. Par ailleurs on a

1T
E (y0 T |x) = P (x) E (y0 |T = 1, x) = P (x) E (y0 |T = 1, x) E |x
1 P (x)

1T
= E P (x) E (y0 |T = 1, x) |x
1 P (x)
Do

1T
E (y0 T ) = E (y0 |T = 1) P (T = 1) = E P (x) E (y0 |T = 1, x)
1 P (x)
Comme E (y0 |T = 1, x) = E (y0 |T = 0, x)

1T
E (y0 |T = 1) = E P (x) E (y0 |T = 1, x) P (T = 1)
1 P (x)

1T
= E P (x) E (y0 |T = 0, x) P (T = 1)
1 P (x)

1T
= E E P (x) y0 |T = 0, x P (T = 1)
1 P (x)

1T
= E P (x) y0 P (T = 1)
1 P (x)
13.3.4 Vraisemblance de lhypothse dindpendance condition-

nelle des observables.
Plusieurs questions se posent concernant la mthode par appariement. La premire
concerne de savoir sil est raisonnable de faire lhypothse dindpendance conditionnelle
des observables. La deuxime est comment choisir en pratique les variables de condi-
tionnement ? Faut-il retenir toute linformation disposition ? On prsente dabord un
rsultat permettant de rpondre en partie ces questions :
Proposition z1 z2 |w1 , w2 et w2 z2 |w1 = z1 z2 |w1
Dmonstration En eet :
Z
l (z1 , z2 |w1 ) = l (z1 , z2 |w1 , w2 ) l (w2 |w1 ) dw2
en outre : l (z1 , z2 |w1 , w2 ) = l (z1 |w1 , w2 ) l (z2 |w1 , w2 ) = l (z1 |w1 , w2 ) l (z2 |w1 ) , do :
Z Z
l (z1 , z2 |w1 ) = l (z1 |w1 , w2 ) l (z2 |w1 ) l (w2 |w1 ) dw2 = l (z2 |w1 ) l (z1 |w1 , w2 ) l (w2 |w1 ) dw2
= l (z2 |w1 ) l (z1 |w1 )
Prise en compte deets individuels : lapport de donnes temporelles

Lhypothse dindpendance conditionnelle des observables a en fait peu de chance
dtre satisfaite ds lors que les variables sont en niveau. Il y a en eet une htrognit
trs forte dans les situations individuelles. Il est peu vraisemblable que lon puisse par
adjonction de variable de contrle puiser toute la partie de cette htrognit qui est
prise en compte dans la dcision de participation. La majeur partie de cette htrognit
correspond la prsence de caractristiques inobserves permanentes dans le temps sem-
blable un eet individuel. Les rsultats dont on dispose en conomtrie des donnes de
panel montrent bien que premirement, les eets individuels ont une trs forte variance,
mme dans les modles dans lesquels on a cherch introduire de nombreux contrles et
que deuximement lhypothse dindpendance entre les variables explicatives et les eets
individuels est trs frquemment rejete. Une hypothse plus vraisemblable consisterait
introduire dans les variables de conditionnement un terme dhtrognit constant dans
le temps :
HF orte : y0 , y1 T |x, u
HF aible : y0 T |x, u
Prendre en compte cette htrognit dans le cadre prcdent nest pas directement
possible justement parce quelle est inobservable.
Nanmoins, linstar de ce qui est eectu dans le cadre de lconomtrie des donnes
de panel, elle peut tre limine par direntiation. Plus prcisment, prenant par exemple
le cas de lindpendance faible, on a la proposition suivante qui dcoule directement de la
proposition prcdente :
Proposition Dans le cas o il existe un lment inobserv u tel que la condition
y0 T |x, u
est vrifie. Si :
1. Il existe des observations disponibles y p de loutput antrieures au traitement
2. y0 y p T |x, u , ce qui est vrai ds lors que y p {x} dans la condition y0 T |x, u
3. y0 y p u |x ,
alors la condition dindpendance,
y0 y p T |x
est vrifie
On voit que dans ce cas leet individuel peut tre limin par direntiation et on
retrouve une proprit dindpendance conditionnelle des observables. En pratique, ceci
revient introduire les variables passes de loutput dans la liste des variables de condi-
tionnement et considrer comme variable doutput non les outputs eux mmes, mais
leur volutions. Notant y1 = y1 y p et y0 = y0 y p , on estime
E (y1 y0 |T = 1, x) = E ((y1 y p ) (y0 y p ) |T = 1, x) = E (y1 y0 |T = 1, x)
qui est donc bien le paramtre cherch.
Slection des observables

On peut tre tent de considrer un grand nombre de variables de conditionnement.
Ceci nest pas ncessairement une bonne proprit comme on le verra et il vaut mieux cher-
cher lensemble de variables de conditionnement le plus petit possible tel que la condition
dindpendance soit satisfaite.
Proposition Supposons
y0 , y1 T |x1 , x2
Si seule une partie de ces variables aecte la variable de traitement :
T x2 |x1
Alors on a
y0 , y1 T |x1
La liste des variables de conditionnement peut tre ampute de toutes les variables qui
naectent pas la variable de traitement, ce qui peut tre aisment test sur les donnes.
Problme de support
La question du support des distributions du score conditionnellement au traitement
est essentielle dans ce type danalyse. Son importance a t souligne par Heckman et
al. (1998) qui ont montr quelle constitue une source forte de biais dans lestimation de
leet causal du traitement.
Dans les mthodes destimation par appariement ou par rgression, il est ncessaire
de pouvoir construire pour chaque individu trait un contrefactuel partir des individus
non traits, cest--dire de pouvoir estimer E (y |s, T = 0) pour dterminer leet causal
du traitement sur la population des individus traits. En outre, il est ncessaire destimer
E (y |s, T = 1) ds quon sintresse leet causal du traitement dans la population totale.
Une estimation non paramtrique de cette quantit, donc sans restriction sur la forme
quelle prend, impose que lon dispose pour un individu trait de score s dindividus non
traits ayant des valeurs du score proche de s. Dit dune autre manire, la densit du
score pour les individus non traits ne doit pas tre nulles pour les valeurs du score des
individus traits considrs. On ne peut donc construire de contrefactuel que pour les
individus dont le score appartient lintersection des supports de la distribution du score
des individus traits et des individus non traits.
Ceci conduit la conclusion que mme sous lhypothse dindpendance condition-
nelle des observables, on ne peut pas systmatiquement estimer E () ou E ( |T = 1)
dans la mesure o E ( |s) ne peut tre estim que pour les individus dont le score
appartient au support commun de la distribution du score pour les individus traits et
non traits. Lestimateur obtenu in fine est alors un estimateur local : E (c |s S ) ou
E (c |s S , T = 1), avec S le support commun dfini par S = ST =1 ST =0 avec ST =1
le support de la distribution du score des individus traits et ST =0 celui des individus non
traits.
f(s) f(s)
f(s|T=0) f(s|T=1)
Support commun
0 1 0 1
Cette condition du support a une autre implication : le modle servant la construction

du score, cest dire expliquant le traitement partir des variables de conditionnement, ne
doit pas tre trop bon. Dans le cas extrme o on expliquerait parfaitement le traitement,
les densits du score conditionnellement au traitement seraient toutes deux des masses de
Dirac, lune en zro pour les individus non traits, lautre en 1 pour les individus traits.
Les supports seraient alors disjoints et aucun appariement ne serait possible.
Pour bien comprendre cette condition importante du score, il faut garder prsente
lesprit lide initiale de Rubin : conditionnellement un ensemble de variables explicatives
x (ou le score), on se trouve dans le cas dune exprience contrle, cest dire dans laquelle
on dispose dindividus traits et non traits qui sont aects alatoirement chacun de
ces groupes. Il faut dans chaque cellule dans laquelle on se trouve dans des conditions
dexprience quil y ait un fort ala sur laectation au traitement. La persistance de cette
composante alatoire de laectation au traitement conditionnellement des observables
est ainsi essentielle dans la procdure dappariement.
Remarque Il peut tre utile dutiliser des restrictions a priori. Les modles prcdents
sont en eet purement statistiques. Frquemment on a une ide de modlisation de la
variable doutput partir dun ensemble de variables explicatives.

y0 = r + u0 avec r u0
Le problme dendognit provient alors du fait que la variable de traitement est corrle
la perturbation conditionnellement r. On peut supposer que la proprit dindpendance
est vraie lorsque lon adjoint un ensemble de variables z r.
u0 T |r, z
On fait lhypothse r T |z , ce qui revient supposer P (T = 1 |r, z ) = P (T = 1 |z ) =
P (z) . En outre on tend la condition dindpendance : r u0 r u0 |z . Dans ces
conditions on a le rsultat suivant
E (y0 |T, r, P (z)) = r + h (P (z))
En eet
E (y0 |T, r, P (z)) = r + E (u0 |T, r, P (z))
Comme u0 T |r, z on a en raison de la proprit de Rubin et Rosenbaum u0 T |P (T = 1 |r, z ).
et P (T = 1 |r, z ) = P (T = 1 |z ). On a donc :
u0 T |P (z) , r
do
E (u0 |T, r, P (z)) = E (u0 |r, P (z)) = E (u0 |P (z))
o la dernire galit provient du fait que r u0 |z . On peut donc transposer tous les
estimateurs prcdents au cas prsent. On peut en particulier procder comme suit. On
estime dabord le paramtre . Pour cela on remarque que comme :
E (y |T = 0, r, P (z)) = r + h (P (z))
on a
E (y |T = 0, P (z)) = E (r |T = 0, P (z)) + h (P (z))
En prenant la dirence des deux quations, on en dduit :
E (y E (y |T = 0, P (z)) |T = 0, r, P (z)) = (r E (r |T = 0, P (z)))
Dont on dduit que
E (y E (y |T = 0, P (z)) |T = 0, r ) = (r E (r |T = 0, P (z)))
Ce qui signifie quon peut estimer en rgressant simplement les rsidus des rgressions
non paramtriques y E b (y |T = 0, P (z)) et r E
b (r |T = 0, P (z)) lun sur lautre. La
fonction h peut alors tre estime partir y r. En eet :
E (y r |T = 0, r, P (z)) = h (P (z)) = E (y r |T = 0, P (z))
13.4. LE MODLE DE SLECTIVIT SUR INOBSERVABLES 267
Le contrefactuel pour un individu trait i de caractristiques ri et Pi est alors

X K (P P )
E b+ 1
b (y0i |T = 1, ri , Pi ) = ri b P
yj rj
h j i
N0 T =0 Kh (Pj Pi )
j
Tj =0
et lestimateur de leet du traitement est alors

X X K (P P )
b TT = 1
b 1
yi ri b P
yj rj
h j i

N1 T =1 N0 T =0 Kh (Pj Pi )
i j
Tj =0
13.4 Le modle de slectivit sur inobservables

Lapproche prcdente prsente des attraits non ngligeables. Le premier est quelle
est assez naturelle : on compare des individus traits et non traits aussi similaires que
possible. Le second avantage est quelle ne ncessite pas la modlisation du comportement
des agents. En revanche, elle prsente des limites certaines. Ainsi elle nest pas toujours
ralisable. Lobtention de la condition dindpendance peut requrir lintroduction dun
grand nombre de variables de conditionnement qui ne sont pas toujours accessibles d0 une
part et rduisent aussi la pertinence de lanalyse dans la mesure o les possibilits de
comparaison dun individu lautre se rduisent lorsque lon explique de mieux en mieux
laectation au traitement, i.e. lorsque crot le nombre de variables de conditionnement.
Enfin et surtout, les mthodes dappariement sur observables prsentent un caractre
mcanique qui fait reposer lvaluation sur une proprit purement statistique, en pratique
dicile justifier partir du comportement des agents. Dans une certaine mesure lintrt
que prsente le fait de ne pas modliser les comportements comporte aussi un revers qui
est celui de conduire des valuations dont les fondements peuvent paratre peu tays.
Il peut tre prfrable de modliser les output potentiel et la dcision de participation de
faon jointe. On parvient alors au modle de slectivit sur inobservable. On lcrit sous
la forme suivante. Les deux outputs potentiels y1 et y0 sont modliss sous la forme :
y1 = 1 + r 1 + u1
y0 = 0 + r 0 + u0
On modlise galement laectation au traitement par le biais dune variable latente, T :
T = zc + v
T = 1 T 0
T peut reprsenter par exemple le gain net du cot du traitement c (z, ) + : T =

y1 y0 c (z, )
La principale hypothse identifiante eectue consiste supposer lindpendance entre

les variables de conditionnement et les lments inobservs.
(u1 , u0 , v) (x, z)
Definition Le modle de slectivit sur inobservable est dfini par la modlisation jointe
des outputs potentiels et de laectation au traitement
y1 = 1 + r 1 + u1
y0 = 0 + r 0 + u0
T = 1 zc + v 0
avec en outre lhypothse dindpendance
(u1 , u0 , v) (r, z)
Remarque Ces hypothse sont trs direntes de celle du modle de slectivit sur ob-
servables. Dans le modle de slectivit sur observables, on faisait lhypothse que la cor-
rlation entre la variable de traitement T et les lments inobservs u0 pouvait tre limi-
ne par en introduisant des variables de conditionnement supplmentaires. Ces variables
taient par dfinition des variables aectant la fois le traitement et la perturbation.
Lhypothse est ici diamtralement oppose dans la mesure ou elle consiste dire qu
linverse il existe une variable z aectant le traitement mais pas les lments inobservs.
Elle est donc trs proche dune variable instrumentale, alors que dans lapproche prc-
dente il sagissait de variable de contrle.
Dans cette approche, le score P (T = 1 |r, z ) est encore amen jou un rle central.
Sous les hypothses eectues le score ne dpend que des variables z. En eet
P (T = 1 |r, z ) = P (zc + v > 0 |r, z ) = P (zc + v > 0 |z ) = P (z)
Toutefois, ces hypothses ne sont pas susantes pour assurer lidentification des para-
mtres dintrt et il existe en fait une dirence importante avec les variables instrumen-
tales, sur laquelle on reviendra plus tard. Les paramtres dintrt sont dfinis par :
AT E = E (y1 y0 ) = E (1 0 + r ( 1 0 ))
T T = E (y1 y0 |T = 1) = E (y1 (0 + r 0 + u0 ) |T = 1)
13.4.1 Expression des paramtres dintrt dans le cas gnral

Proposition Dans le cas du modle de slectivit sur inobservables, si les fonctions
de rpartition de v est strictement croissante, il existe deux fonctions K0 (P (zc)) et
K1 (P (zc)) telles que
E (y0 |T = 0, r, z ) = 0 + r 0 + K0 (P (zc))
E (y1 |T = 1, r, z ) = 1 + r 1 + K1 (P (zc))
Les paramtres dintrt sont alors dfinis par

1 P (z)
TT
= E y 0 + r 0 K0 (P (zc)) T = 1
P (z)
AT E = E (1 0 + r ( 1 0 ))
o
P (zc) = P (T = 1 |r, z )
Dmonstration La forme des fonctions retenues est une application directe du modle
de slection sur inobservables vu prcdemment. Pour ce qui concerne le paramtre T T ,
lidentification porte donc essentiellement sur loutput potentiel y0 . Les donnes sur cet
output concernent les individus pour lesquels T = 0. On a :
E (y0 |T = 0, r, z ) = 0 + r 0 + E (u0 |T = 0, r, z ) = 0 + r 0 + K0 (P (zc))
et on souhaite identifier
E (y0 |T = 1, r, z ) = 0 + r 0 + E (u0 |T = 1, r, z )
Les quantits E (u0 |T = 0, r, z ) et E (u0 |T = 1, r, z ) sont lies par :
0 = E (u0 |r, z ) = E (u0 |T = 0, r, z ) (1 P (zc)) + E (u0 |T = 1, r, z ) P (zc)
do
(1 P (zc))
E (u0 |T = 1, r, z ) = K0 (P (zc))
P (zc)
En toute gnralit on ne peut donner la forme des fonctions K0 et K1 . Elle font en
eet intervenir la loi jointe des lment (u0 , v) et (u1 , v) . Ceci est lorigine dun pro-
blme important pour lestimation puisque comme les expressions prcdentes le montrent
clairement, il est ncessaire de pouvoir sparer les fonctions K des constantes .
On va voir dabord comment il est possible de rsoudre ce problme en spcifiant la loi
jointes des observations. Puis on examinera le cas dans lequel on ne fait pas dhypothse et
on verra quil faut des conditions particulires et au total assez restrictives pour identifier
chacun des deux paramtres dintrt.
13.4.2 Le cas Normal

La spcification de la loi jointe des observations comme des lois normales permet
didentifier aisment le modle. On peut soit recourir la mthode du maximum de
vraisemblance soit recourir une mthode en deux tapes due lorigine Heckman,
base sur les rsultats prcdents. Cest cette dernire mthode que lon prsente car
elle est dun emploi plus facile et est directement lie la prsentation prcdente. Elle
prsente en outre un degrs de gnralit lgrement suprieure. On reprend le modle
doutputs potentiels prcdents :
y1 = 1 + r 1 + u1
y0 = 0 + r 0 + u0
avec la rgle daectation au traitement base sur la variable latente, T :
T = zc + v
T = 1 T 0
Outre lhypothse dindpendance dj voque, on fait lhypothse que les deux couples
(u0 , v) et (u1 , v) suivent une loi normale.
Les rsultats prcdents permettent dcrire que :

E (y0 |r, z, T = 0) = 0 + r 0 0 0 (zc)
1

E (y1 |r, z, T = 1) = 1 + r 1 + 1 1 (zc)

Par rapport aux expressions obtenues dans le cas gnral
E (y0 |T = 0, r, z ) = 0 + r 0 + K0 (P (zc))
et compte tenu du fait que P (zc) = (ze

c) , on voit que le fait de spcifier la loi des
observations comme une loi normale revient imposer que les fonctions K0 (P (zc)) et
K1 (P (zc)) ont pour expressions :
1 (P (zc))
K0 (P (zc)) = 0 0
1 P (zc)
1 (P (zc))
K0 (P (z)) = 1 1
P (zc)
Elle ne dpend donc que dun paramtre supplmentaire 0 0 . Les paramtres dintrt
T T et AT E ont alors pour expressions :

1 P (z)
TT
= E y 0 + r 0 K0 (P (zc)) T = 1
P (z)

1 (P (zc))
= E y 0 + r 0 + 0 0 T = 1
P (zc)

= E y 0 + r 0 + 0 0 (ze
c) T = 1

AT E = E (1 0 + r ( 1 0 ))
Mise en oeuvre :
1. Estimation du modle probit associ au traitement et dtermination des variables
de biais (zc) et 1

(zc)
2. Estimation des rgressions sur chacune des populations traites et non traites :
identification des paramtres 1 , 0 , 1 , 0 et des paramtres 1 u1 et 0 u0 .
3. Estimation des paramtres dintrt

b TT 1 X b
= yi b 0 + ri 0 + d
00 (zib
c)
N1 d =1
i
1 X
b AT E = b1
b 0 + ri b1 b0
N
4. Calcul des carts-type, on doit prendre en compte le fait que le paramtres du

modle Probit a t estim dans une premire tape.
13.4.3 Des extensions paramtriques simples

Comme dans le cas du modle de slection du chapitre prcdent, on peut tendre
dabord les rsultats obtenus avec la loi normale des familles de lois plus gnrales.
Loi quelconque donne pour le rsidu de lquation de slection.

On a vu dans le chapitre prcdent que le modle de slection pouvait tre facilement
tendu en considrant une loi quelconque pour lquation de slection. Elle donne alors
lieu une probabilit de slection note P (z)
1 P (z)
E (y |I = 1, x, z ) = xb + u
P (z)
Ce rsultats se transposent directement au cas du modle causal. Les quations des outputs
potentiels sont :
P (T = 1 |z ) = P (z)
1 P (z)
E (y0 |T = 0, r, z ) = 0 + r 0 0 0
1 P (z)
1 P (z)
E (y1 |T = 1, r, z ) = 1 + r 1 + 1 1
P (z)
Les paramtres dintrt ont alors pour expression :

TT 1 (P (z))
= E y 0 + r 0 + 0 0 T = 1
P (z)
AT E = E (1 0 + r ( 1 0 ))
Des lois plus gnrales que la loi normale

On peut considrer le modle de slection prcdent en faisant lhypothse que les
lments inobservs ont pour loi jointe une loi de Student de degrs et non pas une loi
normale. On a vu dans le chapitre prcdent que ceci conduisait la spcification suivante
pour lquation doutput :
2
+ G1 1
(P (z)) g G (P (z))
E (y |d = 1, x, z ) = xb +
1 P (z)
L aussi les rsultats se transposent directement au cas du modle causal. Les quations
des outputs potentiels sont :
P (T = 1 |z ) = P (z)
2
+ G1 1
(P (z)) g G (P (z))
E (y0 |T = 0, r, z ) = 0 + r 0 0 0
1 1 P (z)
2
+ G (P (z)) g G1
1
(P (z))
E (y1 |T = 1, r, z ) = 1 + r 1 + 1 1
1 P (z)
Les paramtres dintrt ont alors pour expression :
! !
+ G 1
(P (z))2
g G 1
(P (z))

T T = E y 0 + r 0 + 0 0 T = 1
1 P (z)
AT E = E (1 0 + r ( 1 0 ))
On dispose ainsi dun ensemble trs vaste de possibilits destimation des paramtres
correspondant direntes hypothses sur la loi des perturbations. Ces choix reviennent
tous introduire des termes dirents dans les quations des outputs potentiels. Ils ont
des consquences importantes sur lestimation des paramtres dintrt. Il est en outre
dicile de raliser des tests permettant dexaminer quelle spcification est prfrable dans
la mesure o les hypothses ne sont pas embotes. On peut donc souhaiter estimer ces
modles sans avoir recours la spcification de la loi jointe des perturbations.
13.4.4 Le modle de slection semi paramtrique.

On reprend le modle de slectivit sur inobservables :
y1 = 1 + r 1 + u1
y0 = 0 + r 0 + u0
avec la modlisation de laectation au traitement :
T = zc + v
T = 1 T 0
on suppose comme prcdemment lindpendance entre les variables de conditionnement
et les lments inobservs.
(u1 , u0 , v) (x, z)
On a vu quen labsence dhypothses sur la loi jointe des perturbations, les quations
des outputs potentiels prenaient la forme :
E (y0 |T = 0, r, z ) = 0 + r 0 + K0 (P (z))
E (y1 |T = 1, r, z ) = 1 + r 1 + K1 (P (z))
avec K0 et K1 des fonctions non spcifies. Les paramtres dintrt scrivent simplement
comme :

1 P (z)
TT
= E y 0 + r 0
K0 (P (z)) T = 1
P (z)
AT E = E (1 0 + r ( 1 0 ))
La dicult de lestimation est double. Dune part il est ncessaire destimer les para-
mtres et en laissant la fonction K non spcifie. En deuxime lieu il faut estimer la
fonction K elle mme. On procde en plusieurs tapes. Dans un premier temps, on estime
le paramtre . Dans un deuxime temps, on estime la fonction G = + K. Enfin dans
un dernier temps on spare de K.
Identification des paramtres

Pour les paramtres 0 et 1 , on applique la mthode destimation de Robinson vue
dans le chapitre prcdent. Ceci consiste prendre rappelons comme dans le thorme de
Frish-Waugh, lcart des variables y et r leur esprance conditionnellement au score (la
dirence avec le thorme de Frish-Waugh est quil ne sagit plus dune simple projection
linaire). Il sut ensuite de rgresser le rsidus obtenu pour y sur ceux obtenus pour les
variables r.
Identification des constantes et des termes de biais de slectivit K0 et K1 .

Dans un premier temps on identifie les quantits K e 0 (P (z)) = 0 + K0 (P (z)) et
K b0 et on utilise le
e 1 (P (z)) = 1 + K1 (P (z)). Pour cela on forme le rsidu vb0 = y r
fait que
e 0 (P (z))
E (v0 |T = 0, P (z)) = E (y r 0 |T = 0, P (z)) = 0 + K0 (P (z)) = K
e 0 . Par
la rgression non paramtrique du rsidu sur le score fournit un estimateur de K
exemple pour une valeur donne de p0 de P (z) on estime :
P
Kh (P (zj ) p0 ) vb0i
b
e jI0
K 0 (p0 ) = P
Kh (P (zj ) p0 )
jI0
Pour identifier les constantes p.e. 0 il est ncessaire de disposer de valeurs de P (z) telle
que K0 (P (z)) = 0.
Il existe une possibilit didentification naturelle. On a les relations :
K0 (0) = 0 et K1 (1) = 0
En eet, on utilise le fait que E (u0 |z ) = 0 et E (u1 |z ) = 0. Pour la fonction K0 par
exemple, on a
E (u0 |z ) = 0 = E (u0 |z , T = 1) P (z) + E (u0 |z , T = 0) (1 P (z))
et la fonction K0 est dfinie par :
K0 (P (z)) = E (u0 |z, T = 0)

On a donc :
E (u0 |z , T = 1) P (z) + K0 (P (z)) (1 P (z)) = 0

On a donc bien K (0) = 0 :
Une faon de tirer parti de ces restrictions est de considrer la moyenne desrsidus
y rb0 pour les individus non traits ayant une faible probabilit dtre trait. Plus
prcisment, un estimateur de la constante 0 pourrait tre :
P
b0 (1 Ti ) 1 (zib
yi ri c <
n)
i
b0 =
P
(1 Ti ) 1 (zib
c <
n)
i
o
n est une suite tendant vers .
Remarque Ces hypothses permettent didentifier linfini la constante 0 , et donc
la fonction K0 () . Il est possible didentifier ainsi E (y0 ) et E (y0 |T = 1) . Ces hypothses
susent donc pour identifier . On peut remarquer que dans ce cas la dtermination du
paramtre dintrt fait intervenir la dtermination de la fonction K0 en chaque point du
support du score pour les individus traits. La forme finale de lestimateur est ainsi
P
b0
Kh (P (zj ) P (zi )) yj rj
X
b TT = 1 yi b r b0 + 1 P (zi ) jI0 P
b

N1 0 i
P (zi ) Kh (P (zj ) P (zi ))
0
Ti =1
jI0
P
b0
Kh (P (zj ) P (zi )) yj rj
1 X b0
yi

b0 + 1 P (zi ) jI0 P

= r
N1 T =1 P (zi )
i
P (zi ) Kh (P (zj ) P (zi ))
i
jI0
Dans ce cas il est possible didentifier la constante 1 et donc la fonction K1 . On peut

sous lensemble de ces hypothses identifier le paramtre E (y1 ) et donc leet moyen du
traitement qui sera simplement dfini comme
Xh i
b AT E = 1
b1
b 0 + ri b1
b0
N i
En pratique la probabilit de recevoir le traitement est souvent concentre vers des valeurs
faibles. Si les hypothses sur les queues de distribution, concernant lidentification de 0
sont vraisemblables, il nen est pas de mme de celles concernant lidentification de 1 .
Il est donc vraisemblable quen gnral lidentification de leet moyen du traitement
chappe ce type dapproche.

Econ Linéaire Complet PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Econ Linéaire Complet PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

ECONOMETRIE LINEAIRE

2 Lestimateur des moindres carrs ordinaires 11

3 Les MCO sous lhypothse de normalit des perturbations. 25

4 Estimation sous contraintes linaires 39

5 Proprits asymptotiques de lestimateur des MCO 59

6 Le modle linaire sans lhypothse dhomoscdasticit 81

6.2.3Proprits statistiques de lesprance et de la variance conditionnelle

7 Le modle htroscdastique en coupe 95

8 Autocorrlation des rsidus dans les sries temporelles 113

9 Lestimateur des MCQG dans le cas o = IN () 131

10 Variables instrumentales 141

10.2.1 Modle variables endognes et non convergence de lestimateur

11 La Mthode des moments gnralise 173

11.6.4 Estimateur VI optimal dans le cas univari et htroscdastique . . 192

12 Variables dpendantes limites 205

13.1.3 Biais de slectivit . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

1.2 Do vient le modle ? - 1 de la thorie cono-

LogC = a + c + w + 0.5 c c2 + w,c cw + 0.5 w w2 + log (Q) log (u)

La constante reprsente l aussi le niveau de la technologie. Ce type de spcification

o as reprsente le gain li une anne dtude supplmentaire et ae le gain li

sintresse alors sont le rendement de lducation ou le rendement de lexprience. La

1.3 Les donnes

1. Donnes temporelles ou longitudinales. Elles sont indices par le temps t. On dispose

1.5 Pourquoi estimer le modle ?

1.6 Do vient le modle ? - 2 de relations stochas-

l (u |x) = l (u) = (u/) /

l (y, x; b) = l (y |x; b) l (x) = ((y xb) /) l (x) /

et donc destimer les paramtres en appliquant par exemple la mthode du maximum

connu. On construit lestimateur les moindres carrs quasi-gnraliss en sappuyant sur

et dont les ralisations gouvernent lobservation de la variable I :

On aborde galement dautres situations importantes permettant daborder la questions

les ralisations de I gouvernent lobservation de la variable I et de la variable y :

Lestimateur des moindres carrs

2.1 Dfinition et proprits algbriques

dfinit de mme les vecteurs x1 , . . . , xK et x la matrice

2.1.2 Interprtation gomtrique

Remarque Comme la constanteX appartient lensemble des rgresseurs, on a immdia-

2.1.3 Thorme de Frish-Waugh

De la deuxime quation on tire directement la deuxime partie du thorme

Lorsque lon rintroduit cette expression dans la premire quation il vient

compte tenu de Mx22 = Mx2 . Do lexpression de bb1

2.2 Modle et proprits statistiques

2.2.1 Quand lestimateur des mco est-il sans biais ?

2.2.2 Quelle est la prcision de lestimateur des mco ?

La variance non conditionnelle est donne par

Dmonstration La variance conditionnelle est dfinie comme

2.2.3 Lestimateur des mco est-il le plus prcis : le thorme de

et la matrice AMx A0 est ncessairement semi-dfinie ngative

2.2.4 Estimation des paramtres du second ordre

Proposition Sous les hypothses H1 H4, lestimateur

Exemple Application la prvision. On considre le modle yn = xn b + un pour lequel

2.2.5 Analyse de la variance

Le R2 dpend du calibrage des observations. Par exemple si on considre une fonction

2.3 Variable omise et rgresseur additionnel

lespace engendr par les variables explicatives.

Les MCO sous lhypothse de

3.1 Normalit de lestimateur des mco

b2 , convenablement normalis, est distribu suivant une loi du 2

loi jointe des rsidus estims et de lestimateur des mco :

3. Les rsidus estims suivent une loi normale de matrice de variance 2 Mx .

puisque Mx est le projecteur orthogonal sur lorthogonal de lespace vectoriel engendr

3.2 Ecart-types estims, tests et intervalles de confiance

On sintresse en fait plus spcifiquement la variance de chaque composante de