Bruno Crpon
Novembre 2005
ii
Table des matires
1 Introduction 1
1.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Do vient le modle ? - 1 de la thorie conomique . . . . . . . . . . . . . 1
1.3 Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Lestimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Pourquoi estimer le modle ? . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6 Do vient le modle ? - 2 de relations stochastiques . . . . . . . . . . . . . 5
1.7 Plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
iii
iv TABLE DES MATIRES
3.3 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Comparaison avec lestimateur du Maximum de Vraisemblance . . . . . . . 35
3.5 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 Annexe : Distribution de la norme de la projection dun vecteur normal . . 37
13 Evaluation 243
13.1 Le Modle causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
13.1.1 Choix de la variable dintrt et choix de ltat de rfrence . . . . . 245
13.1.2 Paramtres dintrt . . . . . . . . . . . . . . . . . . . . . . . . . . 246
viii TABLE DES MATIRES
1.1 Le modle
Le modle central auquel on sintresse dans ce cours est le modle linaire que lon
crit en toute gnralit
y = + 1 x1 + + K xK + u = xb + u
Dans ce modle interviennent direntes grandeurs :
y la variable explique ou dpendante
x1 , . . . , xK , K variables explicatives ou indpendantes
u une perturbation
b = (, 1 , , K )0 le paramtre estimer
Parmi ces lments les variables y et x sont observes. En revanche le paramtre b est
inconnu et la perturbation u inobserve.
1
2 CHAPITRE 1. INTRODUCTION
particulier une restriction sur les possibilits de substitution par rapport au cadre
gnral :
Y = AK L
Cette spcification conduit une relation log linaire :
y = a + k + l
qui est le modle auquel on sintresse. Dans ce cadre on peut noter que la perturba-
tion a une interprtation naturelle, il sagit de la constante a reprsentant le niveau
de la technologie, susceptible de varier dune entreprise lautre. En revanche le mo-
dle fait lhypothse quil y a homognit des autres coecients dans la population
dentreprises.
Un autre exemple de modle directement dduit de la thorie conomique est celui
des demandes de facteurs. Si on spcifie une fonction de cot C (Q, pX , u) , o Q est
la production, pX le vecteur des prix et u le niveau de la technologie, la demande
pour un facteur donn est donne par le Lemme de Shephard :
C (Q, pX , u)
X 0d =
pX0
Comme dans le cas prcdent on se restreint en gnral une forme paramtrique
de la fonction de cot. Une spcification standard est la fonction de cot translog
avec deux facteurs, capital de cot exp(c) et travail de cot exp(w) :
log (wi ) = a0 + as si + ae ei + ui
1.4 Lestimation
Estimer le modle cest trouver une fonction des observations y et x
bb = b y, x
dont on souhaite quelle vrifie certaines conditions. Par exemple lestimateur peut tre
choisi tel Z
quil soit "sans biais" E bb = b y, x f y, x dydx = b
quil satisfasse un critre : minimisation de la somme des carrs des rsidus bb =
X X
arg min (y xb) ; maximisation de la log-vraisemblance bb = arg max
2
log l (y, x)
quil soit de variance minimale
quil soit convergent, cest dire quil se rapproche de la vraie valeur du paramtre
lorsque le nombre dobservations devient grand.
1.5. POURQUOI ESTIMER LE MODLE ? 5
situation de base est celle dans laquelle cette loi est choisie comme une loi normale ne
dpendant pas des variables x. On impose donc dans ce cas une restriction stochastique
essentielle pour lanalyse conomtrique
o est la densit de la loi normale. Imposer cette restriction permet de dfinir la densit
des observations
E (u |x) = E (u) = 0
Cette proprit est satisfaite si on spcifie la loi conditionnelle de u sachant x comme une
loi normale indpendante de x. Linverse est faux et cette spcification est donc moins
exigeante que la prcdente. Elle permet, elle aussi, destimer le modle. Elle implique
en eet des restrictions du type E (x0 (y xb)) = 0 appeles intuitivement conditions
dorthogonalit dont on verra quelles sont susantes pour estimer les paramtres du
modle. On remarque ce stade que dans cette spcification il y a dores et dj un
paramtre de moins : la variance des rsidus nintervient plus.
Ces restrictions stochastiques dfinissent un paramtre statistique. On pourrait ainsi
dfinir autant de paramtres b quil y a de restrictions stochastiques envisageables, cest
dire une infinit. On pourrait par exemple considrer le paramtre bZ associ des
restrictions stochastiques E (z 0 (y xbZ )) = 0 dont on verra quelles aussi peuvent tre
utilises souvent pour conduire une estimation du paramtre. Il nest pas certain que
le paramtre statistique associ une restriction stochastique concide avec le paramtre
conomique. Lestimation peut ainsi tre non convergente, cest dire que la valeur du
paramtre estime ne se rapprochera pas de la vraie valeur (conomique) du paramtre
lorsque le nombre dobservation augmente, ou tre biaise, cest dire que lesprance du
paramtre nest pas la vraie valeur (conomique) du paramtre. Une partie importante
de lconomtrie, qui passe par une rflexion sur le modle, les donnes et les mthodes
consiste rechercher des conditions dans lesquelles le paramtre statistique concide avec
le paramtre conomique. La question est-ce que p lim bb = b0 , la vraie valeur conomique
du paramtre, est en dernier ressort la question la plus centrale et la plus importante
de lconomtrie, et assez naturelle : est-ce que jai bien mesur ce que je voulais ? Cest
beaucoup moins facile quil ny parat, car de nombreux facteurs aectent les dcisions
individuelles et il est dicile disoler leet dune unique cause.
1.7. PLAN 7
1.7 Plan
Le cours dbute dans le chapitre 2 par lestimateur des moindres carrs, cest dire le
vecteur des coecients de la projection orthogonale de y sur lespace vectoriel engendr par
les variables explicatives. On prsente dabord les proprits algbriques de cet estimateur
et ses proprits statistiques sous des hypothses minimales telles que lindpendance
et lquidistribution des observations (Thorme de Frish-Waugh, Thorme de Gauss-
Markov, estimation des paramtres du second ordre, le R2 et lanalyse de la variance). On
montre ensuite dans le chapitre 3 comment la spcification de la loi des rsidus comme une
loi normale permet de complter lanalyse en particulier en permettant dobtenir la loi des
estimateurs, tape incontournable pour procder des tests dhypothses simples (test de
Student) ou dfinir des intervalles de confiance pour les paramtres. On examine ensuite
dans le chapitre 4 et dans le mme cadre o la loi des rsidus est suppose normale, le cas
important des estimations sous contraintes linaires (dans les paramtres). On prsente
alors les tests dhypothses linaires sur les paramtres par le biais des tests de Fisher.
Ces rsultats sont obtenus sous des hypothses fortes :
Indpendance des rsidus et des variables explicatives : l (u |x) = l (u)
Homoscdasticit V (u |x) = 2 I
Spcification de la loi des rsidus : l (u) normale.
Les chapitres suivants vont progressivement revenir sur chacune de ces hypothses.
On va dabord examiner dans un cadre trs proche la loi asymptotique des estimateurs,
cest dire lorsque le nombre dobservations devient grand. On va chercher dvelopper
le mme genre de proprits permettant de faire de linfrence mais sans spcifier la loi
des rsidus. Les rsultats seront obtenus sous les hypothses :
Absence de corrlation entre les rsidus et les variables explicatives E (ux0 ) = 0
Homoscdasticit V (u |x) = 2 I
Le comportement asymptotique des estimateurs est examin dans le chapitre 5.
Dans le chapitre 6 on revient sur les hypothses dindpendance et dquidistribution
des paramtres. On prsente lestimateur des moindres carrs gnralise ainsi que di-
rentes faons de traiter la situation dite dhtroscdasticit, i.e. situation dans laquelle la
variance des rsidus dpend des variables explicatives. On aborde aussi succinctement la
question des donnes de panel et de lestimation de modles faisant intervenir des systmes
dquations. Le cadre dans lequel on se situe est juste bas sur
Absence de corrlation entre les rsidus et les variables explicatives E (ux0 ) = 0
Les chapitres 7, 8 et 9 utilisent la mthode des moindres carrs gnraliss en sap-
puyant sur une connaissance a priori de la structure de corrlation des rsidus. Le chapitre
7 sintresse plus particulirement au cas des rgressions empiles. Dans le chapitre 8, on
considre le cas dune rgression en coupe dans laquelle on a htroscdascticit du rsidu,
ce qui peut tre le cas par exemple pour une quation de salaire, la variance du rsidu
tant gnralement croissante avec le revenu. Dans le chapitre 9, on considre le cas des-
timations o le rsidu peut tre modlis comme une srie temporelle de comportement
8 CHAPITRE 1. INTRODUCTION
I = 1 I > 0
y = xb + u
I = zc + u
1.7. PLAN 9
Ce type de modle appel modle Tobit est souvent utilis, en particulier pour abor-
der lendognit de variables explicatives prenant la valeur 0 ou 1 dans des modles
coecients variables
yi = i Ii + vi
Ce type de modle est souvent utilis pour aborder lvaluation des eets microcono-
miques des politiques de lemploi comme les stages de formations.
Dans le chapitre 13, on sintresse lvaluation des politiques publiques. On intro-
duit notamment lestimateur par dirence de dirences qui sapplique une exprience
naturelle. On parle dexprience naturelle lorsquune partie de la population a fait lobjet
dune nouvelle politique, tandis quune autre partie de la population na pas fait lobjet
de cette politique et donc peut servir de population tmoin. On ne peut observer le com-
portement des individus touchs par une mesure sils navaient pas t touchs, on verra
comment on peut nanmoins construire des estimateurs valuant limpact dune nouvelle
politique.
10 CHAPITRE 1. INTRODUCTION
Chapitre 2
Lestimateur des moindres carrs ordinaires reste lun des estimateurs les plus fr-
quemment utiliss. Il a de nombreux usage. On peut lutiliser par exemple pour procder
une description des donnes : quelles sont les variables rendant compte le mieux de
la variabilit dune variable dintrt. On peut aussi lutiliser dans de nombreuses autres
situations pour estimer un paramtre auquel on donne un sens causal : que se passerait-il
si on faisait varier une variable donne dun montant donn. Il est bas sur lhypothse
essentielle que les rsidus et les variables explicatives sont orthogonaux. Il faut dautres
hypothses pour driver les principales proprits de lestimateur. On verra dabord les
proprits algbriques puis les proprits statistiques. Une partie du cours correspondra
lextension et la reformulation des proprits de lestimateur des mco lorsque lon remet en
cause ces hypothses. On gnralise ou adapte le plus souvent les proprits de lestima-
teur la condition que lhypothse centrale dabsence de corrlation entre perturbations
et variables explicatives soit maintenue.
On va voir dans ce chapitre la dfinition de lestimateur des mco et son interprta-
tion algbrique comme vecteur des coecients de la projection orthogonale de la variable
dpendante sur les variables explicatives. On va galement obtenir deux proprits impor-
tantes de cet estimateur qui sont : la proprit de sans biais et une proprit doptimalit
concernant la variance de lestimateur, connue sous le nom de Thorme de Gauss-Markov.
11
12 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES
y = xbb = x (x0 x) x0 y = Px y
1
b
u = yb
b y = (IN Px ) y = Mx y
Les matrices Px et Mx sont les matrices des projecteurs orthogonaux sur respectivement
lespace engendr par e, x1 , . . . , xK et son orthogonal. Comme on le vrifie directement
on a en eet
Px2 = Px
Mx2 = Mx
Px + Mx = IN
et en outre
Px v = v tq v = x
on peut alors retrouver les coecients des variables x2 en rgressant la partie inexplique
y x1bb1 sur x2 :
bb2 = x2 0 x2 1 x2 0 y x1bb1
1 0
avec Mx2 = IN x2 x2 0 x2 x2
14 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES
Dmonstration Les coecients de la rgression de y sur x = x1 , x2 satisfont
0 b b
x1 y x1 b1 x2 b2 = 0
x2 0 y x1bb1 x2bb2 = 0
soit
x1 0 Mx2 y x1bb1 = 0
0 b
x1 Mx2 Mx2 y Mx2 x1 b1 = 0
y = xb + u
On sintresse aux proprits statistiques de lestimateur des mco : quelle est son esp-
rance, sa variance... Comme lestimateur est une fonction des observations, ses proprits
statistiques dpendent de la loi des observations l (y, x). On les caractrise a partir dhy-
pothses sur la loi conditionnelle de y sachant x, cest dire dans le cadre du modle
prcdent comme des hypothses concernant la loi de la perturbation u conditionnelle-
ment aux variables explicatives.
Z
Dans cette dfinition E bb y, x = bb y, x f y, x dydx o f y, x reprsente la
densit jointe des variables explicatives et dependantes.
Proposition Sous lhypothse
H2 : E (un |x) = 0 n
lestimateur des mco est sans biais.
Dmonstration Lestimateur des mco scrit
bbmco = (x0 x)1 x0 y
1
= (x0 x) x0 (xb + u)
1
= b + (x0 x) x0 u
16 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES
on sintresse E bb y, x |x . On a clairement E bb y, x |x = b + (x0 x)1 x0 E (u |x) .
Comme E (u |x) = 0 par hypothse on a bien E bb y, x |x = b. On en dduit immdia-
tement E bb y, x = E E bb y, x |x =b
Lhypothse H2 est extmement forte, puisquelle signifie que lorsque les rsidus
changent, les variables explicatives ne changent pas. Dans de nombreuses situations cette
hypothses ne peut pas tre tenu. Cest par exemple le cas si on prend un modle ore-
demande dans lequel on observe les prix et les quantits. Si on considre lquation de
demande par exemple, elle correspond lexistence dune relation dcroissante entre la
variable dpendante, la quantit, et la variable explicative, le prix. Si il y a un choc de
demande, le dsquilibre sur le march va se rsoudre par une hausse de la quantit chan-
ge et une hausse du prix. Dans ce modle on ne peut donc pas tenir lhypothse H2 par
nature mme du modle auquel on sintresse. Dans dautres cas la situation peut tre plus
favorable. Par exemple dans le cas de la taille de la classe et du taux de russite scolaire, il
est vrai que lon peut contester le fait que E (u |taille ) = 0, mais il est possible quil existe
un ensemble de variables explicatives x tel que lon ait u = xc + v et E (v |taille, x) = 0.
Autrement dit, on peut identifier, mesurer et introduire dans la rgression les sources de
variabilit communes la taille et au rsidu. Le modle devient tx = a0 + at taille + xb + v.
La matrice E (uu0 |x) a pour lments n, m E (un um |x) . On dduit directement des hy-
pothses que E (uu0 |x) = 2 IN
La matrice de variance a deux composantes : 2 et E (x0 x)1 . Plus 2 , i.e. la va-
riance rsiduelle, est grande, moins lestimateur est prcis. Ceci implique que lon peut
accrotre la prcision des estimateurs de variables dintrt en introduisant des variables
additionnelles, satisfaisant les hypothses du modle linaire H1 H4, ds lors quelles
contribuent rduire la variance rsiduelle. La matrice x0 x joue un rle central dans la
variancePde 0lestimateur. On peut lcrire partir des observations individuelles
1 P 0 comme
0 0
x x = n xn xn . On voit quune criture plus adapte est x x = N N n xn xn . Dans
le
1cas du modle linaire simple avec une unique variable explicative centre la matrice
P 0 1 2
N n xn xn scrit simplement
comme 1/x = 1/V (x). On voit que dans ce cas la va-
riance de lestimateur scrit V bb = 2 / (NV (x)) . Lestimateur est donc dautant plus
prcis que le nombre dobservations est grand. On sintresse en gnral lcart-typedes
paramtres estims. La formule prcdente implique que lcart type dcrot comme N.
Lorsque la taille de lchantillon est multiplie par 4 lcart-type nest divis que par 2.
On imagine donc bien que dans un chantillon de petite taille la prcision de lestimateur
est un problme important. On voit aussi que dans de grands chantillons de plusieurs
centaines de milliers dobservations, la prcision des estimations sera trs grande. La for-
mule prcdente montre aussi que lestimateur est dautant plus prcis que la variance de
la variable explicative est importante. Cest parce que lon observe des situations di-
rentes au regard des variables explicatives qui ne soient pas corrles avec les rsidus du
modle conomique que lon peut identifier leet de ces variables. Enfin un dernier cas
permettant dillustrer les implications de la formule prcdente est le cas dans lequel il y
a deux variables explicatives par exemple de mme variance 2 et ayant un coecient de
corrlation . Dans ce cas on calcule simplement
1
1 P 0 1 1
x xn = 2
N n n x (1 2 ) 1
On voit que dans ce cas la prcision de lestimateur est dautant plus faible que les variables
sont corrles. Au total, on voit que si les variables sont presque colinaires la prcision
de lestimateur sera faible.
fonction linaire des observations. Ceci forme une classe destimateurs. La question
laquelle rpond le thorme de Gauss-Markov est celle de loptimalit (au sens de la
prcision) de lestimateur dans la classe des estimateurs linaires sans biais.
Definition Un estimateur bb1 est optimal dans une classe destimateurs bb si toute es-
timation dune combinaison linaire du paramtre est estime plus prcisment avec bb1
quavec nimporte quel estimateur de la classe considre :
, V 0bb1 V 0bb
b
Cette proprit signifie que la matrice de variance V b1 de b1 vrifie V bb1
b 0
0 V bb , cest dire que V bb1 V bb est semi-dfinie ngative.
Theoreme Gauss-Markov : Sous les hypothses H1-H4 lestimateur des moindres carrs
ordinaires du modle
y = xb + u
est optimal dans la classe des estimateurs sans biais conditionnellement aux variables x.
Dmonstration Soit eb un estimateur linaire sans biais du paramtre b. Il existe donc
une matrice A tel que cet estimateur scrit eb = Ay. Lhypothse dabsence de biais signifie
E eb |x = b ce qui implique E Ay |x = E (A (xb + u) |x) = Axb + AE (u |x) = b
Comme E (u |x) = 0. Labsence de biais signifie Axb = b. Ce rsultat est vrai pour b
quelconque donc pour tout b, cest--dire :
Ax = IK+1
On a en outre eb E eb |x = A y E (y |x) = Au. La variance dun estimateur li-
naire sans biais quelconque est donc de la forme V eb |x = V (Au |x) = AV (u |x) A0 =
2 AA0 compte tenu de lhypothse cruciale V (u |x) = 2 IN . Comme IN = Px + Mx =
x (x0 x)1 x0 + Mx , on a
V eb |x
1
= 2 AA0 = 2 A x (x0 x) x0 + Mx A0
2 0 1 0 0 0
= Ax (x x) x A + AMx A
comme Ax = IK+1 et V bb |x = 2 (x0 x)1 , on a
V b |x = V bb |x + 2 AMx A0
e
b = y xbb
u
0
0 0
b0 u
u b = u Mx u = T r u Mx u = T r Mx uu
On a donc
0 0
0
bu
E u b |x = E T r Mx uu |x = T r E Mx uu |x
0
= T r Mx E uu |x = 2 T r (Mx )
et Mx = IN x (x0 x)1 x0 do
1 1
T r (Mx ) = T r IN x (x0 x) x0 = N T r x (x0 x) x0
0 1 0
= N T r (x x) x x = N K 1
La prvision de yN +1 est
ybN+1 = xN+1bbmco
Conditionnellement aux variables explicatives la prvision est sans biais :
yN+1 yN+1 |x, xN+1 ) = E xN +1 bbmco b uN+1 |x, xN +1 = 0
E (b
ybN+1 est le meilleur estimateur sans biais de yN+1 , linaire dans les observations y1 , . . . , yN .
Ceci constitue une application directe du Thorme de Gauss Markov : si on considre
un estimateur linaire sans biais yeN+1 de yN+1 . La variance de lerreur de prvision scrit
E (yN+1 yeN+1 |x,
xN+1 )2 = E (xN+1 b + uN+1 yeN+1 |x, xN+1 )2 = E (xN+1 b yeN+1 |x, xN+1 )2 +
E u2N+1 |x, xN+1 puisque lestimateur est linaire en y et que y nest pas corrl uN+1
conditionnellement aux observations de x. Le problme se rsume donc chercher les-
timateur linaire sans biais de variance minimale de la combinaison linaire xN+1 b du
paramtre b. Le thorme de Gauss-Markov indique quil sagit de xN +1bbmco
La variance de lerreur de prvision est
h i
1
yN+1 yN+1 )2 = 2 x0N+1 (x0 x) xN+1 + 1
E (b
y ye = yb ybe + u
b
compte tenu de lorthogonalit on peut donc crire lquation dite quation danalyse de
la variance
P P 2 P
n (yn y)2
= n b
yn b
y + nu bn 2
ou encore
V (y) = V (b
y ) + V (b
u)
La variance totale est la somme de la variance explique et de la variance rsiduelle. On
introduit une quantit trs couramment utilise qui mesure la part de la variance explique
par le modle. 2
yb ybe uk2
kb
2
R = 2 = 1 2 0 1
ky yek ky yek
Le R2 est frquemment utilis pour mesurer la qualit de lajustement. Nanmoins deux
prcautions doivent tre prises :
2.3. VARIABLE OMISE ET RGRESSEUR ADDITIONNEL 21
fortes sur lpaisseur des queues de distribution des rsidus, on peut spcifier la loi
asymptotique de lestimateur.
24 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES
Chapitre 3
Dans ce chapitre on examine les proprits de lestimateur des mco lorsque lon fait
lhypothse de normalit des perturbations. Plus prcisment on fait lhypothse Hn sui-
vante.
Hn : la loi de u conditionnellement aux variables explicatives x est une loi normale de
moyenne nulle et de matrice de variance 2 IN .
1 X
2 2
l (u |x) = N un /2
2
u |x N 0, 2 IN
Remarque Cette hypothse est plus forte que les hypothses H2 H4 puisquelle implique
que le moment dordre 1 de u conditionnellement x est nul. cest dire lesprance
On va voir que dans ce cas on peut prciser la loi de lestimateur du paramtre ainsi
que celle de lestimateur de la variance des rsidus. On va aussi obtenir un rsultat central,
le thorme de Cochrane, la base de tous les tests eectus partir de lestimateur des
mco.
25
26CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS.
b2
[N (K + 1)] 2 2 (N (K + 1))
3. bbmco et
b2 sont indpendants (Thorme de Cochran)
Dmonstration Le rsultat concernant la normalit de lestimateur est immdiat. Il
provient du fait que lestimateur des mco est linaire dans les observations de la variable
dpendante. Comme conditionnellement x la variable dpendante est normale, lestima-
teur des mco est une combinaison linaire de variables normales et est donc lui mme
un vecteur normal, caractris par ces deux premiers moments : son esprance dont on a
vu quelle tait gale la vraie valeur du paramtre, et sa matrice de variance dont on a
donn lexpression au chapitre prcdent, sous des hypothses plus gnrales que celle de
la loi normale.
De mme, les rsidus estims sont eux mmes normaux. On a en eet u b = Mx y = Mx u.
Par ailleurs, on a aussi directement bb b = (x0 x) x0 u. Finalement on peut spcifier la
1
On en dduit donc que ces deux vecteurs suivent une loi normale jointe, de moyenne
visiblement nulle et dont on peut prciser la variance :
0 1 0 0
bb b (x x) x bb b (x0 1 0
x) x
V x = V x
b
u Mx b
u Mx
0 1 0
(x x) x
= 2 x (x0 x)1 Mx
Mx
0 1 0
2 (x x) x x (x0 x)1 x (x0 x)1 Mx
=
Mx x (x0 x)1 Mx
Comme Mx x = 0, on en dduit
0 1
bb b
V x = 2 (x x) 0
b
u 0 Mx
Dont on dduit
1. lexpression de la variance de lestimateur des mco
2. lestimateur des mco et les rsidus estims sont indpendants (car tant tous les
deux normaux et non corrls). Lestimateur des mco et lestimateur de la variance
b2 = u
b0 u
b/ (N K 1) sont donc indpendants.
3.2. ECART-TYPES ESTIMS, TESTS ET INTERVALLES DE CONFIANCE 27
On a immdiatement le rsultat que Vb bbmco |x est un estimateur sans biais de la matrice
de variance de lestimateur mco du paramtre.
28CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS.
b2k =
b2 xkk
q
bk =
La quantit b2k est systmatiquement associ nimporte quelle estimation par
b2 on peut directement donner la loi de
les mco. Grce aux rsultats portant sur la loi de
b2k :
b2k
[N (K + 1)] 2
2 (N (K + 1))
k
bbk bk
Student (N K 1)
bk
X1
S=p Student (H)
X2 /H
3.2. ECART-TYPES ESTIMS, TESTS ET INTERVALLES DE CONFIANCE 29
Ici bbk N (bk , 2k ) . On en dduit donc que bbk bk / k N (0, 1) . En outre le rsultat
2
prcdent tablit que [N (K + 1)] b k2 2 (N (K + 1)) et est indpendant de bbk . On
k
a donc par application directe de la dfinition
bbk bk / k bbk bk
r = Student (N K 1)
b 2k
bk
[N (K + 1)] 2 / [N (K + 1)]
k
Les lois de Student sont des lois symtriques de moyenne nulle et de variance H/ (H 2)
o H est le nombre de degrs de libert. Plus H est faible, plus les queues de distribu-
tion sont paisses. On voit quil y a un nombre minimal de degrs de libert pour que le
moment dordre 2 existe : H > 2.
rejeter H0 alors que H0 est vraie (i.e. rejeter H0 tort). Pour un test pur caractris par
une rgion critique W , il sagit de la fonction P (W ) dfinie sur 0 Pour un test alatoire,
elle est dfinie par E ( (y)). On la note (, ) . Dans cette notation, reprsente le test
et la valeur du paramtre. Le risque de deuxime espce est linverse la probabilit
daccepter tort lhypothse nulle (i.e. la probabilit de rejeter H1 alors que H1 est vraie. Il
est dfini comme 1E ( (y)) pour 1 et dans le cas dun test pur par 1P (W ). On
note en gnral cette quantit (, ) Enfin la puissance du test reprsente la probabilit
de rejeter raison lhypothse nulle. On la note (, ). Cette fonction est dfinie sur
1 et troitement lie la fonction de risque de deuxime espce (, ) = 1 (, ).
On prfrerait des tests pour lesquels les risques de premires et seconde espce soient
les plus faibles possibles. Cest dire quun test est prfr un autre si les fonctions
de risque de premire et seconde espce sont plus faibles. Il existe clairement des tests
minimisant sparment chacun des risques (le test correspondant au rejet systmatique
de H1 minimise le risque de premire espce). Nanmoins on montre facilement quil ny
a pas de test annulant simultanment les deux risques : il est donc ncessaire de se rfrer
un principe permettant de slectionner un test. Le principe retenu est celui de Neyman
qui consiste privilgier la minimisation du risque de seconde espce. On considre des
classes de tests caractriss par un seuil (ou encore niveau) donn . Ces tests sont tels
que le risque de premire espce soit uniformment infrieur . Parmi ces tests, on
souhaiterait slectionn ceux maximisant la puissance. Cest ce que lon appelle des tests
uniformment plus puissants. Ils sont tels quils maximisent parmi les tests de niveaux
la puissance pour toute valeur du paramtre correspondant lhypothse alternative.
De tels tests nexiste en gnral pas et on adjoint dautres proprits : tests sans biais,
tests invariants... qui permettent de restreindre encore la classe des tests examins. La
proprit de tests sans biais au niveaux correspond pour les tests de niveau au fait
que la puissance du test pour toute valeur du paramtre sous lhypothse alternative soit
suprieure . On considre le test de lhypothse nulle
H0 : bk = b0k
contre lhypothse
H1 : bk 6= b0k
On a alors le rsultat suivant
Proposition Considrant la statistique
bbk b0
Sb = k
bk
le test dfini par la rgion critique
n o n o
b b b b
W = S S < tNK1 (1 /2) S S > tNK1 (1 /2)
32CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS.
o tNK1 (1 /2) est le quantile dordre 1/2 dune loi de Student N K 1 degrs
de libert est un test uniformment plus puissant sans biais au niveau de lhypothse
H0 contre H1 .
On vrifie aisment que ce test est un test au niveau . En eet sous lhypothse nulle
bb b0
on a vu que kb k k suit une loi de Student N K 1 degrs de libert. La probabilit
de rejeter lhypothse nulle (la probabilit de la rgion critique) dans ce cas est donc
bien . Montrer la proprit de sans biais et la proprit concernant la puissance est plus
compliqu (voir les rsultats dans Gourierouxnet Monfort
sur le modle exponentiel).
o On
b b
peut aussi dfinir la rgion critique par W = S S > tNK1 (1 /2)
bb b0
Mise en oeuvre du test : on calcule la statistique de Student kb k k . Suivant les valeurs
prises par cette statistique, on accepte ou rejette lhypothse nulle. Si la statistique prend
des valeurs extrmes on rejette lhypothse, sinon on laccepte. Le seuil de rejet dpendent
du niveau du test. On considre en gnral des tests au seuil de 5%. Le quantile dordre
97, 5% = 1 2, 5% dune loi de Student dpend du nombre de degrs de libert. lorsque
ce nombre devient grand, ce quantile est 1.96. On sera donc amen rejeter au seuil de
5% une hypothse ds lors que la statistique de Student en valeur absolue est suprieur
1.96. Lorsque le nombre de degrs de libert est plus faible, cest dire lorsque le nombre
de variables explicatives est plus important ou lorsque le nombre dobservations est plus
faible, le seuil augmente. Par exemple pour 5 degrs de libert, le seuil de la rgion critique
est de 2,56 ; pour 500 degrs de libert de 1,96 (voire figure 3.1)
Ce test est parfois caractris par ce que lon appelle la p-value. Il sagit contrario du
niveau du test pour lequel la statistique
observe
serait
le seuil. Elle est donc dfinie par la
b b
quantit pb value = P |S| > S = 2 1 F S lorsque S suit une loi de Student
N-K-1 degrs de libert. On acceptera lhypothse nulle pour un test au niveau si la
pb value est suprieure . En eet compte tenu du fait que F (tNK1 (1 /2)) =
1 /2, on a 2 (1 F (tNK1 (1 /2))) =
pb value > Sb < tNK1 (1 /2)
Un test systmatiquement mis en oeuvre est le test dit de significativit des paramtres. Il
correspond lhypothse nulle bk = 0. La statistique de Student associe ce test, nomme
t de Student est dfinie par bbk /b
k . En gnral nimporte quelle estimation dun modle
linaire fait par dfaut lhypothse de normalit des rsidus. Elle produit la valeur estime
du paramtre la valeur estime de lcart-type, la valeur du t de Student (correspondant
lhypothse de significativit du paramtre) et la p-value correspondant ce test.
3.3 Un exemple
Pour illustrer les tests et leur utilisation, on peut calculer la fonction de puissance du
test lorsque la vraie valeur du paramtre varie. On va considrer un modle une unique
3.3. UN EXEMPLE 33
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-5 -3 -1 1 3 5
variable
y = 1 + xb0 + u
et on va simuler ce modle pour dirente vraie valeur du paramtre, allant de 0 2. On
va sintresser au test de lhypothse H0 : b = 1. Pour calculer la fonction de puissance
en un point donn b0 , on utilise des simulations. On titre un chantillon Ech1 avec b0
comme vraie valeur du paramtre. Sur cet chantillon on applique le test. On retient
la dcision d1 = 1 si on rejette et d1 = 0 sinon. On rplique cette opration avec la
mme vraie valeur sur M chantillons, avec M grand. On a ainsi un ensemble de valeur
(di )iM . On approxime la valeur de la fonction de puissance par (b0 ) = di . Cest bien
un estimateur du nombre de fois ou on a rejet raison lhypothse. Bien sur, lorsque
b0 = 1, la quantit calcule nest pas la puissance mais le risque de premire espce. On
peut procder ainsi pour direntes taille dchantillons. On considre le cas dans lequel
il ny a que 20 observations, puis on augmente progressivement ce nombre. On considre
respectivement N = 50, 100, 500, 2000. La figure 3.2 montre le rsultat de ces estimations.
On voit que le graphe de la fonction de puissance a une forme de vasque. Si on se situe
au niveau de la valeur teste b0 = 1, on trouve bien que la proportion de rejet est de 5%,
correspondant au risque de premire espce, et ce quelque soit le nombre dobservations.
Lorsque lon scarte de la vraie valeur on voit que la courbe crot : on rejette de plus
en plus souvent le paramtre. La croissance est trs vive lorsque le nombre dobservation
est grand : si la vraie valeur est de 0.95, on va rejeter lhypothse dans 60% des cas. Par
contre, dans le cas de 20 observations, il faut que la vraie valeur scarte de plus de 0.5
pour que lon atteigne des taux de rejet similaire. Ce rsultat mrite dtre not : avec
un petit nombre dobservations, on est amen accepter tort lhypothse dans 40%
des cas mme lorsque la vraie valeur est assez loigne. Lorsque lcart la valeur teste
augmente, la probabilit de rejet tend vers 1. Cette valeur est trs rapidement atteinte
lorsque le nombre dobservations est grand, pour des nombres plus petits il faut des carts
plus importants.
Remarque Dans le cas o la variance des rsidus est connu, on peut trs facilement
calculer la fonction de puissance. En eet dans ce cas
bb b0
N N (0,1)
/ x
Sous H0 : b0 = 1, on a donc
bb 1
N N (0,1)
/ x
et a rgion critique du test est
( ) ( )
bb 1 bb 1
W = N < qn,/2 N > qn,1/2
/ x / x
3.4. COMPARAISON AVEC LESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE35
100%
80%
60%
40%
20%
0%
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
3.5 Rsum
1. Dans ce chapitre on a examin les proprits de lestimateur des mco lorsque la loi
de u conditionnellement aux variables explicatives x est une loi normale de moyenne
nulle et de matrice de variance 2 IN .
2. On a montr que lestimateur des mco suit une loi normale, que lestimateur de la
variance des rsidus suit convenablement normalis une loi du 2 et que ces deux
estimateurs sont indpendants.
3. On a vu que lon pouvait utiliser ces rsultats pour obtenir un estimateur sans biais
de la matrice de variance de lestimation du paramtre.
bbk bk
4. On a vu que pour une composante donne k du paramtre bk
Student (N K 1)
5. On a appliqu ce rsultat pour dfinir une rgion de confiance pour le paramtre et
mettre en oeuvre des tests.
6. On a vu en particulier que la rgion critique pour le test de significativit dun pa-
ramtre correspondait des valeurs extrmes du t de Student. Le caractre extrme
sapprciant par rapport au niveau du test.
Lhypothse sur P revient dire que P est une matrice symtrique et que ses valeurs
propres sont 0 ou 1. Comme P est symtrique, on peut la diagonaliser dans le groupe ortho-
gonal. On peut donc crire P = Q0 PeQ, avec Q0 Q = IL et Pe = Diag( 1, . . . , 1 , 0, . . . 0)
| {z }
L1 lments non nuls
On dfinit Z = QZ.
Z est aussi un vecteur normal N (0, IL ) puisque
1. Cest un vecteur normal puisquil est combinaison linaire dun vecteur normal
2. Il est desprance nulle puisque E (Z ) = E (QZ) = QE (Z) = 0
3. Il est de variance identit puisque V (Z ) = E (Z Z 0 ) = E (QZZ 0 Q0 ) = QE (ZZ 0 ) Q0 =
QIL Q0 = QQ0 = IL
P 1 2
On a alors Z P Z = Z Q0 PeQZ = Z 0 PeZ = Ll=1
0 0
Zl . Cest donc la somme du carr
de L1 variables normales indpendantes de moyenne nulle et de variance 1. Par dfinition
elle suit un 2 (L1 )
38CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS.
Chapitre 4
d log F d log F
d log Y = (d log CI + d log ACI ) + (d log K + d log AK ) +
d log CI d log K
d log F d log F
(d log L1 + d log A1 ) + + (d log LM + d log AM )
d log L1 d log LM
39
40 CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES
Les gains decacit des facteurs de production font donc intervenir un terme fixe propre
au facteur, un terme dpendant du fait que lentreprise ait innov et un terme alatoire
commun tous les facteurs. On obtient alors lquation
o on utilise le fait que la somme des parts vaut 1. Les rgresseurs sont donc les parts des
facteurs et les parts des facteurs interragies avec la variable dinnovation. On peut sur
cette base formuler un certain nombre dhypothses :
H0(L) : Homognit de leet de linnovation sur le facteur travail.
aI1 = = aIM
4.1 Formulation
On considre le modle linaire :
y =xb+u
42 CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES
dans lequel on fait les hypothses H1-H4 et pour lequel la vraie valeur du paramtre
vrifie le systme de p contraintes linaires :
Rb = r
R est une matrice donne p (K + 1), et r un vecteur donn p 1.
Il y a de toutes vidences des contraintes qui psent sur cette formulation.
1. Il ne doit pas y avoir de contraintes redondantes. Ceci impose que R0 = 0 = = 0
2. Il doit y avoir une solution non unique lquation Rb = r
Ces deux contraintes imposent que R soit de rang p et que le nombre de contraintes p
soit au maximum gal (K + 1) 1. En eet si on en avait K + 1 ou plus, on pourrait
en slectionner K + 1 par exemple R1 b = r1 et on pourrait alors calculer le paramtre
b = R11 r1 . il ny aurait plus de problme destimation.
Exemple Considrons nouveau lexemple prcdent. Le modle scrit
d log SR = K .b0K + 1 .b01 + + M b0M +
+ICI .aICI + I K .aIK + I1 .aI1 + + IaIM + u
Dans le cas de lhypothse H0L : aI1 = = aIM , on peut crire les contraintes sur les
paramtres comme aI2 aI1 = 0, , aIM aI1 = 0, cest dire :
0
0
(b , aICI , aIK )
0 1 1 0 0 aI1
.. . . a
0 . 0 . 0 I2 =0
..
0 1 0 0 1 .
aIM
On voit directement sur cette expression que lestimateur des MCC apporte une
correction lestimateur bmco et que cette correction est dautant plus importante que
Rbmco r 6= 0. Dans le cas o Rbmco = r, les deux estimateurs sont identiques.
Dmonstration Pour trouver lexpression de lestimateur on crit le Lagrangien :
1
L = (y xb)0 (y xb) + (Rb r)0
2
multiplicateur de Lagrange : vecteur de dimension p 1
L
= x0 y + (x0 x) bmcc + R0 = 0
b mcc
L
= Rbmcc r = 0
mcc
De la premire condition on tire : bmcc = (x0 x)1 x0 y R0
Introduit dans la deuxime condition il vient lexpression R (x0 x)1 x0 y R0 = r
soit R (x0 x)1 R0 = R (x0 x)1 x0 y r
1
dont on tire = [R (x0 x)1 R0 ] R (x0 x)1 x0 y r
rintroduit dans on trouve lexpression de bbmcc
1
bmcc = (x0 x)1 x0 y (x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1 x0 y r
indpendamment de lhypothse Hc
Ainsi lestimateur des moindres carrs contraints est potentiellement biais, mais on
voit quil est aussi plus prcis que lestimateur des mco. Sa variance est en eet donne
par :
44 CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES
1
V bmcc |x = V bmcoc |x 2 (x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1
1
et comme (x0 x)1 R0 [R(x0 x)1 R0 ] R(x0 x)1 est une matrice symtrique et positive on
en conclut que
V bmcc |x V bmco |x
Il y a donc un arbitrage entre robustesse et ecacit. Introduire plus de contraintes
amliore la prcision des estimations mais risque de conduire des estimateurs biais. A
linverse, moins de contraintes produit des estimateurs plus robustes mais moins prcis.
Dmonstration Compte tenu de lexpression
0 1 0
h
0 1 0 1
i
bmcc = bmco (x x) R R(x x) R R bmco r
et du fait que bmco est un estimateur linaire sans biais de b sous lhypothse H2 :
1
E bmcc |x = b (x0 x)1 R0 R(x0 x)1 R0 [Rb r]
On voit donc que sous lhypothse Hc : Rb = r, on a E bmcc |x = b. En revanche si les
contraintes ne sont pas satisfaites il existe un biais
E bmcc |x = b + B
1
avec B = (x0 x)1 R0 [R(x0 x)1 R0 ] [Rb r]
On vrifie que ce biais est systmatiquement dirent de 0. En eet, si Rbr 6= 0 alors
1
= [R(x0 x)1 R0 ] [Rb r] est aussi dirent de 0 et donc B = (x0 x)1 R0 . Comme les
contraintes sont non redondantes, et 6= 0, on ne peut avoir R0 = 0.
On a en outre
1
bmcc E bmcc |x = bmco b (x0 x)1 R0 R(x0 x)1 R0 R bmco b
h 1 i 0 1 0
= I (x0 x)1 R0 R(x0 x)1 R0 R (x x) x u
1
On introduit H = (x0 x)1 R0 [R(x0 x)1 R0 ] R. Cette matrice vrifie les proprits sui-
vantes
H2 = H
H(x0 x)1 = (x0 x)1 H 0
H(x0 x)1 H 0 = H 2 (x0 x)1 = H(x0 x)1
On a donc
bmcc E bmcc |x = [I H] (x0 x)1 x0 u
4.4. ESTIMATEUR DE LA VARIANCE DES RSIDUS 2 45
b
uc = y x bmcc
On peut comme dans le cas des mco dfinir un estimateur de la variance des rsidus
partir de la somme des carrs de ces rsidus.
Lemme On peut crire le vecteur des rsidus estims dans le modle contraint comme
la somme de deux termes orthogonaux, le vecteur des rsidus estims par les mco dune
part et un terme appartenant lespace engendr par les x dautre part
uc = b
b u + Pc u = b
u+e
u
1
o Pc = x(x0 x)1 R0 [R(x0 x)1 R0 ] R(x0 x)1 x0 est un projecteur orthogonal sur un sous
espace de lespace engendr par les x.
Dmonstration On a lexpression de b
uc
uc = xb + u x bmcc = I x [I H] (x0 x)1 x0 u
b
= Mx + xH(x0 x)1 x0 u
avec Mx = I x (x0 x)1 x0 . On introduit
1
Pc = xH(x0 x)1 x0 = x(x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1 x0
On a directement Pc2 = Pc et Pc0 = Pc . En outre Pc z = x (H(x0 x)1 x0 z) appartient
lespace engendr par les x.
46 CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES
b0c u
u b0 b
bc = u e0 e
u+u u
u et e
b u sont en eet orthogonaux puisque b
u est la projection de u sur lorthogonal de x et
e une projection de u sur un sous espace de lespace engendr par les x. Donc
u
0 0 0
E buc b
uc |x = E ubb u |x + E e
uu e |x = 2 [(N K 1) + T r (Pc )]
En outre
0 1 0 0 1 0 1 0 1 0
T r (Pc ) = T R x(x x) R R(x x) R R(x x) x
1
= T R R(x0 x)1 R0 R(x0 x)1 x0 x(x0 x)1 R0
= T r (Ip ) = p
b2mcc
[N (K + 1) + p] 2 (N (K + 1) + p)
2
4.5. LOI DE LESTIMATEUR DES MOINDRES CARRS CONTRAINTS 47
3. bbmcc et
b2mcc sont indpendants
.
4. Considrant la k ieme b
composante de lestimateur, on a bmcc (k) b0 (k) bmcc (k)
suit une loi de Student N (K + 1) + p degrs de libert
Dmonstration Compte tenu de lexpression de bmcc
1
bmcc = (x0 x)1 x0 y (x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1 x0 y r
1
= b + (x0 x)1 x0 u (x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1 x0 u
lorsque les contraintes sont satisfaites, on voit directement que lestimateur est normal
lorsque les rsidus sont normaux puisque lestimateur est une combinaison linaire du
rsidu. On a en outre
bmcc b = (I H) (x0 x)1 x0 u
et
b
uc = [Mx + Pc ] u
avec Mx = I x (x0 x)1 x0 et Pc = xH(x0 x)1 x0 . On vrifie donc sans peine que bmcc et
b
uc sont non corrls et donc indpendants :
E bmcc b u b0c = E (I H) (x0 x)1 x0 uu0 [Mx + Pc0 ] = 2 (I H) (x0 x)1 x0 [Mx + Pc0 ]
= 2 (I H) (x0 x)1 x0 Pc0 = 2 (I H) (x0 x)1 x0 xH(x0 x)1 x0
= 2 (I H) H(x0 x)1 x0 = 0
Les rsultats sont reports dans le tableau 4.1. Pour chacune des spcifications on
reporte la valeur estime du coecient ainsi que lcart-type estim. Ces deux informations
permettent de faire des tests dhypothses simples (en particulier de nullit de chaque
coecient pris individuellement). La loi suivie par les t de Student que lon peut former
est une loi de Student 3627-12 degrs de libert pour la spcification alternative H1. Il
varie ensuite dune colonne lautre suivant le nombre de contraintes introduites. Dans la
premire spcification, le nombre de contrainte est de 1, le nombre de degrs de libert est
donc 3627-12+1. En thorie les valeurs critiques des t de Student pour un test un niveau
donn dirent dune colonne lautre puisque la loi nest pas la mme. Nanmoins ici
le nombre de degrs de libert est grand et dans ce cas la distribution dune loi de Student
se confond avec celle dune loi normale : la valeur critique est donc la mme pour chaque
rgression. Dans le cas dun test 5% la valeur critique est ainsi de 1.96. On acceptera
donc lhypothse de nullit de chaque paramtre pris individuellement si le ratio entre le
coecient et son cart-type est en valeur absolue infrieur 1.96.
On voit sur les estimations du modle non contraint que leet de linnovation sur
lecacit des facteurs semble assez direntes dun facteur lautre. Le coecient du
capital apparat ngatif et grand en valeur absolue alors que le coecient pour les jeunes est
positif et grand. Nanmoins on voit que les estimations sont imprcises et les tests dgalit
des coecients pris individuellement sont souvent accepts. En fait seul le coecient
pour la part des jeunes est significativement dirent de zro. On est typiquement dans
une situation dans laquelle les rsultats sont robustes mais peu prcis. On sent bien quil
y a l moyen de gagner en prcision de faon importante en imposant des contraintes
supplmentaires.
On voit nanmoins que chacune des spcifications contraintes conduit des modifica-
tions importantes des coecients : si on impose lhomognit sur lensemble des facteurs,
on parvient une ecacit trs faible pour chaque facteur. Si on impose en revanche la
nullit pour le capital et les consommations intermdiaires et lhomognit sur le travail,
on voit que leet sur le travail est important, de lordre de 0.05, significativement dif-
frent de zro. Face cette forte sensibilit des rsultats aux hypothses eectues il est
important de pouvoir mettre en oeuvre des tests qui permettront de guider le choix vers
une spcification plus quune autre.
b1
r = [R1 , R2 ]
b2
avec R1 une sous matrice de R de dimension p p suppose inversible, R2 une autre sous
matrice de dimension p (K + 1 p) , b1 un vecteur de dimension p 1 et b2 un vecteur
de dimension K + 1 p 1
On peut alors crire r = R1 b1 + R2 b2 soit encore :
b1 = R11 [r R2 b2 ]
y = x1 b1 + x2 b2 + u = x1 R11 (r R2 b2 ) + x2 b2 + u
y x1 R11 r = x2 x1 R11 R2 b2 + u
est un test UPP dans la classe des tests invariants, o q1 (F (p, N (k + 1))) est le
quantile dordre 1 de la loi de Fisher p et N (K + 1) degrs de libert.
Dmonstration La preuve du rsultat concernant la distribution de la statistique sous
H0 dcoule directement de Q1 = b 2 2 (p) , de Q2 = (N (K + 1)) 22
b 0 [R(x0 x)1 R0 ]1 /
2 b 0 0 1 0 1 b 2 b
N(K+1) , et du fait que comme [R(x x) R ] / est issu de bmco qui est indpen-
dant de b2 Q1 et Q2 sont indpendants. On a alors par dfinition de la loi de Fisher
, 2
b 0 [R(x0 x)1 R0 ]1 /
b 2 (N (K + 1)) 2 b 0 [R(x0 x)1 R0 ]1
b
= 2 F (p, N (k + 1))
p N K 1 p
On voit aussi directement que le test est un test au seuil puisque le risque de premire
espce P (W, ) pour 0 est par dfinition de la rgion critique . Pour le rsultat
doptimalit, il faut noter que le test est optimal dans la classe des tests invariants, cest
dire dans la classe des tests ne changeant pas lorsque on applique une transformation
bijective aux donnes.
On peut obtenir une expression de la statistique du test de Fisher la rendant trs
simple mettre en pratique. Cette expression ne fait plus intervenir lcart Rbmco r mais
uniquement les sommes des carrs des rsidus dans les estimations du modle contraint
SCRC et non contraint SCR.
1
b 0 [R(x0 x)1 R0 ]
b
Proposition La statistique de Fisher Fb = 1p b2
se rcrit simplement
partir des sommes des carrs des rsidus dans le modle contraint et non contraint
1b 0 [R(x0 x)1 R0 ]1
b SCRC SCR N (k + 1)
b
F = =
2
p b
SCR p
1
On reconnat dans cette expression la matrice PC = x(x0 x)1 R0 [R(x0 x)1 R0 ] R(x0 x)1 x0
introduite dans le lemme dcomposant le rsidu dans le modle contraint comme
b
uc = b
u + Pc u = b
u+e
u
b 0 [R(x0 x)1 R0 ]1
On a donc b = u0 PC u = e
u0 e
u. On en dduit donc
b 0 R(x0 x)1 R0 1
b = u0 PC u = b
u0C u u0 b
bC b u
52 CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES
SCRC SCR N (k + 1)
Fb =
SCR p
F (p, N (k + 1))
SCR est la somme des carrs des rsidus estims sans contraintes et SCRC est la somme
des carrs des rsidus estims sous contrainte.
Pour tester chacune de ces hypothses contre lhypothse nulle H1 (pas de restrictions
sur les coecients aICI , aIK , aI1 , , aIM ) on peut considrer la rgression sous lhypo-
thse alternative ainsi que les rgressions intgrant les direntes contraintes. Pour mettre
en oeuvre le test de lhypothse dune spcification contrainte, on considre la somme des
carrs des rsidus sous lhypothse nulle la somme des carrs des rsidus sous lhypo-
thse alternative ainsi que le nombre de degrs de libert et le nombre de contraintes.
Le tableau 4.2 reporte les informations pertinentes pour mettre en oeuvre le test. Si on
prend par exemple le cas de la dernire spcification la somme des carrs des rsidus
vaut 97.266 sous lhypothse nulle et 97.099 sous lhypothse alternative. Le nombre de
contraintes introduites est 3 et le nombre de degrs de libert sous lhypothse alternative
est N K + 1 = 3616. La statistique de Fisher vaut donc
SCRC SCR N (k + 1) 97.266 97.099 3616
Fb = = = 2.07
SCR p 97.099 3
Sous lhypothse nulle cette quantit est distribue suivant une loi de Fisher 3 et 3616
degrs de libert dont le quantile dordre 95% est 3.53. Comme la valeur estime est
infrieure cette valeur seuil, on accepte lhypothse. On peut aussi regarder la p-value
qui est la probabilit pour quune loi de Fisher 3 et 3616 degrs de libert excde la
valeur obtenue (2.07). On trouve une probabilit de 10%que lon compare la valeur seuil
choisie.
On voit que parmi toutes les contraintes essayes certaines sont rejetes. Statistique-
ment on ne peut accepter en particulier lhypothse que leet est homogne entre tous
les facteurs (spcification H0 (L, K, CI)). Cette spcification conduisait on la vu des
coecients trs faible, loin des valeurs calcules dans la spcification non contrainte. Par
contre on voit que les hypothses dhomognit de leet sur le travail H0 (L) et de nullit
de leet sur le capital et les consommations intermdiaires H0 (k = CI = 0) sont accep-
tes. En outre lhypothse globale runissant ces deux contraintes H0 (K = CI = 0, L) :
homognit de leet sur le travail et nullit de leet sur le capital et les consommations
intermdiaires, est accepte. Il est intressant de remarquer que le test de lhypothse glo-
bale H0 (K = CI = 0, L) passe un peu mieux que le test de lhypothse H0 (K = CI = 0)
comme en tmoigne les p-values (10% contre 6.5%). On aurait pu la limite rejeter lhypo-
thse H (K = CI = 0) mais accepter lhypothse plus contraignante H0 (K = CI = 0, L) .
54 CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES
y = xb + u
de calculer la somme SCR des carrs des rsidus estims, destimer le modle contraint
X
k=J X
k=K
y xk b0k = b0 e + xk bk + u
k=1 k=J+1
de calculer la somme SCRC des carrs des rsidus estims et de former la statistique
N (K + 1) SCRC SCR
Fb = F (J, N (K + 1))
J SCR
Pour un test au niveau on refusera lhypothse nulle si Fb est suprieur au fractile dordre
(1 ) de la loi F (J, N (K + 1)), not F (1 ).
On dduit de lexemple prcdent un test systmatiquement associ toute rgression
et dutilisation trs courante : le test de la significativit globale des coecients
dune rgression
H0 : b1 = b2 = b3 = ... = bK = 0
Il obit la mme logique que prcdemment, mais on montre que dans ce cas la statistique
de Fisher est seulement fonction du R2 dans lestimation non contrainte du modle.
R2 N (K + 1)
Fb = 2
F (K, N (K + 1))
1R K
4.8. APPLICATIONS DU TEST DE FISHER 55
y 1 = x1 b1 + u1
y 2 = x2 b2 + u2
On fait les hypothses stochastique l (u1 , u2 |x1 , x2 ) N(0, 2 IN1 +N2 ).
Ce modle se rcrit dans le cadre du modle linaire standard en introduisant les
matrices e
x (N1 + N2 ) (2 (K + 1)) et x (N1 + N2 ) (K + 1)
x1 0 x1
e
x= et x =
0 x2 x2
sous la forme
b1
y=e
x +u
b2
56 CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES
y = xb + u
pour lequel on rcupre la somme des carrs des rsidus SCRC = SCRT. On eectue
la rgression dans le modle non contraint et on rcupre aussi la somme des carrs des
rsidus SCR. La statistique de Fisher du test dhomognit des coecients est donc
SCRC SCR (N1 + N2 ) 2(K + 1)
Fb =
SCR (K + 1)
et on rejettera lhypothse nulle lorsque cette statistique est trop lev : pour un test au
niveau la rgion critique est ainsi
La statistique se simplifie en fait car on montre facilement que la somme SCR est
la somme SCR1 + SCR2 des sommes des carrs des rsidus sur les modles estims
librement sur chacun des sous-chantillons. Pour sen convaincre il sut de calculer Mxe =
0 1 0
I ex exex x puisque SCR = u0 Mxe u. On vrifie aisment que Mxe = Diag Mx1 ,x2 . La
e
statistique est donc finalement
SCRT (SCR1 + SCR2) (N1 + N2 ) 2(K + 1)
Fb =
SCR1 + SCR2 (K + 1)
et se calcule trs simplement partir des trois rgressions : 1) contrainte 2) et 3) sur
chacun des sous chantillons pris sparment.
4.9 Rsum
1. Dans ce chapitre on a vu comment tendre lestimateur des mco au cas dans lequel
on impose des contraintes linaires sur les paramtres du type Rb = r.
2. On a vu que lorsque lon fait les hypothses H1 H2, lestimateur est sans biais
lorsque les contraintes sont satisfaites par la vraie valeur du paramtre. En revanche,
lestimateur est biais lorsque les contraintes sont imposes tort.
3. On a obtenu sous les hypothses H1 H4 lexpression de la matrice de variance
de lestimateur. On a vu que cette matrice tait toujours plus petite que celle de
lestimateur des mco, que les contraintes soient imposes tort ou raison.
4.9. RSUM 57
Proprits asymptotiques de
lestimateur des MCO
Dans ce chapitre on montre comment il est possible dobtenir la loi des estimateurs sans
faire dhypothses sur la loi des perturbations. On va voir que lhypothse de normalit
de la distribution conditionnelle peut tre remplace par des hypothses sur lexistence de
moments des variables du modle lorsque le nombre dobservations devient grand. Lob-
tention de ces rsultats repose sur direntes notions de convergence et certains rsultats
essentiels comme la Loi des Grands Nombre et le Thorme Central Limite.
59
60CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO
E kXn Xk2 0.
n
E kXn Xk2
Pr {kXn Xk > } <
2
qui exprime simplement
E kXn Xk2 = E kXn Xk2 |kXn Xk > Pr {kXn Xk > }
+E kXn Xk2 |kXn Xk Pr {kXn Xk }
2 Pr {kXn Xk > }
x, Fn (x) F (x).
Proposition Loi des grands nombres (Chebichev) : Soit (xi ) une suite de Pva in-
2 1 N
dpendantes telles que EXi = mi et V Xi = i existent. On considre X N = N i=1 Xi
la moyenne
PN 2 empirique si la variance de cette moyenne empirique tend vers 0, N =
1
N2 i=1 i 0, alors
1 X 1 X
N N
P
X N mN = Xi mi 0 qd N .
N i=1 N i=1
P PN PN
Dmonstration N1 N 1
i=1 Xi N i=1 mi = N
1
i=1 (Xi mi ) . Pour montrer la conver-
gence en probabilit vers zro, il sut de montrer la convergence en moyenne quadratique
vers 0, qui rsulte de la convergence vers 0 de la variance. Ce qui est acquis par hypothse.
Corollaire 1. Soit (Xi ) une suite de va indpendantes telles que EXi = m et V Xi =
existent, alors
1 X
N
P
XN = Xi m qd N .
N i=1
Dmonstration La variance de la moyenne empirique est dans ce cas /N. Elle tend
bien vers zero.
On peut tendre la loi faible des grands nombres au cas o les variables Xn sont dans
L1 , mais au prix dune dmonstration beaucoup plus complique.
Proposition Soit (Xi ) une suite de va indpendantes et quidistribues telles que EXi =
m et E |Xi | existent, alors
1 X
N
P
XN = Xi m qd N .
N i=1
Proposition Thorme central limite (Lindeberg-Levy) : Soit (Xi ) une suite de variables
alatoires indpendantes et quidistribues telles que EXi = m et V Xi = existent,
L
N X N m N (0, ).
Remarque On sait dj que E N X N m = 0, et galement que V N XN m =
NV X N = V (Xn ) . Le rsultat important vient du fait que lon connat la loi de la
moyenne empirique dilate N X N m .
Dmonstration La dmonstration se fait partir des fonctions caractristiques. On
appelle fonction caractristique dune variable alatoire Z la fonction
Les fonctions caractristiques ont une proprit dinjectivit : si Z1 (t) = Z2 (t) alors
d
FZ1 = FZ2 soit Z1 = Z2 . On peut calculer la fonction de rpartition dune loi normale
0
t t
z N (0, ) z (t) = exp
2
P N Xi
On a alors directement avec n (t) = E exp it0 N i=1
N
m
! i=n !
XN
it0 (Xi m) Y it0 (Xi m)
n (t) = E exp =E exp
i=1
N i=1
N
Y
i=N N
it0 (Xi m) it0 (Xi m)
= E exp = E exp
i=1
N N
do lapproximation
N
it0 (Xi m) 1 0 0
n (t) E 1 + t (Xi m) (Xi m) t
N 2N
N
1 0 t0 t
= 1 t t exp
2N 2
Ce thorme est susant dans la majeure partie des cas. Nanmoins il fait lhypo-
thse que les variables sont quidistribues et quelles ont en particulier des moments
dordre 1 et 2 identiques. Ce thorme peut tre reformul sous une autre forme. En
eet E Xn = m et V Xn = V /N. Le thorme ne stipule donc rien dautre que
1/2 L
V Xn Xn E Xn N (0, 1) . L aussi on peut tendre le thorme centrale
limite pour trait des cas plus gnraux. En particulier on peut obtenir un thorme
de convergence pour des donnes indpendantes mais non quidistribues. Cest au prix
dune condition supplmentaire appele condition de Liapounov et qui concerne les mo-
ments dordre 3 de la variable.
Proposition Thorme central limite (Liapounov) : Soit (Xn ) une suite de variables
alatoires indpendantes de moyenne
n , de variance 2n et telle que w3N = E |Xn n |3
P 1/3 P 1/2
N N 2
existent. Si lim 1 w3n 1 n = 0 alors
1/2 L
V Xn Xn E Xn N (0, 1)
1 2
Remarque V Xn = ,
N n
cest dire la variance moyenne divise par N.
5.1. RAPPEL SUR LES CONVERGENCES 63
P (|Xn Yn | > ) = P (|Xn Yn | > ||Yn | > M ) P (|Yn | > M) + P (|Xn Yn | > ||Yn | M ) P (|Yn |
< P (|Yn | > M) + P (|Xn | > /M) = 1 P (|Yn | < M) + P (|Xn | > /M)
Comme Yn est borne en probabilit, on peut trouver M tel que P (|Yn | < M) > pour
tout n et donc 1 P (|Yn | < M) < . Comme Xn est un o (1) , P (|Xn | > /M) 0
Proposition Si Xn est un O (an ) alors Xn est un o (an bn ) pour nimporte quelle suite
bn tendant vers +.
Dmonstration En eet M tq P (ka1 1 1 1
n Xn k > M ) < i.e. P (kan bn Xn k > bn M ) <
, et b1 1
n M 0. Pour donn il existe n () tel que pour n > n () bn M < et donc
P (ka1 1 1 1 1
n bn Xn k > ) < P (kan bn Xn k > bn M ) <
moyenne : n [0, 1] tq
g
g(Xn ) = g(m) + (m + n (Xn m)) (Xn m) .
m0
g
n (g(Xn ) g(m)) = (m + n (Xn m)) n (Xn m)
m0
P g P g
m + n (Xn m) m donc Zn = m 0 (m + n (Xn m)) m0 (m) .
L P g
Comme n (Xn m) N (0, ), et Zn m 0 (m), on applique le thorme de
Slutsky et on en dduit
0
L g(m) g(m)
n (g(Xn ) g(m)) = Zn n (Xn m) N 0, .
m0 m0
5.1.4 Illustration
On illustre ces proprits en examinant le comportement asymptotique de moyennes
dun nombre donn dobservations tires indpendamment dans une mme loi. Plus pr-
cisment pour une taille dchantillon donne 10, 1.000, 100.000 on tire un grand nombre
dchantillons, en pratique 5.000, et pour chaque chantillon on calcule la moyenne em-
pirique. On connat lesprance thorique E. La loi des grands nombres dit que pour un
intervalle [E , E + ] de longueur donne, la proportion de moyenne empirique tom-
bant dans lintervalle croit avec la taille de lchantillon vers 1. Les cas que lon considre
sont E = 1, et on examine des intervalles pour = 0.1, 0.05, 0.02 et 0.01. On considre
deux lois direntes. On prend dabord une loi symtrique : la loi uniforme sur [0; 2] . Son
esprance est 1 et sa variance est de 1/3. On prend ensuite une loi dissymtrique : une
loi du 2 (1) . Cette loi a, elle aussi, une moyenne de 1 mais sa variance est de 2. Pour la
rendre plus comparable la loi prcdente, on la normalise de telle sorte que sa variance
soit elle aussi de 1/3, sa moyenne restant de 1. On considre donc y = 1 + (2 (1) 1) 16 .
Le graphique 1 donne les proportions de moyenne empirique tombant dans les intervalles
donns. On voit que ces proportions croissent avec la largeur de lintervalle et avec la
taille de lchantillon. Pour les plus grandes tailles dchantillon, toutes les moyennes em-
piriques tombent dans lintervalle considr, aussi troit soit-il. On voit aussi quil ny a
pas grande dirence entre la loi du 2 et la loi uniforme.
On examine ensuite la distribu-
tion des carts lesprance thorique,
dilate par N. Plus spcifiquement, on examine
la distribution empirique de N (y i E) /. Pour cela on met en oeuvre un estimateur
non paramtrique de la densit, dit noyau. Si la thorie asymptotique est satisfaite,
cette distribution doit tre approximativement normale pour un grand chantillon. Les
rsultats sont prsents dans le graphique 2. On voit l des dirences importantes entre
les deux types de loi. Dans les deux cas pour de grands chantillons, lapproximation
normale fonctionne bien. Par contre pour les petits chantillons, lapproximation normale
marche trs bien pour la loi uniforme, mais beaucoup moins bien, pour la loi du 2 .
66CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO
Loi Uniforme
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.99--1.01 0.98--1.02 0.95--1.05 0.90--1.10
Loi du Chi2
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.99--1.01 0.98--1.02 0.95--1.05 0.90--1.10
yi = xi b + ui
1. bbmco b,
P
L
2. N bbmco b N (0, Vas ) ,
3. Vas = 2 E(xi x0i )1 (ou 2 Q1 )
0
y xbbmco y xbbmco 2
P
b2 = NK1
4. 1
1 P
5. N Vb bbmco = Vbas = b2 xi x0i Vas
1/2 b L
6. N Vbas bmco b = Vb 1/2 bbmco b N (0, IK+1 )
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0 0
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
0.4 0.4
0.35 0.35
0.3 0.3
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
0.4 0.4
0.35 0.35
0.3 0.3
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
Comme les moments |xki xli | des variables explicatives existent, on peut appliquer la loi
des grands nombres x0i xi . De mme on peut appliquer la loi des grands nombre x0i ui ,
si E(x0i ui ) et V (x0i ui ) existent. Comme E(x0i ui ) = E (E(x0i ui |xi )) = 0 et V (x0i ui ) =
E (V (x0i ui |xi )) + V (E(x0i ui |xi )) = 2 E (x0i xi ), on a
1 X 0 P 1 X 0 P
N N
0
x0i xi = 0
x xi E(xi xi ), et xi ui = x ui E(x0i ui ).
N i=1 i N i=1 i
On en dduit que
1 P
x0i xi E(x0i xi )1
1 P
x0i xi x0i ui E(x0i xi )1 E(x0i ui )
bbmco = b + x0 xi 1 x0 ui
P
b + E(x0i xi )1 E(x0i ui )
i i
car les esprances E(x0i xi ) et E(x0i ui ) sont par dfinition des constantes, que lapplication
A A1 est continue et enfin que le produit et la somme de suite de variables alatoires
convergent en probabilit vers des constantes converge en probabilit.
Comme par ailleurs
E(xi ui ) = E [xi E(ui |xi )] = 0
On a bien
bbmco
P
b
Normalit asymptotique
1
De la formulation bbmco : bbmco = b + x0i xi x0i ui on dduit
1 1
N bbmco b = Nx0i xi x0i ui = x0i xi Nx0i ui
On veut appliquer le Thorme Central Limite Nx0i ui . Les variables alatoires x0i ui
sont indpendantes et quidistribues. On pourra appliquer le Thorme Central limite si
les deux premiers moments de cette variable existent. On sait que
E (x0i ui ) = 0
V (x0i ui ) = V (E (x0i ui |xi )) + E (V (x0i ui |xi )) = E (x0i V (ui |xi ) xi ) = 2 E (x0i xi )
Les moments dordre 1 et 2 de x0i ui existent donc. On sait qualors le TCL permet daf-
firmer L
Nx0i ui N 0, 2 E(x0i xi )
70CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO
Comme
1 P
x0i xi E(x0i xi )1 .
1
qui
est une matrice constante, on peut appliquer le thorme de Slutsky x0i xi et
0
Nxi ui :
1 L
x0i xi Nx0i ui E(x0i xi )1 N 0, 2 E(x0i xi )
= N 0, E(xi x0i )1 2 E(x0i xi )E(x0i xi )1
= N 0, 2 E(x0i xi )1
on a donc bien
N bb b N 0, 2 E(xi x0i )1
L
Estimation de la variance
Lestimateur de la variance des rsidus
1 0
b2 =
y xbbmco y xbbmco
N
scrit compte tenu dey = xb + u
1 0
b2 =
x b bbmco + u x b bbmco + u
N
= xi b bbmco + ui xi b bbmco + ui
0
= b bbmco x0i xi b bbmco + 2ui xi b bbmco + u2i
0
P
= b bbmco xi xi b bbmco + 2ui xi b bbmco + ui 2
0 2
P P P P
puisque bbmco b, x0i xi E (x0i xi ) , xi ui E (x0i ui ) et u2i E (u2i ) = 2 . Puisque u2i est
0
une variable positive identiquement distribue sur les individus. On remarque quil est ici
ncessaire de davoir recours la loi forte des grands nombres dans L1, on devrait sinon
faire lhypothse que E (u4i ) existe.
Estimation de la matrice de variance asymptotique de lestimateur
P 1 P
On lobtient directement par le fait que b2 2 et x0i xi E (x0i xi )1
1 P
Vas ,.et N bbmco b
L
Enfin en appliquant le thorme de Slutsky Vbas = b2 x0i xi
N (0, Vas ) , on a directement le dernier point.
Remarque On peut se passer de lhypothse dquidistribution au prix dun renforcement
des hypothses sur les moments des variables. pour pouvoir appliquer le Thorme Central
Limite de Liapounov x0i ui , il sut par exemple que lon ait E (|u3i |) = 3 < + et pour
chaque variable explicative E (|x3ki |) = k3 < +. La condition
de Liapounov est alors
satisfaites et on obtient alors la normalit asymptotique de Nx0i ui .
5.3. TESTS ASYMPTOTIQUES 71
o q (1 , S0 ) est le quantile
dordre 1 de S0 : Pr (S0 > q (1 , S0 )) =
On dfinit la p-value p Sb comme Sb = q 1 p Sb , S0 i.e.
p Sb = Pr S0 > Sb .
Pour tout seuil , on rejette H0 au seuil si et seulement si p Sb . En eet, p Sb
signifie que
n o n o
b b
= Pr {S0 > q (1 , S0 )} Pr S0 > S S > q (1 , S0 )
H0 : c0 b = r
une loi normale et non plus une loi de Student. Cette dernire dirence nen est une
quen partie puisque lon peut montrer que la loi de Student tend vers une loi normale
lorsque le nombre de degrs de libert tend vers linfini. Les rgions critiques sont donc
asymptotiquement les mmes.
Dmonstration Sous les hypothses H1-H5, on a N bbmco b N (0, 2 E(xi x0i )1 ) ,
L
L
Sous lhypothse nulleH0 : c0 b = r on a donc N c0bbmco r N 0, c0 Vas bbmco c ou
encore
c0bbmco r L
Nr N (0, 1)
c0 Vas bbmco c
On rencontre le mme problme que dans le cas normal : il faut diviser c0bbmco r par
lcart-type de c0bbmco r qui est inconnu. Comme dans le cas normal on va diviser par un
estimateur de cet cart-type. Dans le cas normal la statistique considre suivait une loi de
Student quelque soit le nombre dobservation. Ici on tient compte du fait quon divise par
un estimateur convergent en probabilit. Le thorme de Slutsky permet alors de dfinir la
loi asymptotique de la statistique.
Comme
1 1
Vbas bbmco = b2 (x0 x) Vas bbmco = 2 [E(x0i xi )]
1 P 1
b2 x0i xi =
N
On en dduit que la statistique de Student :
c0bbmco r c0bbmco r L
Sb = Nr = r N (0, 1).
c0 Vbas bbmco c c0 Vb bbmco c
b b b b
puisque N V bmco = Vas bmco . On dfinit la rgion critique comme
n o
W = Sb Sb > q 1
2
o q 1 2 est le quantile 1 2 de la loi normale N (0, 1).
Sous H0 on a
n o n o
Pr Sb W |H0 Pr |N (0, 1)| > q 1 =
2
Le test dfini par la rgion critique W est donc un test au niveau .
Comme on est dans le cas asymptotique, on tudie beaucoup plus facilement le com-
portement de la statistique sous lhypothse alternative.
74CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO
.
0b
Sous H1 on a c0bbmco
r c b r = m 6= 0 donc Sb
0
N = c bmco r
r r
c0 Vbas bbmco c |m| c0 Vas bbmco c do Sb +. Il en rsulte que
n o
Pr Sb W |H1 1
Remarque Ce test lintrt dtre valable quelque soit la loi des rsidus, quelle soit
normale ou non, tant quelle vrifie les hypothses garantissant les proprits asympto-
tiques de lestimateur des mco. Le test de Student vu dans le chapitre prcdent nest valable
que pour le cas de rsidus suivant une loi normale. Il est en revanche valable distance
finie. Asymptotiquement les deux test concident car une suite de variables alatoires Xn
suivant une loi de Student n degrs de libert converge en loi vers une loi normale. On
peut le oirpfacilement. Si Xn suit une loi de Student, elle peut scrire sous la forme dun
ratio Z1n / Z2n /n avec Z1n suivant une loi normale et Z2n , indpendante de Z1n suivant
une loi du 2 (n) . Une loi du 2 (n) a ppour variance 2n. On p en dduit que E (Z2n /n) = 1
m.q. p
et V (Z2n /n) =p2/n. On voit donc que Z2n /n 1. Donc Z2n /n 1 On en dduit
donc que Z1n / Z2n /n converge en Loi vers une loi normale.
H0 : Rb = r contre Ha : Rb 6= r.
On a vu que dans le cas o les rsidus taient spcifis comme normaux, on pouvait faire
un test de Fisher. Ce test permettait de contrler le risque de premire espce et avait
de bonnes proprits doptimalit. Ici on va considrer une statistique analogue et on va
tudier son comportement asymptotiquement. Pour la mme raison que pour le test de
Student, la statistique ne suivra pas une loi de Fisher mais une loi du Chi2.
Proposition Lorsque les hypothses H1-H5 sont satisfaites, la statistique Sb dfinie par
0 h i1
Sb = N Rbbmco r RVbas bbmco R0 Rbb r
0
b 0 1 0 1 b
Rbmco r R (x x) R Rbmco r
=
b2
converge en loi vers un 2p , sous lhypothse nulle H0 . Le test dfini par la rgion critique
n o
W = Sb Sb > q (1 ), 2 (p)
est un test convergent au niveau . La statistique peut aussi tre calcule comme
On en dduit
0 1
b
N Rbmco r b
RVas bmco R 0 b L
Rbmco r 2p .
On peut remplacer Vas bbmco par un estimateur convergent et appliquer Slutsky. Do,
sous lhypothse nulle, H0 : Rb0 = r, et aprs simplification des N,
0 h i1
Sb = N Rbbmco r RVbas bbmco R0 Rbbmco r
0 h i1
= Rbbmco r RVb bbmco R0 Rbbmco r
0
b 0 1 0 1 b
Rbmco r R (x x) R Rbmco r L
= 2 = pFb 2 (p) , sous H0
b
Ce rsultat permet de montrer que le test dfini par la rgion critique donne est un test
au niveau . 0
b b
Sous H1 on a en revanche Rb r Rb r = m 6= 0. Donc S/N = Rbmco r b
h i1
RVbas bbmco R0 Rbbmco r constante et donc
Sb
Sb ' NR2
2 1 1 L
= 1,..., L = , = 1
1 0 L2 0 L1 0
qui sont typiquement non linaires et ne peuvent donc tre testes dans le cadre prcdent.
On peut sintresser dune faon gnrale des hypothses de la forme :
H0 : g(b0 ) = 0,
o g(b) est un vecteur de p contraintes non linaires sur les paramtres telle que g(b 0)
est
0 b0
de plein rang. Cette hypothse quivaut g(bb0
0) g(b0 )
b0
inversible, avec b0 est la vraie
valeur du paramtre.
g(b)
Remarque Si g(b) = Rb r ; alors b0
= R. On retrouve donc la condition sur le rang
de R
Le rsultat suivant permet de gnraliser les tests prcdents au cas non linaire
Proposition Si bbN est un estimateur asymptotiquement normal de b :
b
N bN b N 0, Vas bb
L
Alors
" #1/2
g(bb) b b g(bb)
b
L
N 0
V as b 0
g(b) g(b) N (0, Ip ) .
b b
bb)
Comme g( 0
bas bb g(bb)
V 0
P g(b)
0 Vas
bb g(b) , on obtient le rsultat par application du
b b b b0
thorme de Slutsky.
Ce rsultat permet dtendre directement les tests prcdents au cas dhypothses non
linaires :
Cas dune seule contrainte, p = 1. On forme la statistique de Student :
g(bb) g(bb)
Tb = Nr b 0 = r b 0
g(bb) c b g(b) g(bb) b b
b0
Vas b b0 b0
V b g( b)
b0
5.4 Exemple
Pour illustrer les proprits asymptotiques des tests, on reprend le mme cadre que
celui utilis pour tudier la puissance du test de Student. On simule donc un modle un
grand nombre de fois avec des vraies valeurs direntes sur lintervalle [0, 2] et on fait le
test de lgalit du paramtre 1. On va examiner comment les rsultats sont modifi
lorsque lon met en oeuvre le test de Student asymptotique, bas sur la distribution
dune loi normale et non plus le test de Student bas sur la loi de Student. on va aussi
examin comment ces rsultats sont modifi lorsque les perturbations ne suivent plus une
loi normale. On prendra lexemple dune loi de Fisher 1 et 5 degrs de libert, normalise
pour que son esprance soit nulle et sa variance unitaire. On choisit cette loi car elle est
5.5. RSUM 79
asymtrique et que les lois de Fisher nont un moment dordre 2 que si le deuxime degrs
de libert est suprieur 4. On est donc dans un cas o les hypothses de convergence
sont juste satisfaites.
[A FAIRE]
5.5 Rsum
Dans ce chapitre on a :
rappel les dirents modes de convergence utiles pour lexamen des proprits
asymptotiques des estimateurs : convergence en loi et convergence en probabilit.
rappel les proprits asymptotiques importantes des moyennes empiriques de va-
riables : la loi des grands nombres et le thorme central limite.
montr que sous des hypothses trs faibles (existence des moments dordre 1 et 2),
lestimateur des mco est convergent et asymptotiquement normal.
Etendu la notion de test pour dfinir des tests asymptotiques, caractriss par le
fait que leur puissance tend vers 1 et gnralis les notions de test de Student et de
test de Fisher au cas asymptotique.
80CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO
Chapitre 6
Le modle linaire sans lhypothse
dhomoscdasticit
81
82CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT
L encore on suppose E (ut |X ) = 0, mais par contre on ne fait plus dhypothses sur la
structure des corrlations. La matrice de variance covariance est quelconque. Dans une
spcification plus contrainte, on peut supposer que la variance des rsidus est constante
et que le coecient de corrlation entre deux priodes ne dpend que de lcart entre ses
deux priodes : Cov (ut , uts ) = 2u s . La matrice de variance covariance scrit alors pour
un chantillon de taille T
1 1 2 T
. . . ..
1 . . . . . . .
2 . .
V (u |x) = 2 . . .. 2
. . . .
.. .. .. .. 1
2
T 2 (1 + )
6= 2 IT
yi = a + xi bi + vi
bi = b + vbi
yi = a + xi bi + vi = a + xi (b + vbi ) + vi
= a + xi b + xi vbi + vi = a + xi b + ui
ui = xi vbi + vi
E (ui uj |x) = 0 i 6= j
= E ((xi vbi + vi ) (xj vbj + vj ) |x)
= xi xj E (vbi vbj |x) + xi E (vbi vj |x) + xj E (vi vbj |x) + E (vi vj |x) = 0
2
E ui |x = x2i 2b + 2v
2
= E (xi vbi + vi )2 |x = E x2i vbi + 2xi vbi vi + vi2 |x
84CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT
Dans ce cas, la matrice est bien diagonale, mais les lments diagonaux sont des fonctions
de xi .
Exemple Modle htroscdastique en coupe, forme dhtroscdasticit connue
yi = a + xi b + ui
avec , E (ui |x) = 0, (ui uj |x) = 0 pour i 6= j, E (u2i |x) = g (xi , ) . La forme de la fonction
g est connue mais le paramtre est inconnu. La matrice de variance covariance scrit
alors
yi = a + xi b + ui
avec , E (ui |x) = 0, (vi vj |x) = 0 pour i 6= j, E (vi2 |x) = 2i . La matrice de variance
covariance scrit donc
V (u |x) = Diag 2i
6= 2 IN
yit , xit i = 1, . . . , N, t = 1, . . . , T
Ces donnes correspondent la situation dans laquelle on suit des individus au cours du
temp. i est un indice reprsentant les individus. Le nombre dindividus observs est en
gnral grand. t est lindice temporel, en gnral faible. Le modle scrit comme dhabi-
tude :
yit = xit b + uit i = 1, . . . , N, t = 1, . . . , T
ou encore en empilant les observations relatives un mme individu :
y i = xi b + ui i = 1, . . . , N
6.1. PRSENTATION : HOMOSCDASTICIT ET HTROSCDASTICIT. 85
On fait les hypothses : E (ui |x) = 0, E ui u0j |x = 0 i 6= j, cest dire la condition
didentification est satisfaites, et les observations relatives deux individus dirents sont
non corrles. En revanche on ne fait pas lhypothse E (ui u0i |x) = 2 IT . Le rsidu
uit incorpore des lments inobservs permanent dans le temps. Il est modlis suivant le
Modle erreurs composes
uit = i + wit
avec E (wi w0i |x) = 2W IT , E (i w0i |x) = 0, E (2i |x) = 2 . On dtermine facilement la
matrice de variance
2
+ 2W 2 2
... ... ..
2 .
= V (ui |x) = . . .
.. .. .. 2
2 2 2 + 2W
V (u |x) = IN
6= 2 INT
On peut remarquer quun cas intressant est celui dans lequel sur le modle prcdent
on considre les dirences premires yit = yit yit1 . Dans ce cas leet individuel est
limin. En notant
uiT uiT 1
uiT 1 uiT 2
ui = ..
.
ui2 ui1
le modle se rcrit
y i = xi b + ui i = 1, . . . , N
et la matrice de variance des perturbations est alors :
2 1 0 0
...
1 2 0
= V (ui |x) = 2 . .
0 .. .. 1
0 0 1 2
La caractristique intressante est que cette matrice est connue une constante multipli-
cative prs.
Exemple Rgressions empiles : On a considr jusqu prsent le cas dans lequel il
ny avait quune quation. On est parfois amen sintresser un ensemble dquations.
86CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT
On pourrait en toute gnralit se dire que lon va estimer ces quations une par une. Ce
serait possible mais parfois ce nest pas susant. En eet, on peut vouloir examiner si
certaines proprits faisant intervenir des coecients de direntes quations sont satis-
faites. On peut en fait gnraliser facilement le cadre une quation au cas dquations
multiples. On considre la situation dans laquelle il y a M variables expliquer, et K + 1
variables explicatives :
ymi , xi i = 1, . . . , N, m = 1, . . . , M
Le modle scrit pour chaque variable dpendante :
ymi = xi bm + umi i = 1, . . . , N
ou encore
y1i xi 0 b1 u1i
.. . .
. = 0 . . . 0 .. + ..
yMi 0 xi bM uMi
y i = Diag (xi ) b + ui i = 1, . . . , N,
On fait les hypothses E (ui |x) = 0, cov uiuj |x = 0 i 6= j, V (ui |x) = . Les rsidus
umi nont pas ncessairement la mme variance et peuvent en outre tre corrls entre eux.
La matrice de variance covariance des rsidus empils a alors pour expression
E (uu0 |x) = IN
6= 2 IN T
Tel quil est crit ce modle nimpose pas de contraintes entre les paramtres des direntes
quations. On pourrait nanmoins se trouver dans une situation dans laquelle les para-
mtres de la rgression sont fonction dun paramtre alternatif de dimension plus faible :
b = Hc avec dim b > dim c et H une matrice. le modle scrit dans ce cas :
y i = Diag (xi ) Hc + ui i = 1, . . . , N
ei c + ui
= x
dpendre ou non des variables explicatives. Cest le cas par exemple du modle
coecients alatoires, du modle htroscdastique avec htroscdasticit de forme
connue.
dpendre de paramtres additionnels de dimension infinie. Cest le cas du modle h-
troscdastique pur en coupe ou des sries temporelles avec structure de corrlation
quelconque.
Definition On appelle modle linaire htroscdastique le modle dans lequel un vecteur
de variables alatoires y dpend linairement de K + 1 variables explicatives x :
y = xb + u
Dmonstration On a
bbMCO = (x0 x)1 x0 y = (x0 x)1 x0 (xb + u)
= b + (x0 x)1 x0 u
De plus
b
V bMCO |x = V (x0 x)1 x0 u|x
= (x0 x)1 x0 V (u |x) x(x0 x)1
= (x0 x)1 x0 x(x0 x)1 .
On voit donc que la proprit de sans biais nest pas aecte par la relaxation de
lhypothse H2. En revanche, on voit que la formule de la variance de lestimateur est
dirente. Ce sont donc les carts-type des paramtres qui sont dirents. Cette conclusion
est gnrale. Dans le cadre du modle linaire, le principal problme pos par lexistence
dhtroscdasticit concerne le calcul de la prcision des estimateurs et corrlativement
la validit des dirents tests que lon peut mettre en oeuvre en transposant directement
les procdure issue de lhypothse IID.
Proposition Sous les hypothses H1, H2, H3, lestimateur des MCG existe, il est
unique et est donn par :
bbMCG = (x0 1 x)1x0 1 y
Dmonstration Les conditions du premier ordre scrivent :
2
y xbb 1
0 1
= 2x y xb = 0 x0 1 xbb = x0 1 y
b
b
6.2. ESTIMATION PAR LES MCO ET LES MCG 89
Sphricisation.
Lanalyse des proprits de lestimateur des MCG est grandement simplifie lorsque
lon applique aux observations une opration appele sphricisation.
Proposition Pour toute matrice symtrique et dfinie positive W il existe une matrice
W 1/2 telle que
W 1/2 W W 1/20 = I
Cette matrice vrifie aussi
W 1/20 W 1/2 = W 1
Dmonstration Comme W est symtrique dfinie positive, elle est diagonalisable dans
le groupe orthogonal. Il existe donc une matrice orthogonale P (P 0 P = P 1 P = I) telle
que W = P 0 DP, o D est diagonale, les lments de la diagonale tant strictement positifs
puisque W est dfinie positive. On peut considrer W 1/2 = P 0 D1/2 P, o D1/2 est la
matrice diagonale dont les lment diagonaux sont les inverses de la racine des lments
diagonaux de D. On a
et donc
W W 1/20 W 1/2 = I
do
W 1/20 W 1/2 = W 1
90CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT
Ceci permet donc de dfinir une matrice 1/2 . Cette dcomposition nest pas unique.
Par exemple on peut choisir 1/2 semi-dfinie positive. Mais on peut aussi la choisir de
telle sorte quelle ait dautres proprits, un choix qui peut tre utile est celui dans lequel
la matrice est triangulaire infrieure.
Lopration de sphricisation consiste multiplier le modle par lune de ces matrices
1/2
. On a :
b 1 1/20 1/2
ebMCO = (e
x0 x
1 0
e) xe ye = x0 1 x x y
0 1 1 1
= x x x y = bbMCG
Lestimateur des MCG peut alors tre calcul comme estimateur des mco appliqu au
modle :
p p p
y1 1 2 x1 1 2 u1 1 2
y2 y1 x2 x1 u2 u1
.. = .. b+ ..
. . .
yT yT 1 xT xT 1 uT uT 1
Exemple Sphricisation des donnes de panel. On a vu que pour des donnes de panel
lorsque les rsidus taient modliss comme
uit = i + it
B2 = B
W2 = W
BW = W B = 0
92CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT
Ces deux matrices ont en outre une interprtation simple. En eet on vrifie que Bzi =
eT zi , o zi est la moyenne individuelle des observations de lindividu i : zi = (zi1 + + ziT ) /T.
Il en suit que W z i est le vecteur form des carts la moyenne individuelle. On peut expri-
mer simplement la matrice de variance des perturbations du modle erreurs composes
partir de ces deux matrices. On a en eet :
V (ui ) = 2 JT + 2 IT = 2 + T 2 B + 2 W
On a donc
b
E bMCG |x = b + E (x0 1 x)1 x1 u |x
= b + (x0 1 x)1 x1 uE (u |x) = b
6.3. LESTIMATEUR DES MCQG 93
et aussi
V bbMCG |X = V (X 0 1 X)1 X 0 1 U |X
= (X 0 1 X)1 X 0 1 V (U |X ) 1 X(X 0 1 X)1
= (X 0 1 X)1 X 0 1 1 X(X 0 1 X)1
= (X 0 1 X)1
Loptimalit provient directement du fait que nimporte quel estimateur linaire sans biais
du paramtre est aussi un estimateur linaire sans biais du paramtre dans le modle
sphricis. Or dans ce modle lestimateur des MCO est optimal et cet estimateur est
b b
celui des MCG : bbMCG = ebMCO et ebMCO optimal
Les proprits algbriques de lestimateur des MCO du cas homoscdastique se trans-
posent directement au cas des MCG. Nanmoins cette transposition est peu utile en
pratique car on est rarement dans le cas o la matrice de variance est connue. Rappelons
toutefois que dans le cas des donnes de panel on a vu que pour le modle erreurs com-
poses la matrice de variance des erreurs du modle en dirence premire tait connue
un facteur multiplicatif prs.
bbMCQG = (x0
b 1 x)1 x0
b 1 y.
Lestimateur des MCQG nest en gnral pas sans biais ni linaire en y puisque b d-
pend de y. Les proprits de bbMCQG ne peuvent donc tre quasymptotiques. Ces proprits
vont dpendre du cas considr. On sintresse donc la convergence et la distribution
asymptotique des paramtres. Il faut en fait examiner les proprits asymptotiques au cas
par cas suivant la nature de lhtroscdasticit. On peut alors tudier de faon similaire
les proprits asymptotiques de lestimateur des mco.
On va dans les trois chapitres suivants considrer les trois formes importantes dht-
roscdasticit survoles dans la premire partie de ce chapitre.
94CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT
La situation que lon considre est celle dun modle de rgression en coupe
yi = xi b + ui
95
96 CHAPITRE 7. LE MODLE HTROSCDASTIQUE EN COUPE
rsidus. Au total la mise en oeuvre de lestimateur des mCQG dans ce cadre est assez
rare et la plupart du temps on se contente dappliquer les mco et de faire de linfrence
robuste la prsence dhtroscdasticit.
yi = xi b + ui
les rsultats que lon va montrer sont vrais sous des hypothses trs gnrales autorisant
par exemple le fait que les observations ne soient pas quidistribues. Cest par exemple
le cas dans le modle htroscdastique pur pour lequel V (ui |xi ) = 2i , et dans lequel
on pourrait aussi faire lhypothse que les rgresseurs ne sont pas distribus suivant une
mme loi. On va nanmoins se situer dans un cadre plus proche du prcdent dans lequel
on fera des hypothses dhomognit plus fortes :
H1 Les observations (yi , xi ) RR K+1 , i = 1, ..., N, sont indpendantes et qui-
distribues
H2 E (ui xi ) = 0
H3 V (x0i ui ) = E (u2i x0i xi ) existe
0
H4 H4 N x x et E(x0i xi ) sont inversibles
H5 Les moment |xki xli | existent
H6 Pour tout indice des variables explicatives l1 , l2 , l3 , l4 les moments u2i |xl1 i xl2 i |
|ui | |xl1 i xl2 i xl3 i | et |xl1 i xl2 i xl3 i xl4 i | existent
Comme on le voit la dirence essentielle avec le cadre homoscdastique est que lon
ne fait plus lhypothse V (ui |xi ) = 2 on a une situation beaucoup plus gnrale dans
laquelle par exemple V (ui |xi ) = g (xi ) avec g quelconque pourvu que E(g (xi ) x0i xi ) existe,
ce qui est garanti ds lors que V (ui xi ) existe. On voit que cette plus grande gnralit est
nanmoins paye par une exigence plus forte sur la distribution des variable puisquil faut
que les moments des variables existent jusqu lordre 4 (hypothse H6). Cette dernire
hypothse est utile pour lestimation de la matrice de variance. Elle permet dobtenir
la convergence en probabilit des moments dordre 4. On voit quelle est exigeante et
que, mme si elle est satisfaite, vraisemblablement il sera ncessaire quil y ait un grand
nombre dobservations pour que la moyenne empirique dun polynme de degrs 4 des
observations soit proche de sa valeur limite. Nimporte quelle observation dans les queues
de distributions aura un eet important sur ces moments qui ne sera rsorb que si le
nombre dobservations est grand. Cest pourquoi la notion de proprits asymptotiques
signifie ici plus quailleurs que le nombre dobservations est grand.
7.1. INFRENCE ROBUSTE LHTROSCDASTICIT 97
vrifie quand N
1. bbmco b, lestimateur est convergent
P
L
2. N bbmco b N 0, Vas bbmco , lestimateur est asymptotiquement normal
b
3. Vas bmco = [E(x0i xi )]1 E(u2i x0i xi ) [E(x0i xi )]1
Sous les hypothses H1-H7 on a en plus
1 1 P
4. Vb bbmco = (x0i xi ) u b2i x0i xi x0i xi V bbmco on peut estimer la matrice de variance
1/2
5. N Vb bbmco bbmco b L
N (0, I)
1 0
Dmonstration Convergence bbmco = b+ x0i xi xi ui . Lexistence des moments |xki xli |
P
de xi garantie la convergence de x0i xi E (x0i xi ) . La seule chose quil y ait montrer est
la convergence de x0i ui vers E (x0i ui ) . Pour cela on applique la loi des grands nombres :
E (x0i ui ) = 0 et V (x0i ui ) = E(u2i x0i xi ). On est dans les condition dapplication de la loi des
P
grands nombres : x0i ui E (x0i ui ) = 0.
Normalit asymptotique La encore la seule question est celle de la convergence
de Nx0i ui . mais comme prcdemment, lexistence des moments dordre 1 et 2 de x0i ui ,
L
E (x0i ui ) = 0, V (x0i ui ) = E(u2i x0i xi ) garantissent que Nx0i ui N (0, E(u2i x0i xi )) . Il en
1
rsulte que N bbmco b = Nx0i xi x0i ui N 0, E (x0i xi )1 E(u2i x0i xi )E (x0i xi )1
L
Pour que le premier terme converge en probabilit vers son esprance, il est ncessaire
que les lments qui la forme u2i xl1 i xl2 i satisfasse la loi de grands nombres. Ce qui est
garanti par la proprit H6. Le troisime terme tend alors vers zro en probabilit puisque
P
x0i ui x0i xi E (x0i ui x0i xi ) = 0. Le second
terme
tend aussivers zro puisque les lments
qui le constituent sont de la forme bk bbkmco bl bblmco xli xki xl1 i xl2 i et xli xki xl1 i xl2 i
P
P
E (xli xki xl1 i xl2 i ) puisque les moments dordre 4 existent et que bkmco bk 0.
98 CHAPITRE 7. LE MODLE HTROSCDASTIQUE EN COUPE
Cet estimateur de la matrice de variance de lestimateur des mco est connu sous le
nom de matrice de variance de White robuste lhtroscdasticit. Il est trs
couramment utilis et systmatiquement propos dans les logiciels standards (sauf SAS).
Remarque L encore les rsultats peuvent tre gnraliss au cas dans lequel on ne
fait plus lhypothse dquidistribution. Ceci permet en particulier de traiter le cas du
modle htroscdastique pur, dans lequel V (ui |xi ) = 2i . Tous les rsultats dcoulent de
lapplication du thorme central limite de Liapounov x0i ui . . Il faut donc que la condition
P N
de Liapounov soit satisfaite. Si on considre 2N = n=1 2n N et si on considre 3i =
P . . 1
E (|u3i | |xi ) ainsi que 3N = N
n=1 n
3
N, il sut que 3
N N 6 2N 0, si par exemple
h i1
L
les variable explicatives sont iid. On sait qualors . 2N E (x0i xi ) Nx0i ui N (0, I) .
Ces rsultats se gnralisent directement sans modification au cas des donnes de panel
et au cas des quations empiles. Si on considre le modle
y i = xi b + ui , y i de dim M 1, xi de dim M K + 1
spcifi en terme de vecteur y i , xi et ui . Sous des hypothses convenables, dont la condition
didentification E (ui |xi ) = 0, et lanalogue de la condition prcdente pour la variance
E (x0i ui u0i xi ) existe et des conditions sur lexistence de moments des variables dun ordre
lev. On a lextension des rsultats prcdents :
P
1. bbmco b, lestimateur est convergent
L
2. N bbmco b N 0, Vas bbmco , lestimateur est asymptotiquement normal
3. Vas bbmco = [E(x0i xi )]1 E (x0i ui u0i xi ) [E(x0i xi )]1
1
b b 0 0 0 0 1 P b
4. V bmco = (xi xi ) xi b bi xi xi xi V bmco on peut estimer la matrice de va-
ui u
riance
1/2
L
5. N Vb bbmco bbmco b N (0, I)
On a
h 1 i 0 1 0
bmcc b = I (x0 x)1 R0 R(x0 x)1 R0 R (x x) x u
h i1
1 0 1 0 1
= I x0i xi R Rx0i xi R R x0i xi x0i ui
Sous les mme hypothses que prcdemment, on peut dterminer la loi asymptotique de
lestimateur et un estimateur convergent de la matrice de variance asymptotique.
P
1. bbmco b, lestimateur est convergent
2. N bbmco b N 0, Vas bbmco , lestimateur est asymptotiquement normal
L
b
3. Vas bmco = [I H] E(x0i xi )1 E(u2i x0i xi )E(x0i xi )1 [I H 0 ]
1
avec H = E(x0i xi )1 R0 [RE(x0i xi )1 R0 ] R
100 CHAPITRE 7. LE MODLE HTROSCDASTIQUE EN COUPE
h i h i
4. Vbas bbmco = I H b (x0 xi )1 u
b2 0
x xi x0 1
xi I b
H
P
Vas
bbmco ,
i i i i
h i1
avec H b = x0 xi 1 R0 Rx0 xi 1 R0 R
i i
1/2
5. N Vbas bbmco bbmco b L
N (0, I)
P
et le test que lon fait nest pas H0 : E (u2i |xi ) = 2 contre H1 : E (u2i |xi ) = xli xmi lm
l,mK+1
mais simplement celui de
H0 : E u2i xi x0i = E u2i E (xi x0i )
contre
H1 : E u2i xi x0i 6= E u2i E (xi x0i )
Le test se fait nanmoins au moyen de la rgression
X
u2i = xli xmi lm + vi
l,mK+1
Ici vi est dfini par la proprit E (vi xli xmi ) = 0. Lide du test est de procder au
test de la nullit jointe des coecients de la rgressions prcdente. Pour cela il faut
connatre la loi asymptotique des estimateurs. On pourrait lobtenir sous des condi-
tions gnrales par exemple ne faisant pas dhypothses sur les moments dordre 2 de
la forme E (vi2 xli xmi xl0 i xm0 i ) . Nanmoins on fait en gnral le test de la nullit globale
sous lhypothse dhomoscdasticit des rsidus vi : cest dire E (vi2 xli xmi xl0 i xm0 i ) =
E (vi2 ) E (xli xmi xl0 i xm0 i ) . Dans ce cas le test est trs simple mettre en oeuvre il sagit
simplement du test de la nullit globale des coecients dans une rgression. Un problme
7.2. TEST DHTROSCDASTICIT 101
vient du fait que le rsidu nest pas observ mais seulement estim, mais xomme pour les
autres rsultats asymptotiques que lon a vu, il sut de remplacer le rsidu par le rsidu
estim On a le rsultat suivant :
Proposition Dans le modle
yi = xi b + ui
avec les hypothses H1-H6, le test de lhypothse
H0 : E u2i xli xmi ) = E u2i E (xli xmi )
peut tre fait simplement comme un test de nullit jointe des coecients sauf celui de la
constnate dans le modle de rgression
X
u2i = xli xmi lm + vi
l,mK+1
o vi est dfini par E (vi xli xmi ) = 0 et dans lequel on fait lhypothse de rgularit
E (vi2 xli xmi xl0 i xm0 i ) = 2 E (xli xmi xl0 i xm0 i ) . Le test est mis en oeuvre partir du modle
de rgrsssion X
b2i =
u xli xmi lm + vi
l,mK+1
2
zi x2i N b bb = O (1) . Comme b bb = o (1) , zi x2i N b bb = o (1) . Comme
zi ui xi = o (1) et N b bb = O (1) , zi ui xi N b bb = o (1) .
contre
H1 : E u2i |xi ) = 2 + z
dans lequel z est un sous-ensemble des variables explicatives, peut tre fait simple-
ment partir de la rgression
b2i = a0 + z + vi
u
incluant KZ variables entrant dans z, dans lequel on fait un test de nullit jointes
de tous les paramtres excepte la constante. Sous H0 , la statistique NR2 suit un
2 (KZ ). Un test convergent au niveau peut tre fait de la rgion critique
{NR2 |NR2 > q (2 (KZ ) , 1 )}
Le sens du test est nanmoins dirents. Ces test sont des test portant sur un para-
mtrage de lhtroscdasticit, alors que le premier test ne porte que sur labsence
de covariance entre le rsidus au carr et les polynmes dordre 2 des variables
explicatives. Postuler une forme dhtroscdasticit est utile pour la prendre en
compte par exemple pour mettre en oeuvre lestimateur des mcqg. Exaliner labsence
de corrlation au deuximeordre est utile pour le choix du calcul de la matrice de
variance.
7.2. TEST DHTROSCDASTICIT 103
1 X
N
b22
= (yi x0ibb2 )2
N N2 K 1 i=N +1
2
dans le cadre spcifique dans lequel les rsidus sont normaux et la statistique de test est
exacte et non pas asymptotique. Cest la raison pour laquelle dailleurs les estimateurs
du paramtre b sont dirents dans les deux chantillons. Cela garantit en eet que les
deux estimateurs des variances sont indpendants, ce qui est important pour construire la
statistique de Fisher. Il en rsulte dailleurs que le test eectu nest pas ncessairement le
test dhtroscdasticit puisque les hypothses nulles et alternatives du test de Goldfeld
et Quandt sont
H0 : 21 = 22 et b1 b2 <
contre
H1 : 21 6= 22 et b1 b2 <
Alors que le test dhtrognit pur est un test de
H0 : 21 = 22 et b1 = b2
contre
H1 : 21 6= 22 et b1 = b2
En tout tat de cause rien nempche de considrer des indicatrices dappartenance aux
trois sous chantillons I1 = {i < N1 } , I2 = {N1 i < N2 } et I3 = {N2 i} , et dexami-
ner les resultats de la rgression
b2i = 2 + 1 I1 + 3 I3 + vi
u
et de tester lgalit 1 = 3 .
E (yi |xi ) = xi b
V (yi |xi ) = h (xi , ) > 0
o h est une fonction connue, mais un paramtre inconnu. On est typiquement dans un
cas htroscdastique, et on sait que lestimateur des MCG serait lestimateur linaire sans
biais le plus ecace du paramtre b. Cet estimateur pourrait tre obtenu en sphricisant
dabord
p les observations, i.e. en divisant les variables explicatives et la variable dpendante
par h (xi , ) puis en appliquant lestimateur des MCO. Nanmoins il nest pas possible
de mettre en oeuvre cette mthode directement car le paramtre est inconnu. On peut
7.3. LESTIMATEUR DES MCQG DANS LE CAS O V (UI |XI ) = H (, XI ) 105
vrifie quand N
1. bbmcqg b, Convergence
P
L
2. N bbmcqg b N 0, Vas bbmcqg , Normalit asymptotique
h i1
b x0i xi b
3. Vas bmcqg = E( h(xi ,0 ) ) =V bmcg Equivalence des MCQG et des MCG
1
b as bbmcqg = x0i xi P
4. V h(xi ,0 )
Vas bbmcqg Estimation de la matrice de variance asymp-
totique Vas
106 CHAPITRE 7. LE MODLE HTROSCDASTIQUE EN COUPE
1/2
b b b L
5. N Vas bmcqg bmcqg b N (0, I)
Dmonstration Soit b hi = h b , xi .
1
Convergence bbmcqg = b + b h1i x 0
x
i i
b
h1 0
i xi ui
h1 b P P
xi , x0i zi E (h1 (xi , 0 ) x0i zi ) comme 0 et par lhypothse H7 qui garan-
tit la convergence uniforme
b P
h1 x0 zi E h1 x0 zi
i i i i
Le deuxime terme converge clairement en loi puisque h1 (xi , 0 ) x0i ui a des moments
x0 x
dordre 1 et 2. On a dailleurs par un calcul immdiat V (h1 (xi , 0 ) x0i ui ) = E( h(xii ,i0 ) ). On
b 1 1
applique le thorme de la valeur moyenne hi h (xi , 0 ) = h 1 e b
, xi , avec
e
< b On peut donc crire N b h1
i h1 (x , ) x0 u = x0 u h1 e
i 0 i i i i , x i
N b et N b est born en probabilit et par lhypothse H7 x0i ui h1 e
P
, xi
E x0i ui h1 e 0 , xi = 0
Les deux derniers points se dmontrent de la mme faon que prcdemment
7.3.1 Application
On considre le modle en coupe
yi = xi b + ui
0.0287605 187.51859
Tab. 7.2 Rgression du carr du rsidu sur les variables et leurs produits croiss
Le tableau donne le paramtre estim ainsi que son cart-type. On voit que de nom-
breux coecients sont significatifs : la scolarit, lexprience, lexprience au carr.... Le
test dhtroscdasticit consiste faire un test de nullit globale mis part la constante.
Ce test peut se faire partir du R2 de la rgression en examinant la statistique F = NR2 .
La statistique suit est un 2 (12) . Bien que le R2 soit trs faible, la statistique est trs
leve et excde trs largement la valeur seuil dun test 5% : 21.03. On rejette donc
lhypothse de nullit globale. Lhypothse dhomoscdasticit est ainsi trs fortement
rejete.
Si on spcifie la forme de lhtroscdasticit, on peut mettre en oeuvre lestimateur
des mCQG. On spcifie comme cela est fait en gnral cette htrognit sous la forme
dune exponentielle. On spcifie alors la perturbation comme
ui = vi exp (e
xi )
parametre cart-type
Cste -0.1030 (0.9749)
scolarit -0.5734 (0.1216)
exprience -0.2728 (0.0338)
exprience 0.0220 (0.0026)
homme 0.0779 (0.4043)
scolarit 0.0170 (0.0039)
scolarit x exprience 0.0235 (0.0023)
scolarit x exprience -0.0008 (0.0001)
scolarit x homme 0.0018 (0.0256)
exprience3 -0.0004 (0.0001)
exprience x homme -0.0007 (0.0109)
exprience4 0.0000 (0.0000)
exprience x homme 0.0000 (0.0005)
257.72443 12
Tab. 7.3 Rgression du logarithme du carr du rsidu sur les variables et leurs produits
croiss
puisque E (ln (vi2 ) |xi ) = E (ln (vi2 ) |xi ) . Les rsultats auxquels on parvient sont reports
dans le tableau 7.3.
On voit que les rsultats sont un peu changs. On remarque en particulier une baisse du
rendement de lducation qui passe de 6.3% 5,5%. Cette dirence faible est inquitante
car l encore les deux paramtres devraient tre trs proches et l il dirent plus que
ce quimplique lordre de grandeurs de la prcision des estimations. Ceci nest donc pas
une bonne nouvelle en ce qui concerne la convergence des estimateurs. On voit nanmoins
que les carts-type sont modifis. On vrifie bien la proprit des mCQG que les carts-
type correspondants sont plus petits que ceux des mco : le gain est ici de lordre de
10%. Toutefois compte tenu de la taille de lchantillon, cela ne reprsente quun gain
modeste en terme de largeur de lintervalle de confiance. Les changements ne sont pas
bouleversants. On observe par ailleurs une plus grande similitude entre les carts-type du
modle sphricis robuste et directement obtenus que dans le cas prcdent.
En conclusion de cet exemple, lhtroscdasticit est bien prsente ici, mais les dif-
frentes faons de la prendre en compte soit dans le calcul des carts-type, soit par la
mise en oeuvre des mCQG, ne conduisent pas des modifications considrables dans la
prcision des estimateurs et leur estimation. L encore on se rend compte que la vraie
question est plus lexistence de biais dans les estimations que celle de la possibilit de gains
importants dans la prcision des estimateurs. On verra par la suite que lorsque lon aborde
cette question, les estimateurs que lon pourra mettre en oeuvre vont devenir beaucoup
moins prcis. Dans ce cas, la correction de lhtroscdasticit pourra reprsenter un gain
apprciable de prcision.
112 CHAPITRE 7. LE MODLE HTROSCDASTIQUE EN COUPE
Chapitre 8
Autocorrlation des rsidus dans les
sries temporelles
yt = xt b + ut , t = 1, . . . , T
On est donc dans un cadre dans lequel on ne peut plus faire lhypothse dindpendance
des observations.
On va voir ce sujet :
direntes formes dautocorrlation,
les tests permettant de dtecter lautocorrlation,
les mthodes destimation adaptes en prsence dautocorrlation.
113
114CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES
2
E (t ) = E (zt1 ) , mais pas au second ordre : E (zt2 ) = E zt1 + 2E (zt1 t ) + E (2t ) =
2
E zt1 + 2 . La variance nest pas constante et on voit mme quelle tend vers l.
ut = t + 1 t1
avec Et = 0, V t = 2 et cov (t , t0 ) = 0 t 6= t0
Les perturbations ut ne sont plus IID, mais ces hypothses sont transposes au pro-
cessus t .
On voit trs facilement que le les processus 2 MA(1) sont stationnaire lordre 2. On
2 2
a en eet E (ut |x) = 0, V (ut |x) = 1 + , E (ut ut1 |x) = et E (ut uts |x) = 0
pour s > 1. La matrice de variance covariance des perturbations a donc pour expression
1 + 2 0 0
...
1 + 2
2 . .
V (u) = 0 .. .. 0
. .
.. ..
0 0 1 + 2
ut = t + 1 t1 + + q tq
avec Et = 0, V t = 2 et cov (t , t0 ) = 0 t 6= t0
On voit l aussi trs facilement que le les processus MA(q) sont stationnaires lordre
2. On a en eet E (ut |X ) = 0, et en outre
V (ut |x) = 1 + 21 + + 2q 2
Pour s > q, on a clairement E (ut uts |x) = 0, par ailleurs pour s q on a
est fini ds que la srie 2q converge. Pour les covariances, on a aussi directement
X
E (ut uts |x) = s + s+q q 2
q=1
cette quantit ne dpend pas de t et est en outre finie ds lors que la srie 2q converge, de
P 2 P P
par lingalit de Cauchy
q=1 a q bq
q=1 a2q q=1 b2q .
ut = ut1 + t , t = 1, ...T
avec :
E (t |x) = 0, V (t |x) = 2 , cov (t , t0 |X ) = 0, t 6= t0 : les hypothses
dhomoscdasticit et dindpendance des perturbations du modle sont l aussi
transfres aux t cest dire aux innovations du processus :
|| < 1
On peut calculer la matrice de variance covariance dun processus AR(1). On crit
facilement la faon dont la perturbation ut dpend des perturbations passes
V (ut |x) = 2 / 1 2
Cov (ut , us ) = ts 2 / 1 2
Si le processus remonte en on a :
X
ut = s ts
s=0
On a donc
X
V (ut |x) = 2s 2 = 2 / 1 2
s=0
type de spcification permet en outre une mise en oeuvre facile de mthodes destimation
plus ecaces que les MCO (telles les MCQG).
et
X X XX
X X
bs aqs |bs | |aqs | = |aq | |bq | <
s s
P P 2
On en dduit que ( k=0 | k |) < et donc k=0 | k | < . Le processus est donc
stationnaire.
118CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES
pour s = E (ut uts ) . Cette quation est connue sous le nom dquation Yule-Walker.
Elle est aussi vraie pour les corrlations (cest dire la covariance divise par la variance
puisque le processus est stationnaire)
A(L)ut = B(L)t
avec
A(L) = 1 1 L 2 L2 p Lp
B(L) = 1 + 1 L + 2 L2 + + q Lq
et
E (t ) = 0, V (t ) = 2 , Cov (t , t0 ) = 0 t 6= t0
On a le mme rsultat que le processus est stationnaire si les racines du polynme A (Z)
sont lextrieur du cercle unit.
On examine le cas particulier dun processus ARMA(1,1)
ut = ut1 + t + t1
Par consquent
2u = V ut = 2 E u2t1 + E 2t + 2 E 2t1 + 2E (ut1 t1 )
8.2. ESTIMATEUR DES MCO LORSQUE LES PERTURBATIONS SUIVENT UN AR(1)119
cov(ut , ut1 ) = E u2t1 + E (ut1 t1 )
(1 + )( + )
= 2u + 2 = 2 = 2 w1
1 2
et s > 1
cov(ut , uts ) = cov(ut1 , uts ) = cov(ut , ut(s1) ) = s1 2 w1
soit
w0 w1 w1 2 w1 T 2 w1
... ..
w1 w0 w1 w1 .
... ... ...
2 w1 w1 2 w1
V u = ... ...
2 w w1 w1 w1
1
.. ... ...
. w1 w0 w1
T 2 w1 2 w1 w1 w1 w0
yt = xt b + ut
dans lequel les perturbations suivent un processus AR(1) et sont indpendantes des va-
riables explicatives. On a donc :
1. E (u |x) = 0
2. V (u |x) = de dimension T T et on a vu que
1 2 T 1
1 T 2
2
.. . ..
() = ..
1 2 T.2 .
1
T 1 T 2
1
120CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES
1 0 P
3. T
xx QXX , et que x0 x et QX sont inversibles.
Cette hypothse nest pas systmatiquement garantit en pratique. En particulier dans
le cas de la prsence dun trend ou dans le cas de la prsence de variables explicatives
distribues suivant une marche alatoire les moments dordre 2 nexistent pas.
P
On fait enfin lhypothse que la matrice T1 x0 x QXX
Sous ces hypothses lestimateur des mco
bbmco = (x0 x)1 x0 y
Tt=2 ut ut1 P
=
Tt=2 u2t1
L
8. T ( ) N (0, 1 2 ) il est asymptotiquement normal
On en dduit que
P
9. b b2 (, 2 ) ,
,
0 1 x0 b,b2 x 0 1
( ) xx P
10. Vbas bbmco |x = xTx T T
Q1 1
XX QXX QXX On peut donc obtenir
un estimateur convergent de la matrice de variance de lestimateur.
1/2
11. T Vbas bbmco |x bbmco b L
N (0, I)
Remarque 1. Les rsultats ne sont pas fondamentalement changs par rapport ceux
du chapitre prcdent : lestimateur est convergent, asymptotiquement normal et on
peut estimer de manire convergente sa matrice de variance.
8.2. ESTIMATEUR DES MCO LORSQUE LES PERTURBATIONS SUIVENT UN AR(1)121
P P
(a) zt m et lim T E (zt m)2 + k
P P L
(b) si zt = m
P+ + s s ts , avec s |s | < et t IID, alors T (zt m)
N 0, k
P
Le rsultat lim T E (zt m)2 + k prsente le changement fondamental avec
la situation du chapitre prcdent. Dans le chapitre prcdent on avait simplement
NE (zt )2 = 2 , ici lanalogue de 0 . La dirence provient ici du fait quil est n-
cessaire de prendre en comte la corrlation entre les observations aux direntes
dates. Le rsultat na toutefois rien de trs surprenant. Dans le cas dune variable
de moyenne nulle, on a :
1
T zt 2 = (z1 + + zT )2
T
1 XT 2 1 XT 1 XT
= zt + 2 zt zt1 + + 2 zt ztT +1
T t=1 T t=2 T t=T
1 XT 2 T 1 1 XT 1 T XT
= zt + 2 zt zt1 + + 2 zt ztT +1
T t=1 T T 1 t=2 T T 1 t=T
et donc
T 1 1
T E zt 2 = 0 + 2 1 + + 2 T 1
T T
2 1 T 1
T E zt 0 + 2 1 + + 2 T 1 = 2( 1 + + T 1 )
T T
P
qui tend vers zro puisque la srie + | k | converge.
Comme on le voit pour que la loi des grands nombres soit satisfaite il faut que la
dpendance temporelle sestompe susamment rapidement. On voit aussi que la va-
riance de lestimateur de la moyenne prend en compte cette dpendance temporelle.
Plus la dpendance temporelle est forte moins les estimations sont prcises.
de paramtres, et ces paramtres pourraient tre estims partir des rsidus de lesti-
mation ; comme on la montr pour le coecient de corrlation des perturbations. Il est
donc possible en thorie dobtenir une estimation convergente des la matrice , partir
de laquelle on peut estimer la matrice de variance de lestimateur des mco. Maintenant
il est clair que cette matrice va dpendre de lhypothse choisie pour des raisons parfois
incompltement explicites. On peut donc tre tent de rechercher un estimateur de la
matrice de variance covariance de lestimateur des mco qui soit robuste ce choix plus
ou moins arbitraire dune spcification du processus engendrant les perturbations. En
outre dans lapproche prcdente, on fait lhypothse que la corrlation entre les rsidus
direntes dates ne dpend pas des valeurs prises par les variables explicatives. On a
pourtant mis laccent dans le chapitre prcdent sur les possibilits de dpendance des
moments dordre 2 et des variables explicatives. Une telle question se pose pareillement
dans le cadreP des sries temporelles. Le point important concerne la variance du produit
T
1 x0 u = 1 0
T T t=1 xt ut . La variance de ce terme scrit
XT X
E (x0 uu0 x) /T = E x0t xt u2t /T + x0t xts ut uts /T + x0ts xt uts ut /T
t=1 t,s6=0
XT
= E x0t xt u2t /T +
t=1
XT
E x0t xt1 ut ut1 /T + x0t1 xt ut1 ut /T +
t=2
XT
E x0t xt2 ut ut2 /T + x0t2 xt ut2 ut /T + +
t=3
XT
0 0
E xt xtq+1 ut utq+1 /T + xtq+1 xt utq+1 ut /T + +
t=q
XT
0 0
E xT x1 uT u1 /T + x1 xT u1 uT /T
t=T
0 2
P 0
0
soit E (xP 0
t xt ut ) + s6 =0 E (xt xts u t uts ) + E x ts xt u ts ut (T s + 1) /T. Pour un s
donn, t xt xts ut uts /T est un estimateur convergent de E (x0t xts ut uts ) (T s + 1) /T.
Le problme est quil faut estimer cette quantit pour toutes les valeurs de s de s = 1
jusqu s = T, ce qui est impossible dans un chantillon de taille T. Loptique choisie
par Newey-West est de nestimer ces termes que pour les valeurs de s les plus faibles, le
nombre de valeurs retenues dpendant de la taille de lchantillon. Ceci est exact si la srie
xt ut est distribue suivant une moyenne mobile dordre fini. Cest une approximation si-
non, mais si le degrs de corrlation temporelle de xt ut dcrot assez vite et si lestimateur
retenu intgre un nombre de retard croissant avec la taille de lchantillon on peut montrer
que cette matrice est convergente. Ceci est conforme lide que les corrlations entre les
perturbations disparaissent un taux relativement lev. Par exemple dans le cadre du
modle AR (1) elles disparaissent exponentiellement. Lestimateur de Newey West estime
E (x0 uu0 x) /T par
XT X X
x0t xt u2t /T + s (T ) x0t xts ut uts + x0ts xt uts ut /T
t=1 s6=0 t
124CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES
o
X
T
x0 xt u
b2
b0 =
t t
t=1
T
XT
x0t xts u
bt u
bts
bs =
t=s+1
T
On rappelle encore que cette matrice est robuste la fois la corrlation temporelle des
rsidus, pourvu quelle sestompe assez vite et lexistence dhtroscdasticit relative
aux x. On vrifie bien au passage que si on fait lhypothse quil ny a pas de corrlation
temporelle dans les perturbations ou les variables explicatives, alors on retrouve la formule
de White (dans ce cas on na en eet que le terme 0 dans le terme central).
vrifie
bbmcqg b : convergence
P
T bbmcqg b N (0, Vas (mcqg)) : normalit asymptotique
L
ut = ut1 + t , t = 2, ..., T
soit
Tt=2 ut ut1
=
Tt=2 u2t1
On calcule alors les donnes transformes :
q
y1 = 1 2 y1 et yt = yt yt1 , t = 2, ..., T
q
x1 = 1 2 x1 et xt = xt xt1 , t = 2, ..., T
yt = xt b + ut , t = 1, ..., T
Lestimateur b ainsi obtenu est convergent et asymptotiquement aussi ecace que lesti-
mateur des MCG. Les carts-type donns par les logiciels standards peuvent en outre tre
directement utiliss (Remarque : il ne faut pas oublier de retirer la constante du modle
et ne pas omettre non plus dappliquer la transformation toutes les variables du modle
initial, y compris la constante si il en comprend une).
8.5. DTECTION DE LAUTOCORRLATION 127
p lim db = 2(1 )
En eet :
1 T
b u2 2 T1 Tt=2 ut ut1 + T1 Tt=2 u2t1
T t=2 t
p lim d = p lim 1 T
u2
T t=1 t
= 1 2 + 1 = 2(1 )
puisque
1 T 2 1 1
p lim t=2 ut = p lim Tt=2 u2t1 = p lim Tt=1 u2t
T T T
et que
p lim T1 ut ut1 Cov (ut , ut1 )
1 T 2
= =
p lim T t=1 ut V (ut )
La loi de probabilit de la statistique db est toutefois dicile tablir car elle dpend
des rsidus estims et donc des valeurs prises par les variables explicatives du modle. On
montre nanmoins que :
Sous lhypothse H0 : = 0, il existe deux statistiques, dl et du , qui encadrent toujours
db :
d` < db < du ,
Comme
dl < d0 < du
On a
d?l () < d? () < d?u ()
8.6 Rsum
Dans ce chapitre, on a tudi
1. Les direntes formes de corrlations des perturbations
2. Prsent les modles AR (p) et MA (q) et mis laccent sur le modle AR (1) qui
modlise simplement une ide simple et importante : les innovations dun processus
peuvent avoir des eets durables mais qui sestompe progressivement.
3. Examin les proprits de convergence de lestimateur des mco dans le cas AR (1)
et tudi en quoi elle dire du cadre IID.
4. On retrouve le rsultat central que la corrlation des rsidus naecte pas les pro-
prits de convergence de lestimateur mais modifie en revanche les carts-type des
estimations.
5. On a propos une matrice de variance robuste lhtroscdasticit temporelle et re-
lative au x, la matrice de Newey-West, qui gnralise au cadre des sries temporelles
la matrice de White robuste lhtroscdasticit relative aux x seulement.
6. On a examin lestimateur des MCQG dans le cadre du modle AR (1) , estimateur
dit de Prais-Watson, simplement mis en oeuvre en deux tapes. une tape mco
130CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES
On examine ici le cas des donnes de panel et le cas des rgressions empiles. On
considre dune faon gnrale le modle
y i = xi b + ui , y i de dim M 1, xi de dim M K + 1
Le modle est ici spcifi en terme de vecteur y i , xi et ui . Comme on va le voir ce cas est
en fait une gnralisation directe du cas des mco prcdemment examin.
vrifie quand N
P
1. bbmco b, lestimateur est convergent
b L b
2. N bmco b N 0, Vas bmco , lestimateur est asymptotiquement normal
131
132 CHAPITRE 9. LESTIMATEUR DES MCQG DANS LE CAS O = IN ()
3. Vas bbmco = [E(x0i xi )]1 E(x0i xi ) [E(x0i xi )]1
0
b b b
4. = y i xi bmco y i xi bmco = u
P
b0i , Estimation de la matrice de va-
bi u
riance des perturbations
1
b b 0 0b 0 1 P b
5. Vas bmco = (xi xi ) xi xi xi xi Vas bmco Estimation de Vas
1/2
6. N Vbas bbmco bbmco b L
N (0, I)
Dmonstration Si M est la dimension du vecteur y i : y 0i = y1i yMi , alors
i=N,m=M
X X X
i=N m=M X
i=N
0 0 0
xx = xim xim = xim xim = x0i xi , et pareillement pour x0 y, do lex-
i=1,m=1 i=1 m=1 i=1
pression de bbmco
1 0
Convergence Pour montrer la convergence on crit bbmco = b + x0i xi xi ui . Comme
les observations sont indpendantes et quidistribues entre deux individus i et j et que
P
les moments |xki xli | existent x0i xi E (x0i xi ) . Comme dans le cas standard, les mo-
ments dordre 1 et 2 de x0i ui existent. On a en eet E (x0i ui ) = E (x0i E (ui |xi )) = 0 et
1 0 P
V (x0i ui ) = E (x0i V (ui |xi ) x0i ) + V (x0i E (ui |xi )) = E (x0i x0i ) . On a donc x0i xi xi ui
0 1 0
E (xi xi ) E (xi ui ) = 0 par application de la loi faible des grands nombres.
0 1 0
Normalit asymptotique N bbmco b = x x i i Nx u
i i
On applique le Thorme central limite x0i ui . On a dj vu que les deux premiers
L
moments de ce vecteur existent . On a donc Nx0i ui N (0, E (x0i xi )) . On applique
1 P L
alors le thorme de Slutsky x0i xi E (x0i xi )1 et Nx0i ui N (0, E (x0i xi )) donc
1 0
N bbmco b = x0i xi Nxi ui
L 1 1
N 0, E (x0i xi ) E (x0i xi ) E (x0i xi )
Estimation de 0
b b b bi = y i xibbmco =
b0i et u
bi u
Lestimateur de est = y i xi bmco y i xi bmco = u
xi b bbmco + ui . Donc
0
b =
xi b bbmco + ui xi b bbmco + ui
0
b b
= ui ui + xi b bmco b bmco x0i +
0
0
b b
xi b bmco ui + ui b bmco x0i
0
133
Le premier terme converge vers par la loi des grands nombres puisque |usi uti | existent.
k
Le deuxime terme est une matrice dont les lments sont somme de termes xli b bmco b b bbmco
m
P P 0
b bbmco b bbmco 0 xkli xkl0 i Comme b bbmco 0 et que xkli xkl0 i E xkli xkl0 i ce
0 0
m m
terme tend vers zero en probabilit.
De mme pour le troisime et le quatrime terme. 1
Estimation de la variance de lestimateur des mco V bbmco = (x0i xi ) x0i x b i x0 xi 1
P
i
V bbmco
b i et on a
Le seul terme important est x0i x
b i E (x0i xi ) =
x0i x b i x0 xi + x0 xi E (x0i xi )
x0i x i i
0 b
= xi xi + x0i xi E (x0i xi )
Le deuxime terme tend vers zro en probabilit par la loi forte des grands nombres. Le
premier terme tend vers zro en probabilit par le mme genre dargument que prcdem-
b P
ment, puisque
P
L
Enfin, comme V bbmco V bbmco et N bbmco b N 0, V bbmco on a di-
b
rectement par le thorme de Slutsky
1/2
b b
N V bmco b L
bmco b N (0, I)
Remarque L encore on peut tendre les rsultats au cas o bien que les hypothses H1
H5 soient satisfaites (en particulier identit des moments dordre 2, les observations ne
sont pas quidistribues. Ceci correspondrait par exemple au cas dans lequel les moments
dordre suprieur deux soient spcifiques chaque individu. Il faut comme dans le cas
des MCO du modle homoscdastique imposer des restrictions sur les moments dordre 3
de la valeur absolue de chaque composante du rsidu.
vrifie quand N
1. bbmcqg b, lestimateur est convergent
P
2. N bbmcqg b N 0, Vas bbmcqg , lestimateur est asymptotiquement normal
L
3. Vas bbmcqg = [E(x0i 1 xi )] = V bbmcg lestimateur est asymptotiquement qui-
1
De mme
P
b 1 ui
x0i E x0i 1 ui = E x0i 1 E (ui |xi ) = 0
Do la convergence de lestimateur
Normalit asymptotique
L
b 1 ui
Le seul point montrer est Nx0i N (0, E (x0i 1 xi ))
0 b 1 0 b 1
Nxi ui = Nxi 1 ui + Nx0i 1 ui
Chaque terme de Nx0i b 1 1 ui est de la forme Nxk b 1 0 1 0 ul0 i =
li m,m m,m
b 1 1 k
m,m0 m,m0 Nxli ul0 i Le premier terme converge en probabilit vers 0. Le deuxime
terme converge en loi vers une loi normale. Comme on la rappel au dbut du chapitre 5,
une suite variables alatoires convergent en loi est born en probabilit, cest un O (1) , et
on a vu aussi au dbut du chapitre 5 que o (1) O (1) = o (1) . Le comportement asympto-
tique de Nx0i b 1 ui est donc le mme que celui de Nx0 1 ui . Comme V (x0i 1 ui ) =
i
E (x0i 1 xi ) , il converge donc en loi vers une loi normale N (0, E (x0i 1 xi ))
Les deux derniers points se dmontrent de la mme faon que prcdemment
135
La mise en oeuvre de lestimateur des MCQG dans le cas des donnes de panel ou des
rgressions empiles est trs simple. Elle se fait en plusieurs tapes.
On estime dabord le modle
y i = xi b + ui
par les MCO : bbMCO = (x0 x)1 x0 y
On calcule ensuite le rsidu pour chaque individu
bi = y i xibbMCO
u
Cette mise en oeuvre peut tre facilite sil existe un moyen simple de sphriciser le
modle.
La variance est alors donne par :
1
Vbas bbmcqg = x0i
b 1 xi
1 b b
b b
V bmcqg = Vas bmcqg
N
Suivant les cas on peut avoir un nombre plus ou moins important de paramtres
estimer. Dans le cas des donnes de panel la matrice de variance ne dpend que de deux
paramtres la variance de leet individuel et la variance de leet temporel. Direntes
mthodes peuvent tre utilises pour estimer ces paramtres et donc mettre en oeuvre
lestimateur des MCQG.
136 CHAPITRE 9. LESTIMATEUR DES MCQG DANS LE CAS O = IN ()
y i = IM xi b + ui
en outre
(IM x0i ) 1 y i = (IM x0i ) 1
yi 1
= 1 y
i
= x0i (1 0
IK ) y i xi
1
0
= IK y i xi
y = + L l + C c + K k + v
les coecients sont donc les lasticits de la production aux eectifs, au capital et au
capital de recherche. Les observations dont on dispose sont des donnes de panel puisque
chacun des 381 individu est suivi sur 4 ans : y 0i = (yi86 , yi87 , yi88 , yi89 ) . On estime le modle
par les mco. Il est alors possible destimer la matrice de variance des perturbations
b=u
b0i
bi u
on peut alors calculer les carts-type de deux faons : soit en ignorant la nature de donnes
de panel des donnes, i.e. en faisant comme si la matrice tait diagonale, soit en prenant
cette information en compte. Dans un cas les carts-type sont simplement donns par la
1
formule standard Vbas = b2 x0i xi et Vbb (1) = Vbas /N. Dans lautre cas les carts-type
1 0
sont calculs suivant la formule Vbas = x0i xi b i x0 xi 1 et toujours Vbb (2) = Vbas /N.
xi x i
Le tableau suivant prsente les rsultats de cette estimation par les mco et les carts-type
calculs suivant les deux modes de calcul :
b b (1)
b (2)
un 4.78 (0.120) (0.226)
l 0.509 (0.023) (0.044)
c 0.235 (0.022) (0.040)
k 0.229 (0.017) (0.026)
On voit que les carts-type sont nettement plus lev avec la formule qui tient compte
des corrlations entre les rsidus aux direntes dates. On peut regarder la matrice de
variance des perturbations estime. On parvient la matrice symtrique suivante :
86 87 88 89
86 0.209 . . .
87 0.191 0.214 . .
88 0.184 0.186 0.203 .
89 0.176 0.177 0.192 0.210
et on voit quelle est trs loin dtre une matrice diagonale. Les lments sur la diago-
nale sont plus ou moins constants, mais on voit aussi que les lments hors de la diagonale
sont certes plus faibles que ceux sur la diagonale mais dun ordre de grandeur comparable.
Lhtroscdasticit est ainsi une caractristique essentielle et lomettre serait une grave
138 CHAPITRE 9. LESTIMATEUR DES MCQG DANS LE CAS O = IN ()
erreur. Compte tenu de lordre de grandeur des coecients de la matrice de variance cova-
riance on voit quon est beaucoup plus prs dune situation dans laquelle les observations
seraient rptes quatre fois que dune situation dans laquelle les quatre observations de
chaque individu constitueraient quatre tirages indpendants. Le nombre total dobserva-
tions est donc 381x4=1524 mais on est trs loin davoir linformation de 1524 observations
indpendantes. On est bien plus prs davoir 381 observations rpliques 4 fois. De fait les
estimateurs tant convergent en N. Comme la dimension temporelle est de 4, on doit se
tromper approximativement dun facteur 4 = 2 dans les carts-type. Cest bien ce que
lon observe en gros. La conclusion que lon doit tirer de cet exemple est que la correction
des carts-type tenant compte de lhtroscdasticit est essentielle pour les donnes de
panel.
On peut aussi chercher mettre en oeuvre lestimateur des MCQG la formule est :
1
bbmcqg = x0
b 1 xi b 1 y
x0i
i i
1
et la matrice de variance peut tre estimes par Vbasmcqg = b 1 xi
x0i et Vbb (3) =
Vbasmcqg /N. Les rsultats sont donns dans le tableau suivant :
bbmcqg bmcqg
ste
C 4.67 (0.193)
l 0.505 (0.032)
c 0.352 (0.026)
k 0.086 (0.009)
On voit que par rapport lestimateur des mco, cet estimateur est sensiblement plus
prcis. Le coecient du capital recherche en particulier est environ 3 fois plus prcis. La
mise en oeuvre de ce type destimation est donc dans ce cas un gain prcieux. On remarque
aussi que les deux estimateurs sont en fait assez dirents en particulier les coecients
concernant le capital physique et le capital de recherche. Le coecient du capital physique
augmente fortement alors que celui du capital recherche baisse au contraire. Ces dirences
importantes sont en outre grandes devant lordre de grandeur des carts-type. Bien quil
ny est pas de test formel ici, il est vraisemblable que ces dirences soient significatives.
Ceci nest pas un bon signe, comme on le verra plus tard. En eet on peut remarquer ds
maintenant une sorte dincohrence : normalement sous les hypothses faites lestimateur
des mco et celui de mCQG sont tous les deux convergents : les valeurs estimes devraient
donc tre assez proches.
9.3 Rsum
Dans ce chapitre on a :
9.3. RSUM 139
yi = b0 + x1i b1 + + xK
i bK + ui
avec lhypothse
0
E xi ui = 0 ou E (ui |xi ) = 0
Cette hypothse peut aussi constituer une dfinition statistique du paramtre b. Le
coecient b sinterprte alors comme le vecteur des coecients de la rgression linaire
de yi sur le vecteur de variables xi . Une telle dfinition prsente un intrt dans une
approche descriptive des donnes. Nanmoins on est frquemment amen estimer des
modles structurels dans lesquels les paramtres ont un sens conomique. Le plus simple
dentre eux est certainement la fonction de production
yi = a + ki + li + ui
141
142 CHAPITRE 10. VARIABLES INSTRUMENTALES
(test de Sargan) et de tester lhypothse des mco : E (ui |xi ) = 0 (test dexognit). Si
dans les chapitres prcdents on mettait beaucoup laccent sur lecacit des estimateurs
(le Thorme de Gauss-Markov), ici on va mettre au contraire laccent sur lidentification
des paramtres et sur la robustesse des estimations, et on va voir quil y a un arbitrage
entre robustesse et ecacit.
yi = xi b + ui
xi = xi + ei
yi = xi b + ui bei
On est dans une situation dans laquelle le rsidu de lquation vi = ui bei est corrl
avec la variable explicative
10.1.2 Simultanit
La simultanit est la situation dans laquelle certains des rgresseurs et la variable
expliquer sont dtermins simultanment. Un exemple typique est celui dun quilibre
ore demande. Une quation de demande va ainsi scrire
yi = d pi + xdi bd + udi
La variable de prix pi ne peut pas tre considre comme exogne. En eet, il y a aussi
une quation dore
yi = s pi + xsi bs + usi
On peut rsoudre ce systme pour exprimer
1 d d
pi = xi b xsi bs + udi usi
s + d
un choc de demande udi est transmis dans les prix : E udi pi 6= 0. On peut voir aisment
que lestimateur des mco de lquation de demande ou dore sera biais. On peut pour cela
considrer le graphe reprsentant lquilibre ore demande reprsent sur la figure 10.1.
Les observations correspondent lensemble des intersections des courbes dore et de
demande. Ces courbes se dplacent, sous laction des variations des variables explicatives
et aussi sous laction des chocs de demande et dore. On voit que sil ny a que des chocs
de demande, lensemble des points dintersection des courbes dore et de demande va
dcrire la courbe de demande, de mme, sil ny a que des chocs de demande, lensemble
des points dquilibre va dcrire la courbe dore. Dans le cas gnral, il y a des chocs
dore et de demande, et lensemble des quilibres ne dcrit ni la courbe dore ni la
courbe de demande, la droite de rgression passe au milieu.
y y
Offre
Y*
Demande
p p
P*
Uniquement des chocs doffre
Equilibre Offre-Demande
y y
Droite de rgression
p p
Un exemple important est donn par les quations dites de Mincer reliant le salaire
lducation
wi = 0 + s si + ui
Le paramtre s mesure leet dune anne dtude supplmentaire sur le niveau de salaire.
Dans lensemble des causes inobserves aectant le salaire se trouve entre autres le niveau
daptitude de lindividu. Le choix dun niveau dtude si est une dcision rationnelle de
la part de lagent, fonction de laptitude de lindividu.
On peut considrer aussi le cas dune fonction de production agricole : yi est le
rendement de la terre, xi la quantit dengrais b est le rendement des pandages et
zi la qualit de la terre. Lomission de cette variable biaise lestimation du paramtre
technologique b si les dcisions dpandages dengrais dpendent de la qualit de la terre. Le
paramtre estim nidentifie pas seulement le paramtre structurel mais une combinaison
non dsire de ce paramtre et de celui refltant le comportement de lagriculteur.
p lim bbmco 6= b
146 CHAPITRE 10. VARIABLES INSTRUMENTALES
yi = li + ki + ui
On fait en gnral lhypothse que le stock de capital sajuste lentement et nest de ce fait
pas corrl avec la perturbation. Par contre le travail est un facteur variable, positivement
corrl la perturbation : E (li ui ) = > 0. On calcule sans peine la valeur limite du
paramtre :
1 V (ki ) cov (li ki )
p lim biaismco =
V (li ) V (ki ) cov (li ki ) cov (li ki ) V (li ) 0
V (ki )
= V (li ) V (ki ) cov (li ki )
cov (li ki )
On constate donc que les deux coecients sont biaiss : celui du travail sans ambigut
la hausse, et celui du capital la baisse si comme cest probable le capital et le travail
sont corrls positivement.
yi = d pi + xdi bd + udi
yi = s pi + xsi bs + usi
On note xi = xdi , xsi , certains lments peuvent tre commun aux deux ensembles et
ninterviennent dans ce cas quune fois dans xi . On fait les hypothses
0 0
E xi udi = 0, E xi usi = 0 (10.1)
c.--d. que les variables observables qui dplacent lore et la demande sont exognes pour
udi et usi . On peut rsoudre comme prcdemment en pi mais aussi en yi :
1 d d
pi = xi b xsi bs + udi usi
s + d
s d s d
yi = xdi bd + xsi bs + udi + us
s + d s + d s + d s + d i
10.2. LA MTHODE DES VARIABLES INSTRUMENTALES 147
Compte tenu des relations 10.1, on peut exprimer les coecients des rgressions li-
naires de yi et pi sur xi partir des paramtres structurels.
La modlisation, cest dire la spcification dune fonction dore et de demande et
des restrictions stochastiques (exognit de xi ), conduit des restrictions sur les para-
mtres des rgressions linaires des variables endognes qui sont susceptibles de permettre
lidentification des paramtres structurels du modle.
Proposition Sil existe une variable exogne intervenant spcifiquement dans lquation
dore, lquation de demande est identifie.
De mme, sil existe une variable exogne intervenant spcifiquement dans lquation
de demande, lquation dore est identifie
Dmonstration Si xs1i est une telle variable, le coecient de cette variable dans la
1
rgression linaire de pi sur xsi et xdi est s + bs , et le coecient de cette variable dans
d 1
la rgression linaire de yi sur xsi et xdi est s+
d
bs . La comparaison de ces deux coecients
d 1
permet lidentification de d
Ce rsultat est obtenu en ayant recours une modlisation de lensemble des variables
endognes du modle : la production et le prix, ou de faon quivalente le systme dqua-
tions qui les dtermine simultanment. Dans de nombreuses situations on ne sintresse
qu une des deux quations, par exemple lquation de demande, les hypothses identi-
s
ficatrices peuvent tre assouplies. Il sut
quil existe
au moins une variable x1i entrant
0
dans lquation dore et vrifiant E xdi xs1i udi = 0. Dans ce cas si on considre les
ei = xdi xs1i sont
coecients y et p des rgressions linaires de yi et pi sur x
0 1 0 0 1 0
ei x
y = E x ei ei yi = E x
E x ei x
ei ei d pi + xdi bd + udi
E x
0 1 0 0 1 0
= d E x ei x
ei E x ei pi + E x ei x
ei E xei xdi bd
0
= d p + bd 0
Le vecteur y est identifi par les donnes : il sagit du vecteur des coecients de la
ei . Il en est de mme pour le vecteur p . ds lors que le coe-
rgression linaire de yi sur x
s
cient de la variable x1i dans la rgression de la variable de prix sur x ei , lment de p , est
non nul, et que la variable xs1i ne figure pas dans la liste des rgresseurs exognes (struc-
turels) de lquation de demande, on voit que les coecients de lquation de demande
sont identifis. Il nen est pas ncessairement de mme pour lquation dore, soit parce
que lon ne mesure pas toutes les variables xsi garantissant E (usi xsi ) = 0, soit parce quil
ny a pas de variables aectant la demande qui naecte pas directement lore. Enfin on
remarque quil nest pas ncessaire de spcifier lquation dore.
Cet exemple illustre bien la dmarche des variables instrumentales. Celle-ci correspond
la mobilisation de variables extrieures au modle qui possdent la particularit de ne
pas tre corrles avec le rsidu de lquation structurelle et qui sont nanmoins corrles
148 CHAPITRE 10. VARIABLES INSTRUMENTALES
avec la variable endogne. Lidentification vient alors du fait que leet de la variable
instrumentale sur la variable dpendante ne fait que reflter celui de la variable endogne.
Dire quune variable est une variable instrumentale revient postuler une relation
dexclusion : il existe une variable aectant la variable expliquer et la variable explicative
endogne et dont tout leet sur la variable expliquer "transite" par son eet sur la
variable explicative endogne.
On voit donc quune variable instrumentale ne tombe pas du ciel. Dans lexemple on
justifie le choix de la variable comme tant une variable appartenant un modle plus
gnral, le systme ore-demande, conduisant lquation structurelle de demande et
une quation rduite expliquant la formation de la variable endogne.
10.2.3 Identification
On considre le modle structurel
yi = x1i b1 + x2i b2 + ui
et 0
rang E zi xi = K + 1
La premire condition, appele condition dorthogonalit, consiste supposer que le
vecteur des variables instrumentales nest pas corrl avec le rsidu de lquation struc-
turelle. Il fait intervenir les K2 + 1 variables exognes x2 ainsi que (H + 1) (K2 + 1) =
H K2 instruments extrieurs zie .
Lhypothse (10.2) est parfois introduite sous la forme :
E(ui |zi ) = 0
qui est plus forte que la prcdente (non corrlation) puisquelle implique en particulier
E (g (zi ) ui ) = 0 pour toute fonction g.
La deuxime condition est dite condition de rang. Elle joue un rle essentiel, parfois
oubli, et que lon dtaillera par la suite.
La condition (10.2) peut tre rcrite comme suit :
0
E zi (yi xi b) = 0
10.2. LA MTHODE DES VARIABLES INSTRUMENTALES 149
Soit encore : 0 0
E zi yi = E zi xi b (10.3)
yi = xi b + ui
Comme E (zi0 xi ) est de rang K+1, il existe ncessairement une matrice A de dimension
(K + 1) dim zi telle que AE (zi0 xi ) de dimension (K + 1) (K + 1) soit inversible (il
sut par exemple de considrer A = E (zi0 xi )0 ). On en dduit donc que
1
b = (AE (zi0 xi )) AE (zi0 yi )
b sexprime donc comme la limite dune fonction ne dpendant que des observations par
1 0
exemple Azi0 xi A zi yi
de b appel Estimateur des Moindres Carrs Indirects en remplaant les esprances par
leurs contreparties empiriques :
!1
1 X 0 1 X 0
N N
bbmci = z xi z yi
N i=1 i N i=1 i
= (z 0 x)1 z 0 y
o z est la matrice dont la i-ime ligne est zi , x la matrice dont la i-ime ligne est xi et y
le vecteur dont la i-ime composante est yi .
Si H > K, on se ramne au cas prcdent en slectionnant K +1 combinaisons linaires
des instruments : Azi , o A est une matrice K + 1 H + 1, de rang K + 1. Lhypothse
que lensemble des H + 1 variables dans zi est un ensemble de variables instrumentales
conduit la proprit que pour A tel que AE (zi0 xi ) est inversible,
1
b = (AE (zi0 xi )) AE (zi0 yi ) .
avec h 0 i1 h 0 i1
2
(A) = AE zi xi AE (zi zi ) A E xi zi A0
0 0
h i1 h i1
b
3. (A) = b2 Azi xi
0 0
Azi0 zi A0 xi zi A0 o b (A)2i , est un estimateur convergent
b2 = u
de (A)
Dmonstration
0 0 Existence dau moins un estimateur
0 0 des MCI : Il sut de prendre
0 0 0 0
A = E zi xi on a alors E zi xi zi xi E zi xi E zi xi qui est inversible puisque
0 0
rang E zi xi = K + 1. Comme le dterminant est une fonction continue det Azi xi
0
det AA0 6= 0 et donc la matrice Azi xi est inversible pour N assez grand.
Convergence :
1 1
bbmci (AN ) = AN z 0 xi A z
0
N i iy = b + A z
0
N i ix
0
AN zi ui .
i
p 0 p 0
et du fait que AN A et zi xi E zi xi
Normalit asymptotique
1 0
b 0
N bmci (A) b = AN zi xi AN Nzi ui
0 0 0 0
Comme V zi ui = E(zi zi u2i ) = E zi zi E(u2i | zi ) = 2 E zi zi , la normalit asympto-
tique dcoule directement du thorme central limite :
0 L
Nzi ui N(0, 2 E (zi zi0 ))
1 p 0 1
0
et AN zi xi AN AE zi xi A
Estimation de la matrice de variance-covariance asymptotique
2
b (A)2i = ui + xi b bb (A)
Comme pour lestimateur des mco, on vrifie facilement que u
2 puisque b bb (A) 0
Remarque Estimation robuste de la matrice de variance : Comme pour lestimateur des
mco, il existe une version de la matrice de variance-covariance (A) pour le cas de rsidus
htroscdastiques, i.e. lorsque E(u2i |zi ) dpend de zi . On peut donc supprimer lhypothse
H3. Les conclusions sont simplement modifies en : bbmci (A) est asymptotiquement normal :
b L
N bmci (A) b N(0, het (A)),
152 CHAPITRE 10. VARIABLES INSTRUMENTALES
avec h 0 i1 2 0 0 h 0 0 i1
het (A) = AE zi xi AE ui zi zi A E xi zi A
h i1 h i1
b het (A) = Az 0 xi
et Ab
u (A)2 0
z z A0
x
0
z A0
est un estimateur convergent de la ma-
i i i i i i
trice de variance.
On a donc
1 1
(A) (A ) = BB 0 (C 0 C) = BB 0 BC (C 0 C) C 0B0
puisque BC = I. On a donc :
h i
1
(A) (A ) = B I C (C 0 C) C 0 B 0
Comme I C (C 0 C)1 C 0 est une matrice semi-dfinie positive, (A) (A ) est aussi
une matrice semi-dfinie positive
Remarque On a vu que dans le cas htroscdastique, la variance de lestimateur des
0 1 0 1
moindres carrs indirects scrivait : het (A) = AE zi xi AE (u2i zi0 zi ) A0 E xi zi A0 .
O voit par analogie avec le cas prcdent homoscdastique que
0 dans
ce cas 1 aussi il y a un
estimateur optimal et quil correspond la matrice A = E xi zi E (u2i zi0 zi ) .
1 0
1 1 0
bbmci (AN ) = 0
xi zi zi0 zi zi xi
0
xi zi zi0 zi zi yi
1
1 1
= x0 z (z 0 z) z 0 x x0 z (z 0 z) z 0 y
Cet estimateur a les mmes proprits asymptotiques que lestimateur bbmci (A ) puisque
AN A .
On peut rcrire lestimateur en faisant intervenir la matrice de projection orthogonale
sur z, Pz = z (z 0 z)1 z 0
bb2mc (A ) = (x0 Pz x)1 x0 Pz y = ((Pz x)0 Pz x)1 (Pz x)0 y
On voit que la projection des variables explicatives sur les variables instrumentales joue
un rle trs important. Il correspond de faon vidente lestimateur des mco de la
variable endogne y sur la projection x b = Pz x des variables explicatives sur lensemble
des instruments. On peut vrifier directement ce point en considrant nouveau le modle
et en dcomposant les variables explicatives en x= Pz x + Mz x. Le modle scrit :
y = xb + u
= Pz xb + Mz xb + u = Pz xb + v
154 CHAPITRE 10. VARIABLES INSTRUMENTALES
Ici la perturbation comprend le vrai rsidu mais aussi la partie des variables expli-
catives orthogonales aux variables instrumentales : v= Mz x+u. On voit que pour ce
nouveau modle dans lequel les rgresseurs ont t remplacs par leurs projections sur
les variables explicatives, il y a orthogonalit entre le rsidu et les variables explica-
tives puisque (Pz x)0 u/N = x0 z/N (z 0 z/N)1 z 0 u/N E (x0 z) E (z 0 z)1 E (z 0 u) = 0 et
(Pz x)0 Mz x = x0 Pz Mz x = 0. On en dduit que lestimateur des mco de la rgression de y
sur Pz x est bien convergent.
Cest pourquoi on appelle cet estimateur estimateur des doubles moindres carrs et on
le note bb2mc puisquil pourrait tre obtenu partir dune premire rgression des variables
explicatives sur les variables instrumentales puis par rgression de la variable endogne
sur les variables prdites de cette rgression.
Lestimateur peut tre dtermin en deux tapes :
1. On rgresse x sur z et on rcupre b
x la valeur prdite.
2. On rgresse y sur b
x
La matrice de variance asymptotique de bb2mc est
h 0 0 i1
Vas (bb2mc ) = 2 E xi zi E (zi0 zi ) E zi xi
1
yi = xi b + ui
2
et peut tre estim par yi xibb2mc . Il faut remarquer quici il sagit du rsidu u
bi =
yi xibb2mc et non du rsidu de la deuxime tape yi x
bibb2mc .
Cette criture de lestimateur variables instrumentales montre quon peut linterpr-
ter comme oprant un filtrage de linformation. On ne retient de la variabilit des variables
explicatives que la partie qui correspond des chocs non corrls avec la perturbation.
Ce filtrage est opr en projetant les variables explicatives sur un ensemble de variables
non corrles avec la perturbation. La condition de rang garantit que lon ne perd pas le
minimum dinformation requis pour identifier le paramtre.
10.3. LESTIMATEUR DES DOUBLES MOINDRES CARRS 155
On voit aussi que dans cette opration de filtrage on perd de linformation et que cette
perte dinformation conduit une moins grande prcision de lestimateur :
b
Vas b2mc = p lim ((Pz x) Pz x/N) % (x x/N) = Vas bmco
2 0 1 2 0 1 b
V
1 XN
! N
X
!1
(A ) 0 0 0
Vbhet bb2mc = = bei b b2i b
ei b b
ei b
as,het
x ei
x u x ei
x x ei
x
N i=1 i=1
0 1 0
b
ei = zi zi zi
o x zi xi qui est exactement la matrice de White.
156 CHAPITRE 10. VARIABLES INSTRUMENTALES
o 1ez et 1x2 sont les coecients de ze et x2 des rgressions des variables endognes sur
0 1
les instruments. La condition rang E zi zi E (zi0 xi ) = K + 1 est donc quivalente la
condition
rang 1ez = K1
Cette condition sinterprte comme le fait que les variables instrumentales extrieures
expliquent susamment bien les variables endognes. Il nexiste pas de test formel de
cette condition qui puisse tre facilement mis en oeuvre. Nanmoins il est important de
regarder la faon dont les variables instrumentales expliquent les variables endognes,
mme si on peut mettre en oeuvre lestimateur des doubles moindres carrs directement
sans faire cette rgression intermdiaire. On peut par exemple, bien que cela ne garantisse
pas que la condition est satisfaite ds quil y a plus dune variable endogne, eectuer
chaque rgression des variables endognes sur lensemble des variables instrumentales et
faire un test de la nullit globale des coecients des variables instrumentales extrieures.
Dans le cas o la condition rang E (zi0 xi ) = K+1 nest pas satisfaite, on aura nanmoins
en gnral distance finie rang zi0 xi = K + 1 et lestimateur pourra tre numriquement
mis en oeuvre. La consquence du fait que rang E (zi0 xi ) < K + 1 est que
1 1
x0 z (z 0 z) z 0 x E (x0i zi ) E (zi0 zi ) E (zi0 xi )
non inversible. Lestimateur sera donc trs instable et prsentera des carts-type trs
levs sur certains coecients, linstar de ce qui se produit avec les mco dans le cas de
multicolinarit.
Lorsque lon est la limite de cette situation, cest dire lorsque lon dispose de
variables instrumentales expliquant trs mal les variables endognes on parle dinstruments
faibles.
10.5. TEST DE SURIDENTIFICATION 157
On peut tre tent de pallier ce manque de pouvoir explicatif des instruments par luti-
lisation dun grand nombre dentre eux : on est dans la situation ou il y a beaucoup de
variables instrumentales mais ou toutes, prises ensemble ont un pouvoir explicatif faible.
Cette situation prsente des eets indsirables dont on peut avoir facilement lintuition.
Lorsque le nombre dinstruments sur lequel on projette les variables devient grand et m-
caniquement, sans que cela rsulte dune proprit statistique, la prdiction de la variable
explicative va devenir meilleure : elle va se rapprocher des variables explicatives simple-
ment parce que lespace sur lequel on projette devient plus grand. On comprend alors que
dans ce cas lestimateur variables instrumentales se rapproche de lestimateur des mco.
Lutilisation dun grand nombre de variables instrumentales au pouvoir explicatif m-
diocre est donc une situation peu souhaitable. On considre pour sen prmunir quil faut
que le F de Fisher testant la nullit globale des coecients des variables instrumentales
dans la rgression des variables explicatives endognes soit plus grand que 1.
on pouvait estimer le modle par les MCI de trs nombreuses faons, lestimateur le plus
performant tant celui des doubles moindres carrs. On avait
bbmci (A) = Az 0 xi 1 Az 0 yi
i i
158 CHAPITRE 10. VARIABLES INSTRUMENTALES
Cette dernire relation doit tre vraie pour toute matrice A telle que AE (zi0 xi ) est in-
versible. Elle montre bien que le modle impose plus de structure entre les donnes quil
nest ncessaire pour identifier le modle : tous les paramtres bbmci (A) doivent converger
vers une mme valeur.
Considrons par exemple le cas dun modle ne prsentant quune variable explicative
et pour lequel il existe h variables instrumentales. On pourrait considrer h estimateurs
variables instrumentales obtenus en utilisant chaque fois une seule des variables ins-
trumentales.
bbV I (k) = zi (k) yi
zi (k) xi
Si toutes ces variables sont compatibles entre elles, les estimateurs obtenus doivent tous
tre proches les uns des autres on doit avoir p lim bbV I (k) indpendant de k. Lide du test
de suridentification est de comparer entre eux les dirents estimateurs et de juger sils
sont ou non proches. Ceci constitue lide du test de suridentification, cela ne reprsente
nullement la faon dont on le met en oeuvre. On va voir ultrieurement une procdure
permettant de tester directement lhypothse que pour un jeu de variables instrumentales
donn lensemble des estimateurs bbmci (A) convergent tous vers la mme valeur, sans avoir
calculer tous ces estimateurs.
Remarquons que ce test nest pas proprement parl un test de validit des instruments
mais un test de compatibilit des instruments. Il signifie en eet uniquement eb tq
bbmci (A) eb . Ceci est une proprit statistique des donnes, qui peut tre teste. Il
ne signifie pas nanmoins bbmci (A) eb = b le paramtre structurel que lon souhaite
identifier.
Il est clair que sous H00 : p lim bb2mc = eb et donc que la faon naturelle de tester une telle
hypothse est dexaminer si zi0 ubi est proche de zro.
Remarque 1. Sous lhypothse H00 on aurait donc en appliquant le thorme centrale
limite, et compte tenu de lhypothse dhomoscdasticit
0
0 2
Nzi ui N 0, E zi zi
et donc
N 0 0 0 1 0
z ui E zi zi zi ui 2 (dim (zi ))
2 i
ou encore
N 0 0 0 1 0
zi ui zi zi zi ui 2 (dim (zi ))
b2
2. On rappelle le rsultat suivant
V (W ) V (W ) V (W ) = V (W )
bi .
Ici on ne peut pas utiliser ui le rsidu structurel mais u
La statistique de test va rester la mme ceci prt que :
bi et non ui
1. on utilise u
2. le nombre de degrs de libert nest pas le nombre de variables instrumentales
dim (zi ) = H + 1 , mais H K, cest dire le nombre dinstruments en excs.
Ce dernier point exprime bien le fait quune partie des conditions dorthogonalit est
mobilise pour identifier le paramtre et illustre bien le nom de suridentification donn
au test.
Proposition Sous les hypothses de rgularit garantissant la convergence et la nor-
malit asymptotique
de lestimateur variables instrumentales, dans le cas de rsidus
2
homoscdastiques (V yi xieb |zi = 2 ),
Sous H0 : ebtqE zi0 yi xieb = 0, la statistique Sb
0 1
0 zi zi
Sb = Nzi0 u
bi 2 bi 2 (H K)
zi0 u
b
160 CHAPITRE 10. VARIABLES INSTRUMENTALES
bi = yi xibb2mc et
o u b2 = u
b2i .
Le test de H0 contre H1 : @eb tq E zi0 yi xieb = 0 bas sur la rgion critique
n o
b b 2
W = S S > q 1 , (H K)
do
1 0
zi0 u
bi = zub = zi0 ui zi0 xi bb2mc b
N
comme
1 0
1 1 0
bb2mc = 0
xi zi zi0 zi zi xi
0
xi zi zi0 zi zi yi
1 0
1 1 0
0 0
= b + xi zi zi0 zi zi xi xi zi zi0 zi zi ui
on a :
1
0 0 0 1 0 0 0 1 0 0
zi0 u
bi = IH+1 zi xi xi zi zi zi zi xi xi zi zi zi zi ui = (IH+1 MN ) zi ui
0 0 0 1 0
et MN M = E zi xi E xi zi E (zi0 zi )1 E zi xi E xi zi E (zi0 zi )1 . M vrifie
en outre M 2 = M
On en dduit que
0 L
Nzi0 u
bi = (IH+1 M) Nzi ui + op (1) N (0, )
0 0
avec = (IH+1 M) V zi ui (IH+1 M 0 ) = 2 (IH+1 M) E zi zi (IH+1 M 0 ) .On
0 0
vrifie que (IH+1 M) E zi zi = E zi zi (IH+1 M 0 ) si bien que Vas Nzi0 u
bi =
2
0
(IH+1 M) E zi zi
Comme M 2 = M on vrifie immdiatement que MVas Nzi0 u
bi = 0 et donc que
0
Vas 0
Nzi ubi nest pas de plein rang. Comme Vas 0
Nzi u bi = 2 (IH+1 M) E zi zi ,
10.5. TEST DE SURIDENTIFICATION 161
le rang de Vas bi est clairement celui de (IH+1 M) et comme M 2 = M, les
Nzi0 u
valeurs propres de M sont soit 1 soit 0. On en dduit que
0
rangVas Nzi ubi = T r (IH+1 M) = rang (IH+1 M) = H + 1 T r (M)
= H+ 1
0 0 0 1 0
0 1 0 1
T r E zi xi E xi zi E (zi zi ) E zi xi E xi zi E (zi zi )
= H+ 1
0 0 1 0 0
0 1 0 1
Tr E xi zi E (zi zi ) E zi xi E xi zi E (zi zi ) E zi xi
= H K
On a aussi
1 0 1 0
0 0 2
Vas Nzi u bi 2 E zi zi Vas bi = (IH+1 M) E zi zi
Nzi u
1 0 1 2 0
E zi zi (IH+1 M) E zi zi
2 0
= 2 (IH+1 M) (IH+1 M) E zi zi
0
2
= (IH+1 M) E zi zi
= Vas Nzi0 u
bi
0 1
on en dduit que 12 E zi zi est un inverse gnralis de la matrice de variance asymp-
0
totique N zi ubi . On a donc
1 0 1 0 L 2
Nu bi zi 2 E zi zi bi (H K)
zi u
0
et on peut clairement remplacer en appliquant le thorme de Slutsky E zi zi par zi0 zi et
b2 .
2 par
1
0 (z 0 zi ) L
Donc, sous H0 : Sb = zi0 u
bi i b 2 zi0 u bi 2 (H K) .
P
bi = zi0 yi xibb2mc = zi0 yi xi p lim bb2mc + op (1) 6= 0,
En outre sous H1 , zi0 u
1 1
(z0 zi ) P 0 (z 0 zi ) P
comme i b 2 inversible, zi0 u bi 0 , sous H1 , donc Sb et il en
bi i b 2 zi0 u
rsulte que P (W |H1 ) 1.
bi = zi + wi
u
0 1 0
b
lestimateur des mco de est = zi zi b = V (wi ) z 0 zi 1 /N. Sous lhy-
bi , V
zi u i
que lorsque lon tend la liste des variables instrumentales la dimension de lespace
sur lequel on projette les variables du modle augmente et quon en a donc une re-
prsentation de plus en plus fidle. La variance de lestimateur des doubles moindres
carrs va samliorer, mais lestimateur des doubles moindres carrs va se rappro-
cher de lestimateur des moindres carrs ordinaires. Il y a donc un risque tendre
trop la liste des instruments. A distance finie, on pourrait avoir une mise en oeuvre
fallacieuse conduisant un estimateur proche de celui des mco. Il est utile pour
se prmunir de ce risque de regarder la rgression des variables endognes sur les
instruments et de contrler la significativit globales des instruments.
Lintrt de tester une telle hypothse est immdiat compte tenu du fait que sous cette
hypothse lestimateur optimal sera lestimateur des mco qui domine nimporte quel esti-
mateur variables instrumentales. Une ide naturelle consiste examiner si les coecients
estims sous lhypothse nulle et sous lhypothse alternative sont identiques, cest dire
si p lim bb2mc = p lim bbmco . Notons que l encore il ne sagit que dun test de compatibilit
des conditions dorthogonalit entre elles et non pas un test de leur validit dans le cadre
de lestimation dun paramtre structurel.
Le test de p lim bb2mc = p lim bbmco est identique celui de p lim bb2mc = p lim bbmco . En outre
(1) (1)
0 11 0
bb(1) bb(1) = x
bxb x b1 Mx y
2mc mco
0 1 0
Dmonstration En eet bb2mc = x
bxb b y et bbmco = (x0 x)1 x0 y donc
x
h i
1 0
b bb2mc bbmco = x
1
b0 x
x b0 x
b x b0 x
b b y (x0 x) x0 y
x
h i
1
= x b0 y x
b0 xb (x0 x) x0 y
h i
1
= x b0 y x
b0 x (x0 x) x0 y = x b0 Mx y
soit, avec b(1) le vecteurs des coecients de x1i et symtriquement pour b(2) , et les notations
standards 0 0 1 " 0 11 0 12 #
b
x b
x
0 11 xbx b12 bx
x b bx
x b
0 = 0 21 0 22
bx
x b 21 x bx b 22 bx
x b bx
x b
10.6. TEST DEXOGNIT DES VARIABLES EXPLICATIVES 165
0 (1)
bx
x b 21 bb2mc bb(1)
mco + b
x0
b
x 22
bb(2) bb(2) = 0
2mc mco
et
0 11 0
bb(1) bb(1) = x
bxb x b1 Mx y
2mc mco
Le test de p lim bb2mc = p lim bbmco et donc quivalent celui de p lim bb2mc = p lim bbmco . Ce
(1) (1)
11 0
test peut en outre tre pratiqu partir de lexpression bb2mc bbmco = x
(1) (1)
b0 x
b x b1 Mx y
0
Lemme Sous lhypothse rang z x = K + 1, le rang de la matrice de variance de
bb(1) bb(1)
mco est K1 , le nombre de variables explicatives endognes.
2mc
Le test de Hausman
Proposition Lorsque lhypothse dhomoscdasticit, E(u2i |xi , zi ) = 2 est satisfaite,
sous lhypothse nulle dexognit de xi , la statistique
" 0 11 #1
N 0 x
b0 11
b
x xx
Sb = 2 bb2mc bb(1) bb(1) bb(1)
(1) L
mco 2mc mco 2 (K1 )
b
N N
On en dduit que Sb suit une loi du 2 K1 degrs de libert sous H0 . Sous lhypothse
alternative p lim bb2mc p lim bbmco 6= 0 et donc Sb +
(1) (1)
b1 + w
y = x1 c1 + x2 c2 + x
or on a vu prcdemment
bb(1) bb(1) = (bb)11 x
xx b01 Mx y
2mc mco
le test de p lim bb2mc p lim bbmco = 0 est donc quivalent au test de = 0 et peut tre eectu
(1) (1)
partir de lestimateur b. Il peut donc tre eectu trs simplement par lintermdiaire
dun test de Wald ou dun test de Fisher.
Remarquons enfin que le test peut tre men de faon analogue sur les rsidus des
rgressions des variables explicatives endognes sur les instruments (x1 ) = x1 x b1 .
Lquation
b1 + w
y = x1 c1 + x2 c2 + x
se rcrit de faon analogue comme
y = x1 (c1 + ) + x2 c2 (x1 ) + w
10.7. ILLUSTRATIONS 167
10.7 Illustrations
10.7.1 Rduction du temps de travail et gains de productivit
Une des questions importantes dans leet du passage 35 heures sur lconomie est
son eet sur les gains de productivit. Par exemple si on considre que la production reste
inchange, leet sur lemploi sera important si il y a peu de gains de productivit. Les
rsultats prsents ici ne sont quillustratifs et ne prtendent pas donner un avis sur la
rduction du temps de travail. Ils montrent nanmoins si besoin tait que lconomtrie
permet de rpondre des questions importantes et soulignent le rle essentiel des hy-
pothses identificatrices dans la rponse que lon apporte. On peut considrer le modle
suivant :
ln yi = ln li + (1 ) ln ki + RT Ti + ui
o li reprsente lvolution des eectifs entre 1997 et 2000, ki celle capital et RT Ti
une indicatrice correspondant au fait que lentreprise ait sign un accord de rduction du
temps de travail sur cette priode. ui reprsente un choc de productivit ou de demande.
Ce modle est structurel, cest dire que lon sintresse leet de la rduction du
temps de travail et des variations des facteurs sur lactivit. Dans un tel contexte il est
clair que dimportants problmes dendognit des facteurs se posent : ln li en premier
lieu, mais aussi ln ki sont susceptibles dincorporer les nouvelles conditions dactivit
ui : ces variables sont trs certainement endognes. La variable RT Ti est, elle aussi,
probablement endogne : toutes les entreprises sont senses passer terme 35 heures. Les
entreprises ayant de bonnes perspectives de productivit peuvent plus facilement et donc
plus rapidement trouver un moyen avantageux de le faire. Ceci a pu tre particulirement
vrai dans le contexte de la fin des annes 1990 o aprs une longue stagnation, la croissance
qui avait dj soutenu longuement lactivit aux USA, arrivait en France. Compte tenu
des dclarations des dirigeants politiques, il ny avait aucun doute quun jour ou lautre
il faudrait passer aux 35 heures. La question ntait donc pas faut-il ou non passer la
rduction du temps de travail, mai quand faut-il passer aux 35 heures. Pour se concentrer
sur leet de la RT T on limine le problme de lestimation du paramtre en le mesurant
comme la part des salaires dans la valeur ajoute dans le secteur. Lquation scrit alors :
ln yi ln li (1 ) ln ki = P GFi = RT Ti + ui
P GFi = Xi b + RT Ti + vi
o vi reprsente le choc de productivit rsiduel, cest dire une fois pris en compte les
facteurs Xi .
168 CHAPITRE 10. VARIABLES INSTRUMENTALES
Pour estimer ce modle on fait lhypothse que les aides potentiellement reue par les
entreprises si elles signent un accord de rduction du temps de travail Aidei aectent sa
dcision de passer la RTT, mais pas les gains de productivit. On considre aussi que
linformation dont disposaient les entreprises sur la rduction du temps de travail aecte
la dcision de passage mais pas la productivit. On mesure cette variable par la part des
entreprises Robien dans le secteur Infi . On considre de mme que le taux dendettement
des entreprises aecte la dcision de passage mais pas la productivit Endti . Enfin, on
considre que la part des femmes dans lentreprise P fi naecte pas les gains de produc-
tivit mais influence la dcision de passage. On a ainsi quatre variables instrumentales
potentielles : Aidei , Infi , Endti et P fi .
On vrifie dabord la condition de rang en rgressant la variable RT Ti sur Xi et les
variables instrumentales. On voit clairement sur le tableau 10.2 que les coecients des
variables instrumentales sont significatifs ce qui garantit que la condition de rang soit
satisfaite.
Le tableau 10.3 donnent le rsultat des estimations par les mco et par les variables
instrumentales. On ne fait figurer que la variable RTT, mais les rgressions comprennent
toutes les variables de contrle qui figurent dans le tableaux prcdent. On observe deux
rsultats importants sur ces tableaux : dune part les coecients estims pour la variable
RTT sont trs dirents suivant la mthode destimation. Dans le cas mco on a -0.036, ce
qui signifie que les entreprises ayant sign un accord de rduction du temps de travail on
vu leur production baisser de 3.6% facteurs inchangs. Pour une baisse de 10.3% (4/39)
de la dure du travail, cest assez peu et cela correspondrait lexistence dimportant
gains de productivit dans les entreprises passes aux 35 heures. Le coecient estim
par la mthode des variables instrumentales est trs dirent. Il est de -0.107 ce qui
correspond une baisse de la production de 10.7%. Ceci signifierait quil ny a pas eu de
gains de productivit associs au passage 35 heures. On voit donc que la conclusion
laquelle on parvient dpend trs fortement des hypothses identificatrices eectues. Un
autre enseignement des deux tableaux est la dirence importante entre les carts-type
estims : lcart-type est de 0.003 pour la rgression par les mco et de 0.032 pour les
variables instrumentales. Il y a donc un facteur 10 dans la prcision. Il faudrait pour
obtenir un estimateur aussi prcis que celui des mco multipli la taille de lchantillon
par 100 ! Les rgressions prsentes sont eectues sur 30.000 observations. On voit donc
clairement le prix des variables instrumentales en terme de prcision.
Test de Sargan
Instruments parametres cart-types
Test d'Exognit
variables parametres cart-type Chi2 Pvalue
Variables Instrumentales
Variables BIV SBIV0 CHIBIV0 PROBBIV0
Test de Sargan
Instruments parametres cart-types
Endt -0.0012 0.0033
aide -0.0026 0.0030
Hommes -0.0075 0.0074
Test d'Exognit
variables parametres cart-type Chi2 Pvalue
Le tableau 10.6 montre le rsultat des estimations lorsque lon retire la variable Infi
de la liste des instruments. Le hypothse de compatibilit des variables instrumentales
est beaucoup plus largement accepte. Lhypothse dexognit est quant elle rejete
et le coecient estim pour la variable de RTT est un peu modifi. Il atteint un niveau
de -16%, ce qui est trs lev et signifie quil ny a pas eu de gains de productivit horaire
mais plutt des pertes. Il est aussi moins prcis.
172 CHAPITRE 10. VARIABLES INSTRUMENTALES
10.8 Rsum
Dans ce chapitre, on a tudi
1. Direntes raisons de remettre en cause lhypothse identificatrice fondamentale
E (x0i ui ) = 0
2. Certaines variables apparaissent ainsi endognes et dautres restent exognes.
3. On a montr que lon peut recourir des hypothses identifiantes alternatives celle
des moindres carrs ordinaires bases sur des variables instrumentales. Il sagit de
variables corrles avec les variables explicatives mais non corrles avec les pertur-
bations.
4. On a vu que parmi lensemble des estimateurs possibles il en existait, dans le cadre
homoscdastique tudi, un plus ecace que les autres appel estimateur variables
instrumentales.
5. Cet estimateur sinterprte comme lestimateur obtenus en rgressant la variable
dpendante sur la ; projection des variables explicatives sur les variables instrumen-
tales.
6. Cet estimateur est toujours moins prcis que lestimateur des moindres carrs ordi-
naires
7. On a vu un test trs courant : le test de suridentification, ou test de Sargan, qui teste
la compatibilit des variables instrumentales. Il ne sagit pas dun test de validit des
instruments mais dun test permettant de vrifier quil ny a pas dincompatibilit
entre les dirents instruments utiliss.
8. On a vu aussi quil tait possible de tester lexognit des variables instrumentales
ce qui permet davoir recours, le cas chant, lestimateur des moindres carrs
ordinaires.
Chapitre 11
La Mthode des moments gnralise
yi = xi b + ui
On a vu que lestimateur des mco exploitait largement lhypothse de non covariance entre
les variables explicatives et le rsidu :
E (x0i ui ) = 0
Cette restriction se rcrit de faon analogue comme
Elle est directement lie lexpression de lestimateur des mco. Celui-ci peut en eet tre
vu comme la valeur du paramtre qui annule la contrepartie empirique des conditions
dorthogonalit :
0 b
x yi xi bmco = 0
i
173
174
Les estimateurs de mci sont caractriss par le fait quils annulent une combinaison linaire
donne de la contrepartie empirique des conditions dorthogonalit :
A.ziV I0 yi xibbmci (A) = 0
Ces restrictions ont en commun le fait quun vecteur de fonctions des observations et des
paramtres dont lesprance est gale zro pour la vraie valeur du paramtre. Dans le
0 0
premier cas il sagit de xi (yi xi b) et dans le second cas de zi (yi xi b) . La mthode des
moments gnralise est la mthode adapte pour estimer des modles conomtriques
dfinis par lexistence de fonctions des observations et des paramtres desprance nulle.
La mthode des moments gnralise va avoir pour nous plusieurs avantages :
On va pouvoir tendre les procdure destimation et de test des domaines plus
gnraux. Dans le cas des variables instrumentales par exemple, on va pouvoir
dfinir
V I0 des estimateurs
optimaux ne reposant que sur les contraintes identifiantes
E zi (yi xi b) = 0. En particulier, ils ne feront pas dhypothses de rgularit
sur la constance des moments dordres suprieurs. On va aussi pouvoir tendre les
procdures de tests de suridentification et dexognit au cas dans lequel les rsidus
sont htroscdastiques.
On va aussi pouvoir aborder des situations plus gnrales que celle examines jusqu
prsent en considrant pas exemple des systmes dquations variables instrumen-
tales. Ce type de gnralisation est essentiel dans lconomtrie des donnes de panel.
L aussi on va pouvoir discuter les conditions didentification des paramtres, dfinir
des estimateurs optimaux, dvelopper des procdure de tests de suridentification.
La mthode des moments gnralise va aussi tre loccasion destimer et dtudier
des modles se prsentant sous des formes moins standards que celle dune qua-
tion ou dun systme dquation avec rsidu. Dans certains cas, cest spontanment
sous la forme de fonctions des paramtres et des variables desprance nulle quun
modle merge de la thorie. Cest le cas en particulier des quations dEuler. Consi-
drons par exemple le cas dune entreprise dcidant de son investissement. Notons
F (Kt , Lt , ) la fonction de production, et M (Kt , It , ) la fonction de cot dajus-
tement. Lquation daccumulation du capital scrit Kt = (1 ) Kt1 + It . La
fonction de profit de lentreprise scrit
+ !
X 1
Et (p F (K , L , ) w L pI I M (Kt , It , ))
=0
(1 + r)
On voit donc que dans ce cas le modle conduit un grand nombre (a priori infini) de
relations entre les variables et les paramtres dont lesprance est gale zro. Lun
des intrts de la mthode des moments gnralise est justement associ cette
particularit du modle. Si le modle est juste alors on doit avoir la proprit quil
existe un paramtre de dimension finie annulant les conditions dorthogonalit bien
quelles soient en trs grand nombre. Dans une certaine mesure peu importe la valeur
du paramtre, ce qui compte vraiment est de savoir si lensemble des restrictions
que la thorie conomique impose aux donnes sont bien vrifies empiriquement ;
cest dire que lon puisse trouver une valeur du paramtre telle que lon accepte
lhypothse de nullit de la contrepartie empirique des conditions dorthogonalit
lorsquelles sont values en ce point.
E (g (zi , )) = 0 = 0
et pour 0 seulement. De telles relations portent le nom de conditions dorthogonalit.
Cest un cadre trs gnral englobant de nombreuses situations spcifiques :
Il sagit dune gnralisation du cas du chapitre prcdent dans la mesure o on ne fait plus
que les hypothses minimales : existence des conditions dorthogonalit et condition de
rang. En particulier on ne fait plus lhypothse dhomoscdasticit. De ce fait comme on va
le voir lestimateur optimal ne sera plus lestimateur des doubles moindres carrs, le test de
suridentification se gnralise mais ne prend plus la mme forme, le test dexognit peut
tre mis en oeuvre mais fait partie dune classe plus gnrale de tests de spcification. Le
but principal de ce chapitre est tout en prsentant les lments gnraux de la mthode des
variables instrumentales de prsenter lextension des rsultats prcdents cette situation
plus gnrale.
On a 0 0
E Z i y i xi = E Z i xi (0 )
0
ds lors que E Z i xi est de rang dim ()
0
E Z i y i xi = 0 = 0
Ce cas simple, linaire, englobe lui-mme de trs nombreuses situations, comme celles
vues jusqu prsent mco, variables instrumentales dans le cas univari mais bien dautres
encore comme lconomtrie des donnes de panel, lestimation de systme de demande,
ou encore lestimation de systmes ore-demande.
yit = xit b + i + it
Les perturbations suivent donc le modle erreurs composes. On sintresse aux di-
rentes possibilits de corrlation entre les variables explicatives et les perturbations, cest
dire la matrice
= E ui V ec (xi )0
Loprateur V ec est loprateur qui transforme une matrice en vecteur en empilant les
colonnes de la matrice les unes en dessous des autres. Dune faon gnrale, les direntes
possibilit de corrlation vont conduire des paramtrages dirents de la matrice . On
aura des matrices () direntes suivant la nature des corrlations entre les variables ex-
plicatives et les perturbations. Lensemble de conditions dorthogonalit que lon considre
est
E y i xi b V ec (xi )0 = ()
Tel quel cet ensemble est exprim comme une matrice. On peut le transformer pour
lexprimer sous forme vectorielle en appliquant loprateur V ec. On voit que mis sous cette
11.2. DFINIR UN MODLE PAR LE BIAIS DE CONDITIONS DORTHOGONALIT 179
Exognit forte
La premire situation que lon considre est celle dite dexognit forte et correspond
au cas dans lequel il ny a pas de corrlations entre les perturbations et les variables
explicatives passes prsentes et futures, soit
E (i xks,i ) = 0 s = 1, . . . , T
E (t,i xks,i ) = 0 s, t = 1, . . . , T
Ces hypothses sont autant de restrictions intervenant explicitement dans les estima-
tions. Sous ces hypothses ne nombreux estimateurs standards : MCO, Between, Within,
MCQG, sont tous convergents. On va voir comment ces estimateurs sinterprtent main-
tenant dans le cadre plus gnral considr ici. On peut remarquer quil y a ici (K + 1) T 2
conditions dorthogonalit :
E (ut,i xks,i ) = 0, t, s
et que ces conditions dorthogonalit peuvent de rcrire de faon quivalente comme
E (u1i xks,i ) = 0, s
E (uti xks,i ) = 0t > 1, s
180
Eets corrls
Une deuxime situation correspond au cas o lon ne souhaite pas faire reposer les
estimations sur lhypothse E (i xks,i ) = 0. On introduit donc des paramtres de nuisance
ks = E (i xks,i ) . On autorise donc le fait que les lments dhtrognit individuelles
soient corrls avec les variables explicatives, do le nom deets corrls. Il y a donc
(K + 1) T paramtres de nuisance. On maintient par contre lhypothse E ( t,i xks,i ) = 0.
On a donc comme condition dorthogonalit :
E (ut,i xks,i ) = ks , t, s
De faon quivalente, on peut liminer les paramtres de nuisance, liminant au passage
certaines conditions dorthogonalit. Les (K + 1) T 2 conditions dorthogonalit peuvent
ainsi tre rcrites aprs limination des (K + 1) T paramtres de nuisance comme
E (ut,i xks,i ) = 0, t > 1, s
Il y a alors (K + 1) T (T 1) conditions dorthogonalit. On remarque en outre quil
sagit aussi du deuxime ensemble de conditions dorthogonalit identifi dans le cas de
lexognit forte.
Exognit faible
Lhypothse E ( t,i xks,i ) = 0 s, t = 1, . . . , T peut paratre excessive elle aussi.
Ainsi dans le cas des conditions dEuler on est plutt amen utiliser comme variables
instrumentales des variables passes. On peut ainsi prfrer ne retenir comme restric-
tion identifiante que E ( t,i xks,i ) = 0 t = 1, . . . , T et s < t. On autorise ainsi que
les chocs passs aectent les dcisions concernant le niveau de la variable xks,i . Cest
cette spcification qui porte le nom dexognit faible. Elle consiste donc introduire
(K + 1) T + (K + 1) T (T + 1) /2 paramtres de nuisance :
E (i xks,i ) = ks
E ( t,i xks,i ) = t,ks pour s t
On maintient en revanche
E (t,i xks,i ) = 0 t = 1, . . . , T et s < t
Finalement les conditions dorthogonalit scrivent dans ce cas sous la forme
E (ut,i xks,i ) = ks + t,ks 1 (t s) , t, s
L aussi on peut de faon quivalente rcrire ces conditions dorthogonalit pour liminer
les paramtres de nuisance. Les (K + 1) T 2 conditions dorthogonalit peuvent ainsi tre
rcrites aprs limination des paramtres de nuisance comme
E (ut,i xks,i ) = 0, t > s + 1, s
11.2. DFINIR UN MODLE PAR LE BIAIS DE CONDITIONS DORTHOGONALIT 181
Synthse
On voit que lon peut synthtiser les rsultats prcdents en introduisant trois en-
sembles de conditions dorthogonalit :
Le tableau 11.1 rcapitule les trois situations examines. Les direntes spcifications sont
embotes les unes dans les autres. La plus gnrale est la spcification exognit faible.
Dans ce cas les estimations ne reposent que sur un ensemble minimal dinformation.
La spcification eets corrls introduit plus dinformation. Lensemble des conditions
dorthogonalit inclus outre celles dj prsentes dans la spcification exognit faible
certaines conditions supplmentaires spcifiques aux eets corrls. Enfin dans le cas de
lexognit forte, on adjoint lensemble de conditions dorthogonalit prcdent des
conditions additionnelles, spcifiques lexognit forte. On va pouvoir dfinir des esti-
mateurs ne reposant que sur ces dirents sous-ensembles de conditions dorthogonalit.
On va aussi pouvoir, comme dans le cas des variables instrumentales, tester la cohrence de
chacun de ces sous-ensembles de conditions dorthogonalit. Le test eectu sera analogue
au test de Sargan. Enfin, on va pouvoir tester la compatibilit des dirents sous-ensembles
dinformation entre eux. Ainsi on va pourvoir tester si par exemple lorsque lon a estim le
modle sous lhypothse eets corrls, les conditions dorthogonalit additionnelles sp-
cifiques lexognit fortes sont compatibles avec les conditions dj mobilises. Le test
sapparente alors au test dexognit examin dans le cas homoscdastique univari.
182
Ici on aurait pu procder de mme et dfinir des estimateurs bass sur une combinaison
linaire des conditions dorthogonalit. On aurait alors dfini des estimateurs de la forme
Ag zi , b
AN = 0
Exemple Cas o les conditions dorthogonalit sont linaires dans le paramtre din-
trt. Cest par exemple le cas des variables instrumentales dans un systme dquations
puisqualors
0
0 0
g (zi , ) = Z i y i xi = Z i y i Z i xi = g1 (zi ) g2 (zi )
Dans le cas dune seule quation, les estimateurs obtenus par la mthode des moments
gnralise sont ainsi : 1
b 0 0
S = x zi SN z xi
0 0
x zi SN z yi
i i i i
0 1
Si on prend par exemple pour mtrique SN = zi zi On obtient lestimateur des doubles
moindres
0 carrs. On en conclut que dans le cas o les conditions dorthogonalit sont
E zi (yi xi 0 ) = 0, cest dire celles vues dans le chapitre prcdent sur les variables
instrumentales, on retrouve comme estimateur GMM particulier lestimateur des doubles
moindres carrs. Nanmoins le cadre dans lequel on se situe est plus gnral puisquon ne
fait plus lhypothse dhomoscdasticit. On va voir que pour cette raison, lestimateur des
doubles moindres carrs nest plus lestimateur de variance minimal.
Parmi ces conditions la deuxime est de loin la plus importante puisque cest elle qui
dfinit lidentification du paramtre. Cest sur le choix des fonctions g (zi , ) que porte le
travail du modlisateur. La condition 3 est essentielle pour obtenir la loi asymptotique
des paramtres. En eet il est central de pouvoir linariser autour de la vraie valeur du
paramtre. La condition 4 est technique. Elle garantit quil y a convergence uniforme
en probabilit de g (zi , ) vers E (g (zi , )) (et pareil pour les autres fonctions concernes
g (zi , ) et g (zi , ) g (zi , )0 ). La condition 5 est lanalogue de la condition zi ui a des
moments dordre 1 et 2, dans le cas des variables instrumentales. Elle est essentielle dans
lapplication du thorme central limite dans la drivation de lexpression de la matrice
de variance. La condition 6 sert aussi pour driver lexpression de la matrice de variance.
Dans le cas linaire, elle est analogue la condition didentification 2.
0
Dmonstration Convergence : Soit QN () = g (zi , ) SN g (zi , ) et Q () = E (g (zi , ))0
S0 E (g (zi , )) . On peut crire
h i
Q b S Q (0 ) = QN b
S + Q b S QN b S
[QN (0 ) + (Q (0 ) QN (0 ))]
11.4. CONVERGENCE ET PROPRITS ASYMPTOTIQUES 185
comme QN b
S QN (0 ) et Q (0 ) Q b
S ,on a
0 Q b S QN b
S Q (0 ) Q b S (Q (0 ) QN (0 ))
2sup |Q () QN ()|
La condition E sup |g (zi , )| < + permet de montrer quil y a convergence uniforme
0
de g (zi , ) vers E (g (zi , ))
,et donc de QN () vers Q () = E (g (zi , )) S0 E (g (zi , )) .
P
On en dduit donc que Q b S Q (0 ) . Comme la fonction Q est continue, que est
compact, que Q (0 ) = 0 et Q () = 0 E (g (zi , )) = 0 = 0 on en dduit b
P
S 0 .
Normalit asymptotique
0
b b b
La condition du premier ordre dfinissant le paramtre S est dfinie par g zi , S SN g zi , S =
b b
0. En appliquant le thorme de la valeur moyenne g zi , S , on a 0 = Ng zi , S Ng (zi , 0 )
+ g zi , eS N b S 0 , o e S se trouve entre b
S et 0 converge donc aussi en proba-
0 0
bilit vers 0 . En multipliant par g zi , S SN , on a g zi , S SN g zi , e
b b S N b S 0 =
0
b
g zi , S SN Ng (zi , 0 )
La condition E sup | g (zi , )| < + garantit la convergence uniforme en proba-
0
bilit de g (zi , ) vers E ( g (zi , )) . On en dduit que g zi , b
P
S SN G0 S et que
!
0
g zi , b
S SN g zi , e
P
S G0 S0 G, matrice dim dim inversible compte tenu
de rang G = dim . La condition que gk (zi , 0 ) a des moments dordre 1 et 2 permet dap-
Loi
pliquer le thorme central limite Ng (zi , 0 ) : Ng (zi , 0 ) N (0, V (g (zi , 0 ))) .
On en dduit la normalit asymptotique de lestimateur et lexpression de sa matrice de
variance. Remarquons que le dveloppement prcdent conduit aussi une approximation
de lcart entre lestimateur et la vraie valeur :
0 1 0
b
N S 0 = G SN G G SN Ng (zi , 0 ) + o (1)
S0 = V (g (zi , 0 ))1
Pour mettre cet estimateur en oeuvre on a recours une mthode en deux tapes :
Premire tape : On utilise une mtrique quelconque ne faisant pas intervenir le pa-
ramtre. En fait on a intrt rflchir et chercher une matrice qui ne soit pas trop
loin de la matrice optimale. SN = Idim g est un choix possible mais certainement pas le
meilleur. La mise en oeuvre des GMM avec cette mtrique permet dobtenir un estimateur
convergent mais pas ecace b 1.
A partir de cet estimateur on peut dterminer un estimateur de la matrice de variance
des conditions dorthogonalit :
0
Vb (g)N = g zi , b
1 g zi , b
P
1 V (g (zi , 0 ))
ainsi que
b = g zi , b
G
P
1 E ( g (zi , 0 ))
On peut ds lors dterminer un estimateur de la matrice de variance asymptotique de ce
premier estimateur
1 1
Vbas b
1 = G b0 SN G
b b0 SN Vb (g) SN G
G N
b G b0 SN G
b
N
Deuxime tape : On met nouveau en oeuvre lestimateur des GMM avec la mtrique
SN = Vb (g)1
N . On obtient ainsi un estimateur convergent et asymptotiquement ecace
dont on peut estimer la matrice de variance asymptotique
1
b
Vas b b 0 b
= G SN G
N
0
0
V (g (zi , 0 )) = E Z i y i xi 0 y i xi 0 Z i
0
= E Z i ui u0i Z i
Cette expression est trs proche de celle vue dans le cadre des variables instrumentales.
Nanmoins, comme on le voit elle fait en gnral intervenir le paramtre . Il est donc
souvent ncessaire de mettre en oeuvre une mthode en deux tapes.
On peut se trouver dans des situations ou spontanment la matrice de variance des rsidus
aurait une allure dirente. Cest en particulier le cas parfois dans le cas de lconomtrie
des donnes de panel. Quel que soit le choix eectu, lestimateur de premire tape a
pour expression :
1
b 0
S = x Z SN Z x
0 0 0
x Z SN Z y
i i i i i i i i
La matrice de variance des conditions dorthogonalit peut tre alors tre estime par
0
b 0
b b 0
b0i Z i
bi u
V (g) = Z i y i xi S y i xi S Z i = Z i u
et sa variance asymptotique :
1
Vbas b
S = xi Z i Vb (g)1 Z i xi
0 0
donc
0 0 0
0 1
0
xi Z i S Z i xi = IM xi zi E zi zi IM zi xi
0 1
= 1 x0i zi E zi zi zi0 xi
et
0 0 0 1
0
xi Z i S Z i y i =IM x0i zi E zi zi IM zi y i
0
0 1 z i y1i
..
= 1 x0i zi E zi zi .
zi0 yMi
zi0 y1i
0
puisque IM zi y i = ... . Lestimateur optimal a donc pour expression
zi0 yMi
0
0 1 1 0 1 z i y 1i
b ..
S = x0i zi E zi zi zi0 xi 1 x0i zi E zi zi .
zi0 yMi
0 bb2mc1
0 1 zi y1i
.. ..
= IM x0i zi E zi zi . = .
0
zi yMi bb2mcM
On voit que dans ce cas, lestimateur optimal est identique lestimateur des doubles moindres carrs
eectu quation par quation. Il ny a donc pas non plus dans ce cas de mthode en deux
tapes mettre en oeuvre. La matrice de variance des paramtres a pour expression
0 1 1
b 0
V = E (xi zi ) E zi zi 0
E (zi xi )
on voit donc que les estimateurs ne sont pas indpendants les uns des autres ds que la
matrice de variance nest pas diagonale.
lexognit faible. Dans ce dernier cas, on a vu que le modle tait mis en dirence pre-
mire et que lon utilisait les variables explicatives retardes partir de lordre 2 comme
instrument. On a ainsi la spcification matricielle suivante :
x1i 0 0
0 x1i 0
x 2i x1i u
3i
0 x2i u4i
x3i u5i
Z 0i ui =
.. ..
. 0 .
.. x1i
. uT i
..
.
0 0 0 xT 2i
ne dpend pas des paramtres. On va que dans ce cas on peut choisir comme matrice de
premire tape une matrice approximant lhypothse dhomoscdasticit prs la matrice
de variance des conditions dorthogonalit. La matrice S1 a ainsi pour expression
0
S1 = Z i DZ i
yi = xi + ui
Les rsultats du chapitre prcdent montre que dans le cas univari homoscdastique, i.e.
E (u2i |zi ) = E (u2i ) , lestimateur GMM optimal concide avec lestimateur des 2mc. On
examine la situation dans laquelle il ny a plus homoscdasticit. La matrice de variance
des conditions dorthogonalit est donne par
0
0
V (g) = E (yi xi 0 )2 zi zi = E u2i zi zi
on voit quil est dirent de lestimateur des 2mc dont lexpression est
1 0
1 1 0
b 0 0
2mc = xi zi zi zi zi xi
0 0
xi zi zi zi zi yi
11.7. TEST DE SPCIFICATION 193
L aussi il faut mettre en oeuvre la mthode en deux tapes. Un bon choix dans ce cas
est lestimateur des 2mc, qui est certainement proche de lestimateur optimal. On peut
alors calculer un estimateur de la matrice de variance des conditions dorthogonalit :
Vb (g) = u
0
b22mci zi zi
1 0
1 1 1
1 0
1
Vas b
0 0 0 0 0 0 0 0 0
2mc = xi zi zi zi zi xi xi zi zi zi u b2i zi zi zi zi xi zi xi zi zi zi zi xi
| E (g (zi , )) = 0
Tous les estimateurs obtenus avec direntes mtriques doivent converger vers une
mme valeur. Le principe est ici analogue celui des variables instrumentales. La suriden-
tification exprime la mme ide qu la limite lestimateur ne dpend pas de limportance
que lon accorde telle condition dorthogonalit, tout comme le test de spcification
avec les variables instrumentales exprimait qu la limite lestimateur ne dpend pas de
telle variable instrumentale. Il ne sagit en fait que dune gnralisation valable pour des
cas dans lesquels les conditions dorthogonalit prennent une forme dirente de celle du
produit dun rsidu et dun instrument.
Le principe du test reste le mme que celui que lon appliquerait pour tester la nullit
de lesprance dune variable alatoire : regarder si la moyenne empirique est proche de
zro g (zi , 0 ) est proche de 0, mais on ne connat pas 0 . Plus prcisment : on regarde
194
si gbi = g zi , b
est proche de 0, cest dire si la contrepartie empirique des conditions
dorthogonalit value avec lestimateur optimal est proche de zro.
Le rsultat gnral sapplique
0
2
N gbi Vas gbi gbi rang V gbi
Pour eectuer le test il faut donc dterminer le rang de Vas gbi ainsi quun inverse
gnralis et un estimateur convergent de cet inverse. Pour ce qui est du rang, on retrouve
la mme ide que pour les variables instrumentales : on teste la suridentification, cest
dire la compatibilit du surcrot dinformation introduit dans le modle par rapport au
minimum requis pour estimer le paramtre. Le rang va donc tre la dirence entre le
nombre de conditions dorthogonalit et la dimension du paramtre estimer.
Proposition Sous H0 : | E (g (zi , )) = 0, on a
0
L
NQN ( ) = N gbi SN
gbi 2 (dim (g) dim ())
0 1
b b 1 b
o gbi = g zi , et SN = V (g (zi , 0 )) = g zi , g zi , b . On remarque que la
statistique utilise pour le test est N fois la valeur de lobjectif loptimum.
Dmonstration Comme
N gbi ' Ngi0 + G N b
0
et
0 1 0
N b
0 ' G SN G G S Ngi0
on a
0 1 0
N gbi ' Idim g G G S G G S Ngi0 = (Idim g PG ) Ngi0
0 1 0 2
avec PG = G G S G G S . PG = PG . PG est donc un projecteur dont le rang est celui
0
de G, i.e. dim par hypothse. Comme en outre PG S 1 PG = PG S 1 , et Vas (gi0 ) = S 1 ,
on a 0
Vas gbi = (Idim g PG ) S 1 (I PG ) = (Idim g PG ) S 1
On en dduit immdiatement le rang de Vas gbi :
rang V gbi = dim g dim
11.7. TEST DE SPCIFICATION 195
et un inverse gnralis :
Vas gbi S Vas gbi = (Idim g PG ) S 1 S (Idim g PG ) S 1
= (Idim g PG )2 S 1 = (Idim g PG ) S 1
= Vas gbi
do
S = Vas gbi
g zi , b
g zi , b
converge vers S
soit
0 tq E (g (zi , 0 )) = 0
o g0 = (g10 , g20 ) contre lhypothse alternative
H1 : 0 tq E (g1 (zi , 0 )) = 0
Sous H0 la statistique
0
0
Sb = N g zi , b
Vb (g (zi , 0 ))1 g zi , b
Ng1 zi , b
1 Vb (g1 (zi , 0 ))1 g1 zi , b
1
= QN QN b
0 b 1
1 2 (dim g dim g1 )
196
0
b 0 b b b
o est lestimateur GMM optimal sous H0 et QN = Ng zi , V (g (zi , 0 )) g zi , 1 b
la valeur atteinte par lobjectif loptimum sous H0 , et b 1 lestimateur GMM optimal sous
0
H1 et Q1N b 1 = Ng zi , b 1 Vb (g1 (zi , 0 ))1 g zi , b
1 la valeur atteinte par lobjectif
loptimum sous H1 . n o
Le test dfini par la rgion critique Sb Sb > q1 (2 (dim g dim g1 )) est un test
convergent au niveau .
Ce type de test est proche des tests du rapport des maxima de vraisemblance. On
pourrait en donner des quivalents correspondants au test de Hausman ou au test du
multiplicateur de Lagrange.
et sa norme 0 1
zi ubi ubi 2 zi zi zi ubi
0 0 0
bi = yi xib
o u 1 est le rsidu de lquation estim partir dune premire tape
0
Corollaire Sous lhypothse nulle, H0 : | E zi (yi xi ) = 0, la statistique
0 1
Sb = Nzi ubi ubi 2 zi zi zi ubi 2 (dim z dim x)
0 0 0
On rejettera lhypothse nulle si Sb est trop grand, i.e. pour un test au niveau Sb >
Q (1 , 2 (dim z dim x)) . On voit que lexpression de la statistique est trs proche
de celle vue prcdemment dans le cas homoscdastique mais nanmoins dirente car :
elle nest pas base sur le mme estimateur, . elle na pas exactement la mme expression,
1 1
faisant intervenir ubi 2 zi zi et non zi zi ubi 2 , ce qui est une consquence directe de
0 0
et lhypothse alternative
H1 : b0 tq E (zi0 (yi xi b0 )) = 0
o x1i reprsente les variables endognes. On lui associe bb0 lestimateur GMM bas sur
lensemble les conditions dorthogonalit de H0 ainsi que la valeur Sb0 atteinte par lob-
jectif loptimum. Dans la mesure o on ne fait plus lhypothse dhomoscdasticit, cet
estimateur nest pas ncessairement lestimateur des mco : les conditions dorthogonalit
portant sur les variables instrumentales extrieures peuvent apporter une information ne
se trouvant pas dans les conditions dorthogonalit fondes sur les seules variables expli-
catives. On considre aussi bb1 lestimateur GMM bas sur les conditions dorthogonalit
sous H1 ainsi que la valeur Sb1 atteinte par lobjectif loptimum. Le rsultat stipule que
la statistique
Sb0 Sb1 2 (K1 )
o K1 est le nombre de variables explicatives endognes.
11.8 Illustrations
11.8.1 Rduction du temps de travail et gains de productivit
On reprend lillustration du chapitre prcdent et on montre comment les rsultats
sont modifis. Par la mise en oeuvre de la mthode des moments gnralise. On rappelle
que lquation que lon estime scrit :
P GFi = Xi b + RT Ti + vi
o vi reprsente le choc de productivit rsiduel, cest dire une fois pris en compte les
facteurs Xi .
Les variables instrumentales retenues sont : Aidei , Infi , Endti et P fi . Lintrt de la
mise en oeuvre de la mthode des moments gnralis est de pouvoir traiter le cas dune
possible (et vraisemblable) htroscdasticit du rsidu.
On ne prsente pas la condition de rang qui est la mme que dans le cas prcdent
(tableau 10.2 du chapitre prcdent). On ne prsente pas de tableau de rsultat mais
seulement certains dentre eux. Lestimateur variable instrumentale usuel sert desti-
mateur de premire tape. Il est identique celui du chapitre prcdent : le coecient
de la variable de RTT est -0.107 et son cart-type est de 0.032, calcul avec la mthode
11.8. ILLUSTRATIONS 199
standard. On peut aussi calculer cet ecart-type sans faire lhypothse dhomoscdasticit
comme on la expliqu plus haut. On voit quil ny a pas de dirence dans le calcul de cet
cart-type : On trouve nouveau 0.032. Le biais li la prsence dhtroscdasticit dans
lestimation des carts-type de lestimateur variables instrumentales est trs faible dans
le cas prsent. On peut aussi calculer lestimateur GMM optimal et son cart-type. L
aussi on ne trouve pas de dirence les coecients estims sont les mme et lcart-type
galement. La seule dirence notable entre les deux estimations rside en fait dans la sta-
tistique de Sargan : elle est plus faible lorsque lon prend en compte lhtroscdasticit.
La statistique avec lestimateur standard (bas sur la rgression du rsidus sur toutes les
variables exognes) donne une statistique de 7.57 soit une p-value de 5.6% pour un 2 (3) .
Avec lestimateur optimal elle est de 6.58 soit une p-value de 8.7% : on accepte beaucoup
plus facilement lhypothse de compatibilit des instruments. On peut aussi mettre en
oeuvre le test dexognit. Avec la mthode du chapitre prcdent, sous hypothse dho-
moscdasticit, on procdait une rgression augmente. Ici on fait une rgression par VI
par la mthode des GMM en incluant la variable de RTT dans la liste des instruments.
On sintresse dabord au test de compatibilit des instruments Cette hypothse est trs
fortement rejete la statistique est de 11.53 pour 4 degrs de libert soit une p-value trs
faible de 2%. La statistique du test dexognit est la dirence entre les deux statistiques
de suridentification de la rgression GMM avec et sans la variable de RTT. On trouve
une statistique de 11.53-6.58=4.95 la aussi fortement rejet pour un degrs de libert de
1 (4-1).
wi = hi + xi b + ui (11.1)
Le tableau 11.4 prsente les rsultats de lestimation du modle par les variables instru-
mentale, en ignorant lhtroscdasticit
dans la dtermination
1 de lestimateur. Lexpres-
1 1
sion de lestimateur est donc bbIV = x0 zi z 0 zi z 0 xi
i i i x0 zi z 0 zi z 0 yi . La deuxime colonne
i i i
prsente lcart-type robuste et la dernire lcart-type obtenu avec la formule valable
11.8. ILLUSTRATIONS 201
Tab. 11.3 Rgression de la variable dheure sur les exognes et les instruments
pour lhomoscdasticit
du rsidu. Les matricesde variance
correspondantes 1 scrivent
1 1 1 1
Vbhom o bbIV = 2
b x0i zi zi0 zi zi0 xi et Vbhetero bbIV = x0i zi zi0 zi zi0 xi x0i zi zi0 zi
1
1
1
b2i zi0 zi zi0 zi zi0 xi x0i zi zi0 zi zi0 xi
u . On observe que la variable dheure est sensiblement
plus lev que dans la rgression par les mco. Alors que la rgression par les mco donne
un coecient de 1.14, le chire obtenu ici est nettement plus lev puisquil slve
1.52. Cela signifie que lorsque lallongement du temps de travail saccompagne de gains de
productivit horaire important : une augmentation de 1% des heures conduit une aug-
mentation des rmunrations de 1.5%. On peut noter que ce coecient nest pas loign
de celui trouv dans lapproche par les fonctions de production lorsque lon nutilisait pas
la variable Robien, comme instrument. On remarque aussi que le coecient est l aussi
statistiquement dirent de 1 mais que lcart-type estim est quatre fois plus important
que celui des moindres carrs ordinaires. On remarque quil existe des dirences lies
la prise en compte de lhtroscdasticit mais quelles ne sont pas phnomnales.
Enfin le tableau 11.7 prsente les rsultats pour dirents secteurs. Les deux premires
colonnes donnent la valeur du paramtre et son cart-type en utilisant pour instruments
le fait dtre clibataire, le nombre denfants et le revenu alternatif. Les deux colonnes
suivantes prsentent le test de Sargan et sa p-value. On prsente le test dexognit.
Ceci nest pas eectu pour les Industries Agricoles, le Transport et la Finance puisque
dans ces secteurs, le test de validit de suridentification conduit au rejet de lhypothse de
11.9. RSUM 203
11.9 Rsum
Dans ce chapitre on a prsent une mthode destimation trs gnrale, englobant la
totalit des mthodes vues jusqu prsent. Elle permet aussi de considrer facilement des
gnralisations utiles des situations envisages jusqu prsent. En particulier elle permet
204
205
206 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
e (xi )
P (yi = 1 |xi ) = G
qui dfinit compltement la loi conditionnelle de yi sachant xi . Cette probabilit est aussi
lesprance conditionnelle de la variable yi :
X
E (yi |xi ) = yi 1(yi =1) P (yi = 1 |xi ) + 1(yi =0) (1 P (yi = 1 |xi ))
yi {0,1}
e (xi )
= P (yi = 1 |xi ) = G
e (xi ) = G (xi b)
G
Les direntes solutions que lon peut apporter la modlisation de la variable dichoto-
mique yi correspondent dirents choix pour la fonction G.
12.1. MODLE DICHOTOMIQUE 207
yi = G (xi b) + ui
On pourrait tre tent destimer plus directement cette matrice compte tenu de la forme
de lhtroscdasticit, ou mme mettre en oeuvre lestimateur des MCQG puisque
lon connat lexpression de la matrice de variance des rsidus conditionnellement xi :
E (u2i |xi ) = G (xi b) (1 G (xi b)) = 2 (xi b) . Par exemple pour lestimateur des MCQG
1 0
bbmcqg = x0
ei x
ei xei yei
r
avec zei = zi 2 xibbmco . Ceci est en pratique impossible avec le modle de probabilit
linaire puisquil nest pas exclu que xi b (1 xi b) soit ngatif.
208 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
E (yi |xi ) 0
k
= G (xi b) bk
xi
et llasticit 0
LogE (yi |xi ) G (xi b)
= bk
xki G (xi b)
Pour le modle Probit on a ainsi :
E (yi |xi ) LogE (yi |xi ) (xi b)
k
= (xi b) bk , k
= bk
xi xi (xi b)
12.2. VARIABLES LATENTES 209
E (yi |xi )
= F (xi b) (1 F (xi b)) bk
xki
LogE (yi |xi )
= (1 F (xi b)) bk
xki
0
puisquon vrifie facilement F = F (1 F ) .
Leet marginal de laccroissement dun facteur dpend donc du point o lon se situe.
En pratique on est amen considrer une situation de rfrence qui peut tre un groupe
dindividus lorsque les variables explicatives sont elles mmes des variables de catgories,
ou bien le point moyen de lchantillon. Dans ce cas par exemple, on calculerait
E (yi |xi ) 0
k
= G (xi b) bk
xi
yi = xi b + ui
Lorsque lon spcifie la loi du rsidu ui , on est capable de dfinir compltement la pro-
babilit P (yi = 1 |xi ) . Si on suppose que le rsidu intervenant dans modlisation de la
variable latente est normal, on obtient le modle Probit. Supposons ui N (0, 2 )
b ui
yi = 1 xi + >0
210 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
o on utilise le fait que la loi normale est symtrique, et que donc P (v > a) = P (v < a) .
Gi = xgi bg + ugi
La participation au stage comporte aussi un cot court-terme Ci , incluant le fait quil faut
dabord apprendre, et donc fournir un eort, mais aussi souvent payer pour la formation
et subir des cots indirects comme des cots de transport. Supposons l encore que lon
soit capable de modliser ce cot
Ci = xci bc + uci
Le gain net pour lindividu est donc yi = Gi Ci .
On peut modliser la participation comme le fait que le gain net soit positif :
yi = 1 yi > 0 xi b + ui > 0
On pourrait considrer dautres cas comme par exemple le fait que la loi de ui suive une
loi de Student, on obtiendrait alors dautres expressions pour P (yi = 1 |xi ) .
12.3. ESTIMATION DES MODLES DICHOTOMIQUES 211
X
N
log LN = [yi log G (xi b) + (1 yi ) log (1 G (xi b))]
i=1
Lorsque lon fait lhypothse que les observations sont indpendantes, la maximisation
de la vraisemblance conduit des estimations convergentes. On a vu en eet dans le
chapitre prcdent que la mthode du maximum de vraisemblance, base sur la nullit de
lesprance du score
log L (zi , )
E = 0 = 0
est une mthode de type GMM et que lon peut tudier les proprits asymptotiques des
estimateurs dans le cadre gnral de la convergence des estimateurs GMM. On rappelle
ici les principaux rsultats de la mthode des moments gnralise et leur transcription
au cas et leur transcription au cas du maximum de vraisemblance.
On considre un modle dont la vraisemblance scrit L (zi , )
Proposition Sous les hypothses
1. H1 Lespace des paramtres est compact. La vraie valeur est 0 intrieure ,
2. H2 , 0 tq L (zi , 0 ) est la vraie densit des observations
3. H3 L (zi , ) est deux fois continment drivable en ,
212 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
2 2 0
4. H4 E sup | log L (zi , )/ | + sup | log L (zi , )/ | +sup | log L (zi , )/ | <
,
5. H5 log L (zi , )/ k a des moments finis dordre 1 et 2,
6. H6 Le Jacobien J = E ( 2 log L (zi , 0 )/ 0 ) de dimension dim dim est de
rang dim ,
Alors lestimateur du maximum de vraisemblance b SN maximisant QN () = LogL (zi , ),
vrifie les proprits :
P
1. b
S 0 convergence
L
b
2. N S 0 N 0, Vas (S) b normalit asymptotique
3. Vas b S = J 1 = I 1 o I = E [ log L (zi , )/ log L (zi , )/ 0 ]
. . .
4. Ib = log L zi , b
log L zi , b
0 I et Jb = 2 log L zi , b 0 J
Dmonstration Il sagit dune transcription directe des rsultats concernant la conver-
gence de lestimateur de la mthode des moments gnralise au_ cas du score E log L(zi ,)
=
0, quelques exception prs. On a vu que si le modle est bien spcifi, cest dire si ef-
fectivement la densit des observations peut tre paramtre par le modle utilis, alors
la vraisemblance est maximale pour la vraie valeur des paramtres. Cest le sens de la
condition HMV 2 analogue de la condition H2 de la mthode des moments gnralise.
Par rapport la mthode des moments gnralise, une caractristique importante pro-
vient du fait que le modle est juste identifi. Lexpression de la matrice de variance en
est simplifie.
Dans le cas gnral son expression est Vas b S = [G0 S0 G]1 G0 S0 V (g (zi , 0 )) S0 G [G0 S0 G]1 .
Ici les notations sont direntes, G = J et V = I et en outre G est de dimension
dim dim puisque dim g = dim et de rang
dim par hypothse. G est donc inver-
b
sible, do une expression plus simple Vas S = J 1 IJ 1 .
Une simplification supplmentaire provient du fait quil sagit dune vraisemblance. On
a alors : 2 " 0
#
log L (zi , ) log L (zi , ) log L (zi , )
E 0 = E .
Cette dernire relation provient simplement du fait que pour une famille de densit de
probabilit f (x, ) , Z
f (x, ) dx = 1
donc
Z Z
f Logf Logf
(x, ) dx = 0 soit f (x, ) (x, ) = 0, i.e.E =0
12.3. ESTIMATION DES MODLES DICHOTOMIQUES 213
Finalement on retrouve a partir des formules GMM que dans le cas du maximum de
vraisemblance
2 1 0 1
log L (z , ) log L (z , ) log L (z , )
Vas b
i i i
= E =E
0
soit
log LN
N h
X i g xibb
yi G xibb
0
= h i xi = 0
b i=1 G xibb 1 G xibb
Ces quations sont en gnral non linaires et ncessitent la mise en oeuvre dun algorithme
doptimisation.
On voit que ces quations dans le cas gnral sexpriment sous la forme
X
N h i 0
xi , b yi E yi xi , bb xi = 0
b
i=1
Elles sont donc assez similaires aux conditions vues pour les moindres carrs, mis part
la pondration et la non linarit. On remarque galement que la pondration sinterprte
naturellement par le fait que V (yi |xi ) = G (xi , b) (1 G (xi , b)) , et que g (xi , b) x0i est la
drive par rapport b de G (xi b) . La pondration est donc analogue la sphricisation
pratique dans la mthode des mCQG du modle linaris autour de la vraie valeur du
paramtre.
214 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
Pour le modle Logit on a G (z) = F (z) = 1/ (1 + exp (z)) , et g (z) = exp (z) / (1 + exp (z))2 =
F (z) (1 F (z)) . On a donc simplement
N h
X i 0
log LN
= yi F xibb xi = 0
b Logit i=1
Pour le modle probit on montre plus gnralement une proposition base sur la log
concavit de la densit. On prsente dabord un lemme :
Lemme Si log (g) est concave, alors le ratio g (z) /G (z) est une fonction dcroissante
de z.
g(z) g0
Dmonstration G(Z)
est dcroissant si g 0 G < g 2 cest dire si g
G < g. Si log (g) est
0 0 g 0 (z)
concave alors gg dcroissante. Dans ce cas g 0 (t) = gg(t) (t)
g (t) > g(z)
g (t) pour t z donc
Z z 0 Z z
g (z) 0 (z)
g 0 (t) dt > g (t) soit g (z) > gg(z) G (z) .
g (z)
Proposition Si log (g) est concave et si g est symtrique, alors le hessien de la vraisem-
blance du modle dichotomique probabilit G (xib ) est dfini ngatif.
12.3. ESTIMATION DES MODLES DICHOTOMIQUES 215
log LN X
N
gi
= [yi Gi ] x0i
b i=1
Gi [1 G i ]
X gi X gi
= [1 Gi ] x0i + [0 Gi ] x0i
I1
Gi [1 Gi ] I0
Gi [1 Gi ]
X gi X gi
= x0i + x0i
I
G i
I
1 G i
1 0
On a alors :
2 log LN X gi 0 X gi
0
0
0
= xi xi + x0i xi
bb I
Gi I
1 Gi
1 0
g(z) g(z)
Comme g est symtrique G (z) = 1 G (z) , on a 1G(z) = G(z) , il en rsulte que
g(z)
si Gg est une fonction dcroissante, alors 1G(z) est aussi une fonction dcroissante. Le
Hessien est ngatif puisque les drives des ratios Ggii et 1Ggi
i
sont ngatives.
Dans le cas Probit, g (z) = 12 exp 12 z 2 , cest bien une fonction symtrique et
log g (z) = log 2 12 z 2 , est bien une fonction concave. Lobjectif est donc globalement
concave.
i = yi G xi , bb
o b
La matrice de variance covariance de lestimateur est dans tous les cas estime par
I = 1 wi > wi
wi = 0 + 1 scoi + 2 agei + 3 age2i + ui
wi = 0 + 1 wai + 2 sin glei + 3 nenfi + 4 agei + 5 age2i vi
On peut estimer ce modle en faisant lhypothse que les rsidus sont distribus de telle
sorte que lon ait un modle Probit, Logit ou probabilit linaire. On met en oeuvre cette
estimation sur un chantillon de femmes en 2002, tir de lenqute emploi. Lchantillon
comprend 36249 femmes. Les rsultats sont prsents dans le tableau 12.1. On voit que
12.5. SLECTIVIT : LE MODLE TOBIT 217
les paramtres sont distincts dune rgression lautre mais que les sens de variations sont
toujours les mmes. On note aussi que les estimations sont trs prcises, ce qui tient la
taille importante de lchantillon. Les rsultats sont bien ceux auxquels on sattend : plus le
capital humain est important : ge et scolarit levs, plus la participation est importante.
De mme plus le nombre denfants est lev, moins la participation est leve. Le clibat
conduit aussi comme on sy attend une participation plus importante. On remarque
enfin que le revenu alternatif (celui du conjoint) na pas le signe attendu. On aurait pu
penser en eet que le salaire du conjoint conduisait une participation plus faible. Ceci
pourrait tre li au fait que dans la dcision de mise en couple les capacits sur le march
du travail des deux individus sont corrles positivement.
Pour aller plus loin dans la comparaison des estimateurs entre eux, il faudrait comparer
les eets marginaux, cest dire calculer en chaque point leet prdit par le modle dun
accroissement marginal de la variable.
qui peut tre dirente ou non de l (wi |zi ) . Le processus de slection peut donc tre
ignorable ou non dans ce cas. On voit que si l (wi |zi , hi ) = l (wi |zi ) , cest dire
si la variable ralisant la censure est indpendante de la variable tudie condition-
nellement aux variables explicatives, le processus de slection sera ignorable.
4. On observe le salaire, le nombre dheures et la dcision de participation
wi = xi b + ui
hi = hi = xi b xri br + ui uri si hi > 0
pi = 1 si hi 0
pi = 0
Ce modle est dit modle Tobit de Type III. Il permet sous certaines conditions
destimer le paramtre dlasticit de lore de travail aux heures.
Lestimation de ce type de modles est en gnral complexe lorsque lon ne spcifie
pas la loi des rsidus. On va examiner ici la situation dans laquelle la loi jointe des deux
rsidus uwi de lquation de salaire et uhi de lquation dheure, conditionnellement aux
variables explicatives, est une loi normale bivarie :
uwi 0 2w w h
N ,
uhi 0 w h 2h
Une caractrisitique importante de cette modlisation est de laisser possible une corrlation
entre les deux quations de salaire et de participation. Cest justement dans le cas o il
y a corrlation que le processus de slection nest pas ignorable dans le cas du modle de
type II.
Definition 1. On appelle Modle Tobit de type I, ou modle Tobit simple le modle
dans lequel une variable dintrt modlise comme
yi = xi b + ui
yi > 0
2. On appelle Modle Tobit de type II, le modle dans lequel une variable dintrt,
modlise comme
yi = xi b + ui
220 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
Ii = zi c + vi > 0
avec (ui , vi ) distribus suivant une loi normale de moyennes nulle et de variance 2u
et 2v et de corrlation . On observe donc
yi = yi = xi b + ui
si Ii > 0
Ii = 1
sin on
Ii = 0
Pour mesurer limportance potentielle des biais auquel peut conduire une information
incomplte, on considre la situation dans laquelle il y a deux variables alatoires
y1 = x + u1
y2 = x + u2
Les variables x, u1 et u2 sont toutes trois normales, centre et rduites. x est choisie ind-
pendante de u1 et u2 . En revanche on envisage deux situations polaires pour la corrlation
de u1 et u2 : corrlation nulle et corrlation de 0.9. On sintresse la relation entre y1 et
x, et on considre deux cas. Dans le premier cas on observe y1 et x sans restriction, dans
le second cas on observe y1 et x uniquement pour y2 positif. Les graphiques reports dans
le tableau 12.2 montrent les nuages de points observs.
On voit que les nuages de points dans les chantillons non tronqus se ressemblent
beaucoup, que la corrlation soit nulle ou de 0.9. Les droites de rgressions linaires
donnent toutes deux des coecients proches des vraies valeurs : 1 pour la variable x
et 0 pour la constante. On voit aussi que la troncature par la variable y2 ne change pas
beaucoup lallure de lchantillon dans le cas de la corrlation nulle. On observe nanmoins
que comme on a slectionn les observations pour lesquelles x+u2 > 0, on a eu tendance
retenir plus de valeurs leves de x. Nanmoins, cette slection des variables explicatives
naecte pas la proprit dindpendance des variables explicatives et du rsidu dans
lquation de y1 . On vrifie que les coecients de la droite de rgression sont l encore trs
proches des vraies valeurs. En revanche les changements pour le cas = 0.9 en prsence
de troncature sont trs importants. On a t amen ne retenir que les observations pour
lesquelles x + u2 > 0. L encore on a eu tendance retenir plus souvent les observations
de x avec des valeurs leves. Pour une observation retenue pour une valeur de x donne,
on na retenu que les observations avec une valeur importante de u2 et donc de u1 puisque
ces variables sont fortement corrles. On en dduit que x donn, on a retenu des
observations pour lesquelles u1 est susamment important. Pour une valeur donne de x
la moyenne des rsidus des observations slectionnes sera donc positive contrairement
ce quimplique lhypothse dindpendance. En outre, si on considre une valeur de x plus
importante, on sera amen slectionner des observations de u2 de faon moins stricte,
et la moyenne des rsidus de u1 slectionns sera donc toujours positive, mais plus faible.
12.5. SLECTIVIT : LE MODLE TOBIT 221
5 5
y = - 0,01+1,01x y = 0,01+1,00x+
0 0
-4 0 4 -4 0 4
-5 -5
0 0
-4 0 4 -4 0 4
y = 0,75+0,58x
y = - 0,03+1,03x
-5 -5
On en dduit que lesprance des rsidus conditionnelle une valeur donne de x est une
fonction dcroissante de x : le rsidu de lquation de y1 sur les observations slectionns
ne sont plus indpendants de la variable explicative. Ce rsultat se matrialise par une
droite de rgression de pente beaucoup plus faible que dans le cas prcdent : le biais
dit de slectivit est ici trs important. Une autre consquence que lon peut voir sur le
graphique et qui est intimement lie dans ce cas la slection, est que la relation entre y1
et x est htroscdastique.
Densit
La densit dune loi normale centre rduite est note et a pour expression
2
1 u
(u) = exp
2 2
Z u
La fonction de rpartition est note (u) = (t) dt. Compte tenu de la symtrie de
la fonction on a (u) = 1 (u)
Une variable alatoire de dimension k suivant une loi normale multivarie de moyenne
et de variance : y N(, ) a pour densit :
1 1 0 1
f (y) == q exp (y ) (y )
k 2
(2) det()
On considre une loi normale bivarie
y1 1 21 1 2
N ,
y2 2 1 2 22
un calcul simple permet de montrer que la loi y2 conditionnelle y1 donne par f (y2 |y1 ) =
f (y1 ,y2 )
f (y1 )
est aussi une loi normale, mais de moyenne et de variance dirente. La moyenne
dpend de la valeur prise par y1 , mais pas la variance :
2
f (y2 |y1 ) N 2 + 2 2
(y1 1 ) , 2 (1 )
1
et
de mme
E(u|u < c) = E(u| u > c) = M (c)
Pour les moments dordre 2 on a :
R
u2 (u)du
E u2 |u > c = c
= 1 + cM (c)
1 (c)
R R
o on intgre par partie c u2 (u)du = [u (u)] c + c
(u)du = c (c) + 1 (c) .
On en dduit la variance conditionnelle
Le lemme que lon avait pour une loi normale z + (z) > 0 et aussi z + 1
(z) > 0 soit
2 2
encore zM (z) + M (z) > 0 et zM (z) M (z) < 0 on en dduit que lon a toujours,
comme on sy attend V (u|u c) < 1.
Lemme Quelque soit z, on a
z+ (z) > 0
et
z + (z) > 0
1
Dmonstration Compte tenu de 0 (z) = z (z) on dduit de / dcroissant 0 (z) /
2 /2 < 0, soit z (z) / 2 /2 < 0. En multipliant cette ingalit par (z) , on en
dduit un rsultat qui sera utile par la suite : z + (z) > 0. En appliquant cette ingalit
z, on en dduit aussi z + 1 (z) > 0.
Remarque Dans le cas dune variable non centre rduite v N (, 2 ) , on peut dduire
des rsultats prcdents les moments des lois tronques en notant que (v ) / suit une
loi N (0, 1) et que v c u = (v ) / e c = (c ) /. on a donc
c
E(v|v > c) = E(u + |u > e c) = + M
c
E(v|v < c) = E(u + |u < e c) = M
et 2 !
c c c
V (v|v > c) = 2 1+ M M
Pour les moments de la loi tronque suprieurement on a galement
2 !
c c c
V (v|v < c) = 2 1 M M
Moments dune variable normale tronque par une autre variable normale
On sintresse au cas dune variable alatoire suivant une loi normale bivarie
y1 1 21 1 2
N ,
y2 2 1 2 22
Proposition On a
1
E (y2 |y1 > 0) = 2 + 2 M
1
E (y2 |y1 > 0) = 2 2 M 1
1
et
2 !
1 1 1
V (y2 |y1 > 0) = 22 2 22 +MM
1 1 1
2 !
V (y2 |y1 < 0) = 22 2 22 1 M 1 + M 1
1 1 1
2
E (y2 |y1 > 0) = E 2 + (y1 1 ) |y1 > 0
1
y1 1
= 2 + 2 E |y1 > 0
1
y1 1 y1 1 1
= 2 + 2 E >
1 1 1
1
= 2 + 2 M
1
226 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
De mme,
V (y2 |y1 > 0) = V (E (y2 |y1 ) |y1 > 0) + E (V (y2 |y1 ) |y1 > 0)
2
= V 2 + (y1 1 ) |y1 > 0 + 1 2 22
1
2 2 y1 1 y1 1 1
= 2V >
1 1 1
2 !
1 1
= 2 22 1 1 M M + 1 2 22
1 1 1
2 !
1 1 1
= 22 2 22 M +M
1 1 1
Compte tenu du rsultat prcdent sur la loi normale unidimensionnelle et puisque V (y2 |y1 ) =
(1 2 ) 22 .
On obtient directement les moments de la loi normale y2 tronque par y1 < 0 en
remplaant 1 par 1 et par
yi = xi b + ui
Ii = zc + vi
dans lequel la loi jointe des rsidus conditionnellement aux variables explicatives est une
loi normale bivarie
ui 0 2u u v
N ,
vi 0 u v 2v
L = 1 p
Ii =0
v
Ii =1 u
u v (1 2 )
!
Y 1Ii yi xi b Ii
zc 1 yi xi b z i c + v u
= 1 p
i
v u u v (1 2)
On voit que comme dans le cas du modle Probit, on ne peut pas identifier la totalit des
paramtres de lquation de slection : seul le paramtre e c = cu est identifiable. Compte
tenu de cette redfinition des paramtres du modle, la vraisemblance scrit :
!
Y yi xi b Ii
1 yi xi b zie
c + u
L= c)]1Ii
[1 (zie p
i
u u (1 )2
On retrouve donc le fait que dans le cas = 0 on peut ignorer la slection des
observations. On voit aussi que dans le cas gnral o 6= 0 la slectivit importe.
2. La fonction de vraisemblance nest pas globalement concave en (, u , b, e
c).Elle est
concave globalement en = ( u , b, e
c) pour fix.
3. Une solution consiste fixer la valeur de et estimer les paramtre correspondant
b
() et balayer sur les valeur possible de .
Cette formule montre bien la prsence dhtroscdasticit. Elle donne aussi une voie pour
estimer le modle de faon plus ecace en utilisant lestimateur des mCQG. Nanmoins ce
nest pas le seul problme, en eet la variable additionnelle introduite dans la rgression
fait intervenir le paramtre ec qui nest pas connu et est remplac par une estimation.
Lintroduction de ce paramtre estim est aussi une source de complication dans le calcul
des carts-type. Plus prcisment, le paramtre est lui mme issu dune estimation (par
le MV) que lon peut rsumer par lannulation de la contrepartie empirique de conditions
dorthogonalit
E (hec (Ii , zi , e
c)) = 0
Lestimation du modle par les mco conduit quant elle lannulation de la contrepartie
empirique de
x0i
E [yi xi b u Mi (e
c)] 1Ii =1
Mi (ec)
= E (hb,u (Ii , yi , xi , b, u )) = 0
Le calcul des carts-type doit se faire en considrant les formules de lestimation par la
mthode des moments gnralise associe la totalit des conditions dorthogonalit, cest
dire
hec (Ii , zi , e
c)
E =0
hb,u (Ii , yi , xi , b, u )
On utilise parfois lestimateur de Heckman comme une premire valeur pour le calcul
de lestimateur du maximum de vraisemblance. On utilise lestimateur du modle Probit,
lestimateur du modle de Heckman et lexpression de la variance des rsidus qui permet
dobtenir une estimation convergente de et w .
230 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
1
E (y |I = 1, x, z ) = xb + u F (zc)
Compte tenu du fait que
on a
1
E (y |I = 1, x, z ) = xb + u (1 P (z))
En utilisant le fait que (x) = 1 (x) , soit 1 (P ) = 1 (1 P ) , on a :
1 P (z)
E (y |I = 1, x, z ) = xb + u
P (z)
12.6. ESTIMATION DU MODLE TOBIT 231
1 1 2 2
(1/2)(+2)
h (u, v) = 1+ u 2uv + v
2 (1 2 )1/2 2 ( 2) (1 2 )
E (u |v ) = v
La loi de u, g (u) a pour expression :
s
(( + 1)/2) (+1)/2
g (u) = 1 + t2
(/2)
On note G (u) sa fonction de rpartition.
On peut montrer que lexpression de lesprance de la loi de Student de degrs
tronque est :
+ t2 g
E (v |v < t ) = (t)
1 G
Do
G (t) G (t) + t2 g
E (v |v > t) = E (v |v < t) = (t)
(1 G (t)) (1 G (t)) 1 G
+ t2 g + t2 g
= (t) = (t)
1 1 G 1 G
Ceci permet de gnraliser les rsultats obtenus prcdemment pour le modle de slection
E (y |I = 1, x, z ) = xb + E (u |d = 1, x, z )
= xb + E (u |zc + v > 0, x, z )
= xb + E (E (u |v, x, z ) |zc + v > 0, x, z )
= xb + E (v |v > zc)
+ zc2 g
= xb + (zc)
1 G
232 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
y = xb + u
avec la modlisation de laectation au traitement :
T = zc + v
T = 1 T 0
(u, v) (x, z)
mais on ne fait plus dhypothse sur la loi jointe des perturbations. On montre que lon
obtient une relation pour lesprance conditionnelle qui sapparente celles obtenues dans
les cas prcdents :
Proposition Dans le cas du modle de slectivit sur inobservables, si les fonctions de
rpartition de v est strictement croissante, il existe une fonction K (P (zc)) telle que
E (y |I = 1, x, z ) = xb + K (P (zc))
o
P (zc) = P (T = 1 |r, z )
Dmonstration On montre dabord que P (I = 1 |r, z ) = P (zc) . On a
Z Z
P (I = 1 |r, z ) = E (1 (zc + v > 0) |r, z ) = f (v |r, z ) = f (v) = 1F (zc) = P (zc)
v>zc v>zc
E (y |I = 1, x, z ) = xb + E (u |I = 1, x, z )
12.6. ESTIMATION DU MODLE TOBIT 233
= H2 (zc) = K (P (zc))
Remarque On peut voir partir des expressions prcdentes un point trs important.
Dans le cas de la normalit, on a une relation non linaire dtermine entre lesprance de
la variable laquelle on sintresse et la probabilit de slection. Cette non linarit permet
lobtention destimation mme dans le cas o les variables entrant dans lquation de
slection et lquation dintrt principal sont identiques. Dans le cas plus gnral, on voit
nanmoins que ce nest plus le cas. En eet quelque soit la fonction de probabilit retenue P,
si la fonction K est quelconque, et que xp est identique xw , on ne pourra dissocier leet
des variables intervenant au travers de la slectivit de leur eet intervenant directement :
le modle nest pas identifi. Ce nest que lorsque lon introduit dans lquation de slectivit
une variable intervenant dans la slectivit mais pas dans lquation principale que lon
peut identifier le modle. Le raisonnement est ici trs proche de celui fait dans le cas des
variables instrumentales : il faut postuler une relation dexclusion. Cette ncessit est un
peu masque dans le cas de la normalit par la non linarit du modle, mais elle nen est
pas moins essentielle.
Ce type de modle peut tre estim sans faire dhypothse sur la forme de la fonction
K. On considre lquation :
E (y |I = 1, x, z ) = xb + K (P (zc))
Une premire faon destimer le modle consiste utiliser des sries. Lide est trs simple
elle consiste introduire direntes puissance du score : P (zc) , P (zc)2 , . . . . Les proprits
asymptotiques de ce type destimateur ont t tudie par Andrews (1991).
E (y |I = 1, x, z ) = xb + 1 P (zc) + + dN P (zc)dN
Cette mthode est trs simple mettre en oeuvre, et de ce fait trs utile. Ses proprits
asymptotiques ont t clairement tablies, par Newey (1999) qui montre en particulier
que les paramtres dintrt de la partie linaire du modle sont convergent en N. Le
problme de ce type de mthode rside dans le choix du degr du polynme retenu.
Une mthode destimation alternative est fournie par la mthode destimation de (Ro-
binson 1988) cest une sorte de super mthode de Frish-Waugh. LIde de la mthode de
Robinson est de projeter cette quation sur lensemble des fonctions de P (zc)
E (y |I = 1, P (zc)) = E (E (y |I = 1, x, z ) |I = 1, P (zc))
= E (x |I = 1, P (zc)) b + K (P (zc))
234 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
E (y E (y |I = 1, P (zc)) |I = 1, x, z ) = (x E (x |I = 1, P (zc))) b
wi = xi b + ui
hi = xi b xri br + ui uri = zi c + vi
quil y a une variable entrant dans la liste des variables aectant le salaire de march
mais pas le salaire de rserve. La variable retenue ici assurant cette identification est la
variable de scolarit. En eet on fait intervenir la variable dge dans le salaire de rserve
et dans le salaire de march. Nanmoins lidentification du paramtre est lie ici la
forme fonctionnelle, cest dire la forme du ratio de Mills. On voit que si on avait retenu
une autre loi et que pour cette loi le terme analogue au ratio de Mills avait t linaire le
modle ne serait pas identifi puisquil impose que zi c soit proportionnel xi b xri br .
Mme si le modle impose des restrictions qui peuvent tre testes comme le fait que les
paramtres de la partie xi b xri br sont bien proportionnels ceux de la partie zi c, on
ne peut en dduire destimateur de ces paramtres, sauf faire une hypothse comme
celle faite ici que les variables inobserves sont distribues suivant une loi normale. On
peut noter que le modle de salaire de march peut lui aussi faire intervenir les heures.
Dans ce cas lidentification porte comme pour le modle dheures oertes sur la forme
fonctionnelle. Enfin, on voit aussi que lestimation sapparente ici une estimation par la
mthode des moments gnralise. En eet, on peut rcrire lquation dore de travail
par exemple sous la forme
E (hi wi + xri br |zi , hi 0) = E (uri |zi , hi 0) = e eh
h (zi c)
Soit
E hi wi + xri br e eh (zi c) |zi , hi 0 = 0
h
avec e eh = cov(uri , ui uri )/ (ui uri ) . Il en rsulte que les paramtres peuvent
h
tre estims en utilisant comme conditions dorthogonalit
zi
E
hi wi + xri br e eh (zi c)
h h 0 =0
(zi c) i
De mme, pour lquation de salaire, on a
zi
E
whi hi xi b (zi c) hi 0 = 0
(zi c)
qui peut tre utilise avec contraint 1 (lidentification des autres paramtres est alors
garanti quelle que soit la forme fonctionnelle retenue) ou librement estim (lidentification
des paramtres repose alors sur lhypothse de normalit).
Remarque Pour la dtermination des carts-type, il faut tenir compte de deux aspects
importants. Le premier est que le modle est htroscdastique. Lutilisation de la mthode
des moments gnralise permet de traiter ce problme. Le deuxime est que le ratio de
Mills fait intervenir lestimation de lquation de participation. Il faut en thorie corriger
les carts-type pour cette estimation intermdiaire. Ceci peut tre fait en considrant les-
timation comme un problme destimation par la mthode des moments gnralise. On
236 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
On prsente dans le tableau 12.3 les rsultats obtenus pour lestimation de lquation
de salaire. On voit que le ratio de Mills joue significativement et que son coecient est
ngatif. Le signe est celui de la corrlation entre ui uri et ui . Si on crit uri = ui + i ,
avec ui et i non corrl, on a cov(ui uri , ui ) = ( ) 2u . Le signe ngatif sinterprte
donc comme le fait que les lments inobservs dans lquation de salaire et lquation
de salaire de rserve sont fortement corrls. On voit quignorer la slectivit, oublier la
variable de ratio de Mills, conduit biaiser les coecients. Ici il sagit surtout de celui
de la scolarit. Le coecient est en eet de 0.03 avec prise en compte de la slectivit
au lieu de 0.04 lorsquon lignore. On voit que lorsque lon introduit la variable dheures
comme rgresseur lerreur lie au fait doublier la variable de slectivit est encore plus
forte. En eet llasticit du salaire de march (donc de la productivit) aux heures est
leve et significativement dirente de 0 lorsque lon ignore la slectivit. Par contre
lorsquon prend en compte la slectivit, on voit que cette variable est deux fois plus
faible et quelle nest plus significativement dirente de 0. Ceci est susceptible de remettre
fortement en cause les rsultats prsents dans le chapitre sur la mthode des moments
gnralise. Toutefois, il ne faut pas oublier que lorsque lon introduit la variable dheure,
lidentification des paramtres repose sur le choix de la normalit pour distribution jointe
des rsidus.
Le tableau 12.4 prsente les rsultats de lquation dore de travail. On voit l aussi
que la variable de slectivit est significativement dirente de zro. Son signe est celui de
e eh = cov(uri , ui uri ). Soit pour uri = ui + i , celui de 2 + ( ) 2u . Le signe
h
obtenu est donc compatible avec le prcdent. On voit que l aussi les changements sont
importants lorsque lon estime le modle avec et sans prise en compte de la slectivit.
En eet sans prise en compte de la slectivit, on a un coecient faible de lordre de 0.10.
Une baisse de la rmunration de 10% conduit une baisse des heures oertes de 1%.
Lorsque lon prend en compte la slectivit, on parvient une valeur beaucoup plus leve
de 0.4 : une baisse de la rmunration de 10% conduit une baisse des heures de 4%.
12.6. ESTIMATION DU MODLE TOBIT 237
Tab. 12.3 Estimation de lquation de salaire avec et sans prise en compte de la slec-
tivit, avec et sans prise en compte des heures
Tab. 12.4 Estimation de lquation dore de travail avec et sans prise en compte de la
slectivit
238 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
Uik = ik + ik = xi bk + ik k = 1, ...K
o ik est une variable alatoire non observable. Lindividu choisit la modalit que lui
procure lutilit maximale.
yi = Arg max (Uik )
k
Proposition Si les {ik }k=1,...K sont des v.a. indpendantes et identiquement distribues
selon une loi des valeurs extrmes de fonction de rpartition.
Puisque les valeurs des direntes options sont indpendantes les unes des autres. Comme
P (k + k < 1 + 1 |1 ) = G (1 k + 1 ) = exp [ exp (1 + k 1 )] , on a
!
Y
K
P (y = 1) = E exp [ exp (1 + k 1 )]
k=2
" #!
X
K
= E exp exp (1 + k 1 ) = E (exp [t exp (1 )])
k=2
X
K
avec t = exp (1 + k ) . On en dduit que
k=2
1 1
P (y = 1) = = K
1+t X
exp (1 + k )
k=1
l k = x(bl bk ), l 6= k
yki = 1 (yi = k)
exp(xki bk )
Pki = P (yi = k |xi ) = XK
exp(xli bl )
l=1
b1 = 0
X
n X
K
log L = yik log Pik
i=1 k=1
Cette fonction est globalement concave. Les conditions du premier ordre pour la dtermi-
nation du paramtre b = (b2 , ..., bK )0 , scrivent simplement sous la forme
0
0
(yi2 P i2 ) x
log L X
n 2i
..
= . =0
b i=1 0
(yiK PiK ) xKi
Pn PK
Dmonstration La vraisemblance scrit log L = k=1 yik log Pik = log L =
Pn PK i=1
XK
i=1 k=2 yik xki bk log 1 + l=2
exp(xli bl ) . On calcule facilement la drive par
rapport bl :
log L X X
n n
exp(xli bl )
= yil x0li XK x0
li = (yil Pli ) x0li
bl i=1 1+ exp(xli bl ) i=1
l=2
Pour m 6= l, on a
Pour m = l, on a
exp(xli bl ) 0 exp(xli bl ) 0 exp(xli bl )2 0
x = x x 2 xli xli
b0l 1 + XK exp(x b ) li 1+
XK
exp(xli bl )
li li XK
l=2
li l
l=2
1+ exp(xli bl )
l=2
= Pli Pli2 x0li xli
12.8 Rsum
Dans ce chapitre on a prsent trois exemples de modles non linaires gnralisant
directement les modles linaires vus prcdemment. On a ainsi examin
1. Les modles dichotomiques, caractriss par le fait que la variable explicative prend
ses valeurs dans {0, 1} . On a vu que des modlisations adaptes faisaient intervenir
des variables latentes i.e. des variables dont seulement une partie de la ralisation
est observe.
2. Deux exemples types sont les modles Logit et les modles Probit. Ces deux modles
sestiment par le maximum de vraisemblance et ncessitent une tape doptimisation.
3. On a galement prsent les modles Tobit. Ce sont des modles dans lesquels on
observe une variable conditionnellement la valeur prise par une autre variable.
4. La situation standard est celle dans laquelle il y a une variable dintrt et une
variable dcrivant la slection.
5. Un exemple typique est celui du salaire : on nobserve le salaire que conditionnelle-
ment au fait que le nombre dheures de travail soit strictement positif.
6. Ces modles ncessitent en gnral des hypothses sur la loi des rsidus des quations
de slection et de la variable dintrt.
7. On fait en souvent lhypothse de rsidus normaux. Dans ce cas le modle peut
tre estim simplement soit par la mthode du maximum de vraisemblance, soit par
une mthode alternative, dite de Heckman. Cette mthode donne simplement des
242 CHAPITRE 12. VARIABLES DPENDANTES LIMITES
243
244 CHAPITRE 13. EVALUATION
dore et de demande par exemple) on peut chercher rpondre la question globale quel
a t leet de la politique au total ? Ceci ne ncessite que lestimation de combinaisons des
paramtres structurels et pas leur identification individuelle. Une branche de lconomtrie
sest dveloppe fortement au cours des dernires annes qui cherche rpondre cette
question. Cest essentiellement aux travaux de James Heckman que lon doit ces avances.
Elle ne sintresse qu des valuations ex-post et aux situations dans laquelle la politique
in fine a concern une partie de la population seulement. Par exemple eet du relvement
du salaire minimum dans certains tats aux Etats Unis. Mise en place dun systme
de formation pour les chmeurs, ou dun systme daide la recherche demploi (PAP)
etc... Lide centrale est quune partie de la population bnficie de la mesure et lautre
non. On peut sous certaines hypothses, l aussi parfois exigeantes, retrouver leet de la
politique sur les individus qui en ont bnficis, partir de comparaisons entre les deux
populations. On voit bien que mesurer leet global de la politique mise en oeuvre de
cette faon est moins exigeant que la mesure de lensemble des paramtres structurels
sous-jacents. Seule la faon dont ils se combinent pour conduire au rsultat final compte.
En pratique, on considre des politiques se traduisant par le fait que la population va
tre rpartie dans dirents tats. On introduit ainsi une variable appele variable de
traitement T prenant ses valeurs dans {0, 1, ..., M} . Ltat T = 0 correspondant au fait
de ntre pas directement touch par la politique. On va sintresser principalement la
situation dans laquelle il ny a que deux tats : T {0, 1} . Les valuations auxquelles on
procde sont des valuations ex post : elles concernent les politiques qui ont t dj mises
en oeuvre et ont dj produit leurs eets. Le but est de dfinir et de mesurer lampleur
de ces eets sur la base des information dont on dispose pour les individus traits et les
individus non traits. Cette approche est ainsi dite observationnelle car ancre dans
lobservation des eets dune politique.
= y1 y0
Il sagit donc de la dirence entre la situation dun individu lorsquil suit le stage avec
sa situation lorsquil ne le suit pas.
Lorsque la politique est mise en oeuvre et que les individus y participent librement, et
WT Wf0 = N E AT E (x) + E (y0 ) E (e y0 ) E (c)
13.1. LE MODLE CAUSAL 247
Lorsque la politique est tendue toute la population. On voit que le premier paramtre
est pertinent pour juger de lecacit de la politique telle quelle a t mise en oeuvre alors
que le second est pertinent pour juger de lopportunit de son extension. On voit galement
quune valuation complte doit aussi prendre en compte les eets indirects : la situation de
rfrence change par linstauration mme du dispositif. De mme une valuation complte
doit aussi faire intervenir les cots du traitement. Les deux paramtres considrs, bien
que centraux napporte donc quune partie de linformation ncessaire des valuations
compltes. Enfin on remarque que pour la premire situation, la probabilit de suivre le
traitement intervient aussi de faon importante.
Remarque Modlisation des outputs potentiels Une modlisation permet de mieux
comprendre la nature des paramtres T T (x) et AT E (x) et leurs dirences. On
modlise :
y1 = 1 + x 1 + u1
y0 = 0 + x 0 + u0
o on fait lhypothse que (u1 , u0 ) x. Les coecients 0 et 1 sont des paramtres
susceptibles de recevoir une interprtation conomique : ce sont des paramtres struc-
turels caractrisant le comportement des agents. Les deux paramtres sont alors :
AT E (x) = E (y1 y0 |x) = 1 0 + x ( 1 0 )
et
T T (x) = E (y1 y0 |x, T = 1) = 1 0 + x ( 1 0 ) + E (u1 u0 |x, T = 1)
On voit que le premier paramtre ne fait intervenir que les variables observes et les
paramtres structurels et est donc de ce fait un paramtre standard de lconomtrie.
Il nen est pas de mme en revanche du second paramtre qui fait intervenir les
caractristiques inobserves u1 et u0 . Les deux paramtres ne sont identiques que
lorsquil y na pas dhtrognit inobservable dans leet du traitement, soit u1 =
u0 ou lorsquune telle htrognit existe mais nest pas prise en compte par les
individus lors de la dcision de participation au programme T (u1 u0 ) |x = 1.
Proposition Pour que lestimateur naf soit un estimateur convergent de T T il faut que
laectation au traitement soit indpendante de loutput potentiel y0 . Pour quil soit un
estimateur convergent de AT E, il faut que laectation au traitement soit indpendante
des deux outputs potentiels y0 et y1 .
Dmonstration
b 0 0 = E (y1 |T = 1) E (y0 |T = 0)
= E (y1 |T = 1) E (y0 |T = 1) + E (y0 |T = 1) E (y0 |T = 0)
= T T + B T T
On voit quil apparat un biais de slectivit : B T T = E (y0 |T = 1) E (y0 |T = 0) . Il est
nul si y0 T. Pour AT E on a
E (y1 ) = P (T = 1) E (y1 |T = 1) + (1 P (T = 1)) E (y1 |T = 0)
do
E (y1 |T = 1) = E (y1 ) + (1 P (T = 1)) [E (y1 |T = 1) E (y1 |T = 0)]
de mme
E (y0 |T = 0) = E (y0) P (T = 1) [E (y0 |T = 1) E (y0 |T = 0)]
do
0 (x) = AT E + (1 P (T = 1)) [E (y1 |T = 1) E (y1 |T = 0)] +
P (T = 1) [E (y0 |T = 1) E (y0 |T = 0)]
= AT E + B AT E
Il est ncessaire davoir lindpendance de T et du couple doutput potentiels (y1 , y0 ) condi-
tionnellement aux x.
Remarque On voit en outre que
B AT E = B T T + (1 P (T = 1)) [E (y1 y0 |T = 1) E (y1 y0 |T = 0)]
La deuxime source de biais provient de lhtrognit du traitement, alors que la premire
source de biais provient du problme classique dendognit de la variable de traitement.
Les estimateurs Avant Aprs et par Dirence de dirence font intervenir le temps.
On suppose donc que le traitement est mis en oeuvre une date t0 et que lon dispose
dinformations sur les individus en t< t et en t > t pas ncessairement pour des individus
similaires.
yt = + xt + c + ut pour T = 1
yt = + xt + ut pour T = 1
250 CHAPITRE 13. EVALUATION
yt = t + xt + ut
Le t reprsente par exemple des chocs macroconomiques. Alors le modle prcdent se
rcrit :
yt = t + xt + (c + t t ) 1 t = t + ut 1 t = t + ut 1 (t = t) pour T = 1
On voit que si la participation au traitement est conditionne par des chocs ngatifs sur
la variable doutput, alors ce terme nest pas nul.
On appelle cet estimateur dirence de dirence car dans le cas o il ny a pas de
variables explicatives il scrit simplement. Il ncessite aussi en gnral des informations
longitudinales sur les individus traits et non traits. Dans sa forme la plus simple cet
estimateur scrit simplement
b DD = yt T =1 yt T =1 yt T =0 yt T =0
= b BA,T =1 b BA,T =0
T =1
= yt yt T =0 yt T =1 yt T =0
= b Cross,t
b Cross,t
Tab. 13.1 Contribution Delalande - Estimation de leet indirect par la mthode des
dirences de dirences
e ) = l (y1 , y0 |e
l (y1 , y0 |T, x x)
e ) = l (y0 |e
l (y0 |T, x x)
e ) = 0 + x 0 + E (u0 |T, x
E (y0 |T, x e ) = g0 (e
x)
Lhypothse dindpendance conditionnellement des observables consiste supposer
que lon est capable de contrler pour ces sources de variabilit. Remarquons qualors
la fonction g0 (e
x) ne reoit plus dinterprtation conomique alors que cela pouvait tre
le cas pour 0 + x 0 . Dans cette approche on accepte de perdre des informations sur le
256 CHAPITRE 13. EVALUATION
De mme, P (T = 1 |s) = s
On a donc : P (T = 1 |s, y0 ) = P (T = 1 |s)
Ainsi le problme de la dimension peut tre rsolu de faon drastique : il est seulement
ncessaire de conditionner par une unique variable quelque soit la dimension de lensemble
initialement introduit.
Ainsi une tape initiale de toute valuation consiste en une rgression expliquant
laectation au traitement. Elle est faite par exemple en utilisant un modle Logit.
Remarque Si se est un ensemble dinformation plus large que s, par exemple se =
{s, g (e
x)} , le rsultat demeure : P (T = 1 |e
s, y0 ) = P (T = 1 |e
s ) . un tel ensemble din-
formation est appel balancing score. La proprit de Rosenbaum et Rubin est en
toute gnralit que lorsquil y a indpendance conditionnelle des observables, il y a
aussi indpendance conditionnellement nimporte quel balancing score.
des pondrations. Toutes ces mthodes mettent laccent sur lhtrognit de leet du
traitement au sein de la population.
Les deux premires estimations ont des caractristiques communes. Pour chaque indi-
vidu trait de caractristique xi on cherche un estimateur de ce quaurait pu tre sa si-
tuation en labsence de traitement, i.e E (y0 |T = 1, x = xi ) . La proprit dindpendance
permet dcrire E (y0 |T = 1, x = xi ) = E (y0 |T = 0, x = xi ) = E (y |T = 0, x = xi ) . Les
procdures destimation consiste estimer de faon aussi peu restrictive que possible la
fonction E (y |T = 0, x = xi ). Lestimateur calcul in fine est alors dfini par
1 X
b ( |T = 1, xi X ) =
E b (y |T = 0, x = xi )
yi E
N1,X
{Ti =1,xi X}
Rgression :
Une premire faon destimer leet du traitement consiste procder la rgression
de la variable doutput observe sur le traitement et les variables de contrle.
Proposition Dans la rgression
La proprit dindpendance faible E (y0 |T, x) = E (y0 |x) permet didentifier g (x) =
E (y1 y0 |T = 1, x) . On peut estimer T T = E (g (x) |T = 1) partir dune estimation
convergente de g comme
X
b TT = 1 b
g (xi )
N1 T =1
i
La proprit dindpendance forte E (y0 |T, x) = E (y0 |x) et E (y1 |T, x) = E (y1 |x) per-
met didentifier g (x) = E (y1 y0 |T = 1, x) = E (y1 y0 |T = 1, x) . On peut estimer
T T = E (g (x) |T = 1) partir dune estimation convergente de g comme prcdemment
etAT E = E (g (x))
X
b AT E = 1 b
g (xi )
N
Dmonstration Comme y = y0 (1 T ) + y1 T = y0 + T (y1 y0 ) , on a :
X
J
y = 1j fj (s) + w1 pour T = 1
j=1
X
J
y = 0j fj (s) + w0 pour T = 0
j=1
o s est le score. Pour leet du traitement sur les traits, on estime alors :
X XJ
b ( |T = 1) = 1
E y1i b 0j fj (si )
N1 T =1 j=1
i
ou aussi :
XX J
1
b ( |T = 1) = 1
E b 0j fj (si )
bj
N1 T =1 j=1
i
Le deuxime estimateur est un peu moins prcis puisquil incorpore la variance du rsidu
mais il vite davoir spcifier et estimer lquation doutput pour les individus traits.
Remarque Lintrt de cette mthode est quelle apparat comme un prolongement na-
turel de la rgression variables de contrle y = xb + T + u.
Appariement
Pourchaque
individu trait ei, ayant des caractristiques xei ,on
cherche un individu non
trait j ei , ayant les mmes caractristiques observables, i.e j ei {j |Tj = 0, xj = xe } .On
i
En pratique il nest pas toujours possible de trouver pour chaque individu trait, un
individu non trait ayant les mmes caractristiques que lindividu trait considr. On
peut alors choisir lindividu appari de telle sorte que xei xj (ei) soit minimal, pour
une mtrique donne. Une mtrique naturelle dans ce cas est la mtrique de Mahalanobis
= V (x)_1 .
Nanmoins la qualit de cet appariement peut tre mauvaise en pratique : pour certains
individus traits, il nexiste pas dindividu proche non trait notamment dans le cas o il y
a un grand nombre de variables de conditionnement. La proprit de Rosenbaum et Rubin
simplifie beaucoup lappariement dans ce cas. En eet cette proprit permet de procder
des appariements sur la base du seul rsum des variables de conditionnement que
constitue le score. On peut ainsi apparier des individus dont les caractristiques peuvent
tre trs loignes, mais qui ont des scores proches.
Ceci constitue le principe de lappariement tel quil a t dvelopp par les statisticiens.
De nombreuses questions restent nanmoins non rsolues : doit on faire lappariement avec
ou sans rejet ? Un individu non trait une fois appari doit-il tre vinc de lensemble des
individus susceptibles dtre apparis avec les individus non traits restants. Si on choisit
quun individu ne peut tre appari quune seule fois alors la qualit de lappariement se
dgradera progressivement. La question est alors de savoir par o commencer. De mme,
si on dispose dun chantillon dindividu non trait trs vaste, ne peut on pas tirer partie
des individus qui in fine nauront pas t apparis. Enfin, ce principe dappariement tel
quil est exprim ne permet pas de prciser le comportement asymptotique de lestimateur
propos.
On peut ainsi considrer une moyenne pondre dun nombre donn n, choisir, de voisins
les plus proches. n nearest neighbours. Lestimateur propos par Rubin est en fait celui
du voisin le plus proche. Considrer un nombre plus important de voisins aecte lerreur
260 CHAPITRE 13. EVALUATION
P
Kh (xj xei ) yj
Tj =0 X Kh (xj xei ) X
b (y0 |T = 1, x = xe ) =
E P = P yj = wN j, ei yj
i
Kh (xj xei ) T =0
Kh (xj xei ) T =0
j j
Tj =0 Tj =0
dans cette expression Kh (z) = h1 K hz ou K est un noyau et h un paramtre appel la
fentre. Le noyau est une fonction maximale en zro, positive en zro, symtrique autour
de zro et dintgrale unitaire (cette condition ne joue pas de rle dans le cas de lestima-
tion dune fonction de rgression). Il existe de multiples exemples de noyau, par exemple
le noyau uniforme valant 0.5 sur [1, 1] , Dans ce cas lestimateur non paramtrique cor-
respondant consiste simplement prendre la moyenne des observations pour des individus
dont les caractristiques se situent dans lintervalle [x hN , x + hN ] . Un autre exemple
correspond (z) la densit de la loi normale. Ce noyau prsente lavantage davoir <
pour support Un noyau frquemment choisi en pratique dans le cas unidimensionnel est
2
le noyau quartique : K (z) = 1516
(1 z 2 ) 1 {|z| 1}
Dans les expressions prcdentes, h est la fentre. Plus elle est faible, moins on prend
en compte les observations sloignant de xei . Dans ce cas lestimateur sera trs peu prcis
mais le biais sera en revanche faible. A linverse, lorsque la fentre slargit lestimateur
considr devient plus prcis autour de sa valeur limite, mais cette valeur limite tend
elle mme scarter de la quantit que lon cherche estimer. Le choix de la fentre
est tel quil minimise lerreur quadratique moyenne, somme du carr du biais et de la
variance de lestimateur. On peut montrer que lorsque elle est choisie comme une fonction
croissante de la dispersion des variables x et dcroissante du nombre dindividu. Un choix
possible pour la fentre est dans le cas unidimensionnel : h (N) = x /N 1/5 . En gnral
les estimateurs non paramtriques ont une vitesse de convergence plus faible que les
estimateurs paramtriques. Ici le rythme de convergence est en Nh soit une vitesse de
2
convergence en N 5 .
Finalement lestimateur de leet moyen du traitement sur les traits est estim par :
1 X X
b ( |T = 1) =
E yi wN (j, i) yj
N {Ti = 1} Tj =0
{Ti =1}
13.3. INDPENDANCE CONDITIONNELLES DES OBSERVABLES 261
Bien que bas sur des estimateurs non paramtriques qui donc convergent lentement,
Heckman Ichimura et Todd ont montr que la vitesse de convergence de cet estimateur
est en N. Ceci tient au fait que lestimateur final est une moyenne destimateurs non
paramtriques. Il est dit semi -paramtrique. Lexpression de la variance de cet estima-
teur est complexe et son estimation partir de sa formule littrale ncessite l aussi le
calcul dintermdiaires non paramtrique. En pratique, on dtermine la variance de cet
estimateur par bootstrap. Ceci consiste tirer avec remise un grand nombre dchan-
tillons alatoires dans la population, et appliquer sur chacun de ces chantillons toute
la procdure destimation. La distribution des estimateurs que lon obtient in fine est la
distribution exacte de lestimateur. On peut lutiliser pour dterminer les carts-type ou
les intervalles de confiance.
L aussi la proprit de Rubin est trs importante. En eet elle autorise proc-
der la rgression non paramtrique sur la seule variable que constitue le score s (x) .
On est ainsi amen calculer pour chaque individu : E b (y0 |T = 1, s (x) = s (xe)) et non
i
plus Eb (y0 |T = 1, x = xe ) . Cette simplification ne remet pas en cause la validit de les-
i
timateur alternatif bas sur lappariement sur chacune des caractristiques. La vitesse
de convergence nest pas plus leve avec lun quavec lautre estimateur. Nanmoins le
nombre dobservations ncessaires pour que ce comportement asymptotique soit obtenu
est vraisemblablement plus faible avec lappariement sur le score. Cet estimateur apparat
plus fiable ce titre.
Remarque : Les rsultats prcdents peuvent tre appliqus en sens inverse pour appa-
ris chaque individu non trait avec un (des) individus traits. On estime alors E ( |T = 0, xi X ) .
On peut donc par appariement estimer leet moyen du traitement.
Pondrations
Une dernire mthode destimation est base sur des pondrations.
Proposition Sous lhypothse dindpendance faible conditionnelle aux observables, lef-
fet moyen du traitement vrifie la relation
T (1 T )
E (c) = E y
P (x) (1 P (x))
Sous lhypothse dindpendance faible conditionnelle aux observables, leet du traitement
sur les traits vrifie la relation
P (x) T (1 T )
E (c |T = 1) = E y
P (T = 1) P (x) (1 P (x))
Dmonstration En eet, les proprits dindpendance conditionnelles permettent diden-
tifier trs simplement les esprances des outputs potentiels.
yk T |x = E (yk 1 (T = k) |x) = E (yk |x) E ((1 (T = k)) |x) = E (yk |x) P (T = k |x)
262 CHAPITRE 13. EVALUATION
On a donc :
1 (T = k)
E (yk |x) = E yk |x
P (T = k |x)
Do la premire relation. Par ailleurs on a
1T
E (y0 T |x) = P (x) E (y0 |T = 1, x) = P (x) E (y0 |T = 1, x) E |x
1 P (x)
1T
= E P (x) E (y0 |T = 1, x) |x
1 P (x)
Do
1T
E (y0 T ) = E (y0 |T = 1) P (T = 1) = E P (x) E (y0 |T = 1, x)
1 P (x)
Comme E (y0 |T = 1, x) = E (y0 |T = 0, x)
1T
E (y0 |T = 1) = E P (x) E (y0 |T = 1, x) P (T = 1)
1 P (x)
1T
= E P (x) E (y0 |T = 0, x) P (T = 1)
1 P (x)
1T
= E E P (x) y0 |T = 0, x P (T = 1)
1 P (x)
1T
= E P (x) y0 P (T = 1)
1 P (x)
en outre : l (z1 , z2 |w1 , w2 ) = l (z1 |w1 , w2 ) l (z2 |w1 , w2 ) = l (z1 |w1 , w2 ) l (z2 |w1 ) , do :
Z Z
l (z1 , z2 |w1 ) = l (z1 |w1 , w2 ) l (z2 |w1 ) l (w2 |w1 ) dw2 = l (z2 |w1 ) l (z1 |w1 , w2 ) l (w2 |w1 ) dw2
= l (z2 |w1 ) l (z1 |w1 )
13.3. INDPENDANCE CONDITIONNELLES DES OBSERVABLES 263
HF orte : y0 , y1 T |x, u
HF aible : y0 T |x, u
Prendre en compte cette htrognit dans le cadre prcdent nest pas directement
possible justement parce quelle est inobservable.
Nanmoins, linstar de ce qui est eectu dans le cadre de lconomtrie des donnes
de panel, elle peut tre limine par direntiation. Plus prcisment, prenant par exemple
le cas de lindpendance faible, on a la proposition suivante qui dcoule directement de la
proposition prcdente :
Proposition Dans le cas o il existe un lment inobserv u tel que la condition
y0 T |x, u
est vrifie. Si :
1. Il existe des observations disponibles y p de loutput antrieures au traitement
2. y0 y p T |x, u , ce qui est vrai ds lors que y p {x} dans la condition y0 T |x, u
3. y0 y p u |x ,
alors la condition dindpendance,
y0 y p T |x
est vrifie
264 CHAPITRE 13. EVALUATION
On voit que dans ce cas leet individuel peut tre limin par direntiation et on
retrouve une proprit dindpendance conditionnelle des observables. En pratique, ceci
revient introduire les variables passes de loutput dans la liste des variables de condi-
tionnement et considrer comme variable doutput non les outputs eux mmes, mais
leur volutions. Notant y1 = y1 y p et y0 = y0 y p , on estime
T x2 |x1
Alors on a
y0 , y1 T |x1
La liste des variables de conditionnement peut tre ampute de toutes les variables qui
naectent pas la variable de traitement, ce qui peut tre aisment test sur les donnes.
Problme de support
La question du support des distributions du score conditionnellement au traitement
est essentielle dans ce type danalyse. Son importance a t souligne par Heckman et
al. (1998) qui ont montr quelle constitue une source forte de biais dans lestimation de
leet causal du traitement.
Dans les mthodes destimation par appariement ou par rgression, il est ncessaire
de pouvoir construire pour chaque individu trait un contrefactuel partir des individus
non traits, cest--dire de pouvoir estimer E (y |s, T = 0) pour dterminer leet causal
du traitement sur la population des individus traits. En outre, il est ncessaire destimer
E (y |s, T = 1) ds quon sintresse leet causal du traitement dans la population totale.
Une estimation non paramtrique de cette quantit, donc sans restriction sur la forme
quelle prend, impose que lon dispose pour un individu trait de score s dindividus non
traits ayant des valeurs du score proche de s. Dit dune autre manire, la densit du
13.3. INDPENDANCE CONDITIONNELLES DES OBSERVABLES 265
score pour les individus non traits ne doit pas tre nulles pour les valeurs du score des
individus traits considrs. On ne peut donc construire de contrefactuel que pour les
individus dont le score appartient lintersection des supports de la distribution du score
des individus traits et des individus non traits.
Ceci conduit la conclusion que mme sous lhypothse dindpendance condition-
nelle des observables, on ne peut pas systmatiquement estimer E () ou E ( |T = 1)
dans la mesure o E ( |s) ne peut tre estim que pour les individus dont le score
appartient au support commun de la distribution du score pour les individus traits et
non traits. Lestimateur obtenu in fine est alors un estimateur local : E (c |s S ) ou
E (c |s S , T = 1), avec S le support commun dfini par S = ST =1 ST =0 avec ST =1
le support de la distribution du score des individus traits et ST =0 celui des individus non
traits.
f(s) f(s)
f(s|T=0) f(s|T=1)
Support commun
0 1 0 1
y1 = 1 + r 1 + u1
y0 = 0 + r 0 + u0
T = zc + v
T = 1 T 0
(u1 , u0 , v) (x, z)
Definition Le modle de slectivit sur inobservable est dfini par la modlisation jointe
des outputs potentiels et de laectation au traitement
y1 = 1 + r 1 + u1
y0 = 0 + r 0 + u0
T = 1 zc + v 0
(u1 , u0 , v) (r, z)
Remarque Ces hypothse sont trs direntes de celle du modle de slectivit sur ob-
servables. Dans le modle de slectivit sur observables, on faisait lhypothse que la cor-
rlation entre la variable de traitement T et les lments inobservs u0 pouvait tre limi-
ne par en introduisant des variables de conditionnement supplmentaires. Ces variables
taient par dfinition des variables aectant la fois le traitement et la perturbation.
Lhypothse est ici diamtralement oppose dans la mesure ou elle consiste dire qu
linverse il existe une variable z aectant le traitement mais pas les lments inobservs.
Elle est donc trs proche dune variable instrumentale, alors que dans lapproche prc-
dente il sagissait de variable de contrle.
Dans cette approche, le score P (T = 1 |r, z ) est encore amen jou un rle central.
Sous les hypothses eectues le score ne dpend que des variables z. En eet
Toutefois, ces hypothses ne sont pas susantes pour assurer lidentification des para-
mtres dintrt et il existe en fait une dirence importante avec les variables instrumen-
tales, sur laquelle on reviendra plus tard. Les paramtres dintrt sont dfinis par :
AT E = E (y1 y0 ) = E (1 0 + r ( 1 0 ))
T T = E (y1 y0 |T = 1) = E (y1 (0 + r 0 + u0 ) |T = 1)
E (y0 |T = 0, r, z ) = 0 + r 0 + K0 (P (zc))
E (y1 |T = 1, r, z ) = 1 + r 1 + K1 (P (zc))
o
P (zc) = P (T = 1 |r, z )
Dmonstration La forme des fonctions retenues est une application directe du modle
de slection sur inobservables vu prcdemment. Pour ce qui concerne le paramtre T T ,
lidentification porte donc essentiellement sur loutput potentiel y0 . Les donnes sur cet
output concernent les individus pour lesquels T = 0. On a :
et on souhaite identifier
E (y0 |T = 1, r, z ) = 0 + r 0 + E (u0 |T = 1, r, z )
do
(1 P (zc))
E (u0 |T = 1, r, z ) = K0 (P (zc))
P (zc)
En toute gnralit on ne peut donner la forme des fonctions K0 et K1 . Elle font en
eet intervenir la loi jointe des lment (u0 , v) et (u1 , v) . Ceci est lorigine dun pro-
blme important pour lestimation puisque comme les expressions prcdentes le montrent
clairement, il est ncessaire de pouvoir sparer les fonctions K des constantes .
On va voir dabord comment il est possible de rsoudre ce problme en spcifiant la loi
jointes des observations. Puis on examinera le cas dans lequel on ne fait pas dhypothse et
on verra quil faut des conditions particulires et au total assez restrictives pour identifier
chacun des deux paramtres dintrt.
270 CHAPITRE 13. EVALUATION
y1 = 1 + r 1 + u1
y0 = 0 + r 0 + u0
T = zc + v
T = 1 T 0
Outre lhypothse dindpendance dj voque, on fait lhypothse que les deux couples
(u0 , v) et (u1 , v) suivent une loi normale.
Les rsultats prcdents permettent dcrire que :
E (y0 |r, z, T = 0) = 0 + r 0 0 0 (zc)
1
E (y1 |r, z, T = 1) = 1 + r 1 + 1 1 (zc)
Par rapport aux expressions obtenues dans le cas gnral
E (y0 |T = 0, r, z ) = 0 + r 0 + K0 (P (zc))
1 (P (zc))
K0 (P (zc)) = 0 0
1 P (zc)
1 (P (zc))
K0 (P (z)) = 1 1
P (zc)
13.4. LE MODLE DE SLECTIVIT SUR INOBSERVABLES 271
Elle ne dpend donc que dun paramtre supplmentaire 0 0 . Les paramtres dintrt
T T et AT E ont alors pour expressions :
1 P (z)
TT
= E y 0 + r 0 K0 (P (zc)) T = 1
P (z)
1 (P (zc))
= E y 0 + r 0 + 0 0 T = 1
P (zc)
= E y 0 + r 0 + 0 0 (ze
c) T = 1
AT E = E (1 0 + r ( 1 0 ))
Mise en oeuvre :
1. Estimation du modle probit associ au traitement et dtermination des variables
de biais (zc) et 1
(zc)
2. Estimation des rgressions sur chacune des populations traites et non traites :
identification des paramtres 1 , 0 , 1 , 0 et des paramtres 1 u1 et 0 u0 .
3. Estimation des paramtres dintrt
b TT 1 X b
= yi b 0 + ri 0 + d
00 (zib
c)
N1 d =1
i
1 X
b AT E = b1
b 0 + ri b1 b0
N
1 P (z)
E (y |I = 1, x, z ) = xb + u
P (z)
272 CHAPITRE 13. EVALUATION
Ce rsultats se transposent directement au cas du modle causal. Les quations des outputs
potentiels sont :
P (T = 1 |z ) = P (z)
1 P (z)
E (y0 |T = 0, r, z ) = 0 + r 0 0 0
1 P (z)
1 P (z)
E (y1 |T = 1, r, z ) = 1 + r 1 + 1 1
P (z)
Les paramtres dintrt ont alors pour expression :
TT 1 (P (z))
= E y 0 + r 0 + 0 0 T = 1
P (z)
AT E = E (1 0 + r ( 1 0 ))
P (T = 1 |z ) = P (z)
2
+ G1 1
(P (z)) g G (P (z))
E (y0 |T = 0, r, z ) = 0 + r 0 0 0
1 1 P (z)
2
+ G (P (z)) g G1
1
(P (z))
E (y1 |T = 1, r, z ) = 1 + r 1 + 1 1
1 P (z)
Les paramtres dintrt ont alors pour expression :
! !
+ G 1
(P (z))2
g G 1
(P (z))
T T = E y 0 + r 0 + 0 0 T = 1
1 P (z)
AT E = E (1 0 + r ( 1 0 ))
On dispose ainsi dun ensemble trs vaste de possibilits destimation des paramtres
correspondant direntes hypothses sur la loi des perturbations. Ces choix reviennent
13.4. LE MODLE DE SLECTIVIT SUR INOBSERVABLES 273
tous introduire des termes dirents dans les quations des outputs potentiels. Ils ont
des consquences importantes sur lestimation des paramtres dintrt. Il est en outre
dicile de raliser des tests permettant dexaminer quelle spcification est prfrable dans
la mesure o les hypothses ne sont pas embotes. On peut donc souhaiter estimer ces
modles sans avoir recours la spcification de la loi jointe des perturbations.
y1 = 1 + r 1 + u1
y0 = 0 + r 0 + u0
avec la modlisation de laectation au traitement :
T = zc + v
T = 1 T 0
on suppose comme prcdemment lindpendance entre les variables de conditionnement
et les lments inobservs.
(u1 , u0 , v) (x, z)
On a vu quen labsence dhypothses sur la loi jointe des perturbations, les quations
des outputs potentiels prenaient la forme :
E (y0 |T = 0, r, z ) = 0 + r 0 + K0 (P (z))
E (y1 |T = 1, r, z ) = 1 + r 1 + K1 (P (z))
avec K0 et K1 des fonctions non spcifies. Les paramtres dintrt scrivent simplement
comme :
1 P (z)
TT
= E y 0 + r 0
K0 (P (z)) T = 1
P (z)
AT E = E (1 0 + r ( 1 0 ))
La dicult de lestimation est double. Dune part il est ncessaire destimer les para-
mtres et en laissant la fonction K non spcifie. En deuxime lieu il faut estimer la
fonction K elle mme. On procde en plusieurs tapes. Dans un premier temps, on estime
le paramtre . Dans un deuxime temps, on estime la fonction G = + K. Enfin dans
un dernier temps on spare de K.
274 CHAPITRE 13. EVALUATION
e 0 . Par
la rgression non paramtrique du rsidu sur le score fournit un estimateur de K
exemple pour une valeur donne de p0 de P (z) on estime :
P
Kh (P (zj ) p0 ) vb0i
b
e jI0
K 0 (p0 ) = P
Kh (P (zj ) p0 )
jI0
Pour identifier les constantes p.e. 0 il est ncessaire de disposer de valeurs de P (z) telle
que K0 (P (z)) = 0.
Il existe une possibilit didentification naturelle. On a les relations :
K0 (0) = 0 et K1 (1) = 0
En eet, on utilise le fait que E (u0 |z ) = 0 et E (u1 |z ) = 0. Pour la fonction K0 par
exemple, on a
Une faon de tirer parti de ces restrictions est de considrer la moyenne desrsidus
y rb0 pour les individus non traits ayant une faible probabilit dtre trait. Plus
prcisment, un estimateur de la constante 0 pourrait tre :
P
b0 (1 Ti ) 1 (zib
yi ri c <
n)
i
b0 =
P
(1 Ti ) 1 (zib
c <
n)
i
o
n est une suite tendant vers .
Remarque Ces hypothses permettent didentifier linfini la constante 0 , et donc
la fonction K0 () . Il est possible didentifier ainsi E (y0 ) et E (y0 |T = 1) . Ces hypothses
susent donc pour identifier . On peut remarquer que dans ce cas la dtermination du
paramtre dintrt fait intervenir la dtermination de la fonction K0 en chaque point du
support du score pour les individus traits. La forme finale de lestimateur est ainsi
P
b0
Kh (P (zj ) P (zi )) yj rj
X
b TT = 1 yi b r b0 + 1 P (zi ) jI0 P
b
N1 0 i
P (zi ) Kh (P (zj ) P (zi ))
0
Ti =1
jI0
P
b0
Kh (P (zj ) P (zi )) yj rj
1 X b0
yi
b0 + 1 P (zi ) jI0 P
= r
N1 T =1 P (zi )
i
P (zi ) Kh (P (zj ) P (zi ))
i
jI0