Jacqueline Pradel
octobre 2003
Contents
1. Préface iv
iii
iv CONTENTS
1. Préface
Ce cours fait suite au cours d’économétrie de première année. Les notions de base de la régres-
sion linéaire empirique sont supposées connues, mais font l’objet d’un rappel en début d’exposé.
Le cours se compose de trois parties : la première est consacrée aux extensions du modèle
linéaire à une équation et présente les moindres carrés généralisés et la méthode des variables in-
strumentales, la seconde présente les modèles à équations simultanées en insistant sur les conditions
d’identifiabilité des paramètres et les méthodes d’estimation en information limitée. La dernière
partie expose la méthode du maximum de vraisemblance sur quelques exemples de modèles non
linéaires (lois tronquées, censurées ou à variable latente).
Les livres susceptibles de compléter cet exposé sont :
DORMONT Brigitte, Econométrie, Editions Montchrestien, 1998.
GREENE William H., Econometric Analysis, Prentice&Hall, 4th ed., 2000.
KENNEDY Peter, A Guide to Econometrics, Blackwell Publishers 1999.
Partie 1
Modèles à 1 équation
CHAPITRE 1
1.1. Définitions.
Définition 1 (MLS). Le Modèle statistique Linéaire Standard est défini par :
(1.1) y = Xβ + u, y ∈ RN , X de format (N, K)
H1 : E (y) = Xβ, β ∈ RK
H2 : V (y) = σ 2 IN
Ce sont H1 et H2 qui sont les hypothèses structurelles du modèle linéaire standard. L’“équation”
y = Xβ + u ne sert ici en fait qu’à définir u.
La condition β ∈ RK qui figure dans H1 ne sert pas simplement à préciser la dimension de
β : elle indique également que β peut prendre, sans contrainte, toute valeur de RK . Cela est
indispensable pour définir le modèle linéaire ; une autre expression de l’hypothèse H1 est en effet :
H1 ≡ l’ensemble des E (y) possibles est un sous-espace vectoriel de RN
L’espace des espérances de y est ici engendré par les colonnes de X et noté
© ª
Vx = Im (X) = Xβ; β ∈ RK
Un changement de variables explicatives qui ne change pas Vx ne change en fait pas le modèle
puisque la famille de lois considérée reste inchangée. Nous dirons que la représentation avec X et
β du modèle est standard si de plus
(1.2) HT 1 : X est de rang K
3
4 1. M ODÈLE LINÉAIRE STANDARD
Dans ce cas, le paramètre β est défini de manière unique pour chaque E (y) : nous disons qu’il est
identifiable.
Par contre, si on impose des contraintes linéaires sur le paramètre β, l’espace engendré reste un
sous-espace vectoriel de RN et le modèle est encore un modèle linéaire. Nous disons que le modèle
obtenu ainsi est un sous-modèle linéaire du modèle initial si l’espace engendré est strictement plus
petit que Vx .
Exemple 1. Sur données temporelles, notons Q1, Q2, Q3 et Q4 les indicatrices respectives
des premier, deuxième, troisième et quatrième trimestres :
½ ½
1 si t est un 1er Trimestre 1 si t est un 4ème Trimestre
Q1t = , ..., Q4t =
0 sinon 0 sinon
Considérons le modèle suivant :
yt = c + s1 Q1t + s2 Q2t + s3 Q3t + s4 Q4t + ut , t = 1, .., T
H1 : E (yt ) = c + s1 Q1t + s2 Q2t + s3 Q3t + s4 Q4t , β = (c, s1 , s2 , s3 , s4 ) ∈ R5
H2 : V (y) = σ 2 IN
¡ ¢
• La matrice X = e Q1 Q2 Q3 Q4 n’est pas de rang 5 : ses vecteurs colonnes sont
liés par la relation
e = Q1 + Q2 + Q3 + Q4
et Im (X) est de dimension 4. Le modèle est linéaire et standard, mais sa représentation
n’est pas standard, car les variables explicatives introduites sont redondantes. Le paramètre
(c, s1 , s2 , s3 , s4 ) n’est pas identifiable puisqu’il existe plusieurs valeurs de ce paramètre qui
conviennent pour une seule loi : par exemple (c, s1 , s2 , s3 , s4 ) et (0, s1 + c, s2 + c, s3 + c, s4 + c).
• Si nous imposons la contrainte {c = 0}, le paramètre devient identifiable, et le modèle
est inchangé (simplement, sa représentation devient standard) car l’espace engendré par
(Q1, Q2, Q3, Q4) est le même que celui engendré par (e, Q1, Q2, Q3, Q4) . Les valeurs s1 , s2 , s3
et s4 ont alors une interprétation concrète : ce sont les valeurs prises chaque trimestre par
l’espérance de yt .
• Si nous imposons la contrainte {c = 0; s1 = s2 = s3 = s4 }, H1se réduit à
E (yt ) = s (Q1t + Q2t + Q3t + Q4t ) = s, s ∈ R
Le modèle est encore un modèle linéaire standard, avec la chronique constante e pour seul
vecteur explicatif. C’est un sous-modèle du précédent.
Définition 2 (MLSN). Un modèle statistique Linéaire Standard Normal est un modèle linéaire
standard dans lequel est ajoutée l’hypothèse H3N de Normalité du vecteur des observations :
(H3N) H3N : y est un vecteur Normal
Les hypothèses (H1, H2, H3N ) peuvent se résumer simplement par :
¡ ¢
(H1, H2, H3N ) : y ≈ N Xβ; σ 2 IN , y ∈ RN , β ∈ RK
2. L’estimation MCO
2.1. Définition de l’ajustement par les Moindres Carrés Ordinaires (M CO). D’un
simple point de vue géométrique, faire l’ajustement MCO de y par un vecteur de la forme Xβ
consiste à rechercher dans Vx = Im X le vecteur yb le plus proche de y selon la distance “ordinaire”
c’est-à-dire euclidienne :
"N #
X 2
yb = arg min (yi − zi ) = arg min k y − z k2
z∈Im X z∈Im X
i=1
Les K colonnes de X sont appelées les régresseurs.
Nous allons voir que le problème posé admet une solution unique yb, appelé le vecteur des
b = y − yb est appelé le vecteur des
valeurs ajustées, ou ajustement MCO de y sur X, tandis que u
résidus MCO.
Théorème 1 (des projections). Etant donnés un vecteur y ∈ RN et un sous espace vectoriel
V ⊂ RN , la décomposition
y = yb + u
b
où yb ∈ V et ub⊥V
est unique et
yb = arg min k y − z k2
z∈V
Le Théorème des projections signifie que la solution yb est déterminée de manière unique par
les conditions
yb ∈ V
y − yb ⊥ V
Si maintenant nous prenons pour V l’espace engendré par les colonnes de X, nous voyons que
le problème min k y − z k2 admet une solution unique qui est la projection de y sur Im (X). En
z∈Im X
notant Px la projection orthogonale sur V = Im (X) et Mx = IN − Px , nous obtenons :
yb = Px y
b = Mx y = Mx u
u
La décomposition
y = yb + u
b,
yb ∈ Im X, ub ⊥ Im X
s’appelle l’équation de régression linéaire empirique de y sur X.
En résumé, pour ce vecteur (unique!) yb, nous avons trois noms correspondant à différents
aspects de ses propriétés : “ajustement des MCO”, “projection orthogonale” ou “régression linéaire
empirique” de y sur X.
Exercice 1. Montrer que l’opérateur Mx = IN − Px est en fait la projection orthogonale sur
l’espace orthogonal de Im(X) :
Solution 1. notons Vx⊥ l’espace orthogonal de Im(X), défini par
© ª
Vx⊥ = z; z ∈ RN , z ⊥ Vx .
La décomposition de tout y de RN en y = yb + u b ∈ Vx⊥ et yb ∈ V ⊥ Vx⊥ nous montre que
b , où u
b = PVx⊥ y.
u
2 P
N
2
La distance minimum obtenue est kb
uk = (yi − ybi ) et notée SCR,pour Somme des Carrés
i=1
des Résidus1 .
Proposition 1 (estimateurs MCO). Si X est de rang K, la matrice de projection s’écrit Px =
−1
X (X 0 X) X 0 et les coordonnées de la projection yb = Px y sont définies de manière unique par
b = (X 0 X)−1 X 0 y.
β
preuve. Pour tout y de RN , Px y est définie de manière unique par les conditions d’orthogonalité
des résidus y − Px y avec chaque colonne de X :
j = 1, .., K : xj 0 (y − Xβ) = 0
Ces K équations sont rassemblées en une seule équation vectorielle :
X 0 (y − Xβ) = 0
qui conduit, pour le paramètre β, au système d’équations :
X 0 Xβ = X 0 y
Si X est de rang K, X 0 X est inversible (format (K, K) et de rang K) et le système admet une
solution unique en β :
b = (X 0 X)−1 X 0 y,
β
b = X (X 0 X)
ce qui détermine Px y = X β
−1
X 0 y et montre que la matrice de projection est
−1
Px = X (X 0 X) X 0.
Le théorème de Frish et Waugh permet de calculer β c sans devoir faire la régression globale
1
de y sur les K variables.
Le coefficient βb défini plus haut peut être en deux étapes :
1
1. Régresser y et chaque colonne de X1 sur X2 , et calculer les résidus MX2 y, MX2 X1 .
2. Régresser MX2 y sur MX2 X1 : le coefficient obtenu est β b
1
b = (X 0 MX X1 )−1 X 0 MX y
β 1 1 2 1 2
PX2 y = PX X1 βc + X2 β
c+0 ((ii))
2 1 2
b=0
puisque PX2 X2 = X2 et que PX2 u
Retranchons membre à membre les égalités (i) et (ii) :
y − PX2 y c+0+u
= (X1 − PX2 X1 ) β b
1
MX2 y = MX X1 βc+u b
2 1
Une application de ce résultat est, par exemple, l’utilisation des variables corrigées des varia-
tions saisonnières : les coefficients obtenus et la SCR sont les mêmes que dans la régression effectuée
avec les variables brutes et les indicatrices saisonnières. Un bémol toutefois : le nombre de variables
explicatives est utilisé explicitement par les logiciels pour estimer σ2 . Utiliser systématiquement
MX2 y et MX2 X1 ne change pas la loi de la SCR (puisque elle est inchangée) mais change le nombre
(apparent) des variables explicatives utilisées. L’estimation fournie n’est donc pas correcte (ni les
autres statistiques fournies par le logiciel)
2.3. Cas des modèles linéaires “avec constante”. Dire que la “constante” fait partie de
l’espace des régresseurs, c’est dire que e = (1, ..., 1)0 ∈ Im X. Ce cas recouvre aussi bien les modèles
où e est effectivement une colonne de X que ceux où e peut se calculer en fonction des variables
du modèle (indicatrices saisonnières par exemple).
Proposition 2. Dans une régression empirique avec constante :
(i) les résidus sont de moyenne nulle :
N
1 X
bi = 0
u
N i=1
(ii) Les yi et leurs valeurs ajustées ybi ont même moyenne :
N N
1 X 1 X
yi = ybi
N i=1 N i=1
preuve. (i) ub est, par construction, orthogonal à l’espace des régresseurs et en particulier à
e. Leur produit scalaire est donc nul :
N
X
bi .1 = 0
u
i=1
d’où la nullité de la moyenne des résidus.
P
N
bi = yi − ybi dans la propriété
(ii) il suffit d’écrire u bi = 0 :
u
i=1
N
X
(yi − ybi ) = 0
i=1
N
X N
X
yi − ybi = 0
i=1 i=1
d’où l’égalité des moyennes empiriques de la variable et de son ajustement.
Proposition 3. Dans une régression empirique avec constante, la variance empirique des
observations se décompose ainsi :
N N N
1 X 1 X 1 X
(yi − y)2 = (yi − ybi )2 + yi − y)2
(b
N i=1 N i=1 N i=1
SCT = SCR + SCE
preuve. Nous pouvons toujours écrire que :
y − ye = y − yb + yb − ye
y − ye = (y − yb) + (by − ye)
si e appartient à l’espace des régresseurs, ye aussi. Nous avons donc
(y − yb) ⊥ Im X, (b
y − ye) ∈ Im X
on en déduit que :
ky − yek2 = ky − ybk2 + kb
y − yek2
3. PROPRIÉTÉS STATISTIQUES DE L’ESTIM ATEUR M CO 9
SCE SCR
R2 = =1−
SCT SCT
2
2 kb
yk
Rnc =
kyk2
Remarque 1. ATTENTION : la formule utilisée pour le calcul du “R2 redéfini” n’est valable
que si effectivement la constante ne fait pas partie de Im X. Si cette formule est appliquée dans
un modèle où la constante ne figure pas explicitement dans l’équation mais est combinaison de
certains régresseurs (subtilité que le logiciel ignore superbement, bien entendu) la valeur fournie
est artificiellement plus petite que la vraie valeur et ne doit pas être prise en compte. De même,
2
on peut montrer que Rnc < R2 : ici encore, le logiciel fournit une statistique plus petite que le
coefficient de détermination attendu, ce qui peut donner l’idée (fausse) que la régression avec e est
moins bonne que sans e, alors qu’elles sont identiques. Faire l’essai avec SAS, par exemple..
Proposition 5. Les hypothèses H1, HT 1, H2 et H3N étant les hypothèses structurelles des
modèles linéaire standard et linéaire standard normal, selon 1.1, 1.2 et H3N :
(i) : H1 − HT 1 =⇒ E( b
β) = β
V (β)
b = σ 2 (X 0 X)−1
(ii) : H1 − HT 1 − H2 =⇒ b est le BLUE estimateur de β
et β
E(σ c2 ) = σ 2
β b ≈ N (β; σ 2 (X 0 X)−1 )
SCR (N −K) c
(iii) : H1 − HT 1 − H2 − H3N =⇒ σ2 = σ 2 ≈ χ2 (N − K)
β
σ2
b et SCR sont indépendants en probabilité
Preuve. voir en annexes : la démonstration et les propriétés des vecteurs normaux et des lois
qui leurs sont associées.
4.1. Test d’une hypothèse scalaire. Nous considérons d’abord une contrainte scalaire.
Une telle contrainte linéaire peut toujours se ramener au test sur un coefficient, l’hypothèse nulle
étant
β1 = 0
(voir proposition en annexe)
D’après la proposition précédente, sous l’hypothèse d’un modèle linéaire standard normal :
b
β Ho
√1 ≈ N [0; 1]
σ m11
c2
σ
(N − K) ≈ χ2 (N − K)
σ2
b ,σ
β c2 sont indépendants
1
p
On en déduit, en posant s = σc2 , que
b
β Ho
t1 = √ 1 ≈ ST U DEN T (N − K)
s m11
La règle est de refuser Ho si |t1 | > Aα où Aα est déterminé par la valeur du seuil choisi :
P {|ST U DEN T (N − K)| > Aα } = α.
De façon équivalente, la règle est de refuser Ho si P ROB = P {|ST U DEN T (N − K)| > |t1 |} <
α
Cette probabilité est appelée la p − value associée à β 1 .
4.2. Test d’une hypothèse multiple. Considérons maintenant le cas de plusieurs con-
traintes linéaires envisagées simultanément.
Ho : Rβ = 0, avec rg (R) = p
La statistique utilisée est :
(SCRo − SCR) /p Ho
F = ≈ F ISHER (p, N − K)
SCR/ (N − K)
5. PROPRIÉTÉS ASYM PTOTIQUES DE L’ESTIM ATEUR M CO 11
La règle est de refuser la contrainte {Rβ = 0} si Fobs est trop grand ou si la p-value (P ROB)
associée est trop petite :
Fobs > Aα
ou P ROB = P [F ISHER (p, N − K) > Fobs. ] < α
2
y − ybR k
Le dessin ci-dessous illustre la signification de la statistique F : c’est le rapport entre kb
et ky − ybk2 , corrigés de leurs degrés de liberté respectifs.
^ 2
|| y - y || = SCR y
2
|| y - y^R || = SCRo
y^
O vR
^
v yR
Lorsque la contrainte est de la forme (Rβ = a), il est toujours possible de se ramener au cas
de tester (Rγ = 0) dans un modèle linéaire E (z) = Xγ, où z = y − c, c ∈ L (X) . (voir proposition
en annexe). Seul le numérateur est alors à changer : le dénominateur SCR est inchangé, car
Px z = Px y − c et Mx z = Mx y.
La statistique peut également s’interpréter de façon analytique. Sous l’hypothèse Rβ = a,
nous avons en effet :
h i
Rβ b−aH o −1
≈ N 0, σ 2 R (X 0 X) R0
et donc
1 ³ b ´0 h
−1
i−1 ³ ´
b−a H o
2
Rβ − a R (X 0 X) R0 Rβ ≈ χ2 (p)
σ
Nous avons toujours
1
SCR ≈ χ2 (N − K)
σ2
b qui est indépendant
Les deux statistiques sont indépendantes, car la première est fonction de β,
b. Nous obtenons donc :
du vecteur des résidus u
³ ´0 h i−1 ³ ´
Rβb−a R (X 0 X)−1 R0 b − a /p
Rβ Ho
F = ≈ F ISHER (p, N − K)
SCR/ (N − K)
³ ´0 h i−1 ³ ´
Proposition 6. Rβ b−a −1
R (X 0 X) R0 b − a = SCRo − SCR
Rβ
−1
lim (X 0 X) = 0 : HT 2 est vérifiée.
T −→∞ µ ¶µ ¶
0 0 −1 ¡ ¢ 12/T 3 − T62 − T63 t
x(t) (X X) x(t) = t 1
− T62 − T63 4 6
T + T2 + T3
2
1
−1 2
x0(t) (X 0 X) x(t) = 12t 12t 12t
T3 − T2 − T3 + T +
4 6
T2 + T3
2