Anda di halaman 1dari 16

ECONOMETRIE

Magistère 2ème année

Jacqueline Pradel
octobre 2003
Contents

1. Préface iv

Partie 1. Modèles à 1 équation 1


Chapitre 1. Modèle Linéaire Standard 3
1. Définition du modèle MLS 3
2. L’estimation MCO 5
3. Propriétés statistiques de l’estimateur MCO 9
4. Tests d’hypothèses linéaires 10
5. Propriétés asymptotiques de l’estimateur MCO 11
Chapitre 2. Modèle Linéaire Généralisé 13
1. Présentation du problème 13
2. Estimation de β par les moindres carrés généralisés 14
3. Propriétés statistiques de l’estimateur MCG 16
4. Exemple d’hétéroscédasticité 18
5. Exemple d’autocorrélations des perturbations 18
6. Régressions empilées : Estimation SURE 20
Chapitre 3. Modèles apparemment Linéaires 25
1. Introduction 25
2. Estimateurs par variables instrumentales (VI) 28
3. Exemples 30

Partie 2. Modèles d’équations simultanées 35


Chapitre 4. Identifiabilité 37
1. Forme Structurelle, Forme Réduite 37
2. Identifiabilité de la forme structurelle 38
3. Identifiabilité équation par équation 42
Chapitre 5. Méthodes d’estimation 47
1. Moindres carrés indirects 47
2. Variables instrumentales 48
3. Doubles moindres carrés 49
4. Triples moindres carrés 52
5. Moindres Carrés Asymptotiques 55
Annexe A. Produit de Kronecker 57
Annexe B. Vecteurs normaux 59
Annexe C. Démonstrations 61
1. Modèle linéaire standard 61
2. Modèle linéaire généralisé 66

iii
iv CONTENTS

1. Préface
Ce cours fait suite au cours d’économétrie de première année. Les notions de base de la régres-
sion linéaire empirique sont supposées connues, mais font l’objet d’un rappel en début d’exposé.
Le cours se compose de trois parties : la première est consacrée aux extensions du modèle
linéaire à une équation et présente les moindres carrés généralisés et la méthode des variables in-
strumentales, la seconde présente les modèles à équations simultanées en insistant sur les conditions
d’identifiabilité des paramètres et les méthodes d’estimation en information limitée. La dernière
partie expose la méthode du maximum de vraisemblance sur quelques exemples de modèles non
linéaires (lois tronquées, censurées ou à variable latente).
Les livres susceptibles de compléter cet exposé sont :
DORMONT Brigitte, Econométrie, Editions Montchrestien, 1998.
GREENE William H., Econometric Analysis, Prentice&Hall, 4th ed., 2000.
KENNEDY Peter, A Guide to Econometrics, Blackwell Publishers 1999.
Partie 1

Modèles à 1 équation
CHAPITRE 1

Modèle Linéaire Standard

1. Définition du modèle MLS


Dans tout ce chapitre, nous disposons de N observations d’une variable économique y :
(y1 , ..., yN ) recueillies par exemple au cours du temps (données temporelles) ou au sein d’une
population d’agents économiques (données individuelles), ou encore sur des agents économiques
suivis au cours du temps (données de panel). Nous désirons expliquer les variations de y en fonc-
tion de variables également observées pour chaque i : x0i = (xi,1 , .., xi,K ). La loi conjointe des
observations peut toujours s’écrire sous la forme :
f (y1 , x1 ..., yN , xN ) = ` (y1 , ..., yN | x1 , .., xN ) h (x1 , .., xN )
Dans un premier temps, nous considérons uniquement la loi conditionnelle de (y1 , ..., yN )
sachant (x1 , ..., xN ), c’est-à-dire que nous traitons toutes les variables explicatives comme des vari-
ables certaines, non aléatoires (cela suppose que le paramètre qui concerne cette loi conditionnelle
et auquel nous nous intéressons n’intervient pas dans la loi marginale des x).
Les observations aléatoires sont des vecteurs de Y = RN et les valeurs prises par les variables
explicatives forment un tableau X de format (N, K) :
     0 
y1 x1,1 x1,2 x1,K x1 ¡ ¢
y =  : ,X =  : : :  =  :  = x1 .. xK
yN xN,1 xN,2 xN,K x0N
Dans ce tableau X, chaque observation forme une ligne et les observations d’une variable
forment une colonne.

1.1. Définitions.
Définition 1 (MLS). Le Modèle statistique Linéaire Standard est défini par :
(1.1) y = Xβ + u, y ∈ RN , X de format (N, K)
H1 : E (y) = Xβ, β ∈ RK
H2 : V (y) = σ 2 IN
Ce sont H1 et H2 qui sont les hypothèses structurelles du modèle linéaire standard. L’“équation”
y = Xβ + u ne sert ici en fait qu’à définir u.
La condition β ∈ RK qui figure dans H1 ne sert pas simplement à préciser la dimension de
β : elle indique également que β peut prendre, sans contrainte, toute valeur de RK . Cela est
indispensable pour définir le modèle linéaire ; une autre expression de l’hypothèse H1 est en effet :
H1 ≡ l’ensemble des E (y) possibles est un sous-espace vectoriel de RN
L’espace des espérances de y est ici engendré par les colonnes de X et noté
© ª
Vx = Im (X) = Xβ; β ∈ RK
Un changement de variables explicatives qui ne change pas Vx ne change en fait pas le modèle
puisque la famille de lois considérée reste inchangée. Nous dirons que la représentation avec X et
β du modèle est standard si de plus
(1.2) HT 1 : X est de rang K

3
4 1. M ODÈLE LINÉAIRE STANDARD

Dans ce cas, le paramètre β est défini de manière unique pour chaque E (y) : nous disons qu’il est
identifiable.
Par contre, si on impose des contraintes linéaires sur le paramètre β, l’espace engendré reste un
sous-espace vectoriel de RN et le modèle est encore un modèle linéaire. Nous disons que le modèle
obtenu ainsi est un sous-modèle linéaire du modèle initial si l’espace engendré est strictement plus
petit que Vx .
Exemple 1. Sur données temporelles, notons Q1, Q2, Q3 et Q4 les indicatrices respectives
des premier, deuxième, troisième et quatrième trimestres :
½ ½
1 si t est un 1er Trimestre 1 si t est un 4ème Trimestre
Q1t = , ..., Q4t =
0 sinon 0 sinon
Considérons le modèle suivant :
yt = c + s1 Q1t + s2 Q2t + s3 Q3t + s4 Q4t + ut , t = 1, .., T
H1 : E (yt ) = c + s1 Q1t + s2 Q2t + s3 Q3t + s4 Q4t , β = (c, s1 , s2 , s3 , s4 ) ∈ R5
H2 : V (y) = σ 2 IN
¡ ¢
• La matrice X = e Q1 Q2 Q3 Q4 n’est pas de rang 5 : ses vecteurs colonnes sont
liés par la relation
e = Q1 + Q2 + Q3 + Q4
et Im (X) est de dimension 4. Le modèle est linéaire et standard, mais sa représentation
n’est pas standard, car les variables explicatives introduites sont redondantes. Le paramètre
(c, s1 , s2 , s3 , s4 ) n’est pas identifiable puisqu’il existe plusieurs valeurs de ce paramètre qui
conviennent pour une seule loi : par exemple (c, s1 , s2 , s3 , s4 ) et (0, s1 + c, s2 + c, s3 + c, s4 + c).
• Si nous imposons la contrainte {c = 0}, le paramètre devient identifiable, et le modèle
est inchangé (simplement, sa représentation devient standard) car l’espace engendré par
(Q1, Q2, Q3, Q4) est le même que celui engendré par (e, Q1, Q2, Q3, Q4) . Les valeurs s1 , s2 , s3
et s4 ont alors une interprétation concrète : ce sont les valeurs prises chaque trimestre par
l’espérance de yt .
• Si nous imposons la contrainte {c = 0; s1 = s2 = s3 = s4 }, H1se réduit à
E (yt ) = s (Q1t + Q2t + Q3t + Q4t ) = s, s ∈ R
Le modèle est encore un modèle linéaire standard, avec la chronique constante e pour seul
vecteur explicatif. C’est un sous-modèle du précédent.
Définition 2 (MLSN). Un modèle statistique Linéaire Standard Normal est un modèle linéaire
standard dans lequel est ajoutée l’hypothèse H3N de Normalité du vecteur des observations :
(H3N) H3N : y est un vecteur Normal
Les hypothèses (H1, H2, H3N ) peuvent se résumer simplement par :
¡ ¢
(H1, H2, H3N ) : y ≈ N Xβ; σ 2 IN , y ∈ RN , β ∈ RK

1.2. Interprétation des coefficients dans un modèle linéaire. La modélisation selon un


modèle linéaire peut paraître très contraignante, puisque cela revient à supposer que l’espérance
conditionnelle de y sachant x1 , .., xK est une fonction linéaire des xj . Elle ne l’est pourtant pas au-
tant qu’elle le paraît. Pour simplifier les écritures, nous prenons l’exemple d’une variable expliquée
y en fonction d’une variable explicative x.
Tout d’abord, le coefficient b de x dans le modèle
y = a + bx + u
où E (u) = 0
a une interprétation différente selon que x est une variable quantitative continue ou une variable
qualitative.
2. L’ESTIM ATION M CO 5

• Si x est une variable quantitative continue, et si E (y) = f (x), le développement de f (x)


au voisinage d’une valeur centrale xo conduit à :
y = E (y) + u ' f (xo ) + f 0 (xo ) [x − xo ] + u = a + bx + u
où E (u) = 0
Le coefficient b de x s’interprète alors comme l’effet marginal de x sur y, ou encore l’accroissement
de y résultant d’un accroissement unitaire de x, toutes choses étant égales par ailleurs (u
fixé, notamment). Dans ce cas, le modèle n’est utilisable qu’au voisinage de xo (il ne faut
pas utiliser un modèle linéaire pour prévoir le y correspondant à une valeur x éloignée de
celles qui ont été utilisées pour l’estimer).
• Si x est l’indicatrice d’une propriété A des individus (qui sont alors classés en individus A
et individus nonA) la valeur moyenne de y prend deux valeurs possibles ao pour les nonA
(si x = 0), et a1 pour les A (si x = 1). Cela se traduit par l’écriture :
y = a1 x + ao (1 − x) + u = ao + (a1 − ao ) x + u
où E (u) = 0
Le coefficient de x est alors l’accroissement du y des individus A par rapport au niveau de
référence qui est la valeur du y des individus nonA (qui représentent alors la population de
référence), toutes choses étant égales par ailleurs.
Ensuite, il est parfois possible de se ramener à un modèle linéaire en changeant de variables :
• y = exp(a + bx + u) : c’est z = ln y qui s’écrit linéairement en fonction de x.
ln y = a + bx + u
Le coefficient de x est le taux d’accroissement marginal de y en fonction de x : y augmente
de b% lorsque x augmente d’une unité.
• y = Axb v : c’est z = ln y qui s’écrit linéairement en fonction de ln x
ln y = a + b ln x + u
Le coefficient de x est l’élasticité de y en fonction de x : on dit que y augmente de b%
lorsque x augmente de 1% (dans ce cas, une variable qualitative n’est introduite qu’après
le changement de y en ln y).

2. L’estimation MCO
2.1. Définition de l’ajustement par les Moindres Carrés Ordinaires (M CO). D’un
simple point de vue géométrique, faire l’ajustement MCO de y par un vecteur de la forme Xβ
consiste à rechercher dans Vx = Im X le vecteur yb le plus proche de y selon la distance “ordinaire”
c’est-à-dire euclidienne :
"N #
X 2
yb = arg min (yi − zi ) = arg min k y − z k2
z∈Im X z∈Im X
i=1
Les K colonnes de X sont appelées les régresseurs.
Nous allons voir que le problème posé admet une solution unique yb, appelé le vecteur des
b = y − yb est appelé le vecteur des
valeurs ajustées, ou ajustement MCO de y sur X, tandis que u
résidus MCO.
Théorème 1 (des projections). Etant donnés un vecteur y ∈ RN et un sous espace vectoriel
V ⊂ RN , la décomposition
y = yb + u
b
où yb ∈ V et ub⊥V
est unique et
yb = arg min k y − z k2
z∈V

preuve. : voir en annexe.


6 1. M ODÈLE LINÉAIRE STANDARD

Définition 3. Etant donné un sous espace vectoriel V ⊂ RN , l’opérateur qui à chaque y


de RN fait correspondre yb = arg min k y − z k2 défini dans le théorème des projections s’appelle
z∈V
l’opérateur de projection orthogonale de y sur V :
yb = arg min k y − z k2 = PV y
z∈V

Le Théorème des projections signifie que la solution yb est déterminée de manière unique par
les conditions
yb ∈ V
y − yb ⊥ V
Si maintenant nous prenons pour V l’espace engendré par les colonnes de X, nous voyons que
le problème min k y − z k2 admet une solution unique qui est la projection de y sur Im (X). En
z∈Im X
notant Px la projection orthogonale sur V = Im (X) et Mx = IN − Px , nous obtenons :
yb = Px y
b = Mx y = Mx u
u
La décomposition
y = yb + u
b,
yb ∈ Im X, ub ⊥ Im X
s’appelle l’équation de régression linéaire empirique de y sur X.
En résumé, pour ce vecteur (unique!) yb, nous avons trois noms correspondant à différents
aspects de ses propriétés : “ajustement des MCO”, “projection orthogonale” ou “régression linéaire
empirique” de y sur X.
Exercice 1. Montrer que l’opérateur Mx = IN − Px est en fait la projection orthogonale sur
l’espace orthogonal de Im(X) :
Solution 1. notons Vx⊥ l’espace orthogonal de Im(X), défini par
© ª
Vx⊥ = z; z ∈ RN , z ⊥ Vx .
La décomposition de tout y de RN en y = yb + u b ∈ Vx⊥ et yb ∈ V ⊥ Vx⊥ nous montre que
b , où u
b = PVx⊥ y.
u

2 P
N
2
La distance minimum obtenue est kb
uk = (yi − ybi ) et notée SCR,pour Somme des Carrés
i=1
des Résidus1 .
Proposition 1 (estimateurs MCO). Si X est de rang K, la matrice de projection s’écrit Px =
−1
X (X 0 X) X 0 et les coordonnées de la projection yb = Px y sont définies de manière unique par
b = (X 0 X)−1 X 0 y.
β
preuve. Pour tout y de RN , Px y est définie de manière unique par les conditions d’orthogonalité
des résidus y − Px y avec chaque colonne de X :
j = 1, .., K : xj 0 (y − Xβ) = 0
Ces K équations sont rassemblées en une seule équation vectorielle :
X 0 (y − Xβ) = 0
qui conduit, pour le paramètre β, au système d’équations :
X 0 Xβ = X 0 y

1 SSR= Sum of Squared Residuals in English.


2. L’ESTIM ATION M CO 7

Si X est de rang K, X 0 X est inversible (format (K, K) et de rang K) et le système admet une
solution unique en β :
b = (X 0 X)−1 X 0 y,
β
b = X (X 0 X)
ce qui détermine Px y = X β
−1
X 0 y et montre que la matrice de projection est
−1
Px = X (X 0 X) X 0.

Définition 4. Les statistiques définies, lorsque rang (X) = K, par :


b −1
β = (X 0 X) X 0y
° °2
° b°
SCR °y − X β °
c2
σ = =
N −K N −K
sont appelés les estimateurs des Moindres Carrés Ordinaires (MCO) de β et σ 2
c2 .
Nous verrons plus bas les raisons qui ont conduit à la définition de σ

2.2. Régression partitionnée (Frish-Waugh). Considérons le cas où les variables explica-


tives étant partitionnées en :
K = K1 + K2 : X = (X1 X2 )
(N ∗K) N∗K1 (N∗K2 )
µ ¶
β1
β = : Xβ = X1 β 1 + X2 β 2
β2
nous nous intéressons spécialement au coefficient β 1 . La régression de y sur X s’écrit :
Xβ c + X2 β
b = X1 β c
1 2

Le théorème de Frish et Waugh permet de calculer β c sans devoir faire la régression globale
1
de y sur les K variables.
Le coefficient βb défini plus haut peut être en deux étapes :
1
1. Régresser y et chaque colonne de X1 sur X2 , et calculer les résidus MX2 y, MX2 X1 .
2. Régresser MX2 y sur MX2 X1 : le coefficient obtenu est β b
1
b = (X 0 MX X1 )−1 X 0 MX y
β 1 1 2 1 2

preuve. Ecrivons l’équation de régression de y sur X :


((i)) c + X2 β
y = X1 β c+u b, où u
b ⊥ L (X1 , X2 )
1 2

Projettons les deux membres de l’égalité sur L (X2 ) :


c + PX X2 β
c + PX u
PX2 y = PX2 X1 β 1 2 2 2 b,

PX2 y = PX X1 βc + X2 β
c+0 ((ii))
2 1 2

b=0
puisque PX2 X2 = X2 et que PX2 u
Retranchons membre à membre les égalités (i) et (ii) :
y − PX2 y c+0+u
= (X1 − PX2 X1 ) β b
1

MX2 y = MX X1 βc+u b
2 1

dans cette équation, MX2 X1 β c appartient à L (MX X1 ) et u b est orthogonal à X1 et à PX2 X1


1 2
(qui est dans L (X2 )). Il est donc orthogonal à L (MX2 X1 ). Cela caractérise l’équation de régression
de MX2 y sur MX2 X1 . L’expression de β c se déduit alors de la formule de projection habituelle, en
1
notant simplement que MX2 est symétrique et idempotente.
8 1. M ODÈLE LINÉAIRE STANDARD

Une application de ce résultat est, par exemple, l’utilisation des variables corrigées des varia-
tions saisonnières : les coefficients obtenus et la SCR sont les mêmes que dans la régression effectuée
avec les variables brutes et les indicatrices saisonnières. Un bémol toutefois : le nombre de variables
explicatives est utilisé explicitement par les logiciels pour estimer σ2 . Utiliser systématiquement
MX2 y et MX2 X1 ne change pas la loi de la SCR (puisque elle est inchangée) mais change le nombre
(apparent) des variables explicatives utilisées. L’estimation fournie n’est donc pas correcte (ni les
autres statistiques fournies par le logiciel)
2.3. Cas des modèles linéaires “avec constante”. Dire que la “constante” fait partie de
l’espace des régresseurs, c’est dire que e = (1, ..., 1)0 ∈ Im X. Ce cas recouvre aussi bien les modèles
où e est effectivement une colonne de X que ceux où e peut se calculer en fonction des variables
du modèle (indicatrices saisonnières par exemple).
Proposition 2. Dans une régression empirique avec constante :
(i) les résidus sont de moyenne nulle :
N
1 X
bi = 0
u
N i=1
(ii) Les yi et leurs valeurs ajustées ybi ont même moyenne :
N N
1 X 1 X
yi = ybi
N i=1 N i=1
preuve. (i) ub est, par construction, orthogonal à l’espace des régresseurs et en particulier à
e. Leur produit scalaire est donc nul :
N
X
bi .1 = 0
u
i=1
d’où la nullité de la moyenne des résidus.
P
N
bi = yi − ybi dans la propriété
(ii) il suffit d’écrire u bi = 0 :
u
i=1
N
X
(yi − ybi ) = 0
i=1
N
X N
X
yi − ybi = 0
i=1 i=1
d’où l’égalité des moyennes empiriques de la variable et de son ajustement.
Proposition 3. Dans une régression empirique avec constante, la variance empirique des
observations se décompose ainsi :
N N N
1 X 1 X 1 X
(yi − y)2 = (yi − ybi )2 + yi − y)2
(b
N i=1 N i=1 N i=1
SCT = SCR + SCE
preuve. Nous pouvons toujours écrire que :
y − ye = y − yb + yb − ye
y − ye = (y − yb) + (by − ye)
si e appartient à l’espace des régresseurs, ye aussi. Nous avons donc
(y − yb) ⊥ Im X, (b
y − ye) ∈ Im X
on en déduit que :
ky − yek2 = ky − ybk2 + kb
y − yek2
3. PROPRIÉTÉS STATISTIQUES DE L’ESTIM ATEUR M CO 9

ce qui s’écrit comme indiqué dans la proposition.


2
L’interprétation de kb
y − yek comme Somme des Carrés Expliquée est justifiée par le fait que
y est aussi bien la moyenne des yi que celle des ybi

Définition 5 (Coefficient de Détermination). Dans une régression empirique avec constante,


PN
2
nous notons la Somme des carrés Totale SCT = (yi − y) , la Somme des carrés Expliquée
i=1
P
N
2 P
N
2
SCE = yi − y) et la Somme des carrés Résiduelle SCR =
(b (yi − ybi ) .
i=1 i=1
Le coefficient R2 de détermination de y par X est alors défini par :

SCE SCR
R2 = =1−
SCT SCT

Le coefficient de détermination est toujours compris entre 0 et 1. Il prend la valeur 0 si ybi = y,


c’est-à-dire si aucune autre variable explicative que la constante n’intervient dans l’ajustement. Il
est égal à 1 si y est déjà dans Im X et que l’ajustement est exact.

Proposition 4. Dans un modèle avec constante, le coefficient de détermination R2 ne peut


diminuer si on ajoute une variable aux colonnes de X.

preuve. voir en annexe.

A la limite, si nous introduisons N variables linéairement indépendantes, l’espace engendré


sera RN tout entier et l’ajustement sera yb = y, conduisant à R2 = 1. Il ne faut donc pas utiliser
brutalement R2 comme critère pour guider le choix d’un modèle.
Lorsque la constante ne fait pas partie des régresseurs, le coefficient de détermination tel qu’il
est calculé par 1− SCR 2
SCT risque d’être négatif. Certains logiciels proposent à la place un “R redéfini”
qui est le coefficient de détermination obtenu en ajoutant la variable aux régresseurs du modèle. Il
existe une formule de passage d’une régression à la régression obtenue en ajoutant une variable qui
permet facilement de calculer le “R2 redéfini”. D’autres logiciels fournissent le “R2 non centré”
défini par

2
2 kb
yk
Rnc =
kyk2

Remarque 1. ATTENTION : la formule utilisée pour le calcul du “R2 redéfini” n’est valable
que si effectivement la constante ne fait pas partie de Im X. Si cette formule est appliquée dans
un modèle où la constante ne figure pas explicitement dans l’équation mais est combinaison de
certains régresseurs (subtilité que le logiciel ignore superbement, bien entendu) la valeur fournie
est artificiellement plus petite que la vraie valeur et ne doit pas être prise en compte. De même,
2
on peut montrer que Rnc < R2 : ici encore, le logiciel fournit une statistique plus petite que le
coefficient de détermination attendu, ce qui peut donner l’idée (fausse) que la régression avec e est
moins bonne que sans e, alors qu’elles sont identiques. Faire l’essai avec SAS, par exemple..

3. Propriétés statistiques de l’estimateur MCO


Dans le cadre du modèle linéaire standard, les estimateurs MCO de β et σ 2 ont les propriétés
suivantes :
10 1. M ODÈLE LINÉAIRE STANDARD

Proposition 5. Les hypothèses H1, HT 1, H2 et H3N étant les hypothèses structurelles des
modèles linéaire standard et linéaire standard normal, selon 1.1, 1.2 et H3N :
(i) : H1 − HT 1 =⇒ E( b
 β) = β
 V (β)
 b = σ 2 (X 0 X)−1
(ii) : H1 − HT 1 − H2 =⇒ b est le BLUE estimateur de β
et β

 E(σ c2 ) = σ 2


 β b ≈ N (β; σ 2 (X 0 X)−1 )
SCR (N −K) c
(iii) : H1 − HT 1 − H2 − H3N =⇒ σ2 = σ 2 ≈ χ2 (N − K)

 β
σ2
b et SCR sont indépendants en probabilité

Preuve. voir en annexes : la démonstration et les propriétés des vecteurs normaux et des lois
qui leurs sont associées.

4. Tests d’hypothèses linéaires


Nous nous plaçons dans le cadre d’un modèle linéaire standard normal :
£ ¤
y ≈ N Xβ; σ2 IN
β ∈ RK , rg (X) = K

4.1. Test d’une hypothèse scalaire. Nous considérons d’abord une contrainte scalaire.
Une telle contrainte linéaire peut toujours se ramener au test sur un coefficient, l’hypothèse nulle
étant
β1 = 0
(voir proposition en annexe)
D’après la proposition précédente, sous l’hypothèse d’un modèle linéaire standard normal :
b
β Ho
√1 ≈ N [0; 1]
σ m11
c2
σ
(N − K) ≈ χ2 (N − K)
σ2
b ,σ
β c2 sont indépendants
1
p
On en déduit, en posant s = σc2 , que
b
β Ho
t1 = √ 1 ≈ ST U DEN T (N − K)
s m11
La règle est de refuser Ho si |t1 | > Aα où Aα est déterminé par la valeur du seuil choisi :
P {|ST U DEN T (N − K)| > Aα } = α.
De façon équivalente, la règle est de refuser Ho si P ROB = P {|ST U DEN T (N − K)| > |t1 |} <
α
Cette probabilité est appelée la p − value associée à β 1 .

4.2. Test d’une hypothèse multiple. Considérons maintenant le cas de plusieurs con-
traintes linéaires envisagées simultanément.
Ho : Rβ = 0, avec rg (R) = p
La statistique utilisée est :
(SCRo − SCR) /p Ho
F = ≈ F ISHER (p, N − K)
SCR/ (N − K)
5. PROPRIÉTÉS ASYM PTOTIQUES DE L’ESTIM ATEUR M CO 11

La règle est de refuser la contrainte {Rβ = 0} si Fobs est trop grand ou si la p-value (P ROB)
associée est trop petite :
Fobs > Aα
ou P ROB = P [F ISHER (p, N − K) > Fobs. ] < α
2
y − ybR k
Le dessin ci-dessous illustre la signification de la statistique F : c’est le rapport entre kb
et ky − ybk2 , corrigés de leurs degrés de liberté respectifs.
^ 2
|| y - y || = SCR y
2
|| y - y^R || = SCRo

y^
O vR
^
v yR
Lorsque la contrainte est de la forme (Rβ = a), il est toujours possible de se ramener au cas
de tester (Rγ = 0) dans un modèle linéaire E (z) = Xγ, où z = y − c, c ∈ L (X) . (voir proposition
en annexe). Seul le numérateur est alors à changer : le dénominateur SCR est inchangé, car
Px z = Px y − c et Mx z = Mx y.
La statistique peut également s’interpréter de façon analytique. Sous l’hypothèse Rβ = a,
nous avons en effet :
h i
Rβ b−aH o −1
≈ N 0, σ 2 R (X 0 X) R0
et donc
1 ³ b ´0 h
−1
i−1 ³ ´
b−a H o
2
Rβ − a R (X 0 X) R0 Rβ ≈ χ2 (p)
σ
Nous avons toujours
1
SCR ≈ χ2 (N − K)
σ2
b qui est indépendant
Les deux statistiques sont indépendantes, car la première est fonction de β,
b. Nous obtenons donc :
du vecteur des résidus u
³ ´0 h i−1 ³ ´
Rβb−a R (X 0 X)−1 R0 b − a /p
Rβ Ho
F = ≈ F ISHER (p, N − K)
SCR/ (N − K)
³ ´0 h i−1 ³ ´
Proposition 6. Rβ b−a −1
R (X 0 X) R0 b − a = SCRo − SCR

Preuve. voir annexe

5. Propriétés asymptotiques de l’estimateur MCO


Lorsque la Normalité de u n’est pas acceptable, l’hypothèse envisagée pour les perturbations
est :
(5.1) H3IID : les ui sont i.i.d.
12 1. M ODÈLE LINÉAIRE STANDARD

Diverses “hypothèses techniques” sont envisageables pour X :


−1
(5.2) HT 2 : lim (X 0 X) =0
N −→∞
−1
(5.3) HT 2∗ : lim maxx0(i) (X 0 X) x(i) = 0
N −→∞ i≤N
−1
où x0(i) est la i-ième ligne de X. La quantité pi = x0(i) (X 0 X) x(i) représente le poids de la
i-ème observation dans l’ensemble des observations. C’est le i-ème élément de la diagonale de la
projection PX .
Proposition 7. Les hypothèses H1, HT 1, H2 étant les hypothèses structurelles du modèle
linéaire standard selon 1.1 et 1.2, H3IID, HT 2, HT 2∗ étant les hypothèses asymptotiques définies
dans 5.1, 5.2 :
p
b −→
H1 − HT 1 − H2 − HT 2 =⇒ β β
p
c2 −→
H1 − HT 1 − H2 − H3IID =⇒ σ σ2
³ ´
1 1/2 loi
b − β −→
H1 − HT 1 − H2 − H3IID − HT 2∗ =⇒ b
σ (X 0 X) β N (0; IK )

Remarquons que HT 2∗ =⇒ HT 2, et que l’hypothèse HT 2∗ est en particulier vérifiée si


X 0X
lim ( ) = Mxx inversible
N −→∞ N
√ ³ ´ ¡ ¢
loi
b − β −→
Dans ce cas, 1 N β
b
σ N 0; M −1 . xx
HT 2 indique que l’information continue d’arriver lorsque N augmente, tandis que HT 2∗ sup-
pose de plus que cette information n’arrive pas au point d’écraser les premières information. HT 2∗
est vérifiée pour des xi polynômes en i, mais pas pour des fonctions puissances ai . Par contre la
vitesse de convergence ne sera pas en N1 si une variable explicative est polynôme en i.
Exemple 2. Considérons le modèle E (yt ) =Ãat + b. !
µ 2 ¶ T (T +1)(2T +1) T (T +1)
0
¡ ¢ 0
PT t t
x(t) = t 1 : X X = t=1 = 6 2
t 1 T (T +1)
2 T
à 2
! µ ¶
0 −1 12 T − T2 − T2 12/T 3 − T62 − T63
(X X) = 4 =
− T62 − T63 T4 + T62 + T23
2
T3 T2
T − T2 3 + 2 + 6
T

−1
lim (X 0 X) = 0 : HT 2 est vérifiée.
T −→∞ µ ¶µ ¶
0 0 −1 ¡ ¢ 12/T 3 − T62 − T63 t
x(t) (X X) x(t) = t 1
− T62 − T63 4 6
T + T2 + T3
2
1
−1 2
x0(t) (X 0 X) x(t) = 12t 12t 12t
T3 − T2 − T3 + T +
4 6
T2 + T3
2

−1 12T 2 12T 12T 4


maxx0(i) (X 0 X) x(i) = T3 − T2 − + T62 + T23 ∼ − T122 −→ 0.
T3 + T
i≤T
à !
µ T2 T ¶
T (T +1)(2T +1) T (T +1)
0
Mais XTX = 6
T (T +1)
2 ∼ 3
T
2 ne tend pas vers une matrice finie
2 T 2 1
inversible : il y aura bien normalité asymptotique de l’estimateur MCO, mais pas à la vitesse T1 :
h√ ³ ´i µ 12 − 6 ¶ µ
0 0

b
V ar T β − β ∼ T 2 T −→
− T6 4 0 4
En particulier, le coefficient de t converge plus rapidement que la vitesse usuelle.
Lorsque une ou plusieurs des hypothèses du modèle ne sont pas vérifiées, l’estimateur MCO
peut être biaisé, ou même non convergent et les tests de validation du modèle ne sont plus appli-
cables. Nous examinerons en particulier le cas où les perturbations ont une matrice de variance-
covariance Σ 6= σ 2 IN (chapitre 2) et celui où les variables explicatives sont aléatoires (chapitre
3).

Anda mungkin juga menyukai