Anda di halaman 1dari 34

Liaison et dpendance entre deux variables quantitatives

Rgression linaire simple

Position du problme
X et Y sont deux grandeurs statistiques observes
ex: en macro-conomie
PIB, Revenu des mnages, Importations
en micro-conomie
Revenu d un mnage, bnfices d une entreprise...
en mdecine ou autres sujets
taille d un individu, poids...
Hypothse de base : X et Y sont des grandeurs continues,
thoriquement dfinies dans IR. Dans la ralit on se contente
du fait que la diffrence entre deux valeurs de X (resp. Y) ait
un sens (par ex. l ge d une personne n est pas dfinie dans IR,
les valeurs sont discrtes, en revanche la diffrence d ge
entre deux personnes a un sens)

Dans l tude de la dpendance entre X et Y, on se pose trois


questions fondamentales :

 X et Y sont-ils lis, comment mesurer cette liaison ?


 Trouver une fonction qui permet de dterminer Y partir de X
 Estimer les paramtres de cette fonction ?
RAKOTOMALALA Ricco
Cours Analyse de Donnes, HEC Lausanne

Etude de la corrlation

Position du problme
Evaluer la liaison entre X et Y, i.e rpondre la question X et Y ontils une volution commune ?

1) Etude graphique
Y

(a)

(b)

(c)

(d)

Plusieurs points de vue :


en terme d volution - quand X augmente, Y augmente (diminue) ?
en terme de niveaux - quand X est faible (fort), Y est faible (fort) ?




Comment quantifier ces valuations graphiques ?

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

2) Etude numrique : le coefficient de corrlation


Objectif : Quantifier la liaison entre X et Y de manire mettre en
vidence
le sens de la liaison;
la force de la liaison.




Le coefficient de corrlation
r=

cov( X , Y )

.
X

(x x )( y
i

(x

x)

y)

(y

y)

Tableau de donnes
i

Y
2.5
4.5
3.5
6.5
4.6

3.5
5.5
4.5
7.8
8.5

i est le numro d observation


si i est une date, on parle de donnes temporelles
ou encore longitudinales
si i reprsente un individu statistique (un mnage, une
voiture), on parle de donnes transversales ou
encore de coupe instantane
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Interprtation : sens de
la corrlation

Interprtation : force de
la corrlation

| r |# 1, corrlation forte
r>0, corrlation positive

| r |# 0, corrlation faible
r<0, corrlation ngative

r=0, absence de corrlation

3) Evaluation statistique : test d hypothses


Problme :
on travaille souvent sur un chantillon (de taille limite)
issu de la population
on veut infrer les rsultats obtenus sur la population
originelle
ex: pour connatre les rsultats des lections (plusieurs
millions de votants en France), on pose la question un
chantillon de 1000 personnes choisis au hasard et on
en extrait une conclusion sur l ensemble des votants

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Principe du test statistique :


Concernant la population totale, une hypothse est formule, la
question qui se pose est : dans quelle mesure cette hypothse est
confirme / infirme par les donnes observes
ex: 50% des lecteurs voteront pour Duchemol , ceci est-il
confirm par les donnes observs ?




Attention :
on ne peut pas dcider avec certitude puisque l on
ne connat pas la population totale
mais le degr de confiance que l on accorde la
conclusion peut tre exprim en terme de probabilit

Hypothses tester :
On oppose gnralement une hypothse dite nulle (H0) avec une
hypothse dite alternative (H1), les risques associs la prise de
dcision sont les suivants :

Dcision fonde sur les donnes

Etat de la
nature (ralit)

H0 est vrai
H0 est faux
(H1 est vrai)

Dcider que
H0 est vrai
Dcision
correcte

Dcider que H0 est


faux
Risque de premire
espce ()

Risque de 2me Dcision correcte


espce ()

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Application au coefficient de corrlation :


On ne dispose pas directement de r mais de
chantillon. On veut tester

r qui est estim sur un

H0 : r = 0
H1 : r 0
Une rgle de dcision simple serait :

Accepter H 0 ssi r < r


Rejeter H 0 ssi r r
Le seuil critique du test (celle qui permet de dfinir la rgion
de rejet et la rgion d acceptation de l hypothse H0) est
dfini par :

= P( Rejeter H 0 / H 0 est vrai )


= P( r > r / r = 0)
Si l on connat la loi de distribution statistique P, on peut
calculer le seuil partir du risque de premire espce

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Dans la pratique : on ne connat pas la loi de


revanche la loi de distribution de

t=

1 r

, on connat en

Student ( n 2)

n2
Loi de distribution de t, une loi de Student (n-2)
degrs de libert; n est le nombre d observations
du tableau statistique.

Rgle de dcision

Accepter H 0 ( r = 0) ssi t < t


Rejeter H 0 ( r 0) ssi t t
Attention :
Les logiciels donnent rarement la valeur de t afin que l on
puisse le comparer avec t
Ils fournissent en gnral directement la valeur telle que

' = P ( Student ( n 2) t )
La rgle de dcision devient ainsi

Accepter

Rejeter

0)

0)

>
ssi

ssi

'

'

est connu sous le terme p-value ou significance


RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Choix de la spcification permettant de


dterminer Y partir de X

Position du problme
On cherche une fonction f telle que Y=f(X,)
Comment spcifier cette fonction f ?

1) Gnralits sur la dmarche conomtrique


THEORIE
Formalisation de la thorie
Modlisation
Confrontation du modle avec la ralit
Estimation conomtrique

Thorie valide

Thorie non valide

Re-spcifier les
donnes

Re-spcifier
le modle

Attention :
Seule la thorie (conomique,) doit nous guider pour la
spcification du modle, les donnes ne doivent servir qu
valider ou invalider les hypothses que l on met
Il est donc ncessaire de bien comprendre les hypothses
sous-jacentes chacune des fonctions proposes
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

2) Quelques modles de base


Modle

Formule

Propit
fondamentale

Linaire

Y = aX + b

la variationde Y est proportionnelle


la variation de X

Log-linaire
Exponentiel
Logarithmique

Y = B X

le taux de variation de Y est proportionnel


au taux de variation de X

de variation de Y est proportionnel


Y = e aX + b le latauxvariation
de X
Y est proportionnelle
Y = a ln(X ) + b laauvariationde
taux de variation de X

a) Proprits du modle linaire

dy
=a
dx

simplicit
peut tre appliqu directement dans un premier temps pour vrifier
l existence d une relation
estimation directe des paramtres par la mthode des moindres
carrs

b) Proprits du modle log-linaire

dy
y
=a
dx
x

favori des conomistes - modle lasticit constante


ex: emploi=f(production), demande=f(prix)
linarisation par ln(y)=a ln(x) + ln(b)
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

c) Proprits du modle exponentiel (gomtrique)

dy
y
=a
dx
surtout utilis quand x=temps (ainsi dx=1)
dans ce cas, la croissance (dcroissance) de y est constant dans le
temps
ex : volution du nombre de pages web dans le monde
ce type d volution ne dure pas longtemps
linarisation : ln(y) = a x + b

d) Proprits du modle logarithmique

dy
=a
dx
x
archtype de la croissance (dcroissance) qui s puise
ex : salaire = f(anciennet) ou vente=f(publicit)
linarisation : y = a ln(x) + b

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

3) Un modle particulier : le modle logistique


Problme :
Tous les modles dans (2) ont une concavit constante
(drive seconde de signe constant), on peut avoir besoin
d un modle plusieurs phases
ex : lancement d un produit dans le temps
Dcollage
produit inconnu
positionnement sur le
march

Equation

Linarisation

Croissance acclre
large diffusion

Freinage
saturation du march
concurrence

y y
y = ymin + max ax +min
1+ e b

ymax y
ln(
) = ax+b
y ymin
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Estimation des paramtres de la fonction spcifie


La rgression simple et multiple

Position du problme
On veut estimer les paramtres a et b de la fonction

y = a x+b
en utilisant les donnes issues de l chantillonage

Position du problme (2)


On se place dans un cadre plus gnral de l estimation de
l quation de rgression

y = a0 + a1 x1 + a2 x2 +

L+ a x
p

y est la variable prdire, dite endogne


x1xp sont les variables prdictives, dites exognes
Les estimations issues de l chantillon seront nots

a 0 , a1 ,

Ka

, p

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Notation matricielle et spcification statistique


On dispose de n observations, l criture du modle pour chaque
observations (i=1,,n) passe par une forme matricielle

y1 1

1
y = 1
i
1

yn 1

x11
xi1

xij

xn1

x1 p a0

a1
xip

xnp a p

Y = Xa
L estimation statistique passe par le rajout d un terme alatoire
qui tient un rle essentiel

Y = Xa +
Le terme alatoire cristallise toutes les insuffisances du
modle :
le modle n est quune caricature de la ralit, la
spcification n est pas toujours rigoureusement exacte
les erreurs de mesure sur les donnes
les fluctuations lies l chantillonage (si on change
d chantillon, on peut obtenir un rsultat diffrent)

quantifie les carts entre les valeurs rellement


observes et les valeurs prdites par le modle
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Mthode des moindres carrs


Valeur observe

Valeur fournie
par le modle

La mthode des moindres carrs cherche la meilleure estimation


des paramtres a en minimisant la quantit

SCR = e

avec e = Y Xa
i

e , l erreur observe est une valuation du terme rsiduel

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

1) Hypothses
L estimation des moindres carrs et son valuation ne prend
effet que si certaines hypothses sont respectes
Hypothses probabilistes
le modle est linaire en X
les X sont observs sans erreur
E() = 0, en moyenne le modle est bien spcifi
E(2)= 2 la variance de l erreur est constante (htroscdasticit)
E(i, j)=0, les erreurs sont non-corrls
Cov(,x)=0, l erreur est indpendante de la variable explicative
Normale(0, 2 )
Hypothses structurelles
Rang(X X)=p+1 cd (X X)-1 existe
(X X)/n tend vers une matrice finie non singulire
n>p+1, le nombre d observations est suprieur au nombre de
variables explicatives

2) Estimation des moindres carrs


L estimation des moindres carrs du vecteur a s crit

a = ( X ' X ) 1 X ' Y
3) Interprtation des coefficients

y = a0 + a1 x1 +

L+ a x +L+ a x
j

Toutes choses gales par ailleurs i.e toutes les autres variables sont constantes,
alors

y
=a
x
j

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

4) Evaluation globale du modle, tableau d analyse de


variance et coefficient de dtermination
La qualit de l estimation est traduite par l quation d analyse
de variance
Endogne observe Endogne estime

(y
i

y ) = ( y y ) + ( y y
2

SCT
Variabilit totale

SCE
Variabilit
explique par le
modle

SCR
Variabilit nonexplique
(Variabilit rsiduelle)

Les logiciels prsente trs souvent le tableau d analyse de


variance
Source de variation
Modle
Rsidus
Total

Somme des carrs


SCE
SCR
SCT

Degrs de libert Carrs moyens


p
SCE/p
n-p-1
SCR/(n-p-1)
n-1

Un indicateur synthtique issu du tableau d analyse de variance


permet d valuer globalement le modle construit : le coefficient
de dtermination

SCE
SCR
= 1
R =
SCT
SCT
2

R2#1, le modle est intressant


R2#0, le modle est mauvais
RAKOTOMALALA Ricco
Cours d Analyse de Donnes, HEC Lausanne

La qualit du modle tant value sur un chantillon, le R2


calcul est soumis une certaine variabilit.
Si on veut s assurer que le modle est intressant,
on procdera au test d hypothses

H0 : R2 = 0
H1 : R 2 > 0
2
Sachant que l on dispose du coefficient R estim sur l chantillon.

Pour ce faire, on a besoin du risque critique et de la loi de distribution


du coefficient calcul. Comme pour le coefficient de corrlation, il est
ncessaire de passer par un indicateur intermdiaire

F=

R2
(1

(n

On obtient la p-value par

Fischer( p, n p 1)

p 1)

Loi de distribution de Fischer,


p et n-p-1 degrs de libert

' = P ( Fischer ( p, n p 1) > F )

Pour un risque , la rgle de dcision devient


Accepter H0 ssi >
Rejeter H0 ssi <

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

5) Evaluation individuelle des coefficients de rgression


On cherche savoir si la variable Xj a une influence significative
sur Y ?
Test d hypothses

H 0 : a = 0

H1 : a 0
j

en utilisant les estimations

A cet effet, on a besoin de connatre la variance de


ces estimations.

( X ' X )1

a0

a1

a p

Variance estime de l erreur

2
i

n p 1

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

L indicateur que l on utilisera pour le test est

a j
t=
Student (n p 1)
a
j

La p-value est obtenue avec

' = P ( Student (n p 1) > t )

Pour un risque , la rgle de dcision est


Accepter H0 ssi >
Rejeter H0 ssi <

6) Estimation par intervalle des coefficients de rgression

sont entachs de variabilit: si on change d chantillon,


l estimation pourrait tre lgrement diffrente

Peut- on produire un intervalle qui, avec une certaine


probabilit , va contenir la vraie valeur de a j ?

On sait que

a j a j
Student (n p 1)
a
j

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Pour une probabilit , on peut dfinir les bornes


de variation de la loi de Student t /2

a j a j
t / 2
+t / 2
a
j

L intervalle de variation du coefficient estim s crit alors

a j t a a j a j + t a
/2

/2

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Un exemple simple
Effet de l engrais sur le rendement en mas
Rendement
(quintal)
16
18
23
24
28
29
26
31
32
34

Engrais
(kilo)
20
24
28
22
32
28
32
36
41
41

Rendement

R 2 =
F =

0 . 99

862 . 509 (

p value =

0 . 000 )

= 0 . 851 Engrais
a = 0 .029

t=

29 . 36 ( p

Pour un risque d erreur =0.05, les bornes


de variation de la loi de Student t /2 = 2.262

value =

0 .000 )

0.785 a 0.916

Avec un risque d erreur de 5% : on peut dire que dans le


pire des cas, une injection supplmentaire de 1 kilo d engrais,
fera augmenter la production de 0.785 quintaux
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

7) Comparaison et Slection de modles


Position du problme
On ne dispose pas de thorie prcise pour guider la spcification,
de fait on est face des modles concurrents avec 2 difficults :
ils n ont pas le mme nombre de variables
ils n utilisent pas les mmes variables




A) Comparaison de deux modles


Intuitivement, le R2 indiquant la qualit globale du modle, on
prfrera le modle qui a le plus fort R2
NON ! Le R2 est un indicateur inappropri ici car il augmente de
manire mcanique avec le nombre de variable

Y x1 , x2

<R

Y x1 , x2 , x3
Mme si x3 est une variable qui
n apporte aucune information

R2 corrig des degrs de libert

R 2 = 1

n 1
2
(1 R )
n p 1
Les modles qui introduisent beaucoup de
variables seront pnaliss

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

B) Mthodes de slection automatique des modles




Principe : chercher
les variables les plus corrles avec l endogne
les moins corrles entre elles

C est notre objectif


de dpart

Eviter la redondance de l information, du fait de la colinarit des variables


peuvent tre jects tort par d autres, et les coefficients estims sont
gnralement trs instables

Nous sommes dans le cadre de la statistique exploratoire ici,


l interprtation des rsultats peut tre trs difficile, voire
impossible. En revanche, pour des fins de prvision, ces
techniques peuvent tre trs utiles.

Quelques techniques :

 tester toutes les rgressions possibles et choisir celui qui a le


meilleur R corrig avec tous les coefficients significatifs
 limination progressive (backward elimination) : dmarrer avec
2

toutes les variables et liminer un un les variables dont les


coefficients ne sont pas significatifs
slection progressive (forward regression) : prendre la variable la
plus corrle avec Y, puis prendre la 2me variable la plus corrle
avec Y en liminant l influence des variables dj introduites (cf.
Notion de corrlation partielle). On s arrte quand le t de Student
d une variable introduite est non significatif.
stepwise regression : combinaison de forward et backward




RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Problmes pratiques lis l utilisation


du modle linaire gnral

1) La prvision
On dispose du modle :

xh1 ,

et de l observation numro h
sur chacune des variables exognes
La valeur prdite sera :

L+ a x
x K x
+L+ a x

y = a0 + a1 x1 +

y h = a0 + a1 xh1

p p

h2 ,

hp

p hp

Prvision ponctuelle

L erreur de prvision :

eh = yh y h

Intervalle de prvision
La prvision est entache d erreur, il est plus intressant de
produire un intervalle de prvision sur laquelle nous contrlons
la probabilit d erreur

La variance estime de l erreur de prvision s crit :

e 2 = 2 X 'h ( X ' X )1 X h + 1
h

avec

x h1
M

x hp

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Sachant que :

eh
Student (n p 1)
eh

L intervalle de prvision au niveau de confiance (1-)


(au risque ) s crit :

yh = y h t [X 'h ( X ' X ) X h + 1] 2
1

L intervalle de prvision
sera d autant plus large

On prend un risque
trs faible

La variance rsiduelle
est forte (standard error
of estimate)

2) Autocorrlation des rsidus


(surtout pour les modles temporelles)

Une des hypothses probabilistes est viole

E ( , ) 0
t

t'

Causes probables :
une variable explicative manque
le modle est mal spcifi
les donnes ont t travailles au pralable





RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Dtection graphique

Autocorrlation
positive

Autocorrlation
ngative

Test statistique : test de Durbin-Watson


Permet de tester l autocorrlation d ordre 1, de la
forme

= 1 +
t

avec

H 0 : = 0
Le test porte sur
H1 : 0

Normale(0,

L indicateur
utilis est

DW =

2
e
e
(

)
t t 1
t =2

i =1

et

On ne dispose pas de p-value ici, il faut comparer le DW calcul


avec les seuils d1 et d2 fournis par la table de Durbin et Watson

d1
>0

d2
?

4-d2

=0

4-d1
?

<0

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Estimation
L estimation s effectue sur l quation en diffrences :

yt yt = a
1

1 ( xt ,1 xt 1,1 ) +
(1 ) + a

L+ a

p ( xt , p

xt

1,

p)

estimation conjointe des j et de


Cochrane-Orcutt (mthode d itrations successives)
Hildreth-Lu (mthode de balayage)

Prvision en prsence d autocorrlation

Il faut utiliser l quation en diffrences

Ex : prvoir la priode t+1

yt + = yt + a
1

1( xt +1,1 xt ,1) + . + a
p ( xt +1, p
(1 ) + a

xt p )
,

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

3) La multicolinarit
Problme
On parle de multicolinarit quand le coefficient de
corrlation entre deux variables exognes est proche de 1

rx

xj

#1

Ou de manire gnrale lorsque l on peut dduire


linairement une variable des autres

x #c x
j

Il y a des variables redondantes parmi les exognes

Consquences
Rappelons que

a
(
X
'
X
)
X 'Y
=

2
1

X
X

(
'
)

Si multicolinarit parfaite (les # sont des = )


det(X X)=0, les coefficients sont indetermins, de mme
que la variance

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

Si multicolinarit i.e det(X X)#0


les coefficients sont extrmement instables, une modification
faible dans les donnes entrane une forte modification de
l estimation (en particulier, un changement d chantillon peut
modifier du tout au tout les rsultats)
la variance est trs grande, et les t de Student calculs sont
sous_estims, laissant croire que les variables incrimines ne sont
pas significatives




Dtection simple : rgle de KLEIN

 on calcule le R dans l quation de rgression


 on calcule les coefficients de corrlation carrs entre
2

chaque variable

on considre que deux variables sont redondantes ssi

R <r
2

xi , x j

Solutions

 supprimer les variables redondantes en respcifiant le modle


 utiliser des artifices numriques, par ex. la rgression Ridge
qui consiste ajouter une constante la diagonale de la matrice
X X de manire la rendre inversible

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

4) Utilisation des variables indicatrices




Une variable indicatrice est une variable qui


prend ses valeurs dans l ensemble {0,1}
sert indiquer la survenance d un vnement ou de
l appartenance un groupe

A) Traitement des donnes aberrantes (atypiques)


La droite de rgression est aspire par le
point atypique

Causes probables :
erreur de mesure ou de saisie
vnement exceptionnel
l observation n appartient pas la population tudie





Dtection : graphique des rsidus


ei

Comment spcifier ces


bornes

Le point se dmarque dans le


graphique des rsidus
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

On sait par hypothse que

Normale(0, 2 )
Estim l aide de

Rgle des 3 sigmas : 99,9% des observations sont situs


3 de part et d autre de la moyenne

Traitement : utilisation d une variable indicatrice, dite variable


muette (dummy variable)

X
5
6
6.5
5.2
14.5
3

d
3
1
2.5
2
3.5
1.5

0
0
0
0
1
0

Afin de supprimer l effet


levier d l observation
atypique

y = a0 + a1 x + a2 d
Indique le dcalage
par rapport au modle

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

B) Rgression sur variables qualitatives


Dans le modle linaire gnral, jusquici tous les xj taient quantitatifs
Comment faire pour introduire des variables qualitatives
(ex: sexe {homme, femme}, statut marital {mari,
clibataire, veuf}

Traitement : codage disjonctif complet des variables qualitatives


Sexe
{Homme,Femme}
Sexe_Homme
{0,1}

Sexe_Femme
{0,1}

Attention, danger de colinarit :


Sexe_Homme+Sexe_Femme = 1

 colinarit avec le terme constant de la rgression


Solution : omettre une des modalits des variables
(attention par la suite dans l interprtation des rsultats)

sexe
Sexe_Homme
{0,1}

Sexe_Homme = 1 => Homme


Sexe_Homme = 0 => Femme

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

C) Analyse de la saisonnalit
(cadre des observations temporelles)
Certaines grandeurs conomiques (ventes, affluence,
trafic ferroviaire) sont influencs par les phnomnes
saisonniers

Comment introduire cette information dans les modles

Utilisation des variables indicatrices, une pour chaque


saison

Ex : donnes trimestrielles
4 variables indicatrices (T1,T2,T3,T4)

cause de la colinarit, on n en introduit que 3 dans la


rgression

ventes = a0 + a1 pub + a2T1 + a3T2 + a4T3

Indique le dcalage moyen


par rapport au 4me trimestre

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse

D) Comparaisons de moyennes
(introduction l analyse de variance)
Y a-t-il des facteurs de variations systmatiques pesant
sur une variable d intrt

On constitue des groupes, un pour chaque occurrence


du facteur contrl, et on compare par la suite les
moyennes respectives de la variable d intrt

Ex : poids des personnes x sexe


Variable indicatrice

poids = a0 + a1 sexe _ homme

Poids moyen chez


les femmes

Dcalage moyen du poids


de l homme par rapport celui
de la femme

RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse