Anda di halaman 1dari 25

Fiche 1 Estimation ponctuelle d'une moyenne et d'un carttype, Intervalle de confiance

On dispose en gnral d'un chantillon X 1 , ... , X n prlev dans une population pour laquelle la
variable d'intrt quantitative X a pour esprance (moyenne thorique) et variance 2
inconnues.

Rgle pour l'estimation ponctuelle : Soit une variable d'intrt X mesure sur un
chantillon de n individus,
1
n

Xi

la moyenne est estime par l'estimateur X =

1
la variance 2 est estime par l'estimateur s 2X =
( X X )2
n 1 i = 1 i

i= 1

D'une ralisation l'autre, les estimations ponctuelles vont varies d'autant plus que le nombre
d'observations n est faible. Pour affiner l'estimation de ces paramtres, on dtermine alors un
intervalle de confiance dans lequel les valeurs relles ou 2 ont une probabilit dtermine
l'avance de se trouver.
Cet intervalle de confiance, not IC, permet ainsi de prendre en compte la variabilit de l'estimation
ponctuelle.

Proprits de l'estimateur X

cas 1 : n 30 et la variable X suit une loi normale (fiche #Normalit)

Si 2 est connue, alors Z n = n

X
suit la loi normale centre rduite

Si 2 est inconnue, alors T n = n

X
suit la loi de Student n 1 degrs de
sX

libert.

Cas 2 : Pour n 30 (application du thorme limite central)


X
T n= n

approche la loi normale centre rduite


sX

Proprit de l'estimateur s 2X dans le cas o la variable X suit une loi normale

n 1 s 2 X
suit la loi du 2 n-1 ddl.
2

Construction d'un intervalle de confiance pour la moyenne:

X
soit compris entre t /2 et t1- /2
sX
t1- /2 est le quantile de la loi normale ou de la loi de student T n-1 ddl pour laquelle P(T<t1- /2 )=1/2 donc
On recherche toutes les valeurs de pour lesquelles T n =

P (t /2 < T < t1- /2)=1-


(par symtrie t /2 =- t1- /2 ).

On a alors lintervalle de confiance 1- pour :

X -t1-/2

sX

< < X +t1-/2

sX

Pour = 5%, ce rsultat signifie que "la vraie moyenne, ", de la population a une probabilit de
95% dtre dans cet intervalle. On notera par commodit cet intervalle de confiance IC 95 .

Construction d'un intervalle de confiance pour la variance :


On recherche toutes les valeurs possibles de 2 pour lesquelles
2
2

, n 1

et

2
1

, n 1
2

n 1 s 2 X
soit compris entre
2

(ici il n'y a pas symtrie des quantiles).

n 1 s 2 X 2

< , n 1) =
donc
, n 1 est le quantile dans la table pour laquelle P(
2
2
2
2

On a alors lintervalle de confiance 1- pour 2 :

n 1 s 2 X /

Exemple :

2
1

, n1
2

< 2 < n 1 s 2 X /

, n 1
2

Reprendre l'exercice 1 du TD 1 et en dduire un intervalle 95% de la moyenne et de s X . On


trouvera les quantiles de la loi de Student et de la loi du Chi-2 l'aide des commandes suivantes :
> qchisq(0.975,39)
[1] 58.12006
> qchisq(0.025,39)
[1] 23.65432
> qt(0.975,39)
[1] 2.022691

On peut retrouver ces rsultats l'aide de la commande t.test qui propose un test de Student univari
sur la moyenne ainsi qu'un intervalle de confiance pour la moyenne.
> t.test(poids)
One Sample t-test
data: poids
t = 27.3169, df = 39, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
99.7716 115.7284
sample estimates:
mean of x
107.75
sample estimates:
mean of x
177

Construction d'un intervalle de confiance d'une proportion


Si une population contient une proportion f dindividus possdant un caractre donn, l'estimateur
de ce paramtre est la frquence du caractre dans l'chantillon, not f .
Proprit de f pour n >100 et 0,1< f <0,9
f approche la loi normale N(f, f 1 f )
n
Dans les autres cas, n<100 ou f < 0,1, il faut utiliser un modle exact (binom.test dans R).
Proprit : Pour un chantillon tel que n >100 et n f >10 et n(1- f )>10 :
Lintervalle de confiance 1- dune proportion est :
] f - u1- /2

f 1n f ; f

+ u1- /2

f 1n f [

o u1-a /2 reprsente le quantile de la loi normale centre rduite. Pour =5%, u1-a /2=1,96.

Fiche 2 Test de comparaison d'une moyenne une valeur


rfrence
Objectif : L'objectif est de comparer une moyenne une valeur de rfrence. On qualifie un tel
test de test de conformit.

Donnes : On dispose d'une variable quantitative X mesure sur n individus.


Hypothse nulle H 0 : = 0
Conditions dutilisation:
-

Un chantillon de n individus indpendants


La variable suit une loi normale ou n >30.

Principe du test :
Pour une population de moyenne et variance inconnue, nous avons dj vu que si les conditions
sont respectes :
X 0
T n= n
suit sous H 0 une loi de Student n-1 ddl.
sX

Test bilatral: On teste H 0 : = 0 contre H 1 : 0

si , T n< t 1 / 2 ( n 1 ) on accepte H 0
sinon on rejette H 0 avec un risque de premire espce .

Test unilatral: H 0 >0 contre H 1 0

si T n > t ( n 1 ) , on accepte H 0

sinon on rejette H 0 avec un risque de premire espce .

Exemple : Reprendre l'Exercice 1 du TD2 et raliser le test grce la commande t.test.


Tester si une frquence est conforme une frquence attendue.
cas favorables
, estimateur
total
de f, appartient une population de rfrence connue de frquence f 0 ( H 0 vraie) ou une autre
population inconnue de frquence f f 0 (H vraie).
Le but est de savoir si un chantillon de frquence observe f obs =

Principe du test :

( f obs f 0 )
On calcule la statistique U= f o ( 1 f 0 ) qui suit sous H 0 la loi normale centre rduite.
n
On calcule alors la probabilit p -value d'observer une valeur suprieure ou gale sous H 0 (en
valeur absolue).

Conditions d'utilisation :

Le test est applicable si n f 0 10 et n(1- f 0 ) 10 (approximation par la loi normale).


Si cette condition n'est pas vrifie, on utilise un test exact (binom.test).
Les individus sont indpendants.

Test : On teste H 0 f = f 0 contre H f f 0 .

Si U< N 1 / 2 on accepte H 0 (o N p est le quantile d'ordre p de la loi normale centre


rduite).
Sinon, on rejette H 0 avec un risque de premire espce p .

Exemple 1
Reprendre l'exercice 2 du TD2 et conclure quant la toxicit de la solution injecte au risque 5%.
Utiliser la commande prop.test et comparer avec la commande binom.test

Exemple 2: On observe le sexe de 10 bbs : M F M M F F F F M F. Cette rpartition est-elle


conforme avec l'hypothse de rpartition quilibre des deux sexes.

Fiche 3 Comparaison de deux variances : Test F


Objectif : L'hypothse d'galit des variances est indispensable pour tester l'galit de deux
moyennes avec le test t (#t - test). On souhaite donc tester l'galit des variances de deux
populations

Donnes : On dispose d'une variable quantitative X 1 de variance 21 mesure sur n1 individus


d'une population 1 et d'une variable quantitative X 2 de variance 22 mesure sur n2 individus d'une
population 2.

Hypothse nulle H 0 : Les variances sont gales 1 = 2


Conditions dutilisation:
-

Deux populations de moyennes et variances inconnues.


Deux chantillons de n1 et n2 individus indpendants,
Les variables suivent des lois normales ou chacun des effectifs est suprieur 30
s 21

Le quotient

s 22

suit sous H 0 la loi de Fisher-Snedecor n1-1 et n2-1 ddl

Test : On teste lhypothse H 0 ( 1 = 2 ) contre H 1 ( 1 2 )

s 21
si F (n1-1,n2-1)< 2 < F 1 (n1-1,n2-1), on accepte H 0
2
2
s2
sinon on rejette H 0 avec un risque de premire espce gal .

Exemple :
Rcuprer le fichier poulpe.csv qui contient le poids de poulpes mles et femelles. Pour cela, on
utilise la commande read.table.
> poulpe<-read.table("poulpe.csv",sep=";",header=T)
>summary(poulpe)
> boxplot(Poids~Sexe,data=poulpe)
On veut tester l'galit des variances dans ces deux populations. Qu'en pensez-vous ? Utiliser la
commande var.test pour tester l'galit des variances dans ces deux populations :
> var.test(Poids~Sexe,conf.level=0.95,data=poulpe)

Fiche 4 : Test de comparaison de deux moyennes : t test


Objectif : Comparer les moyennes obtenues dans deux populations.
Donnes : On dispose d'une variable quantitative X 1 d'esprance 1 mesure sur n1 individus
d'une population 1 et d'une variable quantitative X 2 d'esprance 2 mesure sur n2 individus d'une
population 2.

Hypothse nulle H 0 : 1 = 2
Conditions dutilisation:

Deux chantillons de n1 et n2 individus indpendants.


La variable suit une loi normale dans chaque population ou n1 et n2 >30 : fiche
Normalit
La variable a la mme variance dans les deux populations : fiche Test F

Principe du test :
La variable d= x 1 x 2 a pour variance estime s 2d =

Si les conditions sont respectes, la statistique T n =

n1 1 s 21 n2 1 s 22
n 1 n2 2

1
1

.
n1 n2

x1 x2
suit sous H 0 une loi de Student
sd

n1 n 2 2 ddl.

Test bilatral: On teste H 0 : 1 = 2 contre H 1 : 1 2

si T n < t 1 ( n1 n 2 2 ) , on accepte H 0

sinon on rejette H 0 avec un risque de premire espce .

Test unilatral: On teste H 0 : 1 > 2 contre H 1 : 1 2

si T n < t ( n1 n 2 2 ), on accepte H 0

sinon on rejette H 0 avec un risque de premire espce .

Exemple :
Reprendre le fichier poulpe.csv . Tester l'galit des moyennes l'aide de la fonction t.test :
> t.test(Poids~Sexe,conf.level=0.95,var.equal=TRUE,data=poulpe)
Peut-on considrer les variances gales ? Faire le test dans les deux cas en utilisant les options de la
fonction t.test.

Fiche 5 Test de conformit une distribution : test du 2


d'adquation
Objectif : On considre une variable X prenant k modalits, k > 2.
L'objectif du test est de vrifier que les modalits se distribuent suivant des probabilits attendues.
On utilise un tel test en gntique par exemple pour vrifier :
1 2 1
, , pour F2)
4 4 4

les lois de Mendel, (rpartition

le modle de Hardy Weinberg. (rpartition p12 , 2 p 1 p2 , p22 ) .

Donnes : Les donnes sont regroupes dans un tableau de contingence de la forme :


Variable qualitative
effectif

Modalit 1
n

Modalit 2

1
obs

2
obs

....
....

Conditions d'application : Les effectifs thoriques doivent tre suprieurs 5 ( nith eor 5).
Dans le cas contraire, on peut regrouper les classes les plus faibles, utiliser un test du 2 corrig,
utiliser le test exact de Fisher...

Hypothse nulle : H 0 Les frquences observes sont conformes aux probabilits attendues .
Principe du test :

Le principe du test du 2 est destimer partir dune loi de probabilit connue (ou estime partir
de l'chantillon), les effectifs thoriques pour les diffrentes modalits du caractre tudi et les
comparer aux effectifs observs dans un chantillon. Deux cas peuvent se prsenter :
soit la loi de probabilit est spcifie a priori car elle rsulte par exemple dun modle
dterministe tel que la distribution mendlienne des caractres.
soit la loi de probabilit thorique nest pas connue a priori et elle est dduite des
caractristiques statistiques mesures sur lchantillon (estimation de p1 et p2 dans le cas
du modle de Hardy Weinberg).
Le test du 2 consiste mesurer lcart qui existe entre la distribution thorique et la distribution
observe et tester si cet cart est suffisamment faible pour tre imputable aux fluctuations
dchantillonnage.

On calcule

les effectifs thoriques n1th eor , n2th eor ... attendus sous l'hypothse o la

distribution est conforme celle attendue.

2 =

On calcule ensuite la statistique :

i =1

niobs nith eor 2


n ith eor

2 suit sous H 0 la loi du 2 degrs de libert. On rejette alors H 0 dans le cas o 2


dpasse la valeur seuil 21 (v).

Le nombre de ddl

est k c ,

k reprsente le nombre de modalits et c celui des

contraintes.

Si la distribution thorique est entirement connue a priori (lois mendeliennes), la


seule contrainte est que la somme des probabilits vaut 1, donc = k 1 .

Sinon, il faut estimer des probabilits sur l'chantillon et augmenter d'autant les
contraintes. Par exemple avec le modle de Hardy Weinberg, la somme des
probabilits vaut 1 et il faut estimer p1 , soit c =2, donc = k 2 .

Test : On teste lhypothse H 0 (conforme la distribution attendue)


-si 2 < 21 (v), on accepte H 0
-sinon on rejette H 0 avec un risque de premire espce ,

Exemple :

Reprendre l'exercice 4 du TD2 et calculer la main la valeur de 2 dans ce cas. Comparer-le au


quantile 21 4 1 et conclure pour un test 5%. Raliser le test sous R avec la commande
chisq.test.

Fiche 6 Test du Chi2 d'indpendance


Objectif : Le test du est largement utilis pour l'tude de l'indpendance entre deux caractres
2

qualitatifs. La prsentation des rsultats se fait sous forme d'un tableau de contingence deux
entres. Chaque entre reprsente les modalits d'une des variables. On dtermine alors le tableau
attendu sous l'hypothse d'indpendance.

Donnes : Deux variables qualitatives sont mesures sur n individus puis prsentes sous forme
d'un tableau de contingence (tableau deux entres) :
Par exemple :
c
a
n
c
e
r

prsence

tabac
absence

total

prsence
absence
total

Hypothse nulle H 0 : Les deux caractres sont indpendants


Conditions dutilisation:
L' effectif thorique calcul sous l'hypothse H 0 doit tre suprieur 5.

Principe du test : On calcule les effectifs thoriques sous l'hypothse H 0 . Les effectifs
marginaux (totaux la marge en ligne ou en colonne) et frquences marginales du tableau restent
inchangs.
nijth eor =

niobs nobsj
n
avec

On calcule alors la statistique :

nijtheor l'effectif thorique,


niobs et nobsj les effectifs marginaux ligne et colonne,
n l'effectif total.

2 =

ij

nijobs nijth eor 2


nijth eor

Sous H 0 , cette statistique suit la loi du 2 v= (l-1)(c-1) ddl avec l le nombre de lignes et c le
nombre de colonnes.

Test : On teste lhypothse H 0 indpendance des deux caractres contre H 1 dpendance entre
les deux caractres :
-si 2 < 21 (v), on accepte H 0
-sinon on rejette H 0 avec un risque de premire espce .

Exemple :

Reprendre l'exercice 5 du TD2 et calculer la main les valeurs de 2 dans chaque cas. Comparer-le
au quantile 21 et conclure pour un test 5%.
On peut aussi raliser le test sous R. Pour cela, on pourra utiliser les commandes suivantes, qui
permettent de visionner les donnes et de raliser le test :
>tab<-matrix(c(10,29,75,27),ncol=2)
>rownames(tab)<-c("infection","pas d'infection")
>colnames(tab)<-c("antibio","placebo")
>par(mfrow=c(2,1))
>barplot(tab[1,],main="infection")
barplot(tab[2,],main="pas d'infection")
>resultat<-chisq.test(tab)
>resultat$res

Fiche 7 Comparaison de deux moyennes apparies : t-test


appari
Objectif : Comparer les moyennes obtenues dans le cas o les observations sont apparies (avantaprs sur un mme individu, mesure par deux mthodes).
Chaque individu est dcrit par un couple de variables X 1 , X 2 .

Donnes : On dispose de deux variables quantitatives X 1 et X 2 mesures sur n individus d'une


population.

ind 1
ind 2

X1
x11
x12

X2
x 21
x 22

Hypothse nulle H 0 : 1 = 2
Conditions dutilisation:

Les individus sont indpendants.


Les variables X 1 et X 2 suivent une loi normale ou n >30
Les variables ont la mme variance

Principe du test :

On construit une nouvelle variable Z = X 2 X 1 .


Si les conditions sont respectes, la variable

Tn =

Z
suit sous H 0 une loi de Student n-1
sz

ddl.

Test bilatral: On teste H 0 : 1 = 2 contre H 1 : 1 2

si T n < t 1 , on accepte H 0

sinon on rejette H 0 avec un risque de premire espce gal .

Exemple
Reprendre l'exercice 6 du TD2 et comparer les moyennes avant et aprs traitement grce la
fonction t.test et la commande suivante :
>t.test(valeur$avant,valeur$apres,alternative='twosided',conf.level=0.95,paired=TRUE)

Fiche 8 Normalit d'une distribution


Objectif : La majorit des tests paramtriques s'appuie sur l'hypothse de normalit de la variable
tudie X . Lorsque le nombre d'observations est suffisamment grand, le thorme limite central
permet d'approcher la moyenne empirique par une loi normale.
Cependant, lorsque le nombre d'observations n'est pas suffisant, il existe plusieurs mthodes de
vrification. Elles ne sont pas entirement satisfaisantes (faible puissance) notamment du fait des
faibles effectifs souvent tudis.
On est donc conduit croiser plusieurs approches, graphiques et tests, pour valuer cette hypothse.

Exemple 1 : Reprendre l'exemple des poulpes mles et femelles. Discuter.


I) Reprsentations graphiques :
1. Symtrie de la distribution
On ralise ici une bote moustache (ou boxplot) de nos observations l'aide de la comande
boxplot. Ce graphique nous indique la position de la mdiane dans l'intervalle inter-quartile,
ainsi que la distribution des points extrmaux. Un boxplot asymtrique permet d'infirmer
l'hypothse de normalit des donnes.
2. Symtrie et unimodalit de la distribution
Pour plus de prcisions, on ralise ici un histogramme. L'existence de deux pics ou une
forte dissymtrie est un bon indice d'une non normalit.
3. Droite de Henry
La droite de Henry reprsente les quantiles ( xi ) de la loi empirique en fonction des quantiles
de la loi normale centre rduite ( t i ). Si la loi empirique suit une loi normale, les points sont
aligns ( xi = t i + ).
La fonction permettant cette reprsentation graphique est qqnorm.

II) Tests statistiques :


Il existe diffrents tests pour tudier la normalit : Test de Jarque Bera , Test d'adquation du 2 ,
test de Lilliefor (> library(nortest) > lillie.test(X)), test de shapiro Wilks. La
multitude des tests indique qu'aucun n'est entirement satisfaisant. Nous nous limiterons au dernier
parmi les plus utiliss.

Test de Shapiro & Wilks :

On retiendra que le test de Shapiro et Wilks porte sur la corrlation au carr quon voit sur un
qqplot. La corrlation est toujours trs forte, la question est toujours lest-elle assez ? La
probabilit critique est la probabilit pour que la statistique soit infrieure ou gale lobservation.

Exemple 1 -suite- : Reprendre l'exemple poulpe avec la variable Poids. Effectuer le test de
Shapiro. Le rsultat est le suivant :

> shapiro.test(data$Poids)
Shapiro-Wilk normality test
data: data$Poids
W = 0.933, p-value = 0.0733
Le test n'est pas correct ici car cette variable dpend du sexe. Il faut donc tester la normalit pour
chaque sous-population, sinon on ralise le test sur un mlange de deux distributions.
On teste la normalit pour chacune des populations l'aide des commandes suivantes :
> data=read.table("poulpe.csv",header=T,sep=";")
> x=data$Poids[data$Sexe=="Femelle"]
> y=data$Poids[data$Sexe=="M\xe2le"]
> shapiro.test(y)
Shapiro-Wilk normality test
data: y
W = 0.935, p-value = 0.3238
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.9711, p-value = 0.907
On remarque ici que les deux tests ont des p-valeurs suprieures 5%. Peut-on conclure la
normalit des observations ? Aidez -vous des reprsentations graphiques.

Fiche 9 Test du coefficient de corrlation


Soient (X,Y) un couple de variables quantitatives. La description de la liaison entre les deux
variables se fait pralablement par un examen du nuage de points (xi,yi), i=1, ... n.
Si le nuage de points dcrit une relation linaire entre les deux variables, on peut calculer comme
indicateur de la liaison linaire entre les deux variables, le coefficient de corrlation de Pearson :
r=

( ( xi x ) ( yi y ) )
x y

Si la relation entre les variables n'est pas linaire, il est possible d'utiliser un autre coefficient de
corrlation (par exemple le coefficient de corrlation de Spearman bas sur les rangs des
observations).

Donnes : Un couple de variables quantitatives :


X
x1
x2

Y
y1
y2

Objectif : On veut tester si la liaison linaire entre les variables est significative, c'est--dire si le
coefficient de corrlation peut tre considr comme significativement non nul.

Conditions d'application : Elles reposent sur la normalit de chacune des variables X et Y.


Hypothse nulle : H0 "le coefficient de corrlation de Pearson est nul" ou "Les variables X et Y
ne sont pas corrles linairement".

Principe du test : Sous H 0 , la statistique r suit une loi tabule n-2 ddl. On construit alors une
zone d'acceptation centre sur 0.

Test : On teste H 0 r= 0 contre H r 0 .

Si p >0,05, on accepte H 0 .
Si p <0,05, on rejette H 0 avec un risque de premire espce p.

Exemple : Sur un chantillon de 10 sujets dges diffrents, on a recueilli l'ge et la


concentration sanguine du cholestrol (en g/L) de 10 individus :
age (xi)
30
60
40
20
50
30
40
gl (yi)
1.6
2.5
2.2
1.4
2.7
1.8
2.1

20
1.5

70
2.8

60
2.6

Ci-dessous les commandes R pour effectuer le test. Commenter la sortie graphique du logiciel et la
rponse au test de corrlation. On pourra investiguer les autres mthodes (Spearman, Kendall), en
changeant l'argument method dans la fonction cor.test,
> age<-c(30,60,40,20,50,30,40,20,70,60)
> chol<-c(1.6,2.5,2.2,1.4,2.7,1.8,2.1,1.5,2.8,2.6)

> plot(chol,age)
> cor.test(age,chol,method="pearson")
Pearson's product-moment correlation
data: age and chol
t = 9.0714, df = 8, p-value = 1.748e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8148247 0.9895142
sample estimates:
cor
0.9546712

Fiche 10 Rgression linaire simple


I. Introduction

La rgression linaire simple s'applique un ensemble d'observations ( x 1 , y 1 ), ( x 2 , y 2 ), ... , ( x n , y n )


de couples de variables quantitatives. L'analyse peut se limiter l'analyse des liaisons entre
variables (corrlation linaire ou non-linaire), mais on recherche souvent expliquer une des
variables en fonction de l'autre.
On distingue alors la variable expliquer Y (rponse) et les variables explicatives X i . Les
variables explicatives peuvent tre fixes par l'exprimentateur ou alatoires. Dans tous les cas :

la variable explicative X i est considre comme fixe (ce n'est pas une variable alatoire).

la variable rponse Y est considre comme une variable alatoire (loi normale le plus
souvent).

le rle des variables n'est donc pas symtrique et le choix de Y est le plus souvent naturel.
L'objectif de la rgression est de dterminer, si elle existe, une relation fonctionnelle entre la
variable expliquer Y et une ou plusieurs variables explicatives X1, X2

Donnes :
individu 1
individu 2

Y
y1
y2

X1
x 11
x12

Reprsentation graphique : La premire tape est d'observer le nuage de point pour dceler
une ventuelle relation fonctionnelle.

Exemple :
Reprendre l'exemple du cholesterol. Existe-t'il un lien entre ces deux variables ? Ce lien est-il
linaire ?

II. Le modle de rgression linaire simple


On utilisera une rgression linaire simple dans le cas o :
la relation fonctionnelle peut tre considre comme linaire entre Y et X
(observation du nuage de points),
la corrlation est significativement diffrente de 0 (Fiche 9).
Dans le cas contraire, il n'existe pas de relation (linaire) significative entre Y et X
et l'utilisation d'un modle de rgression linaire n'a aucun intrt.
On ralisera donc toujours ces deux vrifications au pralable et dans l'ordre avant de se
lancer dans une rgression linaire.
Dans de nombreux cas, la relation fonctionnelle entre Y et X ne peut pas tre considre comme
linaire :
on peut soit revenir un modle linaire par changement de variables,
soit utiliser une rgression non linaire (non abord).

a. Le modle et les hypothses


y i = + xi + i

avec i une variable alatoire suivant une loi normale centre N(0, )

On suppose dans ce cas les choses suivantes :


le lien entre les deux variables est linaire,
les variables i sont indpendantes identiquement distribues de loi
N(0, )
L'intrt du modle linaire est sa simplicit et les diffrents outils statistiques qui s'y rattachent :
diagnostic, intervalle de prdiction, test sur les coefficients

b. Estimation des paramtres:


Pour estimer les paramtres du modle, on recherche dans une famille fixe de fonctions, la
fonction f pour laquelle les yi sont les plus proches des f(xi). Dans le cas de la rgression simple,
f(x)= + x . La proximit se mesure en gnral comme une erreur quadratique moyenne :
n

Critre des moindres carrs =

1
y f xi 2
n i=1 i

On parle alors de rgression au sens des moindres carrs.


Dans le cadre du modle linaire, on notera a, b, s les estimations des paramtres , et .
La mthode des moindres carres conduit :

x i x yi y
xi x 2

1
y i y i 2 .
n2
y i par le modle s'appellent les
Les diffrences entre les valeurs observes yi et les valeurs prdites
rsidus, nots ei :
b=

Rsidus:

, a = y - b x et s =

ei= yi a+b xi= yi - yi avec yi = a+b xi

Exemple : Reprendre l'exemple cholesterol et estimer les paramtres la main et avec R grce
aux commandes suivantes :
> X<-cbind(chol,age)
> cholesterol<-data.frame(X)
> reg<-lm(chol~age,data=cholesterol)

>summary(reg)
Call:
lm(formula = chol ~ age, data = cholesterol)
Residuals:
Min
1Q
Median
-0.17826 -0.11141 -0.01304

3Q
0.03315

Max
0.35217

Coefficients:
Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.923913
0.141793
6.516 0.000185 ***
age
0.028478
0.003139
9.071 1.75e-05 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.1649 on 8 degrees of freedom
Multiple R-squared: 0.9114,
Adjusted R-squared: 0.9003
F-statistic: 82.29 on 1 and 8 DF, p-value: 1.748e-05

Commenter les rsultats obtenus.

Illustration de la mthode des moindres carrs

c. Tests et intervalles de confiances : exemple des eucalyptus


On tudie toutes les possibilits du logiciel R et de la fonction lm dans le cas d'un modle de
rgression simple. On dispose pour cela des donnes eucalyptus, qui contient la hauteur de 1429
eucalyptus (ht) en fonction de la circonfrence un mtre du sol (circ).
Raliser et commenter les commandes suivantes du logiciel R :
Phase de pr-analyse
>euca=read.table("eucalyptus.txt",header=T)
>plot(ht~circ,data=euca)
>cor.test(euca$ht,euca$circ,method="pearson")
Ralisation du modle de rgression
>reg=lm(ht~circ,data=euca)
Droite de rgression et intervalle de confiance
>circ=seq(min(euca[,"circ"]),max(euca[,"circ"]),length=100)
>grille<-data.frame(circ)
>ICdte<-predict(reg,new=grille,interval="confidence",level=0.95)
>matlines(grille$circ,cbind(ICdte),lty=c(1,2,2),col=1)
Reprsentation des rsidus
>res<-rstudent(reg)
>plot(res,pch=15,ylab=Rsidus,ylim=c(-3,3))
>abline(h=c(-2,0,2),lty=c(2,1,2)).
Intervalle de confiance des paramtres
>seuil<-qt(0.975,df=reg$df.res)
>beta0min<-coef(resume)[1,1]-seuil*coef(resume)[1,2]

>beta0max<-coef(resume)[1,1]+seuil*coef(resume)[1,2]
>beta1min<-coef(resume)[2,1]-seuil*coef(resume)[2,2]
>beta1max<-coef(resume)[2,1]+seuil*coef(resume)[2,2]

Fiche 11 Validation du modle de rgression linaire simple


On se place dans le cadre d'une relation linaire entre deux variables (examen du nuage de points) et
d'une liaison linaire significative entre ces deux variables (coefficient de corrlation
significativement non nul).
Les hypothses du modle de rgression linaire simple ncessaire la construction des principaux
tests statistiques (infrence) sont :
- l'indpendance des observations,
- la distribution normale centre de l'cart rsiduel,
- l'homoscdasticit, savoir que l'cart rsiduel suit la mme loi indpendamment des
valeurs de xi ou y i .
Dans le cas o ces hypothses sont vrifies, il est possible de construire des intervalles de
confiances pour les paramtres estims, des intervalles de confiance pour la prdiction, comparer
les modles, ...
La vrification de ces hypohses n'est pas toujours vidente. Il est prfrable de croiser diffrentes
mthodes, graphiques et tests, pour valuer l'existence d'carts aux hypothses. Aucune mthode
n'est entirement satisfaisante.
1. Indpendance des rsidus
Le problme d'indpendance est important, notamment dans le cas de sries chronologiques o nos
observations sont ranges par ordre chronologique. Pour vrifier l'indpendance des observations,
yi .
on va raliser l'analyse de l'indpendance des rsidus ei= yi a+b xi= yi -
La premire mthode est l'observation graphique : On observe les rsidus en fonction du temps
(dans le cas des sries chronologiques), ou bien les rsidus en fonction de la variable explicative.
On observe ainsi l'ajustement du nuage de points par rapport la droite de rgression et on peut
dtecter des carts ventuels, dus l'apparition de tendances cycliques (saisons, cycles
conomiques,...), une relation non linaire, une rpartition non alatoire des rsidus (amplitude,
signe).
n

e i e i 1 2
On peut aussi raliser un test de Durbin Watson grce la statistique

i=2

qui mesure

e
i=2

2
i

l'autocorrlation d'ordre 1 des rsidus, c'est--dire une relation du type :


i+1= i +

avec ~N(0,).

2. Homoscdasticit
Un des problmes rcurrents est l'existence d'une relation entre la variance des rsidus et la valeur
de y i ou celle de xi . la variance des rsidus a parfois tendance crotre avec y i ou xi . On peut
alors, pour vrifier l'hypothse d'homoscdasticit, faire une observation graphique des rsidus en

fonction des y i ou des xi . Les carts ne doivent pas crotre en fonction de y i ou xi mais toujours
rester du mme ordre de grandeur.
3. Normalit
La dernire hypothse du modle de rgression simple est la normalit des rsidus. Pour cela, on se
reporte la Fiche 8, que l'on applique nos rsidus ei.

Exemples : Reprendre l'exemple cholesterol puis l'exemple eucalyptus et vrifier les hypothses
du modle de rgression simple.

Fiche 12 Analyse de variance 1 facteur


Objectifs :
Comparer les moyennes d'une variable quantitative Y en fonction d'un facteur. Estimer les effets de
chaque modalit du facteur sur la valeur de la variable Y.

Les donnes :
On dispose d'un tableau du type :
Y
y 11
y 12
y 11
y 21
y 22
.....

Facteur
A
A
A
B
B
...

o Y reprsente la colonne des observations Y et Facteur est une colonne dclare en facteur. On
appelle facteur une variable qualitative prenant plusieurs modalits dont on tudie l'influence sur la
variable Y. Par exemple, le facteur peut tre la varit, le dosage d'un apport nutritif, le type
d'engrais, un traitement
L'objectif est d'valuer si le facteur influence significativement la variable Y.

Conditions d'utilisation (Voir Fiche 13) :

les observations sont indpendantes,


la variable Y suit la loi normale au sein de chaque modalit,
la variance de Y est la mme pour toutes les modalits.

Hypothse nulle : H 0 les moyennes sont toutes gales contre H les moyennes ne sont pas
toutes gales .

Principe du test :
La somme des carrs totale dcompose en somme des carrs entre les groupes (ou expliqu par le
modle), et somme des carrs l'intrieur des groupes (ou rsiduelle) :
SCE T

y ik y 2

SCE B

yi y 2

ik

SCE W

+
+

ik

y ik y i 2
ik

On utilise l'criture anglosaxonne avec :


B pour between groups (entre groupes)
W pour within group (intra groupe)
On obtient les diffrentes variances, ou carrs moyens, en divisant les sommes de carrs d'cart par
leurs degrs de libert :
CM T =

SCE T
n 1

CM B =

SCE B
q 1

CM W =

SCE W
n q

avec n l'effectif total et qle nombre de modalits.

On montre alors que la statistique F =

CM B
suit la loi de Fisher (q-1;n-q) ddl sous H0.
CM W

Test : On teste H 0 les moyennes sont toutes gales contre H les moyennes ne sont pas
toutes gales

si F < F1 (q-1,n-q), on accepte H 0


sinon on rejette H 0 avec un risque de premire espce gal (ou p).

Estimation des effets


En prsence d'un seul facteur, on peut crire le modle d'analyse de variance de la manire
suivante :
yik = + i + ik

avec

N(0,).

la moyenne gnrale de Y
i l'effet du la modalit i sur la moyenne
ik variables alatoires indpendantes suivant une loi normale centre

on considre que la variable Y suit pour chaque modalit i une loi normale N( + i , ).
estimation des paramtres du modle:
Les coefficients sont estims en minimisant l'erreur quadratique moyenne :
Critre des moindres carrs =

1
n

yik 2 ,
y ik
ik

y ik = y i . Les diffrences entre les valeurs observes y ik et les valeurs prdites par le
et l'on obtient

y
modle note ik s'appellent les rsidus, nots eik = y ik y i .
Les estimations des coefficients sont :
1
y = y ik

pour
n ik
1
y i = n y ik
pour i = + i soit ai = y i y pour i
i
k

s =

1
nq

yik yi 2

pour avec q le nombre de modalits

ik

Exemple : Cinq pices sont prleves au hasard dans la production de trois machines, A, B et C.
Chacune des pices est ensuite mesure par un seul oprateur. Les mesures sont prsentes dans le
tableau ci-dessous:
facteur
mesure

A
5

A
7

A
6

A
9

A
13

B
8

B
14

B
7

B
12

B
9

C
14

C
15

C
17

C
18

C
11

Fiche 13 Validation du modle d'analyse de variance

On rappelle le modle d'analyse de variance :


yik = + i + ik
avec la moyenne gnrale de Y
i l'effet du la modalit i sur la moyenne
ik variables alatoires indpendantes suivant une loi normale centre
N(0,).
Ainsi on doit vrifier les trois hypothses suivantes : indpendance, normalit, et homoscdasticit.
1. Indpendance
L'hypothse principale du modle d'analyse de variance est l'indpendance des donnes.
Ne pas respecter cette proprit conduit mesurer et tester autre chose que l'effet tudi, autant dire
les donnes deviennent inexploitables.
Pour vrifier l'indpendance des donnes, on pourra utiliser les techniques utilises en rgression
linaire simple (Fiche 11), savoir l'analyse graphique des rsidus du modle.
2. Normalit
La dcomposition de la variance est toujours valable, quelle que soit la distribution des variables
tudies. Cependant, lorsqu'on ralise le test final (test F ), on admet la normalit des distributions
(puisque le F est le rapport de deux khi-deux, qui sont des sommes de carrs de lois normales).
L'ANOVA fait donc l'hypothse de normalit. Elle est cependant assez robuste la non normalit,
ce qui permet de l'utiliser dans une grande varit de conditions.
Pour vrifier la normalit des donnes de chaque modalits, on utilise la Fiche 8 sur la normalit.
3. Homoscdasticit
A l'oppos, l'ANOVA fait une autre hypothse trs forte et moins vidente. Il est en effet ncessaire
que la variance dans les diffrents groupes soit la mme. C'est l'hypothse d'homoscedasticit.
L'ANOVA y est sensible. Il est donc ncessaire de la tester avant toute utilisation.
Pour cela, on doit vrifier que l'galit des variances dans les diffrents groupes. On peut utliser le
test de Bartlett.

Exemple : Vrifier les hypothses de l'analyse de variance dans l'exemple prcdent.

Anda mungkin juga menyukai