On dispose en gnral d'un chantillon X 1 , ... , X n prlev dans une population pour laquelle la
variable d'intrt quantitative X a pour esprance (moyenne thorique) et variance 2
inconnues.
Rgle pour l'estimation ponctuelle : Soit une variable d'intrt X mesure sur un
chantillon de n individus,
1
n
Xi
1
la variance 2 est estime par l'estimateur s 2X =
( X X )2
n 1 i = 1 i
i= 1
D'une ralisation l'autre, les estimations ponctuelles vont varies d'autant plus que le nombre
d'observations n est faible. Pour affiner l'estimation de ces paramtres, on dtermine alors un
intervalle de confiance dans lequel les valeurs relles ou 2 ont une probabilit dtermine
l'avance de se trouver.
Cet intervalle de confiance, not IC, permet ainsi de prendre en compte la variabilit de l'estimation
ponctuelle.
Proprits de l'estimateur X
X
suit la loi normale centre rduite
X
suit la loi de Student n 1 degrs de
sX
libert.
n 1 s 2 X
suit la loi du 2 n-1 ddl.
2
X
soit compris entre t /2 et t1- /2
sX
t1- /2 est le quantile de la loi normale ou de la loi de student T n-1 ddl pour laquelle P(T<t1- /2 )=1/2 donc
On recherche toutes les valeurs de pour lesquelles T n =
X -t1-/2
sX
sX
Pour = 5%, ce rsultat signifie que "la vraie moyenne, ", de la population a une probabilit de
95% dtre dans cet intervalle. On notera par commodit cet intervalle de confiance IC 95 .
, n 1
et
2
1
, n 1
2
n 1 s 2 X
soit compris entre
2
n 1 s 2 X 2
< , n 1) =
donc
, n 1 est le quantile dans la table pour laquelle P(
2
2
2
2
n 1 s 2 X /
Exemple :
2
1
, n1
2
< 2 < n 1 s 2 X /
, n 1
2
On peut retrouver ces rsultats l'aide de la commande t.test qui propose un test de Student univari
sur la moyenne ainsi qu'un intervalle de confiance pour la moyenne.
> t.test(poids)
One Sample t-test
data: poids
t = 27.3169, df = 39, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
99.7716 115.7284
sample estimates:
mean of x
107.75
sample estimates:
mean of x
177
f 1n f ; f
+ u1- /2
f 1n f [
o u1-a /2 reprsente le quantile de la loi normale centre rduite. Pour =5%, u1-a /2=1,96.
Principe du test :
Pour une population de moyenne et variance inconnue, nous avons dj vu que si les conditions
sont respectes :
X 0
T n= n
suit sous H 0 une loi de Student n-1 ddl.
sX
si , T n< t 1 / 2 ( n 1 ) on accepte H 0
sinon on rejette H 0 avec un risque de premire espce .
si T n > t ( n 1 ) , on accepte H 0
Principe du test :
( f obs f 0 )
On calcule la statistique U= f o ( 1 f 0 ) qui suit sous H 0 la loi normale centre rduite.
n
On calcule alors la probabilit p -value d'observer une valeur suprieure ou gale sous H 0 (en
valeur absolue).
Conditions d'utilisation :
Exemple 1
Reprendre l'exercice 2 du TD2 et conclure quant la toxicit de la solution injecte au risque 5%.
Utiliser la commande prop.test et comparer avec la commande binom.test
Le quotient
s 22
s 21
si F (n1-1,n2-1)< 2 < F 1 (n1-1,n2-1), on accepte H 0
2
2
s2
sinon on rejette H 0 avec un risque de premire espce gal .
Exemple :
Rcuprer le fichier poulpe.csv qui contient le poids de poulpes mles et femelles. Pour cela, on
utilise la commande read.table.
> poulpe<-read.table("poulpe.csv",sep=";",header=T)
>summary(poulpe)
> boxplot(Poids~Sexe,data=poulpe)
On veut tester l'galit des variances dans ces deux populations. Qu'en pensez-vous ? Utiliser la
commande var.test pour tester l'galit des variances dans ces deux populations :
> var.test(Poids~Sexe,conf.level=0.95,data=poulpe)
Hypothse nulle H 0 : 1 = 2
Conditions dutilisation:
Principe du test :
La variable d= x 1 x 2 a pour variance estime s 2d =
n1 1 s 21 n2 1 s 22
n 1 n2 2
1
1
.
n1 n2
x1 x2
suit sous H 0 une loi de Student
sd
n1 n 2 2 ddl.
si T n < t 1 ( n1 n 2 2 ) , on accepte H 0
si T n < t ( n1 n 2 2 ), on accepte H 0
Exemple :
Reprendre le fichier poulpe.csv . Tester l'galit des moyennes l'aide de la fonction t.test :
> t.test(Poids~Sexe,conf.level=0.95,var.equal=TRUE,data=poulpe)
Peut-on considrer les variances gales ? Faire le test dans les deux cas en utilisant les options de la
fonction t.test.
Modalit 1
n
Modalit 2
1
obs
2
obs
....
....
Conditions d'application : Les effectifs thoriques doivent tre suprieurs 5 ( nith eor 5).
Dans le cas contraire, on peut regrouper les classes les plus faibles, utiliser un test du 2 corrig,
utiliser le test exact de Fisher...
Hypothse nulle : H 0 Les frquences observes sont conformes aux probabilits attendues .
Principe du test :
Le principe du test du 2 est destimer partir dune loi de probabilit connue (ou estime partir
de l'chantillon), les effectifs thoriques pour les diffrentes modalits du caractre tudi et les
comparer aux effectifs observs dans un chantillon. Deux cas peuvent se prsenter :
soit la loi de probabilit est spcifie a priori car elle rsulte par exemple dun modle
dterministe tel que la distribution mendlienne des caractres.
soit la loi de probabilit thorique nest pas connue a priori et elle est dduite des
caractristiques statistiques mesures sur lchantillon (estimation de p1 et p2 dans le cas
du modle de Hardy Weinberg).
Le test du 2 consiste mesurer lcart qui existe entre la distribution thorique et la distribution
observe et tester si cet cart est suffisamment faible pour tre imputable aux fluctuations
dchantillonnage.
On calcule
les effectifs thoriques n1th eor , n2th eor ... attendus sous l'hypothse o la
2 =
i =1
Le nombre de ddl
est k c ,
contraintes.
Sinon, il faut estimer des probabilits sur l'chantillon et augmenter d'autant les
contraintes. Par exemple avec le modle de Hardy Weinberg, la somme des
probabilits vaut 1 et il faut estimer p1 , soit c =2, donc = k 2 .
Exemple :
qualitatifs. La prsentation des rsultats se fait sous forme d'un tableau de contingence deux
entres. Chaque entre reprsente les modalits d'une des variables. On dtermine alors le tableau
attendu sous l'hypothse d'indpendance.
Donnes : Deux variables qualitatives sont mesures sur n individus puis prsentes sous forme
d'un tableau de contingence (tableau deux entres) :
Par exemple :
c
a
n
c
e
r
prsence
tabac
absence
total
prsence
absence
total
Principe du test : On calcule les effectifs thoriques sous l'hypothse H 0 . Les effectifs
marginaux (totaux la marge en ligne ou en colonne) et frquences marginales du tableau restent
inchangs.
nijth eor =
niobs nobsj
n
avec
2 =
ij
Sous H 0 , cette statistique suit la loi du 2 v= (l-1)(c-1) ddl avec l le nombre de lignes et c le
nombre de colonnes.
Test : On teste lhypothse H 0 indpendance des deux caractres contre H 1 dpendance entre
les deux caractres :
-si 2 < 21 (v), on accepte H 0
-sinon on rejette H 0 avec un risque de premire espce .
Exemple :
Reprendre l'exercice 5 du TD2 et calculer la main les valeurs de 2 dans chaque cas. Comparer-le
au quantile 21 et conclure pour un test 5%.
On peut aussi raliser le test sous R. Pour cela, on pourra utiliser les commandes suivantes, qui
permettent de visionner les donnes et de raliser le test :
>tab<-matrix(c(10,29,75,27),ncol=2)
>rownames(tab)<-c("infection","pas d'infection")
>colnames(tab)<-c("antibio","placebo")
>par(mfrow=c(2,1))
>barplot(tab[1,],main="infection")
barplot(tab[2,],main="pas d'infection")
>resultat<-chisq.test(tab)
>resultat$res
ind 1
ind 2
X1
x11
x12
X2
x 21
x 22
Hypothse nulle H 0 : 1 = 2
Conditions dutilisation:
Principe du test :
Tn =
Z
suit sous H 0 une loi de Student n-1
sz
ddl.
si T n < t 1 , on accepte H 0
Exemple
Reprendre l'exercice 6 du TD2 et comparer les moyennes avant et aprs traitement grce la
fonction t.test et la commande suivante :
>t.test(valeur$avant,valeur$apres,alternative='twosided',conf.level=0.95,paired=TRUE)
On retiendra que le test de Shapiro et Wilks porte sur la corrlation au carr quon voit sur un
qqplot. La corrlation est toujours trs forte, la question est toujours lest-elle assez ? La
probabilit critique est la probabilit pour que la statistique soit infrieure ou gale lobservation.
Exemple 1 -suite- : Reprendre l'exemple poulpe avec la variable Poids. Effectuer le test de
Shapiro. Le rsultat est le suivant :
> shapiro.test(data$Poids)
Shapiro-Wilk normality test
data: data$Poids
W = 0.933, p-value = 0.0733
Le test n'est pas correct ici car cette variable dpend du sexe. Il faut donc tester la normalit pour
chaque sous-population, sinon on ralise le test sur un mlange de deux distributions.
On teste la normalit pour chacune des populations l'aide des commandes suivantes :
> data=read.table("poulpe.csv",header=T,sep=";")
> x=data$Poids[data$Sexe=="Femelle"]
> y=data$Poids[data$Sexe=="M\xe2le"]
> shapiro.test(y)
Shapiro-Wilk normality test
data: y
W = 0.935, p-value = 0.3238
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.9711, p-value = 0.907
On remarque ici que les deux tests ont des p-valeurs suprieures 5%. Peut-on conclure la
normalit des observations ? Aidez -vous des reprsentations graphiques.
( ( xi x ) ( yi y ) )
x y
Si la relation entre les variables n'est pas linaire, il est possible d'utiliser un autre coefficient de
corrlation (par exemple le coefficient de corrlation de Spearman bas sur les rangs des
observations).
Y
y1
y2
Objectif : On veut tester si la liaison linaire entre les variables est significative, c'est--dire si le
coefficient de corrlation peut tre considr comme significativement non nul.
Principe du test : Sous H 0 , la statistique r suit une loi tabule n-2 ddl. On construit alors une
zone d'acceptation centre sur 0.
Si p >0,05, on accepte H 0 .
Si p <0,05, on rejette H 0 avec un risque de premire espce p.
20
1.5
70
2.8
60
2.6
Ci-dessous les commandes R pour effectuer le test. Commenter la sortie graphique du logiciel et la
rponse au test de corrlation. On pourra investiguer les autres mthodes (Spearman, Kendall), en
changeant l'argument method dans la fonction cor.test,
> age<-c(30,60,40,20,50,30,40,20,70,60)
> chol<-c(1.6,2.5,2.2,1.4,2.7,1.8,2.1,1.5,2.8,2.6)
> plot(chol,age)
> cor.test(age,chol,method="pearson")
Pearson's product-moment correlation
data: age and chol
t = 9.0714, df = 8, p-value = 1.748e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8148247 0.9895142
sample estimates:
cor
0.9546712
la variable explicative X i est considre comme fixe (ce n'est pas une variable alatoire).
la variable rponse Y est considre comme une variable alatoire (loi normale le plus
souvent).
le rle des variables n'est donc pas symtrique et le choix de Y est le plus souvent naturel.
L'objectif de la rgression est de dterminer, si elle existe, une relation fonctionnelle entre la
variable expliquer Y et une ou plusieurs variables explicatives X1, X2
Donnes :
individu 1
individu 2
Y
y1
y2
X1
x 11
x12
Reprsentation graphique : La premire tape est d'observer le nuage de point pour dceler
une ventuelle relation fonctionnelle.
Exemple :
Reprendre l'exemple du cholesterol. Existe-t'il un lien entre ces deux variables ? Ce lien est-il
linaire ?
avec i une variable alatoire suivant une loi normale centre N(0, )
1
y f xi 2
n i=1 i
x i x yi y
xi x 2
1
y i y i 2 .
n2
y i par le modle s'appellent les
Les diffrences entre les valeurs observes yi et les valeurs prdites
rsidus, nots ei :
b=
Rsidus:
, a = y - b x et s =
Exemple : Reprendre l'exemple cholesterol et estimer les paramtres la main et avec R grce
aux commandes suivantes :
> X<-cbind(chol,age)
> cholesterol<-data.frame(X)
> reg<-lm(chol~age,data=cholesterol)
>summary(reg)
Call:
lm(formula = chol ~ age, data = cholesterol)
Residuals:
Min
1Q
Median
-0.17826 -0.11141 -0.01304
3Q
0.03315
Max
0.35217
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.923913
0.141793
6.516 0.000185 ***
age
0.028478
0.003139
9.071 1.75e-05 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.1649 on 8 degrees of freedom
Multiple R-squared: 0.9114,
Adjusted R-squared: 0.9003
F-statistic: 82.29 on 1 and 8 DF, p-value: 1.748e-05
>beta0max<-coef(resume)[1,1]+seuil*coef(resume)[1,2]
>beta1min<-coef(resume)[2,1]-seuil*coef(resume)[2,2]
>beta1max<-coef(resume)[2,1]+seuil*coef(resume)[2,2]
e i e i 1 2
On peut aussi raliser un test de Durbin Watson grce la statistique
i=2
qui mesure
e
i=2
2
i
avec ~N(0,).
2. Homoscdasticit
Un des problmes rcurrents est l'existence d'une relation entre la variance des rsidus et la valeur
de y i ou celle de xi . la variance des rsidus a parfois tendance crotre avec y i ou xi . On peut
alors, pour vrifier l'hypothse d'homoscdasticit, faire une observation graphique des rsidus en
fonction des y i ou des xi . Les carts ne doivent pas crotre en fonction de y i ou xi mais toujours
rester du mme ordre de grandeur.
3. Normalit
La dernire hypothse du modle de rgression simple est la normalit des rsidus. Pour cela, on se
reporte la Fiche 8, que l'on applique nos rsidus ei.
Exemples : Reprendre l'exemple cholesterol puis l'exemple eucalyptus et vrifier les hypothses
du modle de rgression simple.
Les donnes :
On dispose d'un tableau du type :
Y
y 11
y 12
y 11
y 21
y 22
.....
Facteur
A
A
A
B
B
...
o Y reprsente la colonne des observations Y et Facteur est une colonne dclare en facteur. On
appelle facteur une variable qualitative prenant plusieurs modalits dont on tudie l'influence sur la
variable Y. Par exemple, le facteur peut tre la varit, le dosage d'un apport nutritif, le type
d'engrais, un traitement
L'objectif est d'valuer si le facteur influence significativement la variable Y.
Hypothse nulle : H 0 les moyennes sont toutes gales contre H les moyennes ne sont pas
toutes gales .
Principe du test :
La somme des carrs totale dcompose en somme des carrs entre les groupes (ou expliqu par le
modle), et somme des carrs l'intrieur des groupes (ou rsiduelle) :
SCE T
y ik y 2
SCE B
yi y 2
ik
SCE W
+
+
ik
y ik y i 2
ik
SCE T
n 1
CM B =
SCE B
q 1
CM W =
SCE W
n q
CM B
suit la loi de Fisher (q-1;n-q) ddl sous H0.
CM W
Test : On teste H 0 les moyennes sont toutes gales contre H les moyennes ne sont pas
toutes gales
avec
N(0,).
la moyenne gnrale de Y
i l'effet du la modalit i sur la moyenne
ik variables alatoires indpendantes suivant une loi normale centre
on considre que la variable Y suit pour chaque modalit i une loi normale N( + i , ).
estimation des paramtres du modle:
Les coefficients sont estims en minimisant l'erreur quadratique moyenne :
Critre des moindres carrs =
1
n
yik 2 ,
y ik
ik
y ik = y i . Les diffrences entre les valeurs observes y ik et les valeurs prdites par le
et l'on obtient
y
modle note ik s'appellent les rsidus, nots eik = y ik y i .
Les estimations des coefficients sont :
1
y = y ik
pour
n ik
1
y i = n y ik
pour i = + i soit ai = y i y pour i
i
k
s =
1
nq
yik yi 2
ik
Exemple : Cinq pices sont prleves au hasard dans la production de trois machines, A, B et C.
Chacune des pices est ensuite mesure par un seul oprateur. Les mesures sont prsentes dans le
tableau ci-dessous:
facteur
mesure
A
5
A
7
A
6
A
9
A
13
B
8
B
14
B
7
B
12
B
9
C
14
C
15
C
17
C
18
C
11