3 4
Formation SMCS : Pratique de la statistique avec SPSS
SPSS Objectifs de la formation
6
Objectifs Objectifs de la formation de la formation
R R sumer ce que peut offrir la statistique sumer ce que peut offrir la statistique
D D couvrir l couvrir l environnement SPSS environnement SPSS
Appliquer quelques principales analyses statistiques Appliquer quelques principales analyses statistiques
Apprendre Apprendre interpr interpr ter les r ter les r sultats des analyses sultats des analyses
R R pondre pondre vos questions sp vos questions sp cifiques cifiques
7 8
Formation SMCS : Pratique de la statistique avec SPSS
SPSS - Etude de cas
10
Contexte Contexte
Contexte Contexte : Un entra : Un entra neur souhaite mieux comprendre les facult neur souhaite mieux comprendre les facult s de s de
r r sistance d sistance d athl athl tes reprenant les entra tes reprenant les entra nements apr nements apr s une p s une p riode de riode de
repos forc repos forc suite suite une blessure une blessure
Il voudrait savoir si la r Il voudrait savoir si la r sistance des athl sistance des athl tes [mesur tes [mesur e par le e par le temps de temps de
r r cup cup ration ration apr apr s un marathon s un marathon (temps n (temps n cessaire pour atteindre x pulsations par minute) cessaire pour atteindre x pulsations par minute)
et le fait que les athl et le fait que les athl tes ont ou non fait des tes ont ou non fait des arrts durant la course arrts durant la course (course (course
avec arrt ou sans arrt)] avec arrt ou sans arrt)] peut tre d peut tre d termin termin e par la e par la dur dur e du repos e du repos, le , le sexe sexe de de
l l athl athl te et les te et les vitamines vitamines prises durant le mois de pr prises durant le mois de pr paration. paration.
Il pense que cette Il pense que cette tude pourra l tude pourra l aider aider am am liorer ses entra liorer ses entra nements nements
pour tre plus adapt pour tre plus adapt s aux athl s aux athl tes. tes.
Remarque Remarque : Il s : Il s agit d agit d une une tude fictive tude fictive
11
Donn Donn es es
Donn Donn es es: Pour chaque athl : Pour chaque athl te, nous avons les informations suivantes : te, nous avons les informations suivantes :
1=Sans arrt
2=Avec arrts
Marathon 1 ralis avec ou sans arrt Arret1 V9 Col9
Date invente Fausse_Date V10 Col11
0=Sans arrt
1=Avec arrts
Marathon 2 ralis avec ou sans arrt Arret2 V10 Col10
Nombre de seconde pour rcuprer aprs le marathon 3 Recup3 V8 Col8
Nombre de seconde pour rcuprer aprs le marathon 2 Recup2 V7 Col7
Nombre de seconde pour rcuprer aprs le marathon 1 Recup1 V6 Col6
Nombre de jours de repos Absence V5 Col5
1=Vitamine A
2=Vitamine B
3=Vitamine C
Vitamine prise par lathlte Vitamine V4 Col4
1=Homme
2=Femme
Sexe de lathlte Sexe V3 Col3
Identifiant de lathlte Identifiant V2 Col2
Date de la mesure Date V1 Col1
Values Label Nom de
variable
Nom
SPSS
Colonne
12
Formation SMCS : Pratique de la statistique avec SPSS
La statistique comme outil
14
Face Face une une question question
Quelles r Quelles r ponses offre la statistique? ponses offre la statistique?
Des outils descriptifs Des outils descriptifs
Pour Pour r r sumer sumer les donn les donn es et les repr es et les repr senter graphiquement senter graphiquement
Des outils Des outils inf inf rentiels rentiels
Pour r Pour r pondre aux questions et pondre aux questions et d d cider cider partir des donn partir des donn es es
Des outils de mod Des outils de mod lisation lisation
Pour Pour expliquer expliquer certaines variables certaines variables partir d partir d autres variables autres variables
15
Outils Outils descriptifs descriptifs
Rsum numrique pour estimer des paramtres dune distribution :
moyenne, variance, mdiane, quantiles, skewness, kurtosis, corrlation
Graphiques statistiques pour montrer /
analyser les structures sous-jacentes
aux donnes :
diagramme en barres, histogramme,
boxplot, graphe x-y, qq-plot, densit
16
Outils Outils inf inf rentiels rentiels
Les outils infrentiels permettent de rpondre aux questions que nous
nous posons sur une population partir dun chantillon extrait de celle-ci
La rsistance des athltes est-elle affecte par le type de vitamines
prises durant le mois de prparation?
La rsistance des athltes est-elle lie la dure de la priode de
convalescence des athltes?
Le sexe interfre-t-il dans les effets observs?
e
s
I
n
t
r
o
S
t
a
t
S
P
S
S
A
n
a
l
y
s
e
s
s
t
a
t
1
q
u
a
n
t
i
1
q
u
a
l
i
2
q
u
a
n
t
i
Q
u
a
n
t
i
s
e
l
o
n
q
u
a
l
i
2
q
u
a
l
i
Q
u
a
l
i
s
e
l
o
n
q
u
a
n
t
i
1
q
u
a
n
t
i
1
q
u
a
l
i
2
q
u
a
n
t
i
Q
u
a
n
t
i
s
e
l
o
n
q
u
a
l
i
2
q
u
a
l
i
Q
u
a
l
i
s
e
l
o
n
q
u
a
n
t
i
38
39 40
Formation SMCS : Pratique de la statistique avec SPSS
Analyse dune variable quantitative
42
Visualisation Visualisation graphique graphique
Le choix du graphique dpend de la taille n de lchantillon
Histogramme Histogramme (pour N > 50) :
Box plot Box plot (rarement mauvais) :
Dot plot Dot plot (bon pour N < 15) :
N=15 N=30 N=50
D
o
t
p
l
o
t
B
o
x
p
l
o
t
H
i
s
t
o
g
r
a
m
m
e
1000 1000 1000
1000
1000
1000
1000
1000
1000
3000 3000 3000
3000
3000 3000
3000
3000
3000
5000
5000
5000
5000
5000
5000 5000
5000
5000
43
Graphe Graphe: : Histogramme Histogramme
Ex: Visualiser la forme de la distribution du temps de convalescence
SPSS : Graphs Legacy Dialogs Histogram
Nombre dobs par classe
ou frquence relative
On dfinit des classes (souvent
de mmes longueurs) et pour
chacune on dessine un rectangle
dont la hauteur reprsente le
nombre dobs. appartenant la
classe.
Quand N est petit, la forme peut
beaucoup varier en fonction des
classes choisies
viter pour un N petit
Par prudence, prendre environ N
comme nombre de classes.
Que reprsente lhistogramme?
44
Graphe Graphe: Box plot : Box plot
Ex: Visualiser les distributions du temps de convalescence selon le sexe
SPSS : Graphs Legacy Dialogs (Interactive )Boxplot
ou Graphs Chart Builder Boxplot
45
Graphe Graphe: : Boxplot Boxplot
mdiane
75
me
percentile
25
me
percentile
Maximum (sans outliers)
Minimum (sans outliers)
Outlier (observation < 25th percentile - 1.5 IQR)
0
1
0
0
0
2
0
0
0
3
0
0
0
4
0
0
0
5
0
0
0
*
1.5 * IQR
Ecart interquartile
(IQR)
1.5 * IQR
25%
25%
25%
25%
Que reprsente un box-plot?
On ordonne les donnes et on les coupe en 4 groupes de 25%
46
Graphe Graphe: : Graphique Graphique temporel temporel
Ex: Visualiser lvolution du temps de rcupration au cours du temps
SPSS : Data Sort Cases By Date or Fausse_Data
Analyse Time series Sequence Charts
Une reprsentation de lvolution dune
variable en fonction du temps (ex: nos
critres de cotation peuvent se modifier
au cours du temps)
Graphe 1: Mesure non lie la Date
Graphe 2: Phnomne cyclique
avec Fausse_Date
Trs important contrler
Lhistogramme ne permet pas de voir
cette volution
Que reprsente le graphe temporel ?
Graphe 1
Graphe 2
V
a
r
i
a
b
l
e
T e m p s
47
Graphe Graphe: : QQplot QQplot
Ex: Vrifier si les temps de repos sont issus dune loi Normale
SPSS : Analyze Descriptive Statistics Q-Q Plots
Les donnes rellement observes par rapport aux donnes qui auraient d tre
observes dans le cas dune distribution parfaitement Normale (ou reprsentation
de la dviation de la distribution Normale de chacun des points observs)
Que reprsente ce QQplot?
48
Graphe Graphe: : QQplot QQplot
Que reprsente plus prcisment un QQplot ?
1/4 1/4 1/4 1/4
x1 x2 x3 x4
observations
z1 z2 z3 z4
Quantiles de la
distribution normale
Un QQ plot consiste comparer les donnes observes aux donnes
quon devrait avoir si elles suivaient parfaitement une certaine
distribution, le plus souvent la distribution Normale.
Les valeurs observes et idales (les quantiles) sont compares
sur un graphe X-Y qui montre une tendance linaire en cas de normalit.
Exemple avec 4 donnes
Droite de
Henry
49
Graphe Graphe: : QQplot QQplot
Normale Lognormale Bimodale
Quelques exemples de vrification de la normalit par QQplot
50
Tableaux: Tableaux: Statistiques Statistiques descriptives descriptives
Ex: Rsumer les temps de repos selon le sexe
SPSS : Analyze Reports Case Summaries (dcocher Display cases)
ou Analyze Descriptive
Statistics Explore
ou
51
Indices de Indices de tendance tendance centrale centrale
But : Donner une valeur centrale aux donnes
8 9 10 11 12 13 14 8 9 10 11 12 13 14
12 X
N
1
X
N
1 i
i
= =
=
50% of observations 50% of obs
moyenne
mdiane
Milieu=q
0.5
=13
mode
Valeur (classe)
la plus frquente= 14
8 9 10 11 12 13 14
- Centre de gravit des
donnes
- Sensible aux outliers
- Efficace pour les donnes
propres
- Rsistant aux outliers
- Moins efficace pour les
donnes propres
- Utile pour les distributions
asymtriques
- Facile comprendre
- Parfois plusieurs modes
52
Indices de dispersion Indices de dispersion
But : Savoir comment les donnes varient autour du centre
Variance
=
=
X
55 60 65 50 45
55 60 65 50 45
7.92 s s
2
= =
92 . 7
2
= = s s
N s/ s
X
=
53
Indices de dispersion Indices de dispersion
But : Savoir comment les donnes varient autour du centre
55 60 65 50 45
tendue = max(X
i
) - min(X
i
) IQR = q
0.75
- q
0.25
55 60 65 50 45
25% obs 25% 25% 25%
Range IQR
q
0.25
q
0.5
q
0.75
55 60 65 50 45
Box Plot
tendue
Espace interquartile
54
Inf Inf rence rence : Test : Test sur sur une une moyenne moyenne
Ex: Tester si la moyenne du temps de repos est diffrente de 250
Vrifier si la distribution est Normale et transformer les donnes si ncessaire
SPSS : Analyze Descriptive Explore Plots (cocher Normality plots with tests)
Tester une moyenne en population normale Tester une moyenne en population normale
La distribution scarte
significativement dune
Normale
Utiliser une transformation
SPSS : Transform Compute Variable (essayer une transformation logarithmique)
Vrifier nouveau la normalit
Distribution plus proche
dune Normale
Test de KS non significatif:
non rejet de la normalit
(P-valeur>0.05)
55
Inf Inf rence rence : Test : Test sur sur une une moyenne moyenne
Ex: Tester si la moyenne du temps de repos est diffrente de 250 en
utilisant la variable transforme [LN(250)5.52]
SPSS : Analyze Compare Means One-Sample T test
Tester une moyenne en population normale Tester une moyenne en population normale
P-valeur=0.007 => P-valeur<0.05 => Moins de 5% de chance de se tromper en
rejetant lhypothse selon laquelle la moyenne=5.52
=> On rejette cette hypothse au seuil de 5%
=> Nous sommes parvenu montrer que le logarithme du temps de repos est
significativement diffrent de 5.52
56
Test-t (1 moyenne par rapport une valeur de rfrence
0
)
On veut tester H
0
: =
0
contre H
1
:
0
Statistique de test:
=
n
t
n s
X
T
n s
X
T
obs
/
-
0
=
0
-t
n-1,1-/2
H
1
Accept
H
0
Accept
t
n-1,1-/2
H
1
Accept
Valeur du T
calcul
P-valeur=0.007 < 0.05
DONC on rejette H
0
au seuil de 5%
t
obs
Degr de libert = N-1
Tester Tester une une moyenne moyenne en population en population normale normale
t df Sig. (2-tailed) Mean Difference
LogAbsence -2,749 174 ,007
57
Tester Tester une une moyenne moyenne en population en population normale normale
X
1
X
2
X
3
X
k
p
1
p
2
p
3
p
k
Rsultats possibles
Probabilits thoriques
Occurrences observes
67
Test binomial Test binomial li li la table de fr la table de fr quence pour une variable quence pour une variable
qualitative qualitative deux deux niveaux niveaux
Test d Test d ajustement chi ajustement chi- -carr carr li li la table de fr la table de fr quence quence une une
variable qualitative variable qualitative plusieurs plusieurs niveaux niveaux
Dans Dans les les deux deux cas cas, on , on peut peut tester tester l l galit galit des proportions des proportions entre entre
les les niveaux niveaux de la variable de la variable ou ou tester des proportions tester des proportions d d termin termin es es
Inf Inf rence rence : Test : Test sur sur une une proportion proportion
Diff Diff rence entre test binomial et test d rence entre test binomial et test d ajustement ajustement
2 2
68
Formation SMCS : Pratique de la statistique avec SPSS
Analyse avec plusieurs variables
quantitatives
70
Visualisation Visualisation graphique graphique
Ex: Visualiser le lien entre le temps de repos et le temps de rcupration
SPSS : Graphs Legacy Dialogs Interactive Scatterplot (Fit)
Graphe X Graphe X- -Y Y
Plusieurs possibilits:
Scatter Plot
Scatter Plot avec une droite de rgression
et IC (intervalle de confiance) ou IP (intervalle de prdiction)
71
Visualisation Visualisation graphique graphique
Graphe X Graphe X- -Y Y
Autres possibilits:
Scatter Plot simple avec une couleur diffrente par groupe
Scatter Plot + une courbe plus ou moins lisse
Ex: Visualiser le lien entre le temps de repos et le temps de rcupration
en tenant compte du sexe
SPSS : Graphs Legacy Dialogs Interactive Scatterplot (Fit)
72
1
1
0 1 < <
1 0 < <
0
( )( )
( ) ( )
= =
=
=
N
i
i
N
i
i
N
i
i i
y y x x
y y x x
1
2
1
2
1
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
Attention !
0 0 >
Stats Stats descriptives descriptives et et Inf Inf rence rence
Coefficient de corr Coefficient de corr lation de Pearson lation de Pearson
73
Stats Stats descriptives descriptives et et Inf Inf rence rence
Coefficient de corr Coefficient de corr lation et test d lation et test d hypoth hypoth se sur le coefficient se sur le coefficient
Il existe Il existe plusieurs coefficients de corr plusieurs coefficients de corr lation lation dans SPSS : dans SPSS :
Pearson: utilis quand on a deux variables continues
Spearman (Pearson bas sur les rangs): utile pour les
variables quantitatives non normales ou les variables
qualitatives ordinales
Kendall tau-b (bas sur le nombre de concordances et
discordances des rangs) : pour des variables ordinales
Il existe un test d Il existe un test d hypoth hypoth se pour tester si le coefficient est se pour tester si le coefficient est
gal versus diff gal versus diff rent de 0 (= versus > 0): rent de 0 (= versus > 0):
H H
0 0
: : =0 contre =0 contre H H
1 1
: : 0 0 : :
74
Stats Stats descriptives descriptives et et Inf Inf rence rence
Coefficient de corr Coefficient de corr lation et test d lation et test d hypoth hypoth se sur le coefficient se sur le coefficient
Ex: Quantifier et tester la force du lien linaire entre le logarithme du
temps de repos et le logarithme du temps de rcupration
SPSS : Analyze Correlate Bivariate
Coefficient de corrlation de Pearson
P-valeur du test sur la corrlation
75
Le principe est de trouver a et b minimisant :
Cest le critre des moindres carrs
+ + = X Y
=
n
i
i i
bX a Y
1
2
) (
X
Y
0
1000
2000
3000
4000
5000
6000
7000
8000
0 4 8 12 16 20
Y
i
Y
i
Rsidu : e
i
=Y
i
-a-bX
i
Y
i
=a+bX
i
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
La r La r gression lin gression lin aire simple : aire simple :
76
Ex: Modliser le lien linraire entre le log du temps de repos et le
log du temps de rcupration : SPSS : Analyze Regression Linear
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
77
Comment juger si le modle est bon ?
2
1
)
( Y Y
n
i
i
=
2
1
)
n
i
i i
Y Y
Somme des carrs
explique par le modle
Somme des carrs
rsiduelle
p-valeur indiquant si le
modle Y=+X+ est
meilleur quun modle
ayant seulement une
constante Y=+
Pourcentage de
variabilit de la rponse
explique par le modle
Pourcentage de variabilit de la rponse explique
par le modle pondre par le nombre de variables
du modle et le nombre dobservations
Ecart-type
des rsidus
En regardant la p-valeur et le coefficient R
2
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
78
Comment rapporter le modle estim ?
Sous la forme dune quation :
LogRecup1 = -2.994+1.316*LogAbsence
Estimations des
paramtres et
p-valeurs associes aux tests
dont lhypothse H
0
est la nullit
du paramtre
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
79
Comment juger si le modle est valide ?
En analysant les rsidus et les points influents
Les hypothses suivantes doivent toujours tre vrifies
Termes derreur
Modle linaire
i
~ iN(0, )
Indpendance
des observations
Normalit de
la distribution
Homognit
des variances
i i i
X Y + + =
X
Y
0
2
4
6
8
10
12
14
16
0.0 0.4 0.8 1.2 1.6 2.0
+ X
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
80
Ex: Analyse graphique des rsidus du modle estimant le lien
linraire entre le log du temps de repos et le log du temps de
rcupration : SPSS : Analyze Regression Linear (Plots - Save)
Variance constante
95% des r
i
entre -2 et 2
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prdi unstand. & Leverage
Scatter/Dot: X=Prdi unstd.
Y=Leverage)
Rsidus Normaux Quelques points ont un
leverage > 2*2/175=0.022
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
81
Termes d Termes d erreurs du mod erreurs du mod le le
R R sidus observ sidus observ s s
R R sidus standardis sidus standardis s s
R R sidus sidus studentis studentis s s externes et r externes et r sidu sidu Press Press
( ) leverage avec ) 1 ( , 0 ~ ,
2
= = =
ii ii i i i i i i
h h N e b a Y Y Y e X
) , 0 ( ~ avec
2
iN Y
i i i i
X =
Most r
i
should be in [-2,2]
Rsidus standardiss calculs en enlevant le point i du modle
Droite sans le point i
Droite avec le point i
Rsidus press
e
i
Diffrents types de rsidus :
= ZRESID = ZRESID ) 1 (
) 1 (
= p n t
h
Y Y
r
i
i i
i
) 2 (
) 1 (
) (
= p n t
h
Y Y
d
ii
i
ii ii
i
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
82
Reprsenter par un graphe X-Y les rsidus (ou les rsidus
standardiss) en fonction:
Des Y prdits SPSS : Regression Linear (Plots : ZPRED-ZRESID)
De lordre de collecte des donnes (si cela a du sens)
SPSS : Reg. Linear (Save : Residuals Unstand.) Scatter/dot DATE-RES_1
Les graphiques doivent montrer un comportement alatoire
Faire un QQ-plot (ou PP-plot) pour vrifier la normalit des rsidus
SPSS : Regression Linear (Plots : Normal probability plot)
Vrifier que les rsidus standardiss sont compris dans lintervalle
[-2;2] et tudier ceux qui en sortent SPSS : Reg. Linear (Plots :
ZPRED ou DEPENDNT-SRESID)
Comparer les r
i
aux d
i
et tudier ceux qui sont trs diffrents
Recommandations pour lanalyse des rsidus :
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
83
Points influents et outliers :
3 points sont diffrents
des autres
X
Y
-5
5
15
25
35
45
55
65
0 1 2 3 4
Si lensemble de donnes disponibles contient des observations
spciales , il est primordial de les reprer pour quelles
ninfluencent pas elles seules les rsultats de la rgression
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
84
Un point loign du nuage de points dans la direction des X peut
potentiellement influencer lquation de rgression. Le leverage h
ii
mesure le degr de singularit dun point dans lespace des X
La somme des leverages = p
p=nombre de paramtres incluant lintercept
Un leverage > 2p/n sera considr comme lev
ex: h
ii
provenant dun modle construit avec 5 paramtres et sur un
chantillon de 50 individus. Calculez le leverage maximal
Les leverages sont les lments de la hat matrix :
X
Y
-5
5
15
25
35
45
55
65
0 1 2 3 4
Leverage ou force de levier :
X' X X X
1
= ) ' ( H
h
ii
=0.1
h
ii
=0.56
h
ii
=0.26
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
85
Un point qui a un grand leverage et qui nest pas align avec les autres
points observs peut lui seul influencer la droite de rgression
La statistique de Cook D
i
rsume comment les rponses prdites sont
modifies quand le point est enlev du modle (D
i
>1 : influence anormale)
Influence et statistique de Cook :
X
Y
-5
5
15
25
35
45
55
65
0 1 2 3 4
Modle avec le point influent (en rouge)
Modle sans le point influent (en vert)
D
i
=0.24
D
i
=3.28
D
i
=0.58
) 1 , 1 (
) 1 ( ) 1 ( ) 1 (
)
( )'
(
2 2
2
2
) ( ) (
+
+
=
+
= p n p F
h
h
s p
e
s p
D
ii
ii i
i
i i
Y Y Y Y
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
86
La r La r gression lin gression lin aire multiple : aire multiple :
Objectif: estimer
0
,
1
,
2
quation du modle estim:
Lestimation est faite par les
moindres carrs. Il sagit de
minimiser la somme des carrs
des carts des points au plan:
2 2 1 1 0
X b X b b Y + + =
= =
=
n
1 i
2
2 2 1 1 0
n
1 i
2
) ( min
i i i i
X b X b b Y e
) (0, i est o ,
2
2 2 1 1 0
N X X Y + + + =
(X
1i
, X
2i
,Y
i
)
e
i
Modle linaire multiple 2 variables explicatives :
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
87
Diffrents modles linaires multiples : Un modle de rgression
est dit linaire si son quation est linaire par rapport aux paramtres
Plane in R3
+ + + =
2 2 1 1 0
X X Y
Polynomial model
X
Y
MALE
FEMALE
Model with qualitative variable
X
Y
+ + + = S X Y
2 1 1 0
Model avec interaction
+ + + + =
2 1 3 2 2 1 1 0
X X X X Y
+ + + + =
3
1 3
2
1 2 1 1 0
X X X Y
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
88
77,6% de variabilit de la rponse
peut tre explique par le modle
Ex: Modliser le temps de rcupration (LogRecup1) en fonction
du temps de repos (LogAbsence) et de la temprature du jour
Exercice ncessitant louverture dun nouveau fichier (Data_SPSS_2):
SPSS : Analyze Regression Linear
Modle globalement + utile quun
modle avec juste un intercept
Effets du nombre de jours
dabsence et de la temprature
du jour sur le temps de rcup
LogRecup1 = -2.999 +
1.251*LogAbsence +
0.019*Temprature
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
89
Comment juger si le modle est valide ?
En analysant les rsidus de la mme manire que pour la rgression
simple
En vrifiant linfluence des points sur la rgression (Leverage /
Cook)
En sassurant quil ny a pas de problme de multicolinarit
entre les variables explicatives (VI). On parle de multicolinarit
lorsque les variables explicatives voluent ensembles. La
multicolinarit peut entraner:
- une imprcision des paramtres estims
- une instabilit des paramtres quand une donne change
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
90
Comment dtecter les problmes de multicolinarit ?
En vrifiant le facteur dinflation de la variance (VIF) : ok si 1 VIF 10
On peut aussi utiliser la tolrance qui est dfinie par: 1 / VIF
En regardant les valeurs propres de la matrice de corrlation des
paramtres
En constatant lInstabilit du modle quand une variable est enleve
ou ajoute au prcdent modle
SPSS : Analyze Regression Linear (Statistics Colinearity diagnostics)
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
91
Notre modle de rgression multiple est-il valide?
SPSS : Analyze Regression Linear (Plots - Statistics - Save)
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prdi unstand. & Leverage
Scatter/Dot: X=Prdi unstd.
Y=Leverage)
Ex: Raliser la mme modlisation partir des variables dorigine
(Recup1 Absence et Temprature). Faire les mmes analyses
de rsidus et comparer les rsultats des deux analyses
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
92
Formation SMCS : Pratique de la statistique avec SPSS
Analyse dune variable quantitative
en fonction dau moins
une variable qualitative
94
Visualisation Visualisation graphique graphique
Ex : Visualiser la dure de repos (absence) en tenant compte du sexe
1000
1000
SPSS : Graphs Chart Builder Boxplot
SPSS : Graphs Chart Builder Scatter/Dot
Boxplot Boxplot
Scatter Scatter/Dot /Dot
95
Tableaux: Tableaux: Statistiques Statistiques descriptives descriptives
Ex: Rsumer la variable temps de repos (Absence) en fonction du sexe
SPSS : Analyze Descriptive Statistics Explore
ou Analyze Reports Case Summaries
96
Inf Inf rence rence : Test : Test sur sur 2 2 moyennes moyennes
Ex: Tester si le log du temps de Recup1 diffre en moyenne selon le sexe
Test-t pour 2 chantillons indpendants
Utilisation : Lorsque les donnes comparer sont indpendantes
Conditions : Normalit des distributions, galit des variances et
indpendance des observations (transformations possibles pour la normalit)
SPSS : Analyze Compare Means Independent-Samples T Test
Tests de comparaison de 2 moyennes ind Tests de comparaison de 2 moyennes ind pendantes pendantes
Tests non-paramtrique (normalit non respecte ou donnes ordinales)
Utilisation : Quand les donnes ne se distribuent pas normalement dans
au moins un des groupes ou quil sagit de donnes ordinales
Tests : Test de Mann-Whitney (Wilcoxon Rank-Sum), test de la mdiane
SPSS : Analyze Nonparametric Tests 2 Independent Samples (Mann-Whitney)
SPSS : Analyze Nonparametric Tests k Independent Samples (Median)
97
Inf Inf rence rence : Test : Test sur sur 2 2 moyennes moyennes
Ex: Tester si le log du temps de Recup1 diffre en moyenne selon le sexe
Test pour chantillons indpendants Tester la Normalit
SPSS : Analyze Descriptive Statistics Explore (Plot-Normality Plots)
Condition de Normalit respecte Test paramtrique
SPSS : Analyze Compare Means Independent-Samples T Test
P-valeur du test : Indique que Recup1
ne diffre pas selon le sexe
Test de Levene : Teste lgalit
des variances entre les 2 groupes.
Dtermine la ligne lire.
98
Inf Inf rence rence : Test : Test sur sur 2 2 moyennes moyennes
Ex: Comparer la moyenne du temps de rcupration 1 et 2
Test-t pair
Utilisation : Quand les donnes comparer sont lies (ex: avant-aprs)
Conditions : Normalit de la diffrence entre les 2 groupes et
indpendance des observations au sein de chaque groupe. En cas de
Non-Normalit, il est possible de transformer les donnes (ex: log, 1/x,)
SPSS : Analyze Compare Means Paired Samples T Test
Tests de comparaison de 2 moyennes Tests de comparaison de 2 moyennes pair pair es es
Tests pairs non-paramtriques (condition de normalit non respecte)
Utilisation : Quand les donnes comparer sont lies (ex: avant-aprs,
pots avec 2 plantes) et que la diffrence entre les groupes ne se
distribue pas normalement.
Diffrents tests : Test du signe ou test de Wilcoxon (signed-Rank)
SPSS : Analyze Nonparametric Tests 2 Related Samples (Wilcoxon, Sign)
99
Inf Inf rence rence : Test : Test sur sur 2 2 moyennes moyennes
Ex: Comparer la moyenne du temps de rcupration 1 et 2
Test pair Tester la Normalit de la diffrence entre les 2 groupes
SPSS : Transform Compute Variable (DifRecup=Recup1-Recup2)
Analyze Descriptive Statistics Explore (Plot-Normality Plots With Tests)
Condition de Normalit non respecte Test Non-paramtrique
SPSS : Analyze Nonparametric Tests 2 Related Samples (Wilcoxon, Sign)
P-valeur
du test
Dans le cas dune distribution trs asymtrique Test du Signe (Sign)
100
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Tester si la moyenne du log de Recup1 diffre selon la vitamine prise
ANOVA pour k chantillons indpendants
Utilisation : Lorsque les donnes comparer sont indpendantes
Conditions : Normalit des distributions, galit des variances et
indpendance des observations (transformations possibles pour la normalit)
SPSS : Analyze Compare Means One-Way ANOVA
Tests de comparaison de k moyennes ind Tests de comparaison de k moyennes ind pendantes pendantes
Test non-paramtrique (normalit non respecte ou donnes ordinales)
Utilisation : Quand les donnes ne se distribuent pas normalement dans au
moins un des groupes, quil sagit de donnes ordinales, ou peu de donnes
Tests : Test de Kruskal-Wallis, test de la mdiane
SPSS : Analyze Nonparametric Tests k Independent Samples (Kruskal Wallis)
101
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Tester si la moyenne du log de Recup1 diffre selon la vitamine prise
Test pour chantillons indpendants Tester la Normalit
SPSS : Analyze Descriptive Statistics Explore (Plot-Normality Plots)
Condition de Normalit non respecte Test non paramtrique
SPSS : Analyze Nonparametric Tests k Independent Samples (Kruskal Wallis)
P-valeur du test : Indique que
LogRecup1 diffre selon la
vitamine
=> Le temps de rcupration
est diffrent pour au
moins une des vitamines
102
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Tester si la moyenne du log de Recup1 diffre selon la vitamine prise
Test pour chantillons indpendants
Imaginons la Condition de Normalit respecte Test paramtrique
SPSS : Analyze Compare Means One-Way ANOVA
P-valeur du test : Indique que LogRecup1
diffre selon la vitamine
P-valeur du test de Levene : Indique que
les variances des groupes ne peuvent
tre considres homognes
Test en cas dgalit des variances
Test en cas dingalit des variances
Pour obtenir la correction de Welch : SPSS : Analyze Compare Means One-Way ANOVA (Options)
103
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Voir quelles vitamines diffrent si analyse globale significative
ANOVA pour k chantillons indpendants Tests : Bonferroni, Tuckey,
Scheff, SPSS : Analyze Compare Means One-Way ANOVA (Post Hoc)
Comparaisons multiples post Comparaisons multiples post- -hoc hoc
Test non paramtrique (Kruskal-Wallis) Test : Pas de comparaisons
multiples dans SPSS. Comparer les moyennes 2 2 en adaptant la p-valeur.
Principe de Bonferroni : P-valeur adapte=0.05/Nombre de comparaisons
P-valeur indiquant que toutes les
vitamines diffrent au niveau de
la moyenne du LogRecup1
104
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Comparer la moyenne du temps de rcupration 1, 2 et 3
ANOVA pour mesures rptes
Utilisation : Lorsque les donnes comparer sont lies (ex: temps 1, 2, 3)
Conditions : Normalit de la diffrence entre les groupes, indpendance
des observations au sein de chaque groupe, sphricit de la matrice var/cov
SPSS : Analyze General Linear Models Repeated Measures
Tests de comparaison de k moyennes Tests de comparaison de k moyennes pair pair es es
Tests non-paramtriques (condition de normalit non respecte)
Utilisation : Quand les donnes comparer sont lies (ex: temps 1, 2, 3),
que la diffrence entre les groupes ne se distribue pas normalement ou que
lchantillon est petit
Diffrents tests : Test de Friedman, Kendall W, Cochran Q
SPSS : Analyze Nonparametric Tests k Related Samples (Friedman)
105
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Voir quelles mesures (temps) diffrent si analyse globale significative
ANOVA pour mesures rptes Tests : Bonferroni, Sidak
SPSS : Analyze General Linear Models Repeated Measures (Options)
Comparaisons multiples post Comparaisons multiples post- -hoc hoc
Test non paramtrique (Friedman) Test : Pas de comparaisons multiples
dans SPSS. Comparer les moyennes 2 2 en adaptant la p-valeur
Principe de Bonferroni: P-valeur adapte=0.05/Nombre de comparaisons
P-valeur indiquant que les trois
mesures de temps de
rcupration (LogRecup1 2 3)
diffrent en moyenne
106
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Comparer la moyenne du temps de rcupration 1, 2 et 3
ANOVA pour mesures rptes (si normalit respecte)
SPSS : Analyze General Linear Models Repeated Measures
Test de Mauchly : Teste la symtrie
compose Homognit des
variances / covariances. En cas de
non-sphricit, prendre la correction
de Greenhouse-Geisser
P-valeur du test : Indique
quau moins une des
mesures aux diffrents
temps a une moyenne
diffrente des 2 autres
107
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Comparer la moyenne du temps de rcupration 1, 2 et 3
Test pour mesures rptes (si non normalit ou peu de donnes)
SPSS : Analyze Nonparametric Tests k Related Samples (Friedman)
P-valeur
du test
108
Inf Inf rence rence : Test : Test 2 2 crit crit res res
Ex: Tester la moyenne LogRecup1 selon les variables sexe et Arrt1
ANOVA 2 critres
Utilisation : Lorsque les donnes comparer sont indpendantes
Conditions : Normalit des distributions, galit des variances et
indpendance des observations (transformations possibles pour la normalit)
SPSS : Analyze General Linear Models Univariate
Tests de comparaison de moyennes selon 2 crit Tests de comparaison de moyennes selon 2 crit res res
a. Design: Intercept + Sexe + Arret1 + Sexe * Arret1
Tests the null hypothesis that the error variance of
the dependent variable is equal across groups.
,173 171 3 1,679
Sig. df2 df1 F
Levene's Test of Equality of Error Variances
a
P-valeur du test de Levene: Indique
lgalit des variances des rsidus
entre les groupes. Condition
ncessaire pour la validit du test
Modle non
significatif
Effets principaux
et interaction
non significatifs
109
Sexe
Homme Femme
L
o
g
R
e
c
u
p
1
Avec Arrts
Sans Arrt
Sexe
Homme Femme
L
o
g
R
e
c
u
p
1
Avec Arrts
Sans Arrt
Sans effet dinteraction Avec effet dinteraction
Il y a un effet dinteraction entre les facteurs sexe et arrt
si leffet du facteur sexe sur la rponse dpend du niveau pris par
le facteur arrt
Inf Inf rence rence : Test : Test 2 2 crit crit res res
110
Inf Inf rence rence : Test : Test 2 2 crit crit res res
Ex: Tester leffet du sexe sur le temps de rcupration aux 3 temps
ANOVA pour mesures rptes
Utilisation : Lorsque certaines donnes comparer sont lies
Conditions : Normalit de la diffrence entre les groupes, indpendance
des observations au sein de chaque groupe, sphricit de la matrice var/cov
SPSS : Analyze General Linear Models Repeated Measures
Tests de comparaison de moyennes selon 2 crit Tests de comparaison de moyennes selon 2 crit res res - - 1 r 1 r p p t t
Test de Mauchly : Teste la symtrie compose Homognit des variances / covariances.
En cas de non-sphricit, prendre la correction de Greenhouse-Geisser
111
Inf Inf rence rence : Test : Test 2 2 crit crit res res
Ex: Tester leffet du sexe sur le temps de rcupration aux 3 temps
Utiliser prfrentiellement les variables transformes (diffrences importantes)
Moyenne diffrente
selon les temps
Correction de Greenhouse-Geisser
considrer car non sphricit
Pas deffet dinteraction
entre le temps et le sexe
Pas deffet du sexe sur le
temps de rcupration
112
Mod Mod lisation lisation : : Mod Mod le le lin lin aire aire g g n n ral ral
Ex: Modliser le temps de rcupration selon le temps de convalescence
et le fait que les athltes se sont arrts durant le marathon
Utilisation : Test quivalent lANOVA si toutes les variables explicatives
sont catgorielles
Conditions : Identiques aux conditions de la rgression linaire
SPSS : Analyze Generalized Linear Models Generalized Linear Models
R R gression incluant simultan gression incluant simultan ment des variables cat ment des variables cat gorielles gorielles
et quantitatives comme variables explicatives et quantitatives comme variables explicatives
113
Mod Mod lisation lisation : : Mod Mod le le lin lin aire aire g g n n ral ral
Ex: Modliser le temps de rcupration selon le temps de convalescence
et le fait que les athltes se sont arrts durant le marathon
SPSS : Analyze Generalized Linear Models Generalized Linear Models
Test de la qualit dapproximation du modle
+ +
+
=
Arrt sans Marathon si , logAbsence 31 . 1 09 . 0 03 . 3
Arrts avec Marathon si , logAbsence 31 . 1 03 . 3
logRecup1
Pas deffet de la
variable Arret1
sur Recup1
114
115 116
Formation SMCS : Pratique de la statistique avec SPSS
Analyse dune variable qualitative
en fonction dune variable quantitative
118
Visualisation Visualisation graphique graphique
Ex :Visualiser la variable Arret1 (avec versus sans arrts) en fonction
de la dure de convalescence (absence)
1000
1000
SPSS : Graphs Chart Builder Boxplot
SPSS : Graphs Chart Builder Scatter/Dot
Boxplot Boxplot par cat par cat gorie gorie
Dot Plot par cat Dot Plot par cat gorie gorie
119
Tableaux: Tableaux: Statistiques Statistiques descriptives descriptives
Ex: Rsumer la variable temps de convalescence (LogAbsence) par
catgorie de la variable Arret1 et par catgorie de la variable Arret2
SPSS : Analyze Descriptive Statistics Explore
ou Analyze Reports Case Summaries
120
Mod Mod lisation lisation : : R R gression gression logistique logistique
La rgression logistique permet de modliser une rponse Y
dichotomique (0,1) en fonction de variables explicatives
On modlise la probabilit que lvnement survienne P(Y=1)
121
Exemples dutilisation
Modliser la probabilit quun client rembourse son prt selon
ses caractristiques personnelles : salaire, ge, emploi,
Modliser la probabilit de dvelopper une maladie cardiaque
selon lge, le taux de cholestrol, le poids, le fait de fumer
Modliser la probabilit pour une personne de possder son
propre logement selon le revenu, lge, le nombre denfants,
Dcrire la relation entre la probabilit espre et une variable
Dterminer les variables indpendantes importantes pour
expliquer la probabilit dune rponse
Prdire la probabilit de la rponse laide de ces variables
La rgression logistique peut tre utilise pour
Mod Mod lisation lisation : : R R gression gression logistique logistique
122
Pourquoi ne pas utiliser la rgression linaire ?
La rgression linaire multiple et le modle linaire gnral
permettent dexpliquer une variable quantitative continue en
fonction de variables explicatives qualitatives ou quantitatives
Lorsque Y est une variable catgorielle 2 ou plusieurs
niveaux, le modle de rgression classique ne peut plus
sappliquer. La condition dhomognit de variance des
rsidus nest pas possible obtenir avec une variable
dpendante dichotomique. Le modle de rgression linaire
permettrait des valeurs estimes en dehors de lintervalle [0,1]
et ne permettrait pas de relation non-linaire.
) , 0 ( i est o ,
2
2 2 1 1 0
N X X X Y
p p
+ + + + + = K
Mod Mod lisation lisation : : R R gression gression logistique logistique
123
Principe de la rgression logistique
La variable expliquer (Y) est une variable dichotomique dont
les valeurs possibles sont 0 (chec) et 1 (succs)
La probabilit P(Y=1) = , (0 1)
peut dpendre de la valeur des variables explicatives (X
1
,
X
2
,, X
p
). Le modle logistique propose dexpliquer comme
une fonction de (X1, X2,, Xp)
Comme 0 1, on le transforme pour quil prenne ses
valeurs dans [-, ].
Modle de rgression logistique (logit):
+ + + + = |
\
|
p p
X X X ...
1
ln
2 2 1 1 0
Mod Mod lisation lisation : : R R gression gression logistique logistique
124
Modle logistique binaire une variable
Equation du modle :
Equation du modle estim :
Reprsentation graphique du modle ( =P(Y=1) ) :
+ + = |
\
|
X
1 0
1
ln
X) b (b
X) b (b
X ou b b
1 0
1 0
1 0
exp 1
exp
ln
+ +
+
= + = |
\
|
Variable explicative X
P
r
o
b
a
b
i
l
i
t
e
P
(
Y
=
1
)
20 25 30 35 40
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
X) . (
X) . (
ou
X .
5 0 15 exp 1
5 0 15 exp
5 0 15
1
ln
+ +
+
=
+ = |
\
|
avec
, ) ( ) ,...,X ,X |X y Y ... y Y y P(Y ) , L(
i i
i
i
N
i
y
i
y
i N N N
i i
+ + =
|
|
\
|
= = = = =
=
1 0
1
1
2 1 2 2 1 1 1 0
1
ln
1
Mod Mod lisation lisation : : R R gression gression logistique logistique
126
Influence des paramtres sur =P(Y=1)
Variable explicative X
P
r
o
b
a
b
i
l
i
t
e
P
(
Y
=
1
)
-20 -10 0 10 20
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
b0 = -5
b0 = 0
b0 = 5
Variable explicative X
P
r
o
b
a
b
i
l
i
t
e
P
(
Y
=
1
)
-10 -5 0 5 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
b1 = 0.5
b1 = 1
b1 = 2
Variable explicative X
P
r
o
b
a
b
i
l
i
t
e
P
(
Y
=
1
)
-10 -5 0 5 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
b1 = -0.5
b1 = -1
b1 = -2
Influence de b
0
Influence de b
1
Mod Mod lisation lisation : : R R gression gression logistique logistique
127
Ex: Lentraneur voudrait pouvoir prdire le risque quun athlte sarrte
au moins une fois durant le 2
me
marathon (Arret2) en fonction du
temps de convalescence (LogAbsence)
SPSS : Analyze Regression Binary Logistic
Modlisation de la probabilit de Y=1 cd davoir
au moins un arrt lors du marathon 2
Mod Mod lisation lisation : : R R gression gression logistique logistique
128
Comment juger si le modle est bon ?
En regardant les p-valeurs
Block 0 = Modle nincluant que lintercept (autres coefficients=0)
Block 1 = Modle suivant, incluant un ou plusieurs prdicteurs
Tests de qualit dajustement :
Omnibus Tests
Ils testent si le modle incluant les prdicteurs (modle
complet, dans le Step ou dans le Block ) est
significativement meilleur que le modle nincluant que
lintercept
Hosmer and Lemeshow Test
Il teste sil existe une diffrence significative entre les
valeurs observes et les valeurs prdites par le modle
2
~
p
|
|
\
|
\
|
703 . 0 178 . 4
1
ln
LogAbsence
LogAbsence
+ +
+
=
Mod Mod lisation lisation : : R R gression gression logistique logistique
132
Que reprsentent le Odds et le Odds ratio ?
LogAbsence le sachant arrter s' pas ne de Probabilit
LogAbsence le sachant fois 1 moins au arrter s' de Probabilit
=
1
Odds (ou cotes)
Ex: Le risque pour un athlte de sarrter durant le 2
me
marathon
(Arret2) en sachant quil a eu 18 mois de convalescence (Absence)
561 . 0
)) 30 * 18 ( 703 . 0 178 . 4 exp( 1
)) 30 * 18 ( 703 . 0 178 . 4 exp(
=
+ +
+
=
Log
Log
=
) 1 (
) 1 (
2
2
1
1
OR
Odds Ratio (ou rapport de cotes)
Un athlte avec un temps de convalescence dune unit en
plus au niveau du LogAbsence a 2,019 fois plus de chance
de sarrter au moins une fois durant le marathon 2
Ex: Le risque relatif pour un athlte avec un temps de convalescence
de X+1 de sarrter durant le 2
me
marathon par rapport un
athlte avec un temps de convalescence de X (LogAbsence)
OR=exp(
1
)
Mod Mod lisation lisation : : R R gression gression logistique logistique
134
Comment se mettre dans de bonnes conditions
pour obtenir un modle qui soit valide ?
En reprant les outliers et points influents (via lanalyse des rsidus,
standardized residuals, leverage, Cook)
En incluant toutes les variables influentes dans le modle et
uniquement celles-l
En vrifiant que la relation entre VI et log odds de VD est linaire
En vrifiant labsence de multicolinarit
En utilisant des chantillons de taille suffisante
En sassurant que les conditions dapplication des tests sont
respectes