Anda di halaman 1dari 37

Formation SMCS : Pratique de la statistique avec SPSS

Pratique de la statistique avec SPSS


Formateurs : Nathalie Lefvre et Lorise Moreau
Date : du 7 au 11 septembre 2009
2
SUPPORT
Transparents ultrieurement amliors et mis jour sur le site du SMCS
LIENS UTILES
Site du SMCS (Support en Mthodologie et Calcul Statistique) :
http://www.stat.ucl.ac.be/SMCS/
Documentation Stat + SPSS :
http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm
http://www.ats.ucla.edu/stat/spss/
http://www.stat.ucl.ac.be/SMCS/
LIVRES UTILES
Discovering Statistics Using Spss par Andy Field (Sage Publication)

3 4
Formation SMCS : Pratique de la statistique avec SPSS
SPSS Objectifs de la formation
6
Objectifs Objectifs de la formation de la formation
R R sumer ce que peut offrir la statistique sumer ce que peut offrir la statistique
D D couvrir l couvrir l environnement SPSS environnement SPSS
Appliquer quelques principales analyses statistiques Appliquer quelques principales analyses statistiques
Apprendre Apprendre interpr interpr ter les r ter les r sultats des analyses sultats des analyses
R R pondre pondre vos questions sp vos questions sp cifiques cifiques
7 8
Formation SMCS : Pratique de la statistique avec SPSS
SPSS - Etude de cas
10
Contexte Contexte
Contexte Contexte : Un entra : Un entra neur souhaite mieux comprendre les facult neur souhaite mieux comprendre les facult s de s de
r r sistance d sistance d athl athl tes reprenant les entra tes reprenant les entra nements apr nements apr s une p s une p riode de riode de
repos forc repos forc suite suite une blessure une blessure
Il voudrait savoir si la r Il voudrait savoir si la r sistance des athl sistance des athl tes [mesur tes [mesur e par le e par le temps de temps de
r r cup cup ration ration apr apr s un marathon s un marathon (temps n (temps n cessaire pour atteindre x pulsations par minute) cessaire pour atteindre x pulsations par minute)
et le fait que les athl et le fait que les athl tes ont ou non fait des tes ont ou non fait des arrts durant la course arrts durant la course (course (course
avec arrt ou sans arrt)] avec arrt ou sans arrt)] peut tre d peut tre d termin termin e par la e par la dur dur e du repos e du repos, le , le sexe sexe de de
l l athl athl te et les te et les vitamines vitamines prises durant le mois de pr prises durant le mois de pr paration. paration.
Il pense que cette Il pense que cette tude pourra l tude pourra l aider aider am am liorer ses entra liorer ses entra nements nements
pour tre plus adapt pour tre plus adapt s aux athl s aux athl tes. tes.
Remarque Remarque : Il s : Il s agit d agit d une une tude fictive tude fictive
11
Donn Donn es es
Donn Donn es es: Pour chaque athl : Pour chaque athl te, nous avons les informations suivantes : te, nous avons les informations suivantes :
1=Sans arrt
2=Avec arrts
Marathon 1 ralis avec ou sans arrt Arret1 V9 Col9
Date invente Fausse_Date V10 Col11
0=Sans arrt
1=Avec arrts
Marathon 2 ralis avec ou sans arrt Arret2 V10 Col10
Nombre de seconde pour rcuprer aprs le marathon 3 Recup3 V8 Col8
Nombre de seconde pour rcuprer aprs le marathon 2 Recup2 V7 Col7
Nombre de seconde pour rcuprer aprs le marathon 1 Recup1 V6 Col6
Nombre de jours de repos Absence V5 Col5
1=Vitamine A
2=Vitamine B
3=Vitamine C
Vitamine prise par lathlte Vitamine V4 Col4
1=Homme
2=Femme
Sexe de lathlte Sexe V3 Col3
Identifiant de lathlte Identifiant V2 Col2
Date de la mesure Date V1 Col1
Values Label Nom de
variable
Nom
SPSS
Colonne
12
Formation SMCS : Pratique de la statistique avec SPSS
La statistique comme outil
14
Face Face une une question question
Quelles r Quelles r ponses offre la statistique? ponses offre la statistique?
Des outils descriptifs Des outils descriptifs
Pour Pour r r sumer sumer les donn les donn es et les repr es et les repr senter graphiquement senter graphiquement
Des outils Des outils inf inf rentiels rentiels
Pour r Pour r pondre aux questions et pondre aux questions et d d cider cider partir des donn partir des donn es es
Des outils de mod Des outils de mod lisation lisation
Pour Pour expliquer expliquer certaines variables certaines variables partir d partir d autres variables autres variables
15
Outils Outils descriptifs descriptifs
Rsum numrique pour estimer des paramtres dune distribution :
moyenne, variance, mdiane, quantiles, skewness, kurtosis, corrlation
Graphiques statistiques pour montrer /
analyser les structures sous-jacentes
aux donnes :
diagramme en barres, histogramme,
boxplot, graphe x-y, qq-plot, densit
16
Outils Outils inf inf rentiels rentiels
Les outils infrentiels permettent de rpondre aux questions que nous
nous posons sur une population partir dun chantillon extrait de celle-ci
La rsistance des athltes est-elle affecte par le type de vitamines
prises durant le mois de prparation?
La rsistance des athltes est-elle lie la dure de la priode de
convalescence des athltes?
Le sexe interfre-t-il dans les effets observs?

Les notions principales lies linfrence statistique:


Estimations
Intervalles de confiance
tests dhypothses
17
Outils Outils de de mod mod lisation lisation
Les outils de modlisation expliquent et prdisent une ou plusieurs
variables par une fonction mathmatique dautres variables
Quelques exemples de modlisation :
Rgression simple, multiple, rgression logistique, analyse de variance
18
19 20
Formation SMCS : Pratique de la statistique avec SPSS
Lenvironnement SPSS
22
SPSS SPSS
SPSS pour SPSS pour
Statistical Statistical Package for Social Sciences Package for Social Sciences
23
SPSS SPSS
Plusieurs types de fichiers Plusieurs types de fichiers
Data Data : Fichier de donn : Fichier de donn es es
Syntax Syntax : Fichier de syntaxe incluant : Fichier de syntaxe incluant
le code de commandes SPSS le code de commandes SPSS
Output Output : Fichier incluant les r : Fichier incluant les r sultats sultats
des analyses des analyses
Script Script : Fichier incluant du langage : Fichier incluant du langage
de programmation objet de programmation objet
=> => Ces Ces diff diff rents rents fichiers fichiers peuvent peuvent tre tre
sauv sauv s s et et r r utilis utilis s s par la suite par la suite
24
Le Le fichier fichier de de donn donn es es
Deux feuilles diff Deux feuilles diff rentes rentes
Data Data View View : :
Visualisation des donn Visualisation des donn es es
permet de modifier les permet de modifier les
donn donn es es
Variable Variable View View : :
Visualisation des variables Visualisation des variables
permet de modifier les permet de modifier les
caract caract ristiques des variables ristiques des variables
25
Ouvrir Ouvrir un un fichier fichier de de donn donn es es
SPSS : File Open Data
Aller lendroit o le
fichier est enregistr
Choisissez le
type de fichier
26
Ouvrir Ouvrir un un fichier fichier de de donn donn es es
Cocher cette case si la
premire ligne inclut le
nom des variables
=> => Il est important de visualiser Il est important de visualiser
les donn les donn es au pr es au pr alable alable
et de v et de v rifier que l rifier que l importation importation
27
Continu
D D couvrir couvrir les les donn donn es es
Vecteur dobservations
pour un individu (cas)
Vecteur dobservations pour
une Variable (champ)
Cellule
Valeurs manquantes :
Variable numrique = . (point)
variable alphanumrique = (blanc)
Types de variables :
Qualitatif
Quantitatif
Nominal
Ordinal
Discret
28
D D finir finir les variables les variables
Changer le
nom des
variables
Dfinir le type :
Eviter les variables
string (chane de
caractres) car a
limite certaines
analyses
Donner un
label : nom
complet des
variables
Indiquer la
signification
de chaque
valeur
Indiquer le type de
mesure : chelle,
ordinale, nominale
A vous d A vous d essayer avec les informations re essayer avec les informations re ues ues (aller voir ce qu (aller voir ce qu il est possible il est possible
de faire dans chaque menu: changer l de faire dans chaque menu: changer l affichage des dates, d affichage des dates, d finir les finir les missing missing ) )
29
D D couvrir couvrir les menus les menus
Infos gnrales
sur un fichier
Dfinir des
paramtres
Raliser des analyses
diffrentes selon les
valeurs dune variable
A vous de les d A vous de les d couvrir couvrir Quelques menus int Quelques menus int ressants ressants
Slectionner certaines
donnes
Donner un poids sur
base dune variable
30
D D couvrir couvrir les menus les menus
Transformer ou
crer des variables
Raliser des analyses
Quelques menus int Quelques menus int ressants ressants
Obtenir un graphe
Obtenir de laide
A vous de les d A vous de les d couvrir couvrir
31
Ne pas se Ne pas se fatiguer fatiguer
Sauver le code chaque fois qu Sauver le code chaque fois qu on ex on ex cute quelque chose cute quelque chose
SPSS : choisir le menu qui nous int choisir le menu qui nous int resse resse choisir les options voulues choisir les options voulues
dans la fentre dans la fentre cliquer sur cliquer sur Paste au lieu de OK au lieu de OK
- Le code correspondant est coll Le code correspondant est coll dans une fentre de syntaxe dans une fentre de syntaxe
- Dans la fentre de syntaxe, on peut cliquer sur Dans la fentre de syntaxe, on peut cliquer sur Run All et le et le
code est ex code est ex cut cut ou ou Run Selection
- On peut sauver le fichier contenant le code et l On peut sauver le fichier contenant le code et l ouvir ouvir pour pour
l l ex ex cuter sur un autre fichier cuter sur un autre fichier
Se servir du journal pour avoir une trace de ce qui a Se servir du journal pour avoir une trace de ce qui a t t fait fait
SPSS : Edit Options File Locations : choisir un endroit choisir un endroit
accessible pour le fichier accessible pour le fichier Session Journal Session Journal spss.jn r r aliser aliser
toutes les analyses toutes les analyses ouvrir ce fichier avec un ouvrir ce fichier avec un diteur de texte diteur de texte
On voit tout ce qui a On voit tout ce qui a t t fait durant l fait durant l ouverture de la cession ouverture de la cession
32
Formation SMCS : Pratique de la statistique avec SPSS
Analyses statistiques
34
Grilles Grilles d d aide aide l l analyse analyse
Test de proportions
Test dajustement
Test t et IC sur la moyenne
Test c et IC sur la variance
Test de Normalit
Infrence
Mdiane, mode
Table de frquences
Moyenne, mode, mdiane
Variance, cart-type
Tableau
descriptif
Diagrammes en barres
Diagrammes de Pareto
Graphique temporel
Graphe en points
Diagramme en barres (si discrte)
Boxplot
Histogramme (si continue)
qq-plot, pp-plot
Graphe
Pas d'autres
variables
Variable qualitative Variable quantitative Outil
Selon - Var.
Indpendante
Variable analyser - Variable dpendante (VD)
Une variable d Une variable d int int rt rt analyser seule analyser seule
35
Grilles Grilles d d aide aide l l analyse analyse
Rgression logistique
Analyse discriminante
Rgression linaire simple
et rgression multiple
Modlisation
Test et IC sur la corrlation Infrence
Moyenne, mode,
mdiane par catgorie
Variance,
cart-type par catgorie
Coefficient de corrlation de Pearson,
Spearman ou autre
Tableau
descriptif
Graphes en points
Boxplot par catgorie
Graphe x-y
Graphe x-y matriciel
Graphe
En fonction
d'une / de
variables
quantitative(s)
Variable qualitative Variable quantitative Outil
Selon - Var.
Indpendante
Variable analyser - Variable dpendante (VD)
Une variable d Une variable d int int rt en fonction d rt en fonction d une variable quantitative une variable quantitative
36
Grilles Grilles d d aide aide l l analyse analyse
Rgression logistique
Arbre de segmentation
ANOVA,
ANOVA mesures rptes,
GLM
Modlisation
Test dindpendance: ,
test exact de Fisher
Test de McNemar
Test t de comparaison des moyennes,
tests de comparaisons multiples,
test de Wilcoxon
Test F de comparaison des variances,
test de Levene
Infrence
Tableau de contingence Moyenne, mode,
mdiane par catgorie
Variance, cart-type par catgorie
Tableau
descriptif
Diagramme en barres
par catgorie
Graphe en points
Boxplot par catgorie
Graphe
En fonction
d'une / de
variables
qualitative(s)
Variable qualitative Variable quantitative Outil
Selon - Var.
Indpendante
Variable analyser - Variable dpendante (VD)
Une variable d Une variable d int int rt en fonction d rt en fonction d une variable qualitative une variable qualitative
37
Canevas Canevas de la formation de la formation
Les diffrents parties de la formation sont organises en se basant sur
le type de variables disponibles et analyser
Que peut-on utiliser comme outil statistique lorsquon dispose de :
Une seule variable quantitative
Une seule variable qualitative
Plusieurs variables quantitatives
Une variable quantitative selon au moins une variable qualitative
Une variable qualitative selon au moins une variable quantitative
Plusieurs variables qualitatives
O
b
j
e
c
t
i
f
s
D
o
n
n

e
s
I
n
t
r
o

S
t
a
t
S
P
S
S
A
n
a
l
y
s
e
s

s
t
a
t
1
q
u
a
n
t
i
1
q
u
a
l
i

2
q
u
a
n
t
i
Q
u
a
n
t
i

s
e
l
o
n
q
u
a
l
i

2
q
u
a
l
i
Q
u
a
l
i
s
e
l
o
n
q
u
a
n
t
i
1
q
u
a
n
t
i
1
q
u
a
l
i

2
q
u
a
n
t
i
Q
u
a
n
t
i

s
e
l
o
n
q
u
a
l
i

2
q
u
a
l
i
Q
u
a
l
i
s
e
l
o
n
q
u
a
n
t
i
38
39 40
Formation SMCS : Pratique de la statistique avec SPSS
Analyse dune variable quantitative
42
Visualisation Visualisation graphique graphique
Le choix du graphique dpend de la taille n de lchantillon
Histogramme Histogramme (pour N > 50) :
Box plot Box plot (rarement mauvais) :
Dot plot Dot plot (bon pour N < 15) :
N=15 N=30 N=50

D
o
t

p
l
o
t
B
o
x

p
l
o
t
H
i
s
t
o
g
r
a
m
m
e
1000 1000 1000
1000
1000
1000
1000
1000
1000
3000 3000 3000
3000
3000 3000
3000
3000
3000
5000
5000
5000
5000
5000
5000 5000
5000
5000
43
Graphe Graphe: : Histogramme Histogramme
Ex: Visualiser la forme de la distribution du temps de convalescence
SPSS : Graphs Legacy Dialogs Histogram
Nombre dobs par classe
ou frquence relative
On dfinit des classes (souvent
de mmes longueurs) et pour
chacune on dessine un rectangle
dont la hauteur reprsente le
nombre dobs. appartenant la
classe.
Quand N est petit, la forme peut
beaucoup varier en fonction des
classes choisies
viter pour un N petit
Par prudence, prendre environ N
comme nombre de classes.
Que reprsente lhistogramme?
44
Graphe Graphe: Box plot : Box plot
Ex: Visualiser les distributions du temps de convalescence selon le sexe
SPSS : Graphs Legacy Dialogs (Interactive )Boxplot
ou Graphs Chart Builder Boxplot
45
Graphe Graphe: : Boxplot Boxplot
mdiane
75
me
percentile
25
me
percentile
Maximum (sans outliers)
Minimum (sans outliers)
Outlier (observation < 25th percentile - 1.5 IQR)
0
1
0
0
0
2
0
0
0
3
0
0
0
4
0
0
0
5
0
0
0
*

1.5 * IQR
Ecart interquartile
(IQR)
1.5 * IQR
25%
25%
25%
25%
Que reprsente un box-plot?
On ordonne les donnes et on les coupe en 4 groupes de 25%
46
Graphe Graphe: : Graphique Graphique temporel temporel
Ex: Visualiser lvolution du temps de rcupration au cours du temps
SPSS : Data Sort Cases By Date or Fausse_Data
Analyse Time series Sequence Charts
Une reprsentation de lvolution dune
variable en fonction du temps (ex: nos
critres de cotation peuvent se modifier
au cours du temps)
Graphe 1: Mesure non lie la Date
Graphe 2: Phnomne cyclique
avec Fausse_Date
Trs important contrler
Lhistogramme ne permet pas de voir
cette volution
Que reprsente le graphe temporel ?
Graphe 1
Graphe 2
V
a
r
i
a
b
l
e
T e m p s
47
Graphe Graphe: : QQplot QQplot
Ex: Vrifier si les temps de repos sont issus dune loi Normale
SPSS : Analyze Descriptive Statistics Q-Q Plots
Les donnes rellement observes par rapport aux donnes qui auraient d tre
observes dans le cas dune distribution parfaitement Normale (ou reprsentation
de la dviation de la distribution Normale de chacun des points observs)
Que reprsente ce QQplot?
48
Graphe Graphe: : QQplot QQplot
Que reprsente plus prcisment un QQplot ?
1/4 1/4 1/4 1/4
x1 x2 x3 x4
observations
z1 z2 z3 z4
Quantiles de la
distribution normale
Un QQ plot consiste comparer les donnes observes aux donnes
quon devrait avoir si elles suivaient parfaitement une certaine
distribution, le plus souvent la distribution Normale.
Les valeurs observes et idales (les quantiles) sont compares
sur un graphe X-Y qui montre une tendance linaire en cas de normalit.
Exemple avec 4 donnes
Droite de
Henry
49
Graphe Graphe: : QQplot QQplot
Normale Lognormale Bimodale
Quelques exemples de vrification de la normalit par QQplot
50
Tableaux: Tableaux: Statistiques Statistiques descriptives descriptives
Ex: Rsumer les temps de repos selon le sexe
SPSS : Analyze Reports Case Summaries (dcocher Display cases)
ou Analyze Descriptive
Statistics Explore
ou
51
Indices de Indices de tendance tendance centrale centrale
But : Donner une valeur centrale aux donnes
8 9 10 11 12 13 14 8 9 10 11 12 13 14
12 X
N
1
X
N
1 i
i
= =

=
50% of observations 50% of obs

moyenne

mdiane
Milieu=q
0.5
=13

mode
Valeur (classe)
la plus frquente= 14
8 9 10 11 12 13 14
- Centre de gravit des
donnes
- Sensible aux outliers
- Efficace pour les donnes
propres
- Rsistant aux outliers
- Moins efficace pour les
donnes propres
- Utile pour les distributions
asymtriques
- Facile comprendre
- Parfois plusieurs modes
52
Indices de dispersion Indices de dispersion
But : Savoir comment les donnes varient autour du centre

Variance

cart-type (standard deviation)


Dans les units dorigine

Erreur type (standard error)


Prcision de lestimateur de
la moyenne
62.667 ) X (X
1 N
1
) (
1 N
1
s
N
1 i
2
i
N
1 i
2 2
=

=
=
X
55 60 65 50 45
55 60 65 50 45
7.92 s s
2
= =
92 . 7
2
= = s s
N s/ s
X
=
53
Indices de dispersion Indices de dispersion
But : Savoir comment les donnes varient autour du centre
55 60 65 50 45
tendue = max(X
i
) - min(X
i
) IQR = q
0.75
- q
0.25
55 60 65 50 45
25% obs 25% 25% 25%
Range IQR
q
0.25
q
0.5
q
0.75
55 60 65 50 45
Box Plot

tendue

Espace interquartile
54
Inf Inf rence rence : Test : Test sur sur une une moyenne moyenne
Ex: Tester si la moyenne du temps de repos est diffrente de 250
Vrifier si la distribution est Normale et transformer les donnes si ncessaire
SPSS : Analyze Descriptive Explore Plots (cocher Normality plots with tests)
Tester une moyenne en population normale Tester une moyenne en population normale
La distribution scarte
significativement dune
Normale
Utiliser une transformation
SPSS : Transform Compute Variable (essayer une transformation logarithmique)
Vrifier nouveau la normalit
Distribution plus proche
dune Normale
Test de KS non significatif:
non rejet de la normalit
(P-valeur>0.05)
55
Inf Inf rence rence : Test : Test sur sur une une moyenne moyenne
Ex: Tester si la moyenne du temps de repos est diffrente de 250 en
utilisant la variable transforme [LN(250)5.52]
SPSS : Analyze Compare Means One-Sample T test
Tester une moyenne en population normale Tester une moyenne en population normale
P-valeur=0.007 => P-valeur<0.05 => Moins de 5% de chance de se tromper en
rejetant lhypothse selon laquelle la moyenne=5.52
=> On rejette cette hypothse au seuil de 5%
=> Nous sommes parvenu montrer que le logarithme du temps de repos est
significativement diffrent de 5.52
56
Test-t (1 moyenne par rapport une valeur de rfrence
0
)

On veut tester H
0
: =
0
contre H
1
:
0

Sous condition que la variable X teste ait une distribution normale


ou quil y ait un grand nombre dobservations

Statistique de test:

Rgle de dcision: on rejette H


0
si t
obs
< -t
n-1;1-/2
ou si t
obs
> t
n-1;1-/2
(souvent =0.05)

Conclusion: La moyenne est significativement de 5.52


0 1
0
H sous ~
/
-

=
n
t
n s
X
T

n s
X
T
obs
/
-
0

=
0
-t
n-1,1-/2
H
1
Accept
H
0
Accept
t
n-1,1-/2
H
1
Accept
Valeur du T
calcul
P-valeur=0.007 < 0.05
DONC on rejette H
0
au seuil de 5%
t
obs
Degr de libert = N-1
Tester Tester une une moyenne moyenne en population en population normale normale
t df Sig. (2-tailed) Mean Difference
LogAbsence -2,749 174 ,007

57
Tester Tester une une moyenne moyenne en population en population normale normale

Intervalle de Confiance 100*(1-)% pour la moyenne:


Rmq: IC ne contient pas 5.52!
[ ] n s t X n s t X
n n
/ , /
2 / 1 ; 1 2 / 1 ; 1
+
Intervalle de Confiance 100*(1-)% pour la diffrence entre le moyenne
et la moyenne thorique (5.52)
Rmq: IC ne contient pas 0!
[ ] n s t X n s t X
n n
/ , /
2 / 1 ; 1 0 2 / 1 ; 1 0
+
Sample Test
Test Value = 5.52
95% Confidence Interval of the
Difference
Mean Difference
Lower Upper
,007 -,14039 -,2412 -,0396
ou
58
59 60
Formation SMCS : Pratique de la statistique avec SPSS
Analyse dune variable qualitative
62
Visualisation Visualisation graphique graphique
Ex : Visualiser la rpartition des 3 types de vitamines chez les femmes
Pour slectionner les femmes :
Diagramme en barres Diagramme en barres
Une barre par catgorie
Frquence ou
pourcentage
Diagramme de Pareto Diagramme de Pareto
Une barre par catgorie
Les barres sont ordonnes
selon leur hauteur
1000
1000
SPSS : Data Select Cases if ...
SPSS : Graphs Legacy Dialogs Bar (Simple)
SPSS : Analyze Quality Control Pareto Charts
63
Tableaux: Tableaux: Statistiques Statistiques descriptives descriptives
Ex: Rsumer les proportions observes de la variable Arret1
Table de frquence :
SPSS : Analyze Descriptive Statistics Frequencies
Pour caractriser une variable ordinale
Utiliser la mdiane ou le mode :
SPSS : Analyze Descriptive Statistics Frequencies (Statistics)
64
Inf Inf rence rence : Test : Test sur sur une une proportion proportion
Ex: Tester si la proportion avec arrts versus sans arrt est la mme
SPSS : Analyze Non Parametric Tests Binomial
Test binomial sur une proportion Test binomial sur une proportion
H
0
: proportions identiques (
A
=
B
=0.5)
H
1
: proportions diffrentes (A B 0.5)
P-valeur=0.173 => P-valeur>0.05 => On ne rejette pas H
0
=> On peut considrer que le nombre dathltes qui arrtent au moins une fois
durant le marathon est quivalent au nombre qui ne sarrtent pas
Ce test ne peut tre appliqu que lorsque la variable dintrt ne peut prendre
que 2 valeurs (ex:avec versus sans)
65
Inf Inf rence rence : Test : Test sur sur une une proportion proportion
Ex: Tester si la proportion avec arrts versus sans arrt est la mme
SPSS : Analyze Non Parametric Tests Chi Square
Test d Test d ajustement ajustement
2 2
un crit un crit re de classification re de classification
H
0
: proportions identiques (
A
=
B
=)
H
1
: non H
0
P-valeur=0.151 => P-valeur>0.05 => On ne rejette pas H
0
=> On peut considrer que le nombre dathltes qui arrtent au moins une fois
durant le marathon est quivalent au nombre qui ne sarrtent pas
Ce test peut tre appliqu sur une variable avec plus de 2 catgories. Si le test
est significatif, il indique que les donnes se rapartissent autrement que le
hasard ou autrement que ce qui a t pos sous H
0
66
Inf Inf rence rence : Test : Test sur sur une une proportion proportion
Test d Test d ajustement ajustement
2 2
un crit un crit re de classification re de classification
Soit une exprience k rsultats possibles R
1
,..., R
k
de probabilits
inconnues p
1
, p
2
, , p
k
Soient les rsultats de N expriences indpendantes (X
1
, X
2
X
k
) o X
i
est le nombre doccurrences du rsultat R
i
( X
i
=N)
Question du test dajustement : On se donne des valeurs thoriques pour
les p
i
et se demande si les observations peuvent maner de cette
distribution
La statistique de test est base sur la comparaison des probabilits
thoriques et des proportions observes X
i
/N
R
1
R
2
R
3
R
k

X
1
X
2
X
3
X
k

p
1
p
2
p
3
p
k

Rsultats possibles
Probabilits thoriques
Occurrences observes
67
Test binomial Test binomial li li la table de fr la table de fr quence pour une variable quence pour une variable
qualitative qualitative deux deux niveaux niveaux
Test d Test d ajustement chi ajustement chi- -carr carr li li la table de fr la table de fr quence quence une une
variable qualitative variable qualitative plusieurs plusieurs niveaux niveaux
Dans Dans les les deux deux cas cas, on , on peut peut tester tester l l galit galit des proportions des proportions entre entre
les les niveaux niveaux de la variable de la variable ou ou tester des proportions tester des proportions d d termin termin es es
Inf Inf rence rence : Test : Test sur sur une une proportion proportion
Diff Diff rence entre test binomial et test d rence entre test binomial et test d ajustement ajustement
2 2
68
Formation SMCS : Pratique de la statistique avec SPSS
Analyse avec plusieurs variables
quantitatives
70
Visualisation Visualisation graphique graphique
Ex: Visualiser le lien entre le temps de repos et le temps de rcupration
SPSS : Graphs Legacy Dialogs Interactive Scatterplot (Fit)
Graphe X Graphe X- -Y Y
Plusieurs possibilits:
Scatter Plot
Scatter Plot avec une droite de rgression
et IC (intervalle de confiance) ou IP (intervalle de prdiction)
71
Visualisation Visualisation graphique graphique
Graphe X Graphe X- -Y Y
Autres possibilits:
Scatter Plot simple avec une couleur diffrente par groupe
Scatter Plot + une courbe plus ou moins lisse
Ex: Visualiser le lien entre le temps de repos et le temps de rcupration
en tenant compte du sexe
SPSS : Graphs Legacy Dialogs Interactive Scatterplot (Fit)
72
1
1
0 1 < <
1 0 < <
0
( )( )
( ) ( )

= =
=


=
N
i
i
N
i
i
N
i
i i
y y x x
y y x x
1
2
1
2
1

x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
Attention !
0 0 >
Stats Stats descriptives descriptives et et Inf Inf rence rence
Coefficient de corr Coefficient de corr lation de Pearson lation de Pearson
73
Stats Stats descriptives descriptives et et Inf Inf rence rence
Coefficient de corr Coefficient de corr lation et test d lation et test d hypoth hypoth se sur le coefficient se sur le coefficient
Il existe Il existe plusieurs coefficients de corr plusieurs coefficients de corr lation lation dans SPSS : dans SPSS :
Pearson: utilis quand on a deux variables continues
Spearman (Pearson bas sur les rangs): utile pour les
variables quantitatives non normales ou les variables
qualitatives ordinales
Kendall tau-b (bas sur le nombre de concordances et
discordances des rangs) : pour des variables ordinales
Il existe un test d Il existe un test d hypoth hypoth se pour tester si le coefficient est se pour tester si le coefficient est
gal versus diff gal versus diff rent de 0 (= versus > 0): rent de 0 (= versus > 0):
H H
0 0
: : =0 contre =0 contre H H
1 1
: : 0 0 : :
74
Stats Stats descriptives descriptives et et Inf Inf rence rence
Coefficient de corr Coefficient de corr lation et test d lation et test d hypoth hypoth se sur le coefficient se sur le coefficient
Ex: Quantifier et tester la force du lien linaire entre le logarithme du
temps de repos et le logarithme du temps de rcupration
SPSS : Analyze Correlate Bivariate
Coefficient de corrlation de Pearson
P-valeur du test sur la corrlation
75
Le principe est de trouver a et b minimisant :
Cest le critre des moindres carrs
+ + = X Y

=

n
i
i i
bX a Y
1
2
) (
X
Y
0
1000
2000
3000
4000
5000
6000
7000
8000
0 4 8 12 16 20
Y
i
Y
i
Rsidu : e
i
=Y
i
-a-bX
i
Y
i
=a+bX
i
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
La r La r gression lin gression lin aire simple : aire simple :
76
Ex: Modliser le lien linraire entre le log du temps de repos et le
log du temps de rcupration : SPSS : Analyze Regression Linear
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
77
Comment juger si le modle est bon ?
2
1
)

( Y Y
n
i
i

=
2
1
)

n
i
i i
Y Y
Somme des carrs
explique par le modle
Somme des carrs
rsiduelle
p-valeur indiquant si le
modle Y=+X+ est
meilleur quun modle
ayant seulement une
constante Y=+
Pourcentage de
variabilit de la rponse
explique par le modle
Pourcentage de variabilit de la rponse explique
par le modle pondre par le nombre de variables
du modle et le nombre dobservations
Ecart-type
des rsidus
En regardant la p-valeur et le coefficient R
2
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
78
Comment rapporter le modle estim ?
Sous la forme dune quation :
LogRecup1 = -2.994+1.316*LogAbsence
Estimations des
paramtres et
p-valeurs associes aux tests
dont lhypothse H
0
est la nullit
du paramtre
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
79
Comment juger si le modle est valide ?
En analysant les rsidus et les points influents
Les hypothses suivantes doivent toujours tre vrifies
Termes derreur
Modle linaire

i
~ iN(0, )
Indpendance
des observations
Normalit de
la distribution
Homognit
des variances
i i i
X Y + + =
X
Y
0
2
4
6
8
10
12
14
16
0.0 0.4 0.8 1.2 1.6 2.0
+ X
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
80
Ex: Analyse graphique des rsidus du modle estimant le lien
linraire entre le log du temps de repos et le log du temps de
rcupration : SPSS : Analyze Regression Linear (Plots - Save)
Variance constante
95% des r
i
entre -2 et 2
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prdi unstand. & Leverage
Scatter/Dot: X=Prdi unstd.
Y=Leverage)
Rsidus Normaux Quelques points ont un
leverage > 2*2/175=0.022
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
81
Termes d Termes d erreurs du mod erreurs du mod le le
R R sidus observ sidus observ s s
R R sidus standardis sidus standardis s s
R R sidus sidus studentis studentis s s externes et r externes et r sidu sidu Press Press
( ) leverage avec ) 1 ( , 0 ~ ,

2
= = =
ii ii i i i i i i
h h N e b a Y Y Y e X
) , 0 ( ~ avec
2
iN Y
i i i i
X =
Most r
i
should be in [-2,2]
Rsidus standardiss calculs en enlevant le point i du modle
Droite sans le point i
Droite avec le point i
Rsidus press
e
i
Diffrents types de rsidus :
= ZRESID = ZRESID ) 1 (
) 1 (

= p n t
h
Y Y
r
i
i i
i

) 2 (
) 1 (

) (

= p n t
h
Y Y
d
ii
i
ii ii
i

Mod Mod lisation lisation : : R R gression gression lin lin aire aire
82
Reprsenter par un graphe X-Y les rsidus (ou les rsidus
standardiss) en fonction:
Des Y prdits SPSS : Regression Linear (Plots : ZPRED-ZRESID)
De lordre de collecte des donnes (si cela a du sens)
SPSS : Reg. Linear (Save : Residuals Unstand.) Scatter/dot DATE-RES_1
Les graphiques doivent montrer un comportement alatoire
Faire un QQ-plot (ou PP-plot) pour vrifier la normalit des rsidus
SPSS : Regression Linear (Plots : Normal probability plot)
Vrifier que les rsidus standardiss sont compris dans lintervalle
[-2;2] et tudier ceux qui en sortent SPSS : Reg. Linear (Plots :
ZPRED ou DEPENDNT-SRESID)
Comparer les r
i
aux d
i
et tudier ceux qui sont trs diffrents
Recommandations pour lanalyse des rsidus :
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
83
Points influents et outliers :
3 points sont diffrents
des autres
X
Y
-5
5
15
25
35
45
55
65
0 1 2 3 4
Si lensemble de donnes disponibles contient des observations
spciales , il est primordial de les reprer pour quelles
ninfluencent pas elles seules les rsultats de la rgression
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
84
Un point loign du nuage de points dans la direction des X peut
potentiellement influencer lquation de rgression. Le leverage h
ii
mesure le degr de singularit dun point dans lespace des X
La somme des leverages = p
p=nombre de paramtres incluant lintercept
Un leverage > 2p/n sera considr comme lev
ex: h
ii
provenant dun modle construit avec 5 paramtres et sur un
chantillon de 50 individus. Calculez le leverage maximal
Les leverages sont les lments de la hat matrix :
X
Y
-5
5
15
25
35
45
55
65
0 1 2 3 4
Leverage ou force de levier :
X' X X X
1
= ) ' ( H
h
ii
=0.1
h
ii
=0.56
h
ii
=0.26
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
85
Un point qui a un grand leverage et qui nest pas align avec les autres
points observs peut lui seul influencer la droite de rgression
La statistique de Cook D
i
rsume comment les rponses prdites sont
modifies quand le point est enlev du modle (D
i
>1 : influence anormale)
Influence et statistique de Cook :
X
Y
-5
5
15
25
35
45
55
65
0 1 2 3 4
Modle avec le point influent (en rouge)
Modle sans le point influent (en vert)
D
i
=0.24
D
i
=3.28
D
i
=0.58
) 1 , 1 (
) 1 ( ) 1 ( ) 1 (
)

( )'

(
2 2
2
2
) ( ) (
+
+
=
+

= p n p F
h
h
s p
e
s p
D
ii
ii i
i
i i
Y Y Y Y
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
86
La r La r gression lin gression lin aire multiple : aire multiple :
Objectif: estimer
0
,
1
,
2
quation du modle estim:
Lestimation est faite par les
moindres carrs. Il sagit de
minimiser la somme des carrs
des carts des points au plan:
2 2 1 1 0

X b X b b Y + + =

= =
=
n
1 i
2
2 2 1 1 0
n
1 i
2
) ( min
i i i i
X b X b b Y e
) (0, i est o ,
2
2 2 1 1 0
N X X Y + + + =
(X
1i
, X
2i
,Y
i
)
e
i
Modle linaire multiple 2 variables explicatives :
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
87
Diffrents modles linaires multiples : Un modle de rgression
est dit linaire si son quation est linaire par rapport aux paramtres
Plane in R3
+ + + =
2 2 1 1 0
X X Y
Polynomial model
X
Y
MALE
FEMALE
Model with qualitative variable
X
Y
+ + + = S X Y
2 1 1 0
Model avec interaction
+ + + + =
2 1 3 2 2 1 1 0
X X X X Y
+ + + + =
3
1 3
2
1 2 1 1 0
X X X Y
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
88
77,6% de variabilit de la rponse
peut tre explique par le modle
Ex: Modliser le temps de rcupration (LogRecup1) en fonction
du temps de repos (LogAbsence) et de la temprature du jour
Exercice ncessitant louverture dun nouveau fichier (Data_SPSS_2):
SPSS : Analyze Regression Linear
Modle globalement + utile quun
modle avec juste un intercept
Effets du nombre de jours
dabsence et de la temprature
du jour sur le temps de rcup
LogRecup1 = -2.999 +
1.251*LogAbsence +
0.019*Temprature
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
89
Comment juger si le modle est valide ?
En analysant les rsidus de la mme manire que pour la rgression
simple
En vrifiant linfluence des points sur la rgression (Leverage /
Cook)
En sassurant quil ny a pas de problme de multicolinarit
entre les variables explicatives (VI). On parle de multicolinarit
lorsque les variables explicatives voluent ensembles. La
multicolinarit peut entraner:
- une imprcision des paramtres estims
- une instabilit des paramtres quand une donne change
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
90
Comment dtecter les problmes de multicolinarit ?
En vrifiant le facteur dinflation de la variance (VIF) : ok si 1 VIF 10
On peut aussi utiliser la tolrance qui est dfinie par: 1 / VIF
En regardant les valeurs propres de la matrice de corrlation des
paramtres
En constatant lInstabilit du modle quand une variable est enleve
ou ajoute au prcdent modle
SPSS : Analyze Regression Linear (Statistics Colinearity diagnostics)
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
91
Notre modle de rgression multiple est-il valide?
SPSS : Analyze Regression Linear (Plots - Statistics - Save)
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prdi unstand. & Leverage
Scatter/Dot: X=Prdi unstd.
Y=Leverage)
Ex: Raliser la mme modlisation partir des variables dorigine
(Recup1 Absence et Temprature). Faire les mmes analyses
de rsidus et comparer les rsultats des deux analyses
Mod Mod lisation lisation : : R R gression gression lin lin aire aire
92
Formation SMCS : Pratique de la statistique avec SPSS
Analyse dune variable quantitative
en fonction dau moins
une variable qualitative
94
Visualisation Visualisation graphique graphique
Ex : Visualiser la dure de repos (absence) en tenant compte du sexe
1000
1000
SPSS : Graphs Chart Builder Boxplot
SPSS : Graphs Chart Builder Scatter/Dot
Boxplot Boxplot
Scatter Scatter/Dot /Dot
95
Tableaux: Tableaux: Statistiques Statistiques descriptives descriptives
Ex: Rsumer la variable temps de repos (Absence) en fonction du sexe
SPSS : Analyze Descriptive Statistics Explore
ou Analyze Reports Case Summaries
96
Inf Inf rence rence : Test : Test sur sur 2 2 moyennes moyennes
Ex: Tester si le log du temps de Recup1 diffre en moyenne selon le sexe
Test-t pour 2 chantillons indpendants
Utilisation : Lorsque les donnes comparer sont indpendantes
Conditions : Normalit des distributions, galit des variances et
indpendance des observations (transformations possibles pour la normalit)
SPSS : Analyze Compare Means Independent-Samples T Test
Tests de comparaison de 2 moyennes ind Tests de comparaison de 2 moyennes ind pendantes pendantes
Tests non-paramtrique (normalit non respecte ou donnes ordinales)
Utilisation : Quand les donnes ne se distribuent pas normalement dans
au moins un des groupes ou quil sagit de donnes ordinales
Tests : Test de Mann-Whitney (Wilcoxon Rank-Sum), test de la mdiane
SPSS : Analyze Nonparametric Tests 2 Independent Samples (Mann-Whitney)
SPSS : Analyze Nonparametric Tests k Independent Samples (Median)
97
Inf Inf rence rence : Test : Test sur sur 2 2 moyennes moyennes
Ex: Tester si le log du temps de Recup1 diffre en moyenne selon le sexe
Test pour chantillons indpendants Tester la Normalit
SPSS : Analyze Descriptive Statistics Explore (Plot-Normality Plots)
Condition de Normalit respecte Test paramtrique
SPSS : Analyze Compare Means Independent-Samples T Test
P-valeur du test : Indique que Recup1
ne diffre pas selon le sexe
Test de Levene : Teste lgalit
des variances entre les 2 groupes.
Dtermine la ligne lire.
98
Inf Inf rence rence : Test : Test sur sur 2 2 moyennes moyennes
Ex: Comparer la moyenne du temps de rcupration 1 et 2
Test-t pair
Utilisation : Quand les donnes comparer sont lies (ex: avant-aprs)
Conditions : Normalit de la diffrence entre les 2 groupes et
indpendance des observations au sein de chaque groupe. En cas de
Non-Normalit, il est possible de transformer les donnes (ex: log, 1/x,)
SPSS : Analyze Compare Means Paired Samples T Test
Tests de comparaison de 2 moyennes Tests de comparaison de 2 moyennes pair pair es es
Tests pairs non-paramtriques (condition de normalit non respecte)
Utilisation : Quand les donnes comparer sont lies (ex: avant-aprs,
pots avec 2 plantes) et que la diffrence entre les groupes ne se
distribue pas normalement.
Diffrents tests : Test du signe ou test de Wilcoxon (signed-Rank)
SPSS : Analyze Nonparametric Tests 2 Related Samples (Wilcoxon, Sign)
99
Inf Inf rence rence : Test : Test sur sur 2 2 moyennes moyennes
Ex: Comparer la moyenne du temps de rcupration 1 et 2
Test pair Tester la Normalit de la diffrence entre les 2 groupes
SPSS : Transform Compute Variable (DifRecup=Recup1-Recup2)
Analyze Descriptive Statistics Explore (Plot-Normality Plots With Tests)
Condition de Normalit non respecte Test Non-paramtrique
SPSS : Analyze Nonparametric Tests 2 Related Samples (Wilcoxon, Sign)
P-valeur
du test
Dans le cas dune distribution trs asymtrique Test du Signe (Sign)
100
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Tester si la moyenne du log de Recup1 diffre selon la vitamine prise
ANOVA pour k chantillons indpendants
Utilisation : Lorsque les donnes comparer sont indpendantes
Conditions : Normalit des distributions, galit des variances et
indpendance des observations (transformations possibles pour la normalit)
SPSS : Analyze Compare Means One-Way ANOVA
Tests de comparaison de k moyennes ind Tests de comparaison de k moyennes ind pendantes pendantes
Test non-paramtrique (normalit non respecte ou donnes ordinales)
Utilisation : Quand les donnes ne se distribuent pas normalement dans au
moins un des groupes, quil sagit de donnes ordinales, ou peu de donnes
Tests : Test de Kruskal-Wallis, test de la mdiane
SPSS : Analyze Nonparametric Tests k Independent Samples (Kruskal Wallis)
101
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Tester si la moyenne du log de Recup1 diffre selon la vitamine prise
Test pour chantillons indpendants Tester la Normalit
SPSS : Analyze Descriptive Statistics Explore (Plot-Normality Plots)
Condition de Normalit non respecte Test non paramtrique
SPSS : Analyze Nonparametric Tests k Independent Samples (Kruskal Wallis)
P-valeur du test : Indique que
LogRecup1 diffre selon la
vitamine
=> Le temps de rcupration
est diffrent pour au
moins une des vitamines
102
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Tester si la moyenne du log de Recup1 diffre selon la vitamine prise
Test pour chantillons indpendants
Imaginons la Condition de Normalit respecte Test paramtrique
SPSS : Analyze Compare Means One-Way ANOVA
P-valeur du test : Indique que LogRecup1
diffre selon la vitamine
P-valeur du test de Levene : Indique que
les variances des groupes ne peuvent
tre considres homognes
Test en cas dgalit des variances
Test en cas dingalit des variances
Pour obtenir la correction de Welch : SPSS : Analyze Compare Means One-Way ANOVA (Options)
103
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Voir quelles vitamines diffrent si analyse globale significative
ANOVA pour k chantillons indpendants Tests : Bonferroni, Tuckey,
Scheff, SPSS : Analyze Compare Means One-Way ANOVA (Post Hoc)
Comparaisons multiples post Comparaisons multiples post- -hoc hoc
Test non paramtrique (Kruskal-Wallis) Test : Pas de comparaisons
multiples dans SPSS. Comparer les moyennes 2 2 en adaptant la p-valeur.
Principe de Bonferroni : P-valeur adapte=0.05/Nombre de comparaisons
P-valeur indiquant que toutes les
vitamines diffrent au niveau de
la moyenne du LogRecup1
104
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Comparer la moyenne du temps de rcupration 1, 2 et 3
ANOVA pour mesures rptes
Utilisation : Lorsque les donnes comparer sont lies (ex: temps 1, 2, 3)
Conditions : Normalit de la diffrence entre les groupes, indpendance
des observations au sein de chaque groupe, sphricit de la matrice var/cov
SPSS : Analyze General Linear Models Repeated Measures
Tests de comparaison de k moyennes Tests de comparaison de k moyennes pair pair es es
Tests non-paramtriques (condition de normalit non respecte)
Utilisation : Quand les donnes comparer sont lies (ex: temps 1, 2, 3),
que la diffrence entre les groupes ne se distribue pas normalement ou que
lchantillon est petit
Diffrents tests : Test de Friedman, Kendall W, Cochran Q
SPSS : Analyze Nonparametric Tests k Related Samples (Friedman)
105
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Voir quelles mesures (temps) diffrent si analyse globale significative
ANOVA pour mesures rptes Tests : Bonferroni, Sidak
SPSS : Analyze General Linear Models Repeated Measures (Options)
Comparaisons multiples post Comparaisons multiples post- -hoc hoc
Test non paramtrique (Friedman) Test : Pas de comparaisons multiples
dans SPSS. Comparer les moyennes 2 2 en adaptant la p-valeur
Principe de Bonferroni: P-valeur adapte=0.05/Nombre de comparaisons
P-valeur indiquant que les trois
mesures de temps de
rcupration (LogRecup1 2 3)
diffrent en moyenne
106
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Comparer la moyenne du temps de rcupration 1, 2 et 3
ANOVA pour mesures rptes (si normalit respecte)
SPSS : Analyze General Linear Models Repeated Measures
Test de Mauchly : Teste la symtrie
compose Homognit des
variances / covariances. En cas de
non-sphricit, prendre la correction
de Greenhouse-Geisser
P-valeur du test : Indique
quau moins une des
mesures aux diffrents
temps a une moyenne
diffrente des 2 autres
107
Inf Inf rence rence : Test : Test sur sur k k moyennes moyennes
Ex: Comparer la moyenne du temps de rcupration 1, 2 et 3
Test pour mesures rptes (si non normalit ou peu de donnes)
SPSS : Analyze Nonparametric Tests k Related Samples (Friedman)
P-valeur
du test
108
Inf Inf rence rence : Test : Test 2 2 crit crit res res
Ex: Tester la moyenne LogRecup1 selon les variables sexe et Arrt1
ANOVA 2 critres
Utilisation : Lorsque les donnes comparer sont indpendantes
Conditions : Normalit des distributions, galit des variances et
indpendance des observations (transformations possibles pour la normalit)
SPSS : Analyze General Linear Models Univariate
Tests de comparaison de moyennes selon 2 crit Tests de comparaison de moyennes selon 2 crit res res
a. Design: Intercept + Sexe + Arret1 + Sexe * Arret1
Tests the null hypothesis that the error variance of
the dependent variable is equal across groups.
,173 171 3 1,679
Sig. df2 df1 F
Levene's Test of Equality of Error Variances
a
P-valeur du test de Levene: Indique
lgalit des variances des rsidus
entre les groupes. Condition
ncessaire pour la validit du test
Modle non
significatif
Effets principaux
et interaction
non significatifs
109
Sexe
Homme Femme
L
o
g
R
e
c
u
p
1
Avec Arrts
Sans Arrt
Sexe
Homme Femme
L
o
g
R
e
c
u
p
1
Avec Arrts
Sans Arrt
Sans effet dinteraction Avec effet dinteraction
Il y a un effet dinteraction entre les facteurs sexe et arrt
si leffet du facteur sexe sur la rponse dpend du niveau pris par
le facteur arrt
Inf Inf rence rence : Test : Test 2 2 crit crit res res
110
Inf Inf rence rence : Test : Test 2 2 crit crit res res
Ex: Tester leffet du sexe sur le temps de rcupration aux 3 temps
ANOVA pour mesures rptes
Utilisation : Lorsque certaines donnes comparer sont lies
Conditions : Normalit de la diffrence entre les groupes, indpendance
des observations au sein de chaque groupe, sphricit de la matrice var/cov
SPSS : Analyze General Linear Models Repeated Measures
Tests de comparaison de moyennes selon 2 crit Tests de comparaison de moyennes selon 2 crit res res - - 1 r 1 r p p t t
Test de Mauchly : Teste la symtrie compose Homognit des variances / covariances.
En cas de non-sphricit, prendre la correction de Greenhouse-Geisser
111
Inf Inf rence rence : Test : Test 2 2 crit crit res res
Ex: Tester leffet du sexe sur le temps de rcupration aux 3 temps
Utiliser prfrentiellement les variables transformes (diffrences importantes)
Moyenne diffrente
selon les temps
Correction de Greenhouse-Geisser
considrer car non sphricit
Pas deffet dinteraction
entre le temps et le sexe
Pas deffet du sexe sur le
temps de rcupration
112
Mod Mod lisation lisation : : Mod Mod le le lin lin aire aire g g n n ral ral
Ex: Modliser le temps de rcupration selon le temps de convalescence
et le fait que les athltes se sont arrts durant le marathon
Utilisation : Test quivalent lANOVA si toutes les variables explicatives
sont catgorielles
Conditions : Identiques aux conditions de la rgression linaire
SPSS : Analyze Generalized Linear Models Generalized Linear Models
R R gression incluant simultan gression incluant simultan ment des variables cat ment des variables cat gorielles gorielles
et quantitatives comme variables explicatives et quantitatives comme variables explicatives
113
Mod Mod lisation lisation : : Mod Mod le le lin lin aire aire g g n n ral ral
Ex: Modliser le temps de rcupration selon le temps de convalescence
et le fait que les athltes se sont arrts durant le marathon
SPSS : Analyze Generalized Linear Models Generalized Linear Models
Test de la qualit dapproximation du modle

+ +
+
=
Arrt sans Marathon si , logAbsence 31 . 1 09 . 0 03 . 3
Arrts avec Marathon si , logAbsence 31 . 1 03 . 3
logRecup1
Pas deffet de la
variable Arret1
sur Recup1
114
115 116
Formation SMCS : Pratique de la statistique avec SPSS
Analyse dune variable qualitative
en fonction dune variable quantitative
118
Visualisation Visualisation graphique graphique
Ex :Visualiser la variable Arret1 (avec versus sans arrts) en fonction
de la dure de convalescence (absence)
1000
1000
SPSS : Graphs Chart Builder Boxplot
SPSS : Graphs Chart Builder Scatter/Dot
Boxplot Boxplot par cat par cat gorie gorie
Dot Plot par cat Dot Plot par cat gorie gorie
119
Tableaux: Tableaux: Statistiques Statistiques descriptives descriptives
Ex: Rsumer la variable temps de convalescence (LogAbsence) par
catgorie de la variable Arret1 et par catgorie de la variable Arret2
SPSS : Analyze Descriptive Statistics Explore
ou Analyze Reports Case Summaries
120
Mod Mod lisation lisation : : R R gression gression logistique logistique
La rgression logistique permet de modliser une rponse Y
dichotomique (0,1) en fonction de variables explicatives
On modlise la probabilit que lvnement survienne P(Y=1)
121
Exemples dutilisation
Modliser la probabilit quun client rembourse son prt selon
ses caractristiques personnelles : salaire, ge, emploi,
Modliser la probabilit de dvelopper une maladie cardiaque
selon lge, le taux de cholestrol, le poids, le fait de fumer
Modliser la probabilit pour une personne de possder son
propre logement selon le revenu, lge, le nombre denfants,
Dcrire la relation entre la probabilit espre et une variable
Dterminer les variables indpendantes importantes pour
expliquer la probabilit dune rponse
Prdire la probabilit de la rponse laide de ces variables
La rgression logistique peut tre utilise pour
Mod Mod lisation lisation : : R R gression gression logistique logistique
122
Pourquoi ne pas utiliser la rgression linaire ?
La rgression linaire multiple et le modle linaire gnral
permettent dexpliquer une variable quantitative continue en
fonction de variables explicatives qualitatives ou quantitatives
Lorsque Y est une variable catgorielle 2 ou plusieurs
niveaux, le modle de rgression classique ne peut plus
sappliquer. La condition dhomognit de variance des
rsidus nest pas possible obtenir avec une variable
dpendante dichotomique. Le modle de rgression linaire
permettrait des valeurs estimes en dehors de lintervalle [0,1]
et ne permettrait pas de relation non-linaire.
) , 0 ( i est o ,
2
2 2 1 1 0
N X X X Y
p p
+ + + + + = K
Mod Mod lisation lisation : : R R gression gression logistique logistique
123
Principe de la rgression logistique
La variable expliquer (Y) est une variable dichotomique dont
les valeurs possibles sont 0 (chec) et 1 (succs)
La probabilit P(Y=1) = , (0 1)
peut dpendre de la valeur des variables explicatives (X
1
,
X
2
,, X
p
). Le modle logistique propose dexpliquer comme
une fonction de (X1, X2,, Xp)
Comme 0 1, on le transforme pour quil prenne ses
valeurs dans [-, ].
Modle de rgression logistique (logit):

+ + + + = |

\
|

p p
X X X ...
1
ln
2 2 1 1 0
Mod Mod lisation lisation : : R R gression gression logistique logistique
124
Modle logistique binaire une variable
Equation du modle :
Equation du modle estim :
Reprsentation graphique du modle ( =P(Y=1) ) :

+ + = |

\
|

X
1 0
1
ln
X) b (b
X) b (b
X ou b b

1 0
1 0
1 0
exp 1
exp

ln
+ +
+
= + = |

\
|

Variable explicative X
P
r
o
b
a
b
i
l
i
t
e

P
(
Y
=
1
)
20 25 30 35 40
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
X) . (
X) . (
ou
X .

5 0 15 exp 1
5 0 15 exp

5 0 15
1

ln
+ +
+
=
+ = |

\
|

Mod Mod lisation lisation : : R R gression gression logistique logistique


125
Estimation des paramtres
On veut estimer
0
et
1
qui dterminent
La mthode des moindres carrs na pas de bonnes proprits
dans ce contexte. On applique dans ce cas la mthode du
maximum de vraisemblance
La fonction de vraisemblance mesure la probabilit dobserver
lchantillon rcolt :
La mthode du maximum de vraisemblance recherche les
valeurs de
0
et
1
qui maximisent la vraisemblance
X

avec
, ) ( ) ,...,X ,X |X y Y ... y Y y P(Y ) , L(
i i
i
i
N
i
y
i
y
i N N N
i i
+ + =
|
|

\
|

= = = = =

=

1 0
1
1
2 1 2 2 1 1 1 0
1
ln
1
Mod Mod lisation lisation : : R R gression gression logistique logistique
126
Influence des paramtres sur =P(Y=1)
Variable explicative X
P
r
o
b
a
b
i
l
i
t
e

P
(
Y
=
1
)
-20 -10 0 10 20
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
b0 = -5
b0 = 0
b0 = 5
Variable explicative X
P
r
o
b
a
b
i
l
i
t
e

P
(
Y
=
1
)
-10 -5 0 5 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
b1 = 0.5
b1 = 1
b1 = 2
Variable explicative X
P
r
o
b
a
b
i
l
i
t
e

P
(
Y
=
1
)
-10 -5 0 5 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
b1 = -0.5
b1 = -1
b1 = -2
Influence de b
0
Influence de b
1
Mod Mod lisation lisation : : R R gression gression logistique logistique
127
Ex: Lentraneur voudrait pouvoir prdire le risque quun athlte sarrte
au moins une fois durant le 2
me
marathon (Arret2) en fonction du
temps de convalescence (LogAbsence)
SPSS : Analyze Regression Binary Logistic
Modlisation de la probabilit de Y=1 cd davoir
au moins un arrt lors du marathon 2
Mod Mod lisation lisation : : R R gression gression logistique logistique
128
Comment juger si le modle est bon ?
En regardant les p-valeurs
Block 0 = Modle nincluant que lintercept (autres coefficients=0)
Block 1 = Modle suivant, incluant un ou plusieurs prdicteurs
Tests de qualit dajustement :
Omnibus Tests
Ils testent si le modle incluant les prdicteurs (modle
complet, dans le Step ou dans le Block ) est
significativement meilleur que le modle nincluant que
lintercept
Hosmer and Lemeshow Test
Il teste sil existe une diffrence significative entre les
valeurs observes et les valeurs prdites par le modle
2
~
p

|
|

\
|

variables p les avec nce vraisembla


variables p les sans nce vraisembla
2ln
Mod Mod lisation lisation : : R R gression gression logistique logistique
129
Comment juger si le modle est bon ?
En regardant les pseudo R
2
Critre dAkaike : AIC = -2 ln(L)+2*(nb de param)
Critre de Schwartz : SIC = -2 ln(L)+(nb de param)*ln(nb dobs)
Rapport de vraisemblance: -2LL = -2*ln(max de vraisemblance)
Mesures de la taille de leffet : Pseudo R
Cox & Snell R : Difficile interprter (max<1)
Nagelkerke R: [0,1] = Mesure de la force dassociation
Mesures dajustement
Mod Mod lisation lisation : : R R gression gression logistique logistique
130
Comment teste-t-on la significativit des paramtres ?
Test de Wald
But: tester H
0
:
i
= 0 contre H
1
:
i
0
La statistique de Wald est dfinie par:
On rejette H
0
si la p-valeur ( P(
1
> W
obs
) ) est infrieure un
seuil fix
0
H sous ~
) (b s
b
W
i
obs
i 2
1 2
2
=
obs
W
valeur P
Mod Mod lisation lisation : : R R gression gression logistique logistique
131
Comment rapporter le modle estim ?
Sous la forme dune quation - catgorie de rfrence : Y=1 :
LogAbsence + = |

\
|

703 . 0 178 . 4
1

ln

) 703 . 0 178 . 4 exp( 1


) 703 . 0 178 . 4 exp(

LogAbsence
LogAbsence
+ +
+
=
Mod Mod lisation lisation : : R R gression gression logistique logistique
132
Que reprsentent le Odds et le Odds ratio ?
LogAbsence le sachant arrter s' pas ne de Probabilit
LogAbsence le sachant fois 1 moins au arrter s' de Probabilit
=

1
Odds (ou cotes)
Ex: Le risque pour un athlte de sarrter durant le 2
me
marathon
(Arret2) en sachant quil a eu 18 mois de convalescence (Absence)
561 . 0
)) 30 * 18 ( 703 . 0 178 . 4 exp( 1
)) 30 * 18 ( 703 . 0 178 . 4 exp(
=
+ +
+
=
Log
Log

Pour un athlte qui a eu une convalescence de 18 mois,


la probabilit quil sarrte au moins une fois durant le
2
me
marathon est estime 56%
Mod Mod lisation lisation : : R R gression gression logistique logistique
133
Que reprsentent le Odds et le Odds ratio ?
X nce convalesce de temps le sachant arrter s' pas ne de Probabilit
X nce convalesce de temps le sachant fois 1 moins au arrter s' de Probabilit
1 X nce convalesce de temps le sachant arrter s' pas ne de Probabilit
1 X nce convalesce de temps le sachant fois 1 moins au arrter s' de Probabilit
=
=
+ =
+ =
=

=
) 1 (
) 1 (
2
2
1
1

OR
Odds Ratio (ou rapport de cotes)
Un athlte avec un temps de convalescence dune unit en
plus au niveau du LogAbsence a 2,019 fois plus de chance
de sarrter au moins une fois durant le marathon 2
Ex: Le risque relatif pour un athlte avec un temps de convalescence
de X+1 de sarrter durant le 2
me
marathon par rapport un
athlte avec un temps de convalescence de X (LogAbsence)
OR=exp(
1
)
Mod Mod lisation lisation : : R R gression gression logistique logistique
134
Comment se mettre dans de bonnes conditions
pour obtenir un modle qui soit valide ?
En reprant les outliers et points influents (via lanalyse des rsidus,
standardized residuals, leverage, Cook)
En incluant toutes les variables influentes dans le modle et
uniquement celles-l
En vrifiant que la relation entre VI et log odds de VD est linaire
En vrifiant labsence de multicolinarit
En utilisant des chantillons de taille suffisante
En sassurant que les conditions dapplication des tests sont
respectes

Mod Mod lisation lisation : : R R gression gression logistique logistique


135 136
Formation SMCS : Pratique de la statistique avec SPSS
Analyse dune variable qualitative en
fonction dune variable qualitative
138
Visualisation Visualisation graphique graphique
Ex : Visualiser la rpartition des 3 types de vitamines selon le sexe
Diagramme en barres par cat Diagramme en barres par cat gorie gorie
SPSS : Graphs Legacy Dialogs Bar (Clustered/Stacked)
1000
1000
139
Tableaux: Tableaux: Statistiques Statistiques descriptives descriptives
Ex: Rsumer les proportions observes de la variable Arret1
selon le type de vitamines prises
Tableau de contingence :
SPSS : Analyze Descriptive Statistics Crosstabs
140
Inf Inf rence rence : Test : Test d d ind ind pendance pendance
Ex: Tester si le fait de prendre une vitamine donne est li au sexe
de Pearson, Test du rapport de vraisemblance de Pearson, Test du rapport de vraisemblance
Test Test d d ind ind pendance de 2 variables al pendance de 2 variables al atoires qualitatives atoires qualitatives
P-valeur
du test
=> Pas de lien entre le sexe et
le type de vitamines prises
Conditions : Toutes les observations doivent tre indpendantes
Les valeurs attendues doivent tre suprieures 5
Si les valeurs attendues sont infrieures 5 :
Oprer des regroupements qui ont du sens
Utiliser un test exact de Fisher (pas toujours disponible dans SPSS base)
SPSS : Analyze Descriptive Statistics Crosstabs (Statistics:Chi-Square)
141
Inf Inf rence rence : Test : Test d d ind ind pendance pendance
Autres statistiques pour les tables de contingence Autres statistiques pour les tables de contingence
Cochran Mantel Haenszel: permet de tester lassociation de 2 variables
conditionnellement une troisime
Kendall -b et -c: mesure le degr dassociation entre 2 variables ordinales
Mc Nemar : permet de tester la significativit dun changement pour 2
chantillons apparis nominaux
Cochrans Q : extension du test de McNemar pour k chantillons apparis
nominaux
SPSS : Analyze Descriptive Statistics Crosstabs (Statistics)
142
Mod Mod lisation lisation : : R R gression gression logistique logistique
La rgression logistique permet de modliser une rponse Y
dichotomique (0,1) en fonction de variables explicatives dont
certaines peuvent tre qualitatives
On modlise la probabilit que lvnement survienne P(Y=1)
143
Ex: Lentraneur voudrait pouvoir prdire le risque quun athlte sarrte
au moins une fois durant le 2
me
marathon (Arret2) en fonction du
temps de convalescence (LogAbsence) et de la vitamine prise
SPSS : Analyze Regression Binary Logistic
Mod Mod lisation lisation : : R R gression gression logistique logistique
Modlisation de la probabilit de Y=1 cd davoir
au moins un arrt lors du marathon 2
Faon dont la variable Vitamine est
recode (dummy variables)
144
Mod Mod lisation lisation : : R R gression gression logistique logistique
Comment juger si le modle est bon ?
Tests de qualit dajustement :
Mesures dajustement et de taille de leffet :
145
Mod Mod lisation lisation : : R R gression gression logistique logistique
Comment teste-t-on la significativit des paramtres ?
Test de Wald
Le temps de convalescence semble important pour
prdire le fait quun athlte sarrte ou non durant
le 2
me
marathon
La vitamine prise par lathlte ne semble pas avoir
deffet sur le fait que lathlte sarrte durant le
marathon
146
Mod Mod lisation lisation : : R R gression gression logistique logistique
Comment rapporter le modle estim ?
Sous la forme dune quation par niveau de la variable qualitative
(Imaginons que la variable Vitamine soit garde dans le modle) :
) 179 . 1 261 . 7 exp( : C Vitamine
) 179 . 1 592 . 0 261 . 7 exp( : B Vitamine
) 179 . 1 974 . 0 261 . 7 exp( : A Vitamine
LogAbsence
LogAbsence
LogAbsence
+
+ +
+ +
La probabilit quun athlte sarrte durant le marathon 2
147
Comment se mettre dans de bonnes conditions
pour obtenir un modle qui soit valide ?
Mmes conditions quexpos prcdemment :
Mod Mod lisation lisation : : R R gression gression logistique logistique
En reprant les outliers et points influents (via lanalyse des rsidus,
standardized residuals, leverage, Cook)
En incluant toutes les variables influentes dans le modle et
uniquement celles-l
En vrifiant que la relation entre VI et log odds de VD est linaire
En vrifiant labsence de multicolinarit
En utilisant des chantillons de taille suffisante
En sassurant que les conditions dapplication des tests sont
respectes

Anda mungkin juga menyukai