Mathieu Loiseau
Semestre 2, anne universitaire 2009-2010
Table des matires
1 Vocabulaire de base 5
1.1 Statistiques descriptives et infrentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Variables ou caractres statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.3 Variables dpendantes et indpendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Eectif et frquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1 Exemple : une tude sur ltat matrimonial des salaris de la socit X . . . . . . . . . . . . . 7
1.6 Eectifs cumuls croissants et dcroissants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7 Srie statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Paramtres caractristiques dune variable : paramtres de position 8
2.1 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1 Moyenne arithmtique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.2 Moyenne pondre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.3 Proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Mdiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Calcul de mdiane pour des donnes non rparties en classes . . . . . . . . . . . . . . . . . . 9
2.3.2 Calcul de mdiane pour des donnes rparties en classe . . . . . . . . . . . . . . . . . . . . . 10
3 Paramtres caractristiques dune variable : paramtres de dispersion 11
3.1 Etendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2.1 Quartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2.2 Dciles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Indicateurs de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.1 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.2 Ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4 Reprsentations graphiques 14
2
4.1 Reprsentation deectifs/frquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.1.1 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.1.2 Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2 Diagramme de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Statistique deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5 Quelques lments de mthodologie denqute 17
5.1 Avant le questionnaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.2 Types de question . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2.1 Fait et opinion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2.2 Questions ouvertes et fermes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2.3 Types de question et ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.3 Recommandations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.3.1 Favoriser lexpression personnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.3.2 viter les erreurs techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.4 La passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.5 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.5.1 Les non-rponses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.5.2 Recodage des rponses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.5.3 Prsentation des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3
Ce document est en grande partie celui produit par Anahita Basirat,
des actualisations ont cependant eu lieu et l.
4
Chapitre 1
Vocabulaire de base
1.1 Statistiques descriptives et infrentielles
Il sagit dorganiser et rsumer des observations. Le but est de dcrire lchantillon. Les statistiques infrentielles
servent tendre la population les rsultats ainsi obtenus. [Dancey & Reidy, 2007, p. 54]
1.2 Population
La population dsigne un ensemble dunits statistiques. Les units statistiques, aussi appeles individus, sont les
entits abstraites qui reprsentent des personnes, des animaux ou des objets. La statistique sert dcrire lensemble
des units statistiques qui composent la population.
1.3 Echantillon
Lorsque la population est trop importante, on tudie un chantillon, cest--dire un sous-ensemble, beaucoup plus
petit, de la population. Lchantillon doit tre bien choisi pour pouvoir reprsenter la population.
1.4 Variables ou caractres statistiques
Un individu donn de la population peut tre tudi selon certaines proprits. Ces proprites sont appeles caractres
ou variables statistiques.
Exemple : Une tude sur les tudiants de luniversit Stendhal peut porter sur les direntes variables : leur ge, leur sexe,
leur nationalit, leur moyenne de lanne, etc.
1.4.1 Variables quantitatives
Une surface, un revenu moyen ou un ge sont des variables quantitatives. Elles peuvent tre exprimes selon une
unit de mesure et peuvent tre compares entre elles, additionnes, faire lobjet de calculs de moyenne, [...] etc.
[Muller, 1973, p. 5].
a) Variables discrtes et continues
Sur un intervalle donn, les valeurs que peut prendre une variable quantitative discrte sont dnombrables (ex : nombre
denfants dun mnage). Au contraire, une variable quantitative continue peut prendre toutes les valeurs lintrieur
dun intervalle (ex : taille). En eet, entre une personne mesurant 160cm et 161cm, on peut imaginer une innit de
valeurs (ce qui nexiste pas entre 1 et 2 enfants par exemple). Ce sont la prcision des instruments de mesure et les
conventions qui font que la taille est traite comme une variable discrte.
5
b) Classes
Pour pouvoir dcrire des variables continues, il est parfois ncessaire de les discrtiser , cest dire les rpartir en
classes : des intervalles de valeurs successifs. Les classes peuvent tre dnies en fonction du nombre de classe que
lon veut obtenir ou selon une amplitude xe
1
[Veysseyre, 2006, p. 9].
Lamplitude dune classe est alors la dirence entre la borne suprieure et la borne infrieure de lintervalle dni :
soit [a; b[ une classe dune variable quantitative, on dit que b a est lamplitude de cette classe.
Exemple : La taille dun chantillon dtudiants en CP peut tre classe en moins dun mtre, [1; 1.20] mtre, plus de 1.20
mtre. Lamplitude de la seconde classe est 20 cm.
1.4.2 Variables qualitatives
Une variable qualitative est une variable qui ne prend pas de valeur numrique (elles ne rpondent pas une question
combien mais une question est-ce que ) [Muller, 1973, p. 5].
Exemple : sexe, nationalit.
a) Modalits
Chaque variable qualitative a plusieurs modalits, ce sont lensemble des valeurs que la variable peut prendre.
Exemple : pour la variable sexe, les modalits sont masculin / fminin.
b) Variables ordinales
Une variable qualitative ordinale prend des valeurs qui sont ordonnes, hirarchises. On peut classer les modalits
les unes par rapport aux autres mais on ne peut pas dire partir de cet ordre de combien est la dirence entre
deux modalits.
Exemple : Les rponses un sondage, du type pas du tout , un peu , assez , beaucoup Vronis [2003].
1.4.3 Variables dpendantes et indpendantes
La statistique descriptive est un pr-requis la statistique infrentielle, dans laquelle on applique des mthodes
statistiques pour infres des proprits dune population partir dun chantillon. La statistique permet de croiser
des donnes pour tester des hypothses. Dans ces cas l, une hypothse consiste souvent valuer lexistence de
leet dune variable indpendante, que lexprimentateur fera varier sur une variable dpendante qui sera value. La
description du comportement de ces deux variables sera primordial pour interprter les rsultats et leurs consquences
sur les hypothses testes.
Exemple : On peut par exemple vouloir expliquer la taille des individus dune population selon leur ge (exemple tir de
Wikipedia [2010]). Dans ce cas l, la variable indpendante est lge et la variable dpendante est la taille. Les deux variables
pourront tre dcrites conjointement (cf. section 4.3 p. 16).
a) Variable parasite et variable de contrle
Quand le but est de mesurer leet dune variable indpendante sur une variable dpendante, il faudrait avoir des
groupes de sujets quivalents en tous points hormis les dirences induites par les modalits de la variable ind-
pendante. En d ?autres termes, il faudrait manipuler une variable indpendante et matriser toutes les autres. Les
1. Direntes mthodes ont t dnies pour eectuer une bonne discrtisation . Voir par exemple :
http://www.info.univ-angers.fr/~gh/wstat/discr.php.
6
variables indpendantes matriser ou variable parasites (VP) sont trs nombreuses et souvent inconnues. Ainsi on
essaie de contrler les variables parasites dont le chercheur sait ou prsume l ?eet sur la variable dpendante. Les
variables parasites frquemment contrles sont :
Les caractristiques du sujets : le sexe, l ?ge, appartenance religieuse, politique ou culturelle ;
Variable exprimentateur : lorsque plusieurs exprimentateurs recueillent des donnes, lorsque le sujet fait
plusieurs tches ou plus gnralement appartient plusieurs groupes exprimentaux.
Les variables parasites contrles s ?appellent variables contrles. Wikipedia [2010].
1.5 Eectif et frquence
Leectif dune valeur donne dune variable est le nombre dindividus pour lesquelles la variable considre prend la
valeur en question. Leectif total est la somme de tous les eectifs dune variable.
La frquence dune valeur donne est le rapport de leectif correspondant leectif total. La frquence totale est
toujours gale 1.
1.5.1 Exemple : une tude sur ltat matrimonial des salaris de la socit X
Population : salaris de la socit X.
Unit statistique (individu) : chaque salari de la societ X.
Variable (caractre) tudie : tat matrimonial avec 4 modalits : clibataire, pacs ou mari, veuf, divorc.
Eectif : leectif de la modalit clibataire = n
c
, pacs ou mari = n
p/m
, veuf = n
v
, divorc = n
d
.
Eectif total : N = n
c
+n
p/m
+n
v
+n
d
.
Frquence : frquence de la modalit clibataire =
n
c
N
, pacs ou mari =
n
p/m
N
, veuf =
n
v
N
, divorc =
n
d
N
.
Frquence totale =
n
c
+n
p/m
+n
v
+n
d
N
=
N
N
= 1.
1.6 Eectifs cumuls croissants et dcroissants
Note sur 20 < 5 [5; 10[ [10; 12[ [12; 15[ [15; 17[ [17; 20]
Eectif 2 3 7 5 3 1
Frquence 0.09 0.14 0.33 0.24 0.14 0.05
Eectif cumul croissant 2 5 12 17 20 21
Eectif cumul dcroissant 21 19 16 9 4 1
Table 1.1: Exemple deectif cumul : notes dune population de 21 tudiants.
Quand les modalits ou les classes dune variable sont ranges dans lordre croissant (resp. dcroissant), les eectifs
cumuls croissants (resp. dcroissants) dune valeur sobtiennent en ajoutant chaque eectif les eectifs des valeurs
qui la prcdent. Les frquences cumules sobtiennent en divisant les eectifs cumuls par leectif total.
1.7 Srie statistique
Une srie statistique est la suite des observations dune (ou plusieurs) variable(s), releves sur les individus dune
population.
Exemple : Les notes des tudiants prsentes dans le tableau 1.1 sous forme de classes. Elles auraient pu tre reprsentes
sous-forme dune liste dobservations (notes) classes dans lordre croissant.
Note sur 20 2 4 5 7, 5 9, 5 10 10 10, 5 11 11 11, 5
11, 5 12 12 12, 5 13 14 15 15, 5 16, 5 19
Table 1.2: Exemple de srie statistique classe dans lordre croissant.
7
Chapitre 2
Paramtres caractristiques dune
variable : paramtres de position
Les paramtres de position (ou de tendance centrale) permettent de savoir autour de quelles valeurs se situent les
valeurs dune variable statistique.
2.1 Mode
Pour une variable discrte, le mode est la modalit qui reprsente le plus grand eectif.
Exemple : sur la gure 2.1, le mode est espagnol .
LV2 allemand allemand allemand anglais anglais espagnol espagnol espagnol
espagnol espagnol italien italien italien portugais russe tagalog
Table 2.1: Exemple de srie statistique pour une variable discrte (qualitative ici).
Pour une variable quantitative continue, o la probabilit que chaque modalit napparaisse quune fois est suprieure
(du fait quil existe une innit de modalits), on a recours des classes modales : cest la classe dont leectif est
maximum.
Exemple : Dans le tableau 1.1, la classe modale est la classe [10 ;12[.
2.2 Moyenne
2.2.1 Moyenne arithmtique
La moyenne arithmtique dune srie statistique est la somme des valeurs divise par le nombre total des valeurs.
Par exemple, la moyenne de lanne est la somme des notes de tous les examens divise par le nombre dexamen. La
moyen de X se calcule par x =
x
1
+x
2
++x
N
N
. Dans cette formule, x
1
, x
2
, , x
N
sont les notes et N est le nombre
total des notes.
2.2.2 Moyenne pondre
Lorsque les valeurs sont aectes de coecients (ici deectifs), on parle de moyenne pondre (voir tableau 2.2).
La moyenne pondre de X se calcule de la manire suivante :
x =
n
1
x
1
+n
2
x
2
++n
N
x
N
n
1
+n
2
++n
N
Dans cette formule, n
1
, n
2
, , n
N
sont les eectifs correspondants aux modalits x
1
, x
2
, , x
N
.
8
Qualit de service Eectif Produit n
i
x
i
1 1 1
2 3 6
3 5 15
4 2 8
5 1 5
total 12 35
Table 2.2: Moyenne de la variable qualit de service (Q
S
) : Q
S
=
35
12
= 2.9
2.2.3 Proprits
1. Considrons une srie statistique S
1
de modalits x
1
, x
2
, , x
N
avec des eectifs n
1
, n
2
, , n
N
de moyenne
x et la srie statistique S
2
de modalits y
1
, y
2
, , y
N
avec des eectifs n
1
, n
2
, , n
N
telle que pour tout i
appartenant {1, 2, , N} : y
i
= ax
i
+b. Alors la moyenne de la srie statistique S
2
est : y = ax +b.
Exemple : La moyenne de notes dune classe de 22 tudiants est 12.5. En ajoutant 0.5 point toutes les notes, on
obtient une moyenne de 13.
2. Soient S
1
et S
2
deux sries statistiques deectifs totaux respectifs N
1
et N
2
et de moyennes respectives x
1
et x
2
. Alors la moyenne de la srie S regroupant les deux sries S1 et S2 est : x =
N
1
x
1
+N
2
x
2
N
1
+N
2
. Cela revient
dire que la moyenne de plusieurs groupes correspond la moyenne pondre des moyennes pour chaque groupe
(pondre selon les eectifs des groupes).
Exemple : La moyenne de notes dune classe de 22 tudiants est 12.5 et celle dune classe de 18 tudiants est 13.2.
La note moyenne de ces deux classes est :
x =
2212.5+1813.2
22+18
= 12.81.
3. La moyenne nest pas toujours un indicateur prcis, elle est sensible aux valeurs extrmes.
Exemple : Dans un groupe de TD, 5 tudiants obtiennent 9, 5 au partiel et un tudiant 18, 5. La moyenne du groupe
est de 11
1
et pourtant seul un tudiant a valid le module correspondant...
2.3 Mdiane
La mdiane (M
e
) est la valeur, observe ou possible, dans la srie des donnes classes par ordre croissant (ou
dcroissant) qui partage cette srie en deux parties comprenant exactement le mme nombre de donnes de part et
dautre de M
e
[Veysseyre, 2006, p. 15].
Exemple : Soit la srie statistiques suivante : 15, 7, 22, 4, 12, 30, 9, 18, 6. Pour dterminer la mdiane, il faut ordonner la
srie : 4, 6, 7, 9, 12, 15, 18, 22, 30. La mdiane est le 12 car dans cette srie, il y a 4 nombres infrieure et 4 suprieure de 12.
2.3.1 Calcul de mdiane pour des donnes non rparties en classes
Si leectif total est impair (2n+1), la mdiane est parfaitement dtermine : la modalit correspondant n+1. Il
sagit dune valeur observe.
Exemple : Dans le tableau 2.3, une tude sur le nombre denfant dune chantillon de 51 individus (225+1) est prsente.
La mdiane est la modalit "1 enfant" qui correspond au foyer 26.
Si leectif total est pair (2n), on ne peut pas dnir prcisment la mdiane : on peut prendre pour valeur mdiane,
indiremment lune ou lautre des valeurs centrales ou nimporte quelle valeur intermdiaire entre ces deux valeurs,
par exemple, la moyenne arithmtique de ces deux valeurs, mais, dans ces conditions, ce nest pas une valeur observe
[Veysseyre, 2006, p. 15].
1. note =
59,5+18,5
6
9
Nombre denfants 0 1 2 3 4
Eectif 20 16 10 5 0
Eectif cumul croissant 20 36 46 51 51
Table 2.3: Calcul de mdiane en utilisant les eectifs cumuls croissants : cas dune variable discrte
Exemple : Une srie reprsentant les notes dune classe : 15, 7, 20, 4, 12, 20, 9, 18, 6, 4 (srie ordonne : 4, 4, 6, 7, 9, 12,
15, 18, 20, 20), lintervalle mdian est 9 et 12. Dans ce cas l, une acception de la mdiane est
9+12
2
= 10, 5. Il ne sagit pas
dune valeur observe.
2.3.2 Calcul de mdiane pour des donnes rparties en classe
Pour une variable continue, on dtermine la classe mdiane de mme faon que pour une variable discrte en utilisant
les eectifs cumuls. Exemple : dans le tableau 1.1, la classe mdiane est la classe [10 ;12[. On dtermine la mdiane
au sein dune classe par linterpolation linaire.
Soit une tude sur la note dune population de 50 tudiants (tableau 2.4) Levy [2010]. Daprs la colonne "eectif
cumul", 18 personnes ont moins de 8 et 30 personnes ont moins de 12. La mdiane se trouve donc dans lintervalle
[8 ;12[.
Notes Eectifs Eectifs cumuls
[0; 5[ 10 10
[5; 8[ 8 18
[8; 12[ 12 30
[12; 15[ 11 41
[15; 20] 9 50
Table 2.4: Calcul de mdiane en utilisant les eectifs cumuls croissants : cas dune variable continue
Sur la gure 2.1, les points A, X, B sont aligns et les droites AX, BX et AB ont le mme coecient directeur (la
pente est la mme). Le coecient directeur dune droite est dtermin par deux de ces points.
Figure 2.1: Calcul de mdiane pour une variable continue. En abscisse : eectifs cumuls et en ordonne : notes.
Le coecient directeur de la droite AB se calcule par :
m =
y
B
y
A
x
B
x
A
Pour trouver la valeur M
e
, on peut calculer m
AX
et m
AB
et rsoudre la rgle de trois suivante :
m
AX
= m
AB
donc
M
e
8
2518
=
128
3018
La mdiane M
e
est donc 10.33. Cela signie que environ 50% des personnes ont eu moins de 10.33 et 50% plus de
10.33 (il sagit nouveau dune valeur non observe, cependant dans ce cas prcis nous navons pas le dtail des
valeurs observes puisque nous navons que les classes).
10
Chapitre 3
Paramtres caractristiques dune
variable : paramtres de dispersion
Les paramtres de dispersion donnent des informations sur la rpartition des valeurs autour de la valeur centrale de
rfrence.
3.1 Etendue
Ltendue dune srie statistique quantitative est la dirence entre la plus grande valeur de la variable (discrte ou
continue) et la plus petite valeur. Exemple, dans le tableau 1.2, ltendue est 19 2 = 17.
3.2 Quantiles
Pour dcrire des sries statistiques, le concept de mdiane est adapt non plus pour sparer les mesures en 2 sous-
ensembles, mais en k. On appelle ces mesures quantiles . Si k = 4 on parle de quartile.
3.2.1 Quartiles
Veysseyre dnit les quartiles de la manire suivante :
Pour k = 4, les quantiles, appels quartiles, sont trois nombres Q1, Q2, Q3 tels que :
25% des valeurs prises par la srie sont infrieures Q1 ;
25% des valeurs prises par la srie sont suprieures Q3 ;
Q2 est la mdiane M
e
;
Q3 Q1 est lintervalle interquartile, il contient 50% des valeurs de la srie.
N
i=1
n
i
(x
i
x)
2
=
1
N
N
i=1
n
i
x
2
i
x
2
V (x) dsigne la variance des n valeurs associes aux n units statistiques de la population et x est la moyenne de
ces units statistiques.
3.3.2 Ecart-type
La dnition de lcart-type dune srie est donne par la formule : (x) =