Anda di halaman 1dari 26

Pierre Bailly

Christine Carrre
Statistiques descriptives
Cours
-------
Collection Libres Cours conomie
Presses universitaires de Grenoble
BP 47 38040 Grenoble cedex 9
Tl. : 04 76 82 56 52 pug@pug.fr / www.pug.fr
page pdf extrait 16x24 20/08/07 16:17 Page 1
Nous prsentons quatre thmes dans ce chapitre : les nomenclatures et les types
de variable, les tableaux statistiques, les reprsentations graphiques, lutilisation
des pourcentages et des taux.
LES CONCEPTS DE BASE
Avant tout calcul statistique, il est ncessaire de disposer de donnes. Pour
atteindre cet objectif, il est impratif de dfinir trs prcisment la population sur
laquelle seffectue lenqute et les variables que lon cherche apprhender. Le
type de ces variables conditionne les traitements statistiques quelles seront sus-
ceptibles de subir.
La population et les units statistiques
Dans le vocabulaire statistique, une population est un ensemble dont chaque l-
ment est un individu ou une unit statistique. Les termes de population et din-
dividus sont employs aussi bien lorsquil sagit dun ensemble dtre humains :
la population rsidente en France, les salaris dune entreprise que dun
ensemble dobjets inanims : la production automobile pour une anne, le stock
des machines une date donne, et mme densembles abstraits ou des vne-
ments : ensemble des jours dune anne, la srie du revenu national depuis vingt
ans Chaque observation porte sur une unit statistique.
La population soumise lanalyse statistique doit tre dfinie avec prcision afin
que lensemble considr soit dtermin sans ambigut, de sorte quun individu
quelconque puisse y tre affect sans incertitude. La population franaise au pre-
mier janvier 1996 : il faut indiquer si les trangers rsidant en France sont inclus
et comment sont comptabiliss les Franais rsidants ltranger. Il faudra alors
prciser la signification de rsider. Comment dfinir les personnes employes
dans une entreprise au premier octobre 1995 ? Faut-il inclure les travailleurs
domicile, les travailleurs temps partiel, les travailleurs intrimaires, les stagiai-
res, les apprentis, les travailleurs au noir ? Doit-on comprendre les tra-
vailleurs absents pour maladie, cong annuel ou dtachement ? Leffectif prsent
Chapitre I
Les outils
01Chapitre 1 26/07/07 14:39 Page 15
diffre en gnral de leffectif thorique, celui des personnes juridiquement sala-
ries de lentreprise. Les rgles qui dfinissent lensemble tudier permettent
de dire sans ambigut si une unit appartient ou non au domaine.
Les caractres et les modalits
Pour dcrire une population, on classe les individus selon certains attributs que
lon appelle des caractres (sexe) ou des variables (ge). Il est indispensable de ne
retenir que les caractres les plus pertinents pour pouvoir dcrire une population
correctement. Il convient de ne retenir quun nombre restreint de caractres pour
obtenir une description synthtique. Le caractre est un critre de classement, il
peut prsenter plusieurs situations diffrentes, il prend plusieurs modalits. Les
deux modalits du caractre sexe sont : masculin, fminin. Le nombre de modali-
ts dun caractre dpend de linformation disponible et du but de ltude. Par
exemple : ltat matrimonial peut comprendre quatre modalits : clibataire, mari,
veuf, divorc ou deux modalits mari, non mari. Chaque individu de la popula-
tion prsente une et une seulement des modalits du caractre. Les modalits dun
caractre constituent une nomenclature, elles sont incompatibles et exhaustives,
elles dterminent une partition de lensemble. Une unit statistique peut prsenter
plusieurs caractres. Tous les individus appartenant un mme ensemble sont
quivalents du point de vue du problme tudi. Le type de ces variables condi-
tionne les traitements statistiques quelles seront susceptibles de subir.
Les caractres qualitatifs
Les caractres qualitatifs ou variables nominales ou variables catgorielles ont
des attributs dont les diffrentes modalits ne sont ni mesurables, ni reprables
Elles sont constates. Avec lusage de linformatique, on utilise parfois le terme
de donnes qualitatives. Le caractre se subdivise en catgories ou en modalits
de la variable auxquelles seront attaches un effectif et une frquence. Cest le
cas pour le sexe, ltat matrimonial, la qualification professionnelle. Les moda-
lits dun caractre constituent les rubriques dune nomenclature. Ce sont des
noms ou des tiquettes permettant didentifier une caractristique de chaque l-
ment. Il nest pas toujours possible dy tablir un ordre. Les rponses peuvent
tre ranges dans une modalit particulire. Un caractre qualitatif peut-tre
nominal ou ordinal.
Les caractres qualitatifs nominaux
Une variable nominale dcrit un nom ou une catgorie. Les diffrentes occur-
rences de la variable sont nominales. Les noms ou les catgories possibles ne
suivent pas un ordre naturel. La plupart du temps, la prsentation des modalits
de la variable ne prsuppose aucun ordre, si ce nest lordre alphabtique.
16 STATISTIQUES DESCRIPTIVES COURS
01Chapitre 1 26/07/07 14:39 Page 16
Les caractres qualitatifs ordonns ou variables qualitatives ordonnes
Certaines variables appellent naturellement un ordre dans le rangement de leurs
catgories : niveau de formation, Elles sont reprables selon un type dchelle
plus ou moins lgitime. Les catgories pourront alors donner lieu un codage
par les rangs qui ouvrira une autre gamme de traitements possibles proches de
ceux des variables quantitatives. Dans le cas dune nomenclature de formation,
le classement est fonction du nombre thorique dannes dtude ncessaires
pour acqurir le niveau de formation. Cest de ce point de vue une variable quan-
titative reprable, dans quelle mesure le niveau I est-il suprieur au niveau III
(comparaison dun doctorat et dun BTS).
Un caractre ordinal est un caractre qualitatif dans lequel les modalits possi-
bles peuvent tre classes dans un ordre spcifique ou dans un ordre naturel
quelconque. Dans le tableau, le caractre comportement est ordinal parce
que la modalit Excellent est meilleure que la modalit Trs bon , etc. On
ny trouve un certain ordre naturel, mais celui-ci est limit par le fait que nous
ne savons pas dans quelle mesure le comportement Excellent est meilleur
que le comportement Trs bon .
Classement des lves selon le comportement
LES OUTILS 17
Comportement Nombre dlves
Excellent 5
Trs bon 12
Bon 10
Mauvais 2
Trs mauvais 1
Variables textuelles
Une variable textuelle est une variable qui met en jeu des mots, des expressions
langagires, voire des phrases quon ne peut rduire des codes arbitraires,
mme si ceux-ci sont ordonns. Il y a ventuellement un travail de prparation
du texte, surtout sil sagit dune transcription de textes oraux. En particulier, on
peut lemmatiser cest--dire restreindre aux lemmes (passer en minuscule, au
masculin singulier, linfinitif).
Une variable textuelle dnonciation (ou semi textuelle) ne met en jeu que des
expressions que lon traitera par comptage alors quune variable textuelle com-
01Chapitre 1 26/07/07 14:39 Page 17
plte utilise des phrases, des segments et on calcule pour des mots, lemmes ou
expressions la fois des frquences et des environnements. Ainsi la profession
dun adulte est une variable textuelle dnonciation alors que la rponse la
question pourquoi y a-t-il du chmage en France ? est une variable textuelle
complte .
La plupart des caractres qualitatifs requirent une convention de dfinition ;
cest lobjet de la construction des nomenclatures.
Les caractres qualitatifs usuels et les nomenclatures
Elles constituent des outils de classement des caractres qualitatifs. Les diff-
rentes modalits dun caractre constituent une nomenclature. Les nomenclatu-
res sont le rsultat dun classement raisonn de modalits. La plupart du temps,
la prsentation des modalits de la variable ne prsuppose aucun ordre, si ce
nest lordre alphabtique.
Les diffrentes occurrences de la variable sont nominales, nous utilisons le terme
de modalit. Les diffrentes modalits dun caractre constituent une nomencla-
ture. Les nomenclatures sont le rsultat dun classement raisonn des modalits.
Les organismes publics de statistiques ont dfini, dans un but de clart et dho-
mognit, les catgories des variables quils utilisent rgulirement. Ces
nomenclatures sont dusage obligatoire au sein des administrations et recom-
mandes pour les autres agents.
Les nomenclatures de lINSEE
Elles sont nombreuses depuis la nomenclature des produits, dactivits, de cat-
gories sociales ou de formation.
Les nomenclatures dEUROSTAT
Llargissement des mesures statistiques lEurope a ncessit la cration dun
systme de codage harmonis. Le service des statistiques des Communauts
europennes a construit des nomenclatures qui permettent de dcrire les ralits
conomiques et sociales de lensemble de pays de lUnion europenne.
18 STATISTIQUES DESCRIPTIVES COURS
01Chapitre 1 26/07/07 14:39 Page 18
Les statistiques des changes et des biens. Guide de lutilisateur Eurostat 2000
Les variables quantitatives ou numriques
Les variables quantitatives ou variables statistiques ont des attributs dont les
modalits sont exprimes sous forme numrique. Une variable quantitative est
soit mesurable soit reprable. chaque unit statistique est associe un nombre :
la valeur de la variable. Pour lanalyse statistique, il est habituel de distinguer les
variables discrtes et les variables continues. Une variable est discrte quand les
valeurs sont obtenues par dnombrement, les modalits sont exprimes par un
nombre et prennent un nombre fini de valeur. Lorsque la variable peut prendre
toutes les valeurs lintrieur dun intervalle, la variable est dite quantitative
continue. Une variable statistique peut tre discrte ou continue.
Variables numriques discrtes
Une variable dont les valeurs sont obtenues par dnombrement est une variable
discrte. Cest par exemple le cas du nombre denfants. Une variable statistique
est discrte ou discontinue lorsquelle ne peut prendre que certaines valeurs iso-
LES OUTILS 19
Architecture de la nomenclature
(donnes de 1998)
Nomenclature
Niveau
de ventilation
Codage Nombre
Systme harmonis (SH) Section Un chiffre 21
Chapitre Deux chiffres 99
Position Quatre chiffres 1241
Sous-position Six chiffres 5113
Nomenclature combine (NC) Sous-position Huit chiffres 10587
CTCI Section Un chiffre 10
Chapitre Deux chiffres 67
Position Trois chiffres 261
Sous-position Quatre chiffres 1033
Sous-position Cinq chiffres 3118
Exemple de classement dun produit dans la nomenclature combine :
Chapitre 10 du SH : crales
Position 10 06 du SH : riz
Sous-position 10 06 20 du SH : riz dcortiqu
Sous-position 10 06 20 11 de la NC : riz dcortiqu tuv grains ronds
Exemple de nomenclature :
01Chapitre 1 26/07/07 14:39 Page 19
les (valeurs prises dans N plus rarement dans Z). Cest le cas du nombre de per-
sonnes qui composent un mnage. Un caractre discret peut prendre une infinit
de valeurs dnombrables, il peut aussi nen prendre que quelques-unes : le nom-
bre denfants par familles qui est ncessairement un entier.
Dans cette situation, les modalits peuvent tre exprimes par un nombre et
prennent un nombre fini de valeurs, la variable est dite quantitative discrte.
Certaines variables discrtes, comme le nombre de salaris dune entreprise,
pouvant prendre un trs grand nombre de valeurs lintrieur dun intervalle de
grande amplitude, elles seront traites comme des variables continues.
Variable statistique continue
Lorsque la variable peut prendre toutes les valeurs lintrieur dun intervalle,
la variable est dite quantitative continue. Les units statistiques prenant sur ce
type de variable un nombre trs important de valeurs, il est ncessaire que les
valeurs de la variable soient regroupes en classes. Certaines variables discrtes,
comme le nombre de salaris dune entreprise, pouvant prendre un trs grand
nombre de valeurs, elles seront traites comme des variables continues.
Une variable statistique continue peut a priori prendre toutes les valeurs lint-
rieur dun intervalle de R : par exemple les salaires, le revenu par habitant. Le
nombre de modalits possibles est alors infini. Pour obtenir un nombre fini de
modalits, les valeurs sont regroupes en classe. La taille dun individu est une
variable continue, les revenus sont considrs comme continus ce qui nest pas tout
fait juste puisquils ne peuvent prendre que des valeurs exprimes en centimes.
Les valeurs dune variable continue sont mesurables ou reprables, avec un
degr de prcision dtermin qui nest pas toujours connu pour les donnes co-
nomiques et sociales.
En pratique, la distinction entre variables discrtes et variables continues est
conventionnelle. La prcision dune mesure est toujours limite et les rsultats
seront toujours donns sous forme dun nombre fini dobservations. La produc-
tion dacier, par exemple, sera donne en millions de tonnes ou en milliers de
tonnes. Inversement, si une variable discrte peut prendre un grand nombre de
valeurs, deux valeurs voisines apparaissent comme proches. Cest le cas du nom-
bre de salaris dans une entreprise. Elle sera alors traite comme une variable
continue. La distinction repose, dans la pratique, sur le fait que les variables se
prsentent ou non groupes en classe.
Les classes
Les units statistiques prenant sur ce type de variable un nombre trs important
de valeurs, il est ncessaire que les valeurs de la variable soient regroupes en
20 STATISTIQUES DESCRIPTIVES COURS
01Chapitre 1 26/07/07 14:39 Page 20
classes avant tout traitement. Le choix des classes rpond en gnral aux exi-
gences suivantes :
elles ne doivent pas tre trop nombreuses sinon il y aurait une difficult de
comprhension ;
elles ne doivent pas tre trop peu nombreuses car il y aurait perte dinforma-
tion ;
il ne doit pas y avoir de classe vide.
Le rangement des donnes, selon un ordre prcis, est insuffisant ds que le nom-
bre de donnes est grand. Pour tudier une variable continue, il faudra parfois
regrouper les donnes
1
sous une forme qui permette de ne pas perdre lessentiel
de linformation. Il sera ncessaire de construire des classes regroupant les
valeurs en un nombre fini de modalits. Le regroupement ainsi effectu permet
dobtenir une distribution des frquences ou des effectifs. Chaque classe aura un
certain effectif ; certains auteurs utilisent le terme de frquence absolue. Les cal-
culs statistiques utiliseront les centres de classes comme reprsentatifs de len-
semble de la classe. Les classes de valeurs possibles constituent les modalits du
caractre tudi.
Les classes peuvent avoir une amplitude variable ou constante. Leffectif de
chaque classe ne doit pas tre trop rduit pour viter les fluctuations accidentel-
les. La variable ge est souvent subdivise en classes damplitude de 5 ans,
0 moins de 5 ans, 5 ans moins de 10 ans etc. 0, 5, 10 sont les extrmits des
classes.
Le choix du nombre de classes et de leur amplitude est fonction de leffectif de
la population tudie, sans que leffectif de chacune soit trop faible afin dli-
miner les variations accidentelles. Il dpend aussi de la nature de ltude. En pra-
tique, lapplication de quelques rgles permet la construction des classes dune
distribution. Pour rendre les calculs significatifs, tout en prservant la compr-
hension de la distribution, le nombre de classes doit tre compris entre 5 et 15.
Les classes doivent tre agences de telle sorte que toutes les informations soient
incluses et que chaque observation se retrouve dans une et une seule classe. Les
classes constituent ainsi une partition de lensemble considr. Les amplitudes
des classes ne doivent pas tre trop diffrentes.
La dfinition des classes
Les limites de classes doivent tre sans quivoque. La prsentation suivante est
insatisfaisante.
LES OUTILS 21
1. Cela dpend de ltude, pour certains indicateurs on utilise les donnes non groupes.
01Chapitre 1 26/07/07 14:39 Page 21
Nombre de salaris par entreprises :
0 10
10 50

Lcriture la plus satisfaisante est la suivante :
[0, 10[
[10, 50[

Le nombre de classes retenir dpend de la prcision des mesures et de leffec-
tif de la population tudie.
Lamplitude de classe
Le choix des amplitudes de classe est dtermin par le souci dobtenir des effec-
tifs comparables dune classe lautre.
La valeur de lamplitude dune classe est calcule par la diffrence entre les
valeurs de la borne suprieure et celle de la borne infrieure. Lamplitude est
donc pour la deuxime classe de [10,50[= 40 salaris. Il arrive que la borne
infrieure de la premire classe et la borne suprieure de la dernire ne soient pas
donnes. Pour estimer les bornes absentes, nous disposons de deux solutions.
Tout dabord rflchir ce que pourrait tre la valeur de cette borne (ici pour la
premire classe 0 semble une solution satisfaisante). Sinon, nous donnerons la
premire classe lamplitude de la seconde et la dernire classe lamplitude de
lavant-dernire (attention cependant ne pas avoir des valeurs aberrantes).
Les centres de classe
Pour mener des calculs statistiques sur des sries classes, les classes sont rdui-
tes une seule donne : le centre de classe. Cela revient considrer que tous
les individus dune classe peuvent tre dcrits par ce centre de classe. Le centre
de classe c
i
se calcule simplement :
c
i
=
x
i
+ x
i +1
2
avec x
i
la borne infrieure de la classe i et x
i +1
la borne suprieure de celle-ci.
Il faut faire attention aux extrmits de classe retenues, elles peuvent appartenir
la classe suivante ou la classe prcdente.
Lamplitude de la dernire classe est suppose gale lavant-dernire, confor-
mment la rgle nonce. Le centre de classe de la classe i est obtenu en pre-
22 STATISTIQUES DESCRIPTIVES COURS
01Chapitre 1 26/07/07 14:39 Page 22
nant pour borne infrieure celle de la classe i et pour borne suprieure la borne
infrieure de la classe i +1.
Les tableaux statistiques
Ils constituent le moyen le plus sr de pouvoir rpondre aux questions poses de
par leur systmatisme. Sauf cas exceptionnels, les donnes statistiques sont pr-
sentes sous forme de tableau. Dune part, cela permet dapprhender linfor-
mation qui est synthtise et dautre part facilite ou rend possible les calculs.
Tableau statistique pour une variable qualitative
LES OUTILS 23
Effectifs Frquences Pourcentages
Frquences
cumules
n
i
f
i
p
i
F
i
Catgorie 1 n
1
f
1
p
1
F
1
Catgorie i n
i
f
i
=
n
i
N
p
i
= f
i
100 F
i
=
k=i

k=1
f
k
Catgorie m n
m
f
m
p
m
F
m
= 1
n =
i =m

i =1
n
i
i =m

i =1
f
i
= 1
i =m

i =1
p
i
= 100
Valeurs
Effectifs Frquences Pourcentages
Frquences
de la variable cumules
x
i
n
i
f
i
p
i
F
i
x
1
n
1
f
1
p
1
F
1
x
i
n
i
f
i
=
n
i
N
p
i
= f
i
100 F
i
=
k=i

k=1
f
k
x
m
n
m
f
m
p
m
F
m
= 1
n =
i =m

i =1
n
i
i =m

i =1
f
i
= 1
i =m

i =1
p
i
= 100
Tableau statistique pour une variable quantitative discrte
01Chapitre 1 26/07/07 14:39 Page 23
Tableau statistique pour une variable quantitative continue
24 STATISTIQUES DESCRIPTIVES COURS
Classes Centres Frquences
des classes Effectifs Frquences Pourcentages cumules
c
i
n
i
f
i
p
i
F
i
[b
1
; b
2
[ c
1
n
1
f
1
p
1
F
1
[b
i
; b
i +1
[ c
i
n
i
f
i
=
n
i
N
p
i
= f
i
100 F
i
=
k=i

k=1
f
k
[b
m
; b
m+1
[ c
m
n
m
f
m
p
m
F
m
= 1
n =
i =m

i =1
n
i
i =m

i =1
f
i
= 1
i =m

i =1
p
i
= 100
QUELQUES CONVENTIONS
Chiffres significatifs
Les rsultats statistiques provenant de calculs parfois raliss laide de micro-
ordinateurs sexpriment sous formes de nombre dune grande prcision. Il nest
pas rare de trouver des rsultats avec trois ou quatre dcimales. Une telle prci-
sion dgage un caractre de scientificit qui teint toute critique, alors quil ne
sagit que dune prcision illusoire qui napporte aucune information. La prci-
sion des observations est telle que gnralement les rsultats sont donns avec
une seule dcimale.
On appelle chiffres significatifs dun nombre les chiffres exacts constituant ce
nombre : 5,32 a trois chiffres significatifs. La prcision du rsultat ne doit pas
tre suprieure la prcision des observations. Le rsultat final dun calcul ne
peut avoir plus de chiffres significatifs que le nombre ayant le plus petit nombre
de chiffres significatifs.
Exemple : 45,2 65,324 = 2 952,6
Attention, ce nest pas le cas pour les calculs intermdiaires o tous les chiffres
doivent tre imprativement conservs.
Les pourcentages sont beaucoup utiliss dans les calculs statistiques. En gnral,
compte tenu de la prcision des donnes, le rsultat final sera fourni avec une
seule dcimale.
Les signes conventionnels
Dans un tableau statistique, certaines informations sont absentes, remplaces par
des signes conventionnels quil est utile de connatre.
01Chapitre 1 26/07/07 14:39 Page 24
'' ......................... Le rsultat nexiste pas faute denqute ou ne peut tre obtenu
...................... Rsultat non disponible (pas encore publi, pas encore parvenu)
/// .................................................. Absence de rsultat due la nature des choses
............................................................................... Rsultat rigoureusement nul
c ............ Rsultat confidentiel par application des rgles sur le secret statistique
.................................................. Rsultat infrieur la moiti de lunit choisie
e ......................................................................................... Estimation, valuation
r .................................................................................................... Nombre rectifi
p .............................................................................................. Nombre provisoire
................................................................................................... Rupture de srie
Les notations indices
chaque modalit, il sera possible dassocier un certain nombre dindividus, ce
nombre sera appel leffectif de la modalit. Celui de la modalit i sera not n
i
.
Soit k le nombre de modalits prises par un caractre ; nous noterons I lensem-
ble des valeurs 1,2,. . . k. Lensemble constitu par les modalits et les effectifs
associs chacune des modalits est une srie statistique ou, plus usuellement,
une distribution statistique, du caractre pour la population considre. Nous
crirons : {MO
i
; n
i
} o MO
i
est la modalit i.
La notation somme (ou loprateur somme)
Soient les effectifs n
1
,n
2
,. . . ,n
k
de la distribution du caractre, nous noterons n
la somme des effectifs.
n = n
1
+n
2
+. . . +n
k
Cette criture est peu maniable, nous remplacerons la somme prcdente par la
notation suivante :
k

i =1
n
i
= n avec i [1 ; k]
ou si la sommation est sans ambigut :

n
i
= n
Le symbole

se lit sigma et signifie somme des effectifs des k modalits de la


distribution. Cest un oprateur linaire.
LES OUTILS 25
01Chapitre 1 26/07/07 14:39 Page 25
Quelques proprits de cet oprateur, (nous laissons au lecteur le soin de faire
les dmonstrations) :
k

i =1
(x
i
+ y
i
) =
k

i =1
x
i
+
k

i =1
y
i
k

i =1
ax
i
= a
k

i =1
x
i
si a est une constante
k

i =1
a = ka
k

i =1
(x
i
+b) =
k

i =1
x
i
+kb
Quelques autres relations
k

i =1
x
2
i
=/
_
k

i =1
x
i
_
2
k

i =1

x
i
=/

_
k

i =1
x
i
k

i =1
_
x
i
y
i
_
=/
k

i =1
x
i
k

i =1
y
i
k

i =1
l

j =1
x
i j
=
l

j =1
k

i =1
x
i j
=
k

i =1
_
l

j =1
x
i j
_
=
l

j =1
_
k

i =1
x
i j
_
k

i =1
x
i
k

i =1
y
i
=
k

i =1
x
i
k

i =1
y
i
26 STATISTIQUES DESCRIPTIVES COURS
01Chapitre 1 26/07/07 14:39 Page 26
La notation produit (oprateur produit)
De faon analogue la notation somme, nous crivons le produit de n nombres
sous une forme abrge.
n
1
n
2
. . . n
p
=
p

i =1
n
i
p

i =1
ax
i
= a
p
p

i =1
x
i
p

i =1
a = a
p
p

i =1
x
i
y
i
=
p

i =1
x
i
p

i =1
y
i
Les pourcentages et les frquences
Le calcul dune proportion ou dune frquence est lacte statistique le plus l-
mentaire. Cette simple opration donne dj une information plus accessible que
la distribution statistique, elle permet de comparer des distributions dont les or-
dres de grandeur ne sont pas comparables. Les deux termes recouvrent des cal-
culs formellement semblables.
Les proportions
Une rpartition quantitative est le plus souvent exprime sous forme de propor-
tions. Une proportion indique limportance relative dune modalit dans len-
semble des modalits. Une telle prsentation permet de comparer des distribu-
tions statistiques dont les effectifs sont ingaux. Elle se calcule en faisant le rap-
port entre le nombre dunits ayant le caractre et le nombre total dunits.
Une forme trs parlante de la prsentation dune proportion est de la donner
comme une fraction du numrateur 1/2, 1/3, 1/10. Linconvnient dune telle
prsentation est quil est malais deffectuer des additions, il faut rduire un
dnominateur commun.
Pour simplifier les oprations, mais aussi pour permettre des comparaisons plus
immdiates on prsente les proportions avec un dnominateur commun 10 ou
plus gnralement 100. Une proportion est gnralement donne en pourcen-
tage. Une proportion sera comprise entre 0 et 1, un pourcentage sera compris
entre 0 et 100 %. Par exemple, en 1981, 22,2 % de la population franaise avait
LES OUTILS 27
01Chapitre 1 26/07/07 14:39 Page 27
de 0 14 ans. Une remarque : en 1981, la population totale est value en
milliers de personnes 53 838 et la population 0-14 ans dans la mme unit
11 932. Le rapport, la proportion de jeunes de 0 14 ans calcule exactement
est de 22,1627 %. Un tel nombre na aucun sens, les pourcentages sont donns
avec un chiffre derrire la virgule, donc 22,2 %.
Le calcul dun pourcentage consiste appliquer le principe des proportions donc
poser lquation suivante :
x
100
=
a
b
, a et b tant connus, il dcoule :
x =
100 a
b
La comparaison de deux nombres : les taux
Un taux mesure la modification relative dune grandeur entre deux priodes. Il
compare deux situations dans le temps. Soit Y une variable prenant les valeurs
Y
0
et Y
1
aux temps t
0
et t
1
. Le taux de croissance sera dfini par : r =
Y
1
Y
0
Y
0
ou de faon plus gnrale r =
Y
Y
Lapplication un ensemble de grandeurs conomiques, des salaires par exem-
ple, dun taux de croissance identique, conserve les proportions, mais accrot les
carts absolus. Une augmentation en valeur absolue conserve les carts absolus
mais rduit les carts relatifs.
Pour exprimer la modification relative dune grandeur, il est plus simple de lex-
primer laide dun multiplicateur ou dun indice.
Nous pouvons crire plus simplement :
r =
X
1
X
0
X
0
=
X
1
X
0
1 ou
X
1
X
0
= 1 +r ou X
1
= X
0
(1 +r)
avec r = le taux de croissance et 1 +r le multiplicateur.
Dans le cas de taux de croissance successifs, le calcul en sera facilit. Soit une
croissance de r
1
suivie dune de r
2
, le taux de croissance global nest pas gal
r
1
+r
2
. Le multiplicateur de croissance est :
(1 +r) = (1 +r
1
)(1 +r
2
)
donc le taux de croissance total r est gal :
r = (1 +r
1
)(1 +r
2
) 1
28 STATISTIQUES DESCRIPTIVES COURS
01Chapitre 1 26/07/07 14:39 Page 28
La comparaison de deux taux
Il est courant, en conomie, de comparer lvolution relative de deux taux : cest
le principe de llasticit. Par exemple, si nous voulons apprcier la variation
relative de la demande dun produit en raction une variation relative du prix
de ce produit. Nous ferons le rapport de la variation relative de la quantit et de
la variation relative des prix. Les deux mouvements sont, en gnral, de sens
oppos ; llasticit est souvent ngative.
e
p
=
q
q
p
p
=
q
p
p
q
=
q
q
p
p
|e
p
| < 1 la demande est inlastique
|e
p
| > 1 la demande est lastique
|e
p
| = 1 aucune lasticit ou isolasticit ou lasticit unitaire
Les frquences relatives
En statistique, le terme de frquence est utilis plus souvent que celui de pro-
portion. La frquence dune valeur dans une srie statistique est son importance
relative, elle est le plus souvent exprime en pourcentage. Elle se calcule comme
limportance dune modalit par rapport lensemble des modalits. Pour un
caractre K ayant M
i
modalits 1 i k, la frquence de la modalit M
i
sera
note f
i
et se dfinit comme la proportion des individus de la population prsen-
tant la modalit M
i
.
f
i
=
n
i
n
=
n
i
k

i =1
n
i
, avec
k

i =1
f
i
= 1
La frquence est le plus souvent prsente en pourcentage. Les frquences per-
mettent de comparer les structures selon le caractre tudi de populations def-
fectifs diffrents. Le calcul des frquences permet dliminer leffet de taille ; on
nonce les jugements du type relativement plus ou relativement moins.
Les frquences cumules
Dans le cas des variables numriques, la prsentation peut se faire par ordre
croissant ou par ordre dcroissant. On calcule les frquences cumules. Soit une
LES OUTILS 29
01Chapitre 1 26/07/07 14:39 Page 29
variable statistique prenant k modalits x
i
, la frquence cumule F
i
sera la
somme des frquences des valeurs infrieures x
i
.
F
1
= f
1
, F
2
= f
1
+ f
2
, plus gnralement F
j
=
j

i =1
f
i
Les frquences cumules sont considres comme les valeurs en des points
connus dune fonction de distribution F(x).
LES REPRSENTATIONS GRAPHIQUES
Les graphiques permettent de donner une synthse visuelle de la distribution
dune variable et de percevoir lventuelle relation entre les variables, cette sec-
tion en prsente quelques exemples. Les reprsentations peuvent tre spcifiques
un type de variable ou de caractre. Sauf indication contraire tous les gra-
phiques sont ralisables en effectifs ou en frquences, ils sont superposables
lchelle prs.
Ils constituent pour les pourcentages un moyen simple de comparer sur un base
unique des donnes de valeurs diffrentes. Les taux permettent de suivre lvo-
lution de grandeurs.
Les graphiques permettent de mieux percevoir une relation entre des variables,
ce chapitre prsente quelques exemples.
Le cas dune variable
Le choix des reprsentations graphiques dpend pour une large part du type du
caractre statistique : caractre qualitatif, variable statistique discrte, variable
statistique continue.
Les reprsentations des caractres qualitatifs
Les diagrammes figuratifs, les pictogrammes sont utiliss pour leur effet sug-
gestif : des personnages pour une population humaine, des pis pour une pro-
duction cralire. La multiplication par deux des dimensions du diagramme
indique une multiplication par quatre de la grandeur reprsente. Les illustra-
tions utilises pour figurer la distribution de caractre qualificatif sont souvent
imprcises. Le lecteur ne sait pas toujours sil faut comparer les longueurs ou les
surfaces. Pour quun diagramme figuratif soit significatif, il faut que les surfaces
soient proportionnelles.
Les cartogrammes reprsentent les variations dune grandeur sur un territoire
gographique en assignant chaque zone ses caractristiques. Pour cela, on uti-
30 STATISTIQUES DESCRIPTIVES COURS
01Chapitre 1 26/07/07 14:39 Page 30
lise des fonds de cartes pour reprsenter les variables. Il existe deux grandes
catgories de cartogrammes. Dans la premire catgorie, les surfaces de chaque
unit gographique sont hachures ou colories ; dans la seconde catgorie, les
phnomnes sont reprsents par des surfaces centres sur les units gogra-
phiques et proportionnelles aux effectifs tudis.
Le diagramme en tuyaux dorgue ou en barres est constitu dune suite de rec-
tangles dont les hauteurs sont proportionnelles leffectif (ou la frquence) de
la variable et dont les bases sont identiques. La reprsentation peut tre horizon-
tale ou verticale.
PIB par habitant en standards de pouvoir dachat (SPA) (EU 25 = 100)
LES OUTILS 31
0
50
100
150
200
250
300
B
e
l
g
i
q
u
e
B
u
l
g
a
r
i
e
R

p
u
b
l
i
q
u
e

t
c
h

q
u
e
D
a
n
e
m
a
r
k
A
l
l
e
m
a
g
n
e
E
s
t
o
n
i
e
I
r
l
a
n
d
e
G
r

c
e
E
s
p
a
g
n
e
F
r
a
n
c
e
I
t
a
l
i
e
C
h
y
p
r
e
L
e
t
t
o
n
i
e
L
i
t
u
a
n
i
e
L
u
x
e
m
b
o
u
r
g
H
o
n
g
r
i
e
M
a
l
t
e
P
a
y
s
-
B
a
s
A
u
t
r
i
c
h
e
P
o
l
o
g
n
e
P
o
r
t
u
g
a
l
R
o
u
m
a
n
i
e
S
l
o
v

n
i
e
S
l
o
v
a
q
u
i
e
F
i
n
l
a
n
d
e
S
u

d
e
R
o
y
a
u
m
e
-
U
n
i

Source : Eurostat
Le diagramme en secteurs ou en camembert visualise la part relative des
catgories de la variable sur une population. Le cercle reprsente lensemble de
la population, les diffrentes modalits seront reprsentes par des secteurs dont
la surface est proportionnelle aux effectifs ou aux frquences. Une telle repr-
sentation nest significative que si le total des frquences est de 100 %. Un demi-
cercle peut jouer le mme rle.
01Chapitre 1 26/07/07 14:39 Page 31
Dure hebdomadaire moyenne de travail des femmes (2005)
32 STATISTIQUES DESCRIPTIVES COURS
Moins de 15
heures
De 15 29 heures
30 heures ou plus
La reprsentation en secteurs visualise bien limportance relative des diffrentes
modalits. Cette reprsentation permet, pour des comparaisons dans le temps et
dans lespace, de rendre sensible les diffrences en valeur absolue. Les aires des
cercles seront proportionnelles aux effectifs de chacune des populations. Cest-
-dire :
r
2
1
r
2
2
=
A
1
A
2
autrement dit
r
1
r
2
=
_
A
1
A
2
Les reprsentations des variables quantitatives
Dans certains cas, la reprsentation peut faire appel aux reprsentations dcrites
ci-dessus. Deux reprsentations graphiques retiendront plus particulirement
notre attention : la courbe cumulative des frquences et lhistogramme.
Les nuages constituent une reprsentation o les modalits sont en abscisses et
les effectifs ou les frquences en ordonnes.
Variable quantitative discrte
Le diagramme en btons est la reprsentation graphique des effectifs ou des fr-
quences dune variable discrte. chaque valeur (x
i
) en abscisse on fait cor-
respondre un segment vertical de longueur proportionnelle soit leffectif (n
i
),
soit la frquence ( f
i
) de cette modalit. Ce graphique diffrentiel se distingue
du graphique intgral ou cumulatif qui reprsente les frquences cumules. Le
Source : Insee
01Chapitre 1 26/07/07 14:39 Page 32
graphique intgral reprsente la fonction cumulative ou fonction de rpartition
dfinie par F(x
i
) = F
i
, qui est une fonction tage pour une variable discrte
pour x
i
< x x
i +1
.
Lexemple de la distribution du nombre denfants par famille nous permet
dillustrer ces dfinitions.
Rpartition des familles selon le nombre denfants
LES OUTILS 33
Nombre denfants 0 1 2 3 4 et + Total
Toutes structures
familiales
7 492 332 3 615 859 3 255 259 1 267 979 465 353 16 096 782
champ : France mtropolitaine
Source : Insee, recensement 1999.
Tableau statistique
Effectifs Frquences relatives Frquences cumules
Nombre denfant n
i
f
i
F
i
0 7 492 332 46,5 46,5
1 3 615 859 22,5 69,0
2 3 255 259 20,2 89,2
3 1 267 979 7,9 97,1
4,5 465 353 2,9 100,0
Ensemble 16 096 782 100,0
Familles selon le nombre denfants (graphique diffrentiel)
0
2000000
4000000
6000000
8000000
0 1 2 3 4,5
Nombre d'enfants
F
r

q
u
e
n
c
e
s

r
e
l
a
t
i
v
e
s
01Chapitre 1 26/07/07 14:39 Page 33
Familles selon le nombre denfants (graphique intgral)
34 STATISTIQUES DESCRIPTIVES COURS
0,0
20,0
40,0
60,0
80,0
100,0
0 1 2 3 4 5 6
Nombre d'enfants
F
r

q
u
e
n
c
e
s

c
u
m
u
l

e
s
Les variables continues
Deux reprsentations graphiques retiendront plus particulirement notre atten-
tion : lhistogramme et la courbe cumulative des frquences.
Lhistogramme est rserv aux sries groupes en classes. Pour visualiser lim-
portance relative des classes, on prfre les reprsenter par des surfaces en cons-
truisant un histogramme. Lhistogramme est une reprsentation graphique de la
distribution des effectifs ou des frquences dune variable statistique continue ou
considre comme telle. chaque classe de valeurs en abscisses, on fait cor-
respondre un rectangle dont laire est proportionnelle leffectif de la classe (ou
la frquence) : en abscisse lamplitude de la classe, en ordonne leffectif (ou
la frquence) par unit damplitude. Soit une distribution {[b
i
; b
i +1
[ ; n
i
} dune
variable statistique continue, pour chaque classe, lhistogramme associe un rec-
tangle de largeur a
i
= b
i +1
b
i
et de hauteur h
i
=
f
i
a
i
.
Emplois fminins par ge
[b
i
; b
i +1
[ a
i
n
i
(milliers) f
i
(en %)
f
i
a
i
[15 ; 20[ 5 67 0,7 14,20
[20 ; 30[ 10 1942 20,6 205,79
[30 ; 35[ 5 1364 14,5 289,07
[35 ; 45[ 10 2814 29,8 298,19
[45 ; 55[ 10 2540 26,9 269,15
[55 ; 70] 15 710 7,5 50,16
Ensemble 9437 100,0
Source : Recensement de la population 1999 INSEE
01Chapitre 1 26/07/07 14:39 Page 34
Histogramme de la distribution des femmes actives (graphique diffrentiel)
LES OUTILS 35
0,0
50,0
100,0
150,0
200,0
250,0
300,0
350,0
10 20 30 40 50 60 70 80
Ages
F
r

q
u
e
n
c
e
s

p
a
r

u
n
i
t


d
'
a
m
p
l
i
t
u
d
e
Le polygone des frquences lisse lhistogramme de faon liminer les ruptures
qui dpendent du choix du dcoupage en classe. Lhistogramme est fidle au
tableau de dpart, il donne limpression, lillusion, quau sein de chaque classe,
les valeurs sont rgulirement distribues et quapparaissent des modifications
brusques. Linformation parat plus raliste ; la courbe de frquences respecte la
compensation des aires, la surface incluse par la courbe est identique celle de
lhistogramme. Cette courbe des frquences pourra tre utilise pour comparer
la distribution relle avec un modle probabiliste connu.
Polygone des frquences des activits fminines
0,0
50,0
100,0
150,0
200,0
250,0
300,0
350,0
10 20 30 40 50 60 70 80
ges
F
r

q
u
e
n
c
e
s

p
a
r

u
n
i
t


d
'
a
m
p
l
i
t
u
d
e
Nous avons retenu comme limite infrieur de lactivit 15 qui correspond lge
lgal, nous avons choisi 75 ans comme borne suprieure pour deux raisons tout
dabord pour la conservation des aires mais galement par ralisme mme si au-
del de 65 ans il sagit en gnral dactivits temps partiel.
La courbe cumulative des effectifs (ou des frquences) reprsente graphique-
ment la fonction cumulative ou fonction de rpartition dfinie par F(x
i
) = F
i
.
La courbe cumulative des effectifs (ou des frquences) sobtient en joignant les
points dabscisse : la borne suprieure de la classe, et dordonne : leffectif
cumul croissant correspondant.
01Chapitre 1 26/07/07 14:39 Page 35
Courbe cumulative de la distribution des femmes actives (graphique intgral)
36 STATISTIQUES DESCRIPTIVES COURS
Il est possible de transformer une variable quantitative en variable qualitative, les
valeurs de la variable ou les classes devenant alors les catgories de la variable
qualitative. Les reprsentations graphiques prconises pour les variables quali-
tatives sont alors applicables aux variables quantitatives transformes.
ces reprsentations, nous pouvons ajouter les reprsentations triangulaires, les
diagrammes polaires.
Le graphique triangulaire sert reprsenter des phnomnes constitus de trois
variables dont la somme est constante ; le plus souvent il sagira de la dcom-
position en trois postes dune grandeur variable. Le diagramme triangulaire
compare trois donnes complmentaires pour visualiser leurs relations.
Lutilisation du diagramme triangulaire repose sur une proprit du triangle
quilatral. Si dun point M, intrieur un triangle quilatral on trace les paral-
lles aux cts, les longueurs des segments dcoups sur ceux-ci ont une somme
constante gale la longueur du ct.
Le diagramme polaire permet de visualiser une phnomne sur plusieurs axes.
A
B
C
x y z
0
10
20
30
40
50
60
70
80
90
100
10 20 30 40 50 60 70 80
ges
F
r

q
u
e
n
c
e
s

c
u
m
u
l

e
s
01Chapitre 1 26/07/07 14:39 Page 36
LES OUTILS 37
M
y
x

O
Un exemple de ce type de graphique est connu sous le nom de Carr magique qui
reprsente les quatre principaux objectifs de la politique conomique qui sont :
la croissance conomique (value par le taux de croissance du PIB) ;
la situation de lemploi (mesure par le taux de chmage en % de la popula-
tion active) ;
la stabilit des prix (mesure par le taux dinflation en %) ;
lquilibre des comptes extrieurs (mesur par le solde de la balance des paie-
ments en % du PIB).
Dans un graphique coordonnes cartsiennes un point M est repr par ses
coordonnes (x et y) ; dans un graphique polaire, il lest par langle (angle
polaire) et la mesure algbrique du vecteur

OM.
Croissance du
PIB
Taux de chmage
(en % des actifs)

Taux dinflation
(en %)
Solde de la balance
des transactions
courantes


Le carr magique
01Chapitre 1 26/07/07 14:39 Page 37
38 STATISTIQUES DESCRIPTIVES COURS
Le cas de deux variables croises
Croisement de deux variables qualitatives
Le tableau statistique des effectifs se prsente sous la forme dun tableau de
contingence
Tableau des effectifs
Variable 2
Effectif marginal
Variable 1
Modalit 1 Modalit j Modalit p
de la variable 1
Modalit 1 n
11
n
1 j
n
1p
n
1.
=
k=p

k=1
n
1k
Modalit i n
i 1
n
i j
n
i p
n
i.
=
k=p

k=1
n
i k
Modalit m n
m1
n
mj
n
mp
n
m.
=
k=p

k=1
n
mk
Effectif marginal
de la variable 2
n
.1
=
k=m

k=1
n
k1
n
. j
=
k=m

k=1
n
kj
n
. p
=
k=m

k=1
n
kp
n =
k=p

k=1
n
.k
=
k=m

k=1
n
k.
Comme reprsentation graphique, on utilise un diagramme en barre o les bar-
res des modalits de la variables 1 sont partages suivant les modalits de la
variable 2.
Ce tableau est souvent assorti dun tableau des frquences conditionnelles :
Tableau des frquences conditionnelles pour la variable 1
Variable 2
Variable 1
Modalit 1 Modalit j Modalit p
Modalit 1 f
1/1
=
n
11
n
1.
f
j/1
=
n
1 j
n
1.
f
p/1
=
n
1p
n
1.
1
Modalit i f
1/i
=
n
i 1
n
i.
f
j/i
=
n
i j
n
i.
f
p/i
=
n
i p
n
i.
1
Modalit m f
1/m
=
n
m1
n
m.
f
j/m
=
n
mj
n
m.
f
p/m
=
n
mp
n
m.
1
01Chapitre 1 26/07/07 14:39 Page 38
Le tableau des les frquences conditionnelles pour la variable 2 est analogue
celui ci-dessus.
La reprsentation utilise est alors un diagramme cumul interne o toutes les
barres ont la mme hauteur. Il permet de comparer la part relative des catgories
de la variable 2 dans chacune des catgories de la variable 1.
Croisement dune variable qualitative et dune variable quantitative
Les diagrammes ne sont pas diffrents de ceux qui sont utiliss pour le croise-
ment de deux variables qualitatives.
Croisement de deux variables quantitatives
Les nuages de points, o les valeurs de la variable 1 sont en abscisses et les
valeurs de la variable 2 en ordonnes, constituent la reprsentation la plus utili-
se pour des correspondances simples.
LES OUTILS 39
01Chapitre 1 26/07/07 14:39 Page 39

Anda mungkin juga menyukai