Anda di halaman 1dari 384

Introduction

la mthode
statistique
Manuel et exercices corrigs
Bernard Goldfarb
Catherine Pardoux
6e dition

P001-002R-9782100549412.indd 1

24/11/10 11:59

Dunod, Paris, 2011


ISBN 978-2-10-055892-6

P001-002R-9782100549412.indd 2

24/11/10 11:59

P003-008R-9782100549412.fm Page III Jeudi, 18. novembre 2010 11:59 11

Table des matires


Avant-propos

IX

1. Distributions statistiques un caractre

Dunod. La photocopie non autorise est un dlit.

I.

Dfinitions 1
A. Population, individu, chantillon
B. Variables 2

II.

Reprsentations graphiques
A. Distributions statistiqueset reprsentations graphiques
B. Le diagramme branche et feuille

3
4
10

III.

Les indicateurs statistiques


A. Conditions de Yule
B. Les indicateurs de tendance centrale et de position
C. Les indicateurs de dispersion
D. Les caractristiques de forme
E. Les caractristiques de dispersion relative

13
13
14
23
26
29

IV. La bote de distribution


A. Rsum dune distribution par des quantiles
B. Reprsentation dune bote de distribution
C. Interprtation dune bote de distribution
V.

33
33
34
36

Bilan 37

Testez-vous

39

Exercices

41

2. Indices statistiques
I.

47

Indices lmentaires
A. Dfinition 47
B. Proprits 48

47

TABLE DES MATIRES

III

P003-008R-9782100549412.fm Page IV Jeudi, 18. novembre 2010 11:59 11

II.

III.

Indices synthtiques
A. Indices synthtiques de Laspeyres et Paasche :
premires formules
B. Formules dveloppes
C. Comparaison des indices de Laspeyres et de Paasche
D. Indice de Fisher
E. Proprits des indices de Fisher, Laspeyres et Paasche
F. Utilisation de ces trois indices

50
51
52
54
55
56

Indices-chanes 56
A. Raccord dindices
B. Les indices-chanes
C. Indices publis par lINSEE

56
57
58

IV. Traitement statistique des indices


A. chelle logarithmique
B. Proprits dun graphique ordonne logarithmique
V.

58
59
60

Bilan 61

Testez-vous

62

Exercices

63

3. Distributions statistiques deux caractres

67

I.

Distributions statistiques deux variables


A. Distribution conjointe
B. Distributions marginales
C. Distributions conditionnelles
D. Dpendance et indpendance statistique

67
67
69
69
71

II.

Deux variables quantitatives


A. Caractristiques dun couple
de deux variables quantitatives
B. Ajustement linaire dun nuage de points
C. Interprtation du coefficient de corrlation linaire
D. Comparaison des deux droites des moindres carrs
E. Le coefficient r et la qualit de lajustement linaire

72

III.

IV

49

Une variable qualitative et une variable quantitative


A. Mesure de la liaison par le rapport de corrlation
B. Comparaison du coefficient de corrlation linaire
et des rapports de corrlation

INTRODUCTION LA MTHODE STATISTIQUE

73
74
76
81
82
86
87
89

P003-008R-9782100549412.fm Page V Jeudi, 18. novembre 2010 11:59 11

IV. Deux variables qualitatives


V.

90

Bilan 92

Testez-vous

94

Exercices

97

Dunod. La photocopie non autorise est un dlit.

4. Sries chronologiques et prvision

103

I.

lments constitutifs dune srie chronologique


A. La tendance long terme
B. Le mouvement saisonnier
C. Les irrgularits
D. Les perturbations

103
103
104
104
104

II.

Les modles de composition dune srie chronologique

105

III.

Analyse de la tendance
A. Ajustement de la tendance par une fonction analytique
B. Dfinition dune moyenne mobile
C. Dtermination de la tendance par la mthode
des moyennes mobiles
D. Inconvnients de la mthode des moyennes mobiles

108
108
109
110
112

IV. Correction des variations saisonnires


A. Modle additif
B. Modle multiplicatif
C. Autres approches

113
113
114
115

V.

115
116
118

Un exemple de dcomposition dune srie chronologique


A. Schma additif
B. Schma multiplicatif

VI. Les mthodes de lissage exponentiel


A. Le lissage exponentiel simple
B. Le lissage exponentiel double

120
120
125

Testez-vous
Exercices

127
128

5. Modle probabiliste et variable alatoire


I.

131

lments de calcul des probabilits


A. Notion de probabilit
B. Probabilits conditionnelles

133
133
136

TABLE DES MATIRES

P003-008R-9782100549412.fm Page VI Jeudi, 18. novembre 2010 11:59 11

II.

III.

Variables alatoires une dimension


A. Dfinitions 142
B. Loi de probabilit dune variable alatoire
C. Loi dune fonction de variable alatoire

142

Couple de variables alatoires


A. Fonction de rpartition dun couple alatoire
B. Loi dun couple alatoire discret
C. Loi dun couple de variables alatoires continues

151
151
151
154

IV. Indicateurs des variables alatoires


A. Mode 156
B. Esprance mathmatique
C. Variance 160
D. Covariance de deux variables alatoires,
coefficient de corrlation linaire
E. Moment, fonction gnratrice des moments
F. Indicateurs de forme
G. Quantiles 165
V.

Convergence des variables alatoires relles

155
156
162
163
164
166

Testez-vous

172

Exercices

176

6. Les principaux modles statistiques discrets

179

I.

Les modles lmentaires


A. Le schma de Bernoulli
B. La loi uniforme discrte

181
181
183

II.

Les schmas de Bernoulli itratifs


A. Le schma binomial
B. Le schma hypergomtrique
C. La loi gomtrique et la loi de Pascal

184
185
191
193

III.

La loi de Poisson
A. Dfinitions et proprits
B. Abord statistique
C. Abord probabiliste

198
199
203
203

Exercices

VI

144
149

INTRODUCTION LA MTHODE STATISTIQUE

207

P003-008R-9782100549412.fm Page VII Jeudi, 18. novembre 2010 11:59 11

7. Les principaux modles statistiques continus

211

I.

Modles continus simples


A. La loi uniforme continue
B. La loi exponentielle

211
211
214

II.

La loi normale ou loi de Laplace-Gauss


A. La loi normale centre rduite
B. La loi normale (m, ) 220
C. Usage des tables
D. Abord statistique de la loi normale
E. Abord probabiliste de la loi normale
F. Correction de continuit

219
219

Les lois drives de la loi normale


A. La loi du khi-deux
B. La loi de Student
C. La loi de Fisher-Snedecor

240
240
247
252

III.

226
233
235
239

IV. Quelques autres modles continus courants


A. La loi log-normale
B. La loi de Pareto
C. La loi de Weibull
D. La loi logistique

Dunod. La photocopie non autorise est un dlit.

V.

256
256
260
265
268

Bilan 271

Testez-vous

273

Exercices

276

Rponses aux questionnaires Testez-vous

283

Corrigs des exercices

289

Annexes 335
I.

Formulaire lmentaire de combinatoire


A. Ensemble des parties dun ensemble
B. Arrangements avec rptition
C. Permutations 336
D. Arrangements sans rptition
E. Combinaisons sans rptition
F. Coefficients multinomiaux

335
335
335
336
337
339

TABLE DES MATIRES

VII

P003-008R-9782100549412.fm Page VIII Jeudi, 18. novembre 2010 11:59 11

II.

Principaux modles de probabilits : mthodes de calculs


A. Loi binomiale
B. Loi de Poisson
C. Loi de Gauss centre rduite
D. Loi du khi-deux
E. Loi de Student
F. Loi de Fisher-Snedecor

339
339
340
340
341
341
342

III.

Introduction la simulation des lois de probabilit


A. La place des mthodes de simulation
B. Les principes de la simulation sur tableur
C. Simulation de lois discrtes
D. Simulations de lois continues
E. Quelques exemples et applications

343
343
343
344
344
346

IV. Tables 351


Bibliographie 361
Lexique anglais/franais

363

Lexique franais/anglais

367

Index

371

VIII

INTRODUCTION LA MTHODE STATISTIQUE

P009-010R-9782100549412.fm Page IX Jeudi, 18. novembre 2010 12:00 12

Avant-propos

Dunod. La photocopie non autorise est un dlit.

Tout le monde sait et dit que celui qui observe sans ide, observe en vain.
lments de philosophie, Alain (1868 1951)

Le recueil, le traitement et lanalyse de linformation sont au cur de tous


les processus de gestion et de dcision. Les mthodes de description, de prvision et de dcision se sont considrablement enrichies et dveloppes, ce
qui place la statistique applique1 au carrefour de lobservation et de la modlisation.
Lutilisation des mthodes statistiques sest gnralise avec le dveloppement et linterprtation de logiciels et progiciels (gnralistes ou spcialiss),
assurant la gestion des donnes, les calculs, les reprsentations graphiques
Plusieurs gnrations de logiciels statistiques 2 se sont succd en modifiant considrablement, dabord, lanalyse des donnes statistiques et maintenant, lenseignement de la statistique. Sous peine dtre noy, non plus
dans les calculs mais dans les rsultats, lutilisateur doit disposer dides prcises sur les outils, leurs fonctions et leurs champs dapplication.
Nous avons ainsi voulu guider les futurs consommateurs et utilisateurs
de donnes vers les descriptions statistiques majeures et les reprsentations
courantes des phnomnes rencontrs dans tous les domaines de lactivit
humaine.
La visualisation par tableaux et graphiques 3 est une clef indispensable
pour traiter et comprendre efficacement les multiples ensembles de donnes
statistiques ; lusage gnralis qui en est fait pour tous les publics et par de
nombreux mdias confirme son importance.
Dans cette sixime dition, nous avons maintenu toute notre attention sur
les visualisations, ainsi que sur la pratique et lutilisation du tableur Excel
largement rpandu.
1. laquelle les programmes, tant de lenseignement secondaire que de lenseignement suprieur, accordent une place de plus en plus importante.
2. Sans compter les versions volues des langages de programmation scientifique qui mettent
lapplication de traitements trs sophistiqus la porte du plus grand nombre.
3. La reprsentation visuelle est remarquablement mise en valeur dans le trs bel ouvrage de
Edward R. Tufte (1991) : The Visual Display of Quantitative Information , Graphics Press,
Cheshire, Connecticut

AVANT-PROPOS

IX

P009-010R-9782100549412.fm Page X Jeudi, 18. novembre 2010 12:00 12

La thorie reste volontairement limite pour donner toute son importance


lapproche interprtative des donnes. Le lecteur, selon ses connaissances
pralables et son intrt pour la formalisation, pourra en premire lecture passer outre la prsentation de certains supports thoriques. Ce livre nest quune
introduction la mthode statistique, et nous donnons quelques rfrences
douvrages pour largir ides et connaissances.
Dans cette sixime dition, nous avons remis jour, partir des recueils
les plus rcents, les donnes de nombreux exemples et des exercices (complts et enrichis). Nous avons galement inclus une trs brve introduction
illustre la pratique et lusage de la simulation, outil de plus en plus incontournable dans des secteurs tels que la logistique, la stratgie, ou encore
lanalyse financire
Issu de nombreuses expriences denseignement en formation initiale
comme en formation continue pour des tudiants en sciences conomiques,
en sciences de gestion et en informatique de gestion, ce livre tient compte de
leurs besoins et des dernires volutions. Nous pensons quil correspond bien
aux exigences actuelles. Nous remercions par avance les lectrices et les lecteurs qui voudront bien nous faire part de leurs remarques ou suggestions.
Bernard Goldfarb
Catherine Pardoux

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 1 Mercredi, 24. novembre 2010 9:46 09

1. D istributions
statistiques
un caractre

Le savant doit ordonner ; on fait la science avec des faits


comme une maison avec des pierres ;
mais une accumulation de faits nest pas plus une science
quun tas de pierres nest une maison.
La Science et lhypothse, Henri Poincar (1854-1912)

a statistique descriptive est un ensemble de mthodes permettant


de dcrire, prsenter, rsumer des donnes souvent trs nombreuses. Ces mthodes peuvent tre numriques (tris, laboration
de tableaux, calcul de moyennes) et/ou mener des reprsentations
graphiques.

Dunod. La photocopie non autorise est un dlit.

I.

Dfinitions

A. Population, individu, chantillon


Une population est lensemble des lments auxquels se rapportent les donnes tudies. En statistique, le terme population sapplique des ensembles de toute nature : tudiants dune acadmie, production dune usine,
poissons dune rivire, entreprises dun secteur donn
Des enqutes de lOffice statistique des communauts europennes donnent la dure hebdomadaire moyenne du travail des salaris temps complet pour 15 pays membres. Les rsultats de ces enqutes ne donnent pas
dinformation atomise un niveau plus bas que le pays ; la population
de rfrence nest donc pas ici lensemble (plusieurs millions) de tous les
salaris des 15 pays. Ltude de ces 15 observations concerne un ensemble

DISTRIBUTIONS STATISTIQUES UN CARACTRE

P001-046-9782100549412.fm Page 2 Mercredi, 24. novembre 2010 9:46 09

de 15 units (statistiques), les 15 pays slectionns qui constituent la population de ltude.


Dans une population donne, chaque lment est appel individu ou
unit statistique .
La collecte dinformations sur une population peut tre effectue sur la
totalit des individus ; on parle alors denqutes exhaustives. Lorsque la
taille de la population tudie est leve, de telles enqutes sont fort coteuses ou impossibles, et le cas chant, leurs rsultats souvent trs longs
rassembler peuvent tre dpasss avant mme la fin de lenqute. Cest
la raison pour laquelle on a souvent recours aux enqutes par sondage qui
portent sur une partie de la population appele chantillon. Les observations obtenues sur une population ou sur un chantillon constituent un
ensemble de donnes auxquelles sappliquent les mthodes de la statistique
descriptive dont le but est de dcrire le plus compltement et le plus simplement lensemble des observations quelles soient relatives toute la
population ou seulement un sous-ensemble.

B. Variables
Chaque individu dune population peut tre dcrit selon une ou plusieurs
variables qui peuvent tre des caractristiques qualitatives ou prendre des
valeurs numriques.
Une variable est dite qualitative si ses diffrentes ralisations (modalits)
ne sont pas numriques. Ainsi : le sexe, la situation matrimoniale, la catgorie
socioprofessionnelle sont des variables qualitatives. On peut toujours rendre
numrique une telle variable en associant un nombre chaque modalit ; on
dit alors que les modalits sont codes. Bien entendu, les valeurs numriques
nont dans ce cas aucune signification particulire, et effectuer des oprations
algbriques sur ces valeurs numriques na pas de sens.
Une variable est dite quantitative lorsquelle est intrinsquement numrique : effectuer des oprations algbriques (addition, multiplication) sur une
telle variable a alors un sens. Une variable quantitative peut tre une variable
statistique discrte ou continue.
Les variables statistiques discrtes sont des variables qui ne peuvent prendre que des valeurs isoles, discrtes. Le nombre denfants dune famille, le
nombre de ptales dune fleur, le nombre de buts marqus lors dune rencontre de football sont des variables quantitatives discrtes. Le plus frquemment, les valeurs possibles sont des nombres entiers.
Les variables statistiques continues peuvent prendre toutes les valeurs
numriques possibles dun ensemble inclus dans  : le revenu, la taille, le
taux de natalit sont des variables continues.

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 3 Mercredi, 24. novembre 2010 9:46 09

La distinction entre variables quantitatives discrtes et continues peut


paratre factice, car toute mesure est discrte en raison dune prcision toujours limite ; et inversement, lorsquune variable discrte peut prendre un
grand nombre de valeurs et que la taille de la population (ou de lchantillon)
tudie est leve, on regroupera des valeurs voisines et la variable sera, par
extension, traite comme une variable continue. En pratique, lorsque les
valeurs dune variable sont regroupes en k classes, la variable est traite
comme une variable quantitative continue, mais elle peut aussi tre envisage
comme une variable qualitative k modalits.
Les donnes dont on dispose sont les modalits ou valeurs prises par
plusieurs variables qualitatives ou quantitatives sur les individus dune
population ou dun chantillon ; pour une population dentreprises, on peut
disposer, par exemple, de donnes sur le chiffre daffaire, le bnfice net,
le nombre demploys, la masse salariale annuelle, le secteur dactivit
principale
On peut, dans un premier temps, dcrire chaque variable sparment, puis
ensuite, tudier les relations ou liaisons existantes entre elles. Ainsi, dans ce
livre, nous envisagerons dabord les populations statistiques dcrites selon
une seule variable, puis selon deux variables. Ltude des populations caractrises par plus de deux variables nest pas aborde dans cet ouvrage.

Dunod. La photocopie non autorise est un dlit.

II. Reprsentations graphiques


Deux mthodes de reprsentation des donnes vont tre exposes. On commencera par celles adaptes aux donnes nombreuses et/ou anonymes, cest-dire pour lesquelles lidentit des individus na pas t releve ou ne prsente pas dintrt tre conserve pour linterprtation. Ceci nest pas le cas
lorsque les individus sont peu nombreux (rgions, pays), o on dfinira un
nouveau mode de reprsentation graphique d J.W. Tukey ( II.B.). Ltude
dune population selon une variable sera restreinte au cas des variables quantitatives, car la description dune population selon une variable qualitative est
totalement rsume dans un tableau de pourcentages ou dans un diagramme
circulaire, appel aussi diagramme en camembert ( cf. figure 1.1).

DISTRIBUTIONS STATISTIQUES UN CARACTRE

P001-046-9782100549412.fm Page 4 Mercredi, 24. novembre 2010 12:55 12

Prune
Pomme de table

24 %

Pche et nectarine

10 %
10 %

Autres fruits

10 %
12 %

Noix
8,8
10 %
%

5%
5% 6%

8%

Olives

Poire de table
Abricot
Pomme cidre
Cerise
Extrait de Agreste, GraphAgri 2006,
Ministre de lAgriculture et de la Pche.

Figure 1.1 Surface du verger franais en 2005

A. Distributions statistiques

et reprsentations graphiques

Considrons une variable observe sur une population  de n individus. Si


la variable X prend k valeurs ou ensembles de valeurs (appels dans ce qui
suit, modalits), le premier traitement des donnes brutes consiste compter
le nombre ni dindividus qui prsentent la ie modalit ( i = 1, 2 , , k ).

1) Variables statistiques discrtes


Les rsultats concernant les observations de la variable X dont lensemble des
valeurs est { xi , i = 1, , k }, sont prsents dans le tableau des effectifs ( xi , ni)
ou dans le tableau des frquences ( xi , fi) avec fi = ni /n (on utilise souvent le
pourcentage 100 fi). Il est prfrable de calculer les frquences partir des
effectifs cumuls ( II.A.3) afin que des erreurs successives darrondis ne
donnent pas une somme totale de frquences diffrente de 1.

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 5 Mercredi, 24. novembre 2010 9:46 09

Tableau des effectifs


Modalit
x1
.
.
.
xi
.
.
.
xk

Tableau des frquences

Effectif
n1
.
.
.
ni
.
.
.
nk
k
ni = n

Modalit
x1
.
.
.
xi
.
.
.
xk

Frquence
f1 = n1/n
.
.
.
fi = ni/n
.
.
.
fk = nk/n
k

i=1

= 1

i=1

On prsente logiquement les modalits numriques en ordre croissant. On


peut associer ces tableaux une reprsentation graphique appele
diagramme en btons .
Un diagramme en btons (cf. figure 1.2) est construit dans un systme
daxes rectangulaires ; les valeurs de la variable statistique X sont portes en
abscisse ; partir de chaque valeur xi , on trace un segment de droite vertical
et dont la hauteur est proportionnelle leffectif correspondant. On peut retenir indiffremment une chelle qui explicite les effectifs ni , ou une chelle
qui explicite les frquences fi . Pour les distributions du tableau 1.1, on pourrait reprsenter sur le mme graphique les diagrammes en btons de plusieurs
pays avec des couleurs diffrentes, chaque couleur correspondant un pays,
ce qui permettrait de comparer les distributions du nombre de personnes par
mnage.
Tableau 1.1 Mnages suivant le nombre de personnes du mnage
dans quelques pays en 1995 (%)

Dunod. La photocopie non autorise est un dlit.

Allemagne Espagne
Mnages de :
1 personne
2 personnes
3 personnes
4 personnes
5 personnes et plus
Ensemble (en milliers)

Finlande

France

Grce

Irlande

Italie

Pays-Bas Portugal

34,4
32,3
16,0
12,6
4,7

12,7
24,5
21,8
24,0
17,0

37,4
31,0
14,4
11,9
5,3

29,2
31,8
16,8
14,2
8,0

20,7
28,9
19,8
21,7
8,9

22,8
23,1
15,6
17,1
21,4

22,7
23,1
15,6
17,1
21,4

30,6
34,0
13,4
15,9
6,2

13,7
26,4
24,7
22,8
12,4

34 413

12 112

2 222

23 126

3 756

1 146

1 146

6 425

3 275

Source : Tableaux de lconomie Franaise 1999-2000, INSEE.

DISTRIBUTIONS STATISTIQUES UN CARACTRE

P001-046-9782100549412.fm Page 6 Mercredi, 24. novembre 2010 9:46 09

Nombre de
personnes

f (%)

29,2

31,8

16,8

14,2

5 ou plus

8,0

30 %

100 %

20 %

10 %

5 ou +

Figure 1.2 Diagramme en btons Nombre de personnes par mnage en France en 1995

2) Variables statistiques continues


Linfinit des valeurs observables ne rend pas possible la gnralisation du
diagramme en btons. Le domaine de variation dune variable statistique
continue X est partag en k parties . Lintervalle [ xi1 , xi [ ferm gauche,
ouvert droite, est appel ie classe (i = 1,2, ,k) ; son amplitude est gale :
ai = xi xi1
Il arrive que lamplitude des classes extrmes soit indtermine : la premire classe tant dfinie par moins de , et la dernire par plus de
(cf. tableau 1.2).
Le choix des extrmits des classes se fait partir des donnes brutes ; le
nombre k de classes doit tre modr (usuellement entre 4 et 10). Le dcoupage en classes est assez souvent choisi tel que lamplitude des classes soit
constante, ou tel que les effectifs des classes soient constants (par exemple,
10 % de la population dans chaque classe, cf. tableau 1.6).
Le classement dune srie statistique correspond une perte dinformation
par rapport aux donnes initiales puisque seuls les effectifs des classes sont
retenus. Le travail sur une telle srie impose alors lhypothse que les donnes sont rparties uniformment lintrieur de chacune des classes. On
parle aussi d quirpartition des individus ou encore d homognit dans
chacune des classes. Chaque partie de la classe correspond alors un effectif
proportionnel sa longueur. Lide est, bien sr, que chaque classe reprsente une entit qui doit se distinguer par rapport aux autres classes. Comme
prcdemment, les rsultats sont prsents dans un tableau deffectifs ou de
frquences. On associe un tel tableau un histogramme qui est une reprsentation graphique trs rpandue. Lhistogramme est constitu de la juxtaposition de rectangles (pour respecter lhypothse dquirpartition) dont les
bases reprsentent les diffrentes classes et dont les surfaces sont proportionnelles aux effectifs des classes (cf. figure 1.3).

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 7 Mercredi, 24. novembre 2010 9:46 09

On verra par la suite quune difficult du travail avec des sries classes
est le choix des limites pour les classes extrmes, indispensable aussi pour le
trac de lhistogramme.
la ie classe, correspond un rectangle dont la base est lintervalle [ xi 1, x i [
et dont la surface est proportionnelle la frquence fi (ou leffectif ni). Si
les classes ont toutes la mme amplitude, les hauteurs des rectangles sont
proportionnelles aux frquences. Dans le cas o les classes sont damplitudes
ingales, la hauteur du rectangle correspondant la ie classe damplitude ai
sera hi = fi /ai. La surface du rectangle reprsentant la ie classe sera ainsi gale
fi
Pour une srie dobservations relatives une variable statistique X discrte ou continue classe, la donne des modalits et de leurs frquences est
appele distribution statistique de la variable X.
Tableau 1.2 Chmeurs BIT selon le sexe et lanciennet de chmage en septembre 2006
Distribution en milliers
Anciennet dinscription

Hommes

Femmes

Hommes

Femmes

Moins dun mois

180,3

181,0

16,5

16,8

Dun moins de trois mois

203,9

204,9

18,6

19,0

De trois moins de six mois

169,3

163,1

15,5

15,1

De six mois moins dun an

202,1

191,1

18,5

17,7

Dun moins de deux ans

197,3

199,3

18,0

18,5

De deux moins de trois ans

74,5

75,4

6,8

7,0

Trois ans ou plus

67,1

62,9

6,1

5,8

1 094,5

1 077,7

100,1

100,1

341,5

334,5

Ensemble
Anciennet moyenne en jours
Dunod. La photocopie non autorise est un dlit.

Distribution en pourcentage

Source : Bulletin Mensuel des Statistiques du Travail, www.travail.gouv.fr, octobre 2006.

DISTRIBUTIONS STATISTIQUES UN CARACTRE

P001-046-9782100549412.fm Page 8 Mercredi, 24. novembre 2010 9:46 09

fi
ai

Mois
01 3

24

12

36

60

Figure 1.3 Histogramme de la distribution des chmeurs Femmes selon lanciennet


(voir tableau 1.2)

La classe Trois ans ou plus est suppose borne suprieurement par


5 ans (60 mois).

3) Frquences cumules et courbe cumulative


a) Tableau des frquences cumules
Les tableaux de frquences (ou deffectifs) qui viennent dtre dfinis peuvent tre modifis de facon prsenter un rsum des donnes sous une
forme diffrente.
On appelle effectif cumul de la ie classe, le nombre dindividus Ni pour
lesquels la variable prend une valeur infrieure xi :
Ni =

pour i = 1, 2, , k

ji

On dfinit de mme Fi , la frquence cumule de la ie classe : Fi = Ni /n

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 9 Mercredi, 24. novembre 2010 9:46 09

Les tableaux deffectifs cumuls ou de frquences cumules se dduisent


des tableaux deffectifs ou de frquences (non cumuls) en substituant aux
effectifs ou frquences non cumuls les effectifs ou frquences cumuls. Les
deux types de tableaux sont donc quivalents (cf. figures 1.2 et 1.4).
b) Fonction cumulative et courbe cumulative
La courbe cumulative ou courbe des frquences cumules est la reprsentation
graphique des frquences cumules. Plus prcisment, la courbe cumulative
est la reprsentation graphique de la proportion F(t) des individus de la population dont le caractre prend une valeur infrieure t. Cette fonction, appele
fonction cumulative ou fonction de rpartition , est :
1. dfinie pour tout t 
2. croissante (mais non strictement croissante)
3. nulle pour t infrieur min xi
1in

4. gale 1 pour t au moins gal max xi


1in

Dunod. La photocopie non autorise est un dlit.

Pour une variable statistique discrte, cette fonction est une fonction en
escalier, prsentant en chacune des valeurs possibles xi, un saut gal la frquence correspondante fi (cf. figure 1.4).
Dans le cas dune variable statistique continue, la fonction cumulative
nest connue que pour les valeurs de X gales aux extrmits des classes.
Lhypothse dquirpartition ( II.A.2) implique que la fonction
F est
linaire entre ces valeurs ( cf. figure 1.5). Cette fonction est donc continue et
linaire par morceaux. Ici encore, il est ncessaire de choisir des limites pour
les classes extrmes.
t

F(t) (%)

<1
[1 ; 2[
[2 ; 3[
[3 ; 4[
[4 ; 5[
5

0
29,2
61,0
77,8
92,0
100

100 %

5 et +

Figure 1.4 Graphe des frquences cumules de la distribution reprsente la figure 1.2

Ces frquences cumules sont des frquences cumules ascendantes, car


elles ont t obtenues en calculant les frquences Fi dindividus pour lesquelles le caractre tudi X est au plus gal xi ; on peut aussi dfinir les fr-

DISTRIBUTIONS STATISTIQUES UN CARACTRE

P001-046-9782100549412.fm Page 10 Mercredi, 24. novembre 2010 9:46 09

F(t) (%)

16,8

35,8

50,9

12

68,7

24

87,2

36
60

94,2
100

Fi
100

13 6

12

24

36

60

Mois

Figure 1.5 Courbe cumulative de la distribution reprsente la figure 1.3

quences cumules descendantes, cest--dire les frquences pour lesquelles


le caractre tudi X est suprieur xi. Quand on ne spcifie pas le type de
frquences cumules, on sous-entend quil sagit des frquences cumules
ascendantes.

B. Le diagramme branche et feuille


Lorsque la taille de la population tudie nest pas trop leve (infrieure
la centaine), il est intressant dutiliser la reprsentation en
diagramme
branche et feuille due J. W. Tukey 1. Ce diagramme tient la fois du
tableau et de la reprsentation graphique et donne une vision densemble des
donnes sans perdre linformation numrique valeur par valeur.

1) Profondeur dune observation


Selon quon range les valeurs observes de la variable statistique X de la plus
faible la plus leve ou de la plus leve la plus faible, on associe chaque observation xi deux rangs, croissant et dcroissant. On dit alors que la
distribution est ordonne.
On appelle profondeur de xi le nombre gal au plus petit des deux rangs .
Les dures hebdomadaires du travail des salaris temps complet dans les
pays de lUnion europenne ( cf. tableau 1.3) peuvent tre ordonnes, et on
en dduit la profondeur de chaque valeur de chacune des sries.
1. J. W. Tukey, Exploratory Data Analysis (EDA), Addison-Wesley, 1977.

10

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 11 Mercredi, 24. novembre 2010 9:46 09

Tableau 1.3 Dure hebdomadaire du travail des salaris temps complet


dans lUnion europenne (heures)

Allemagne
Autriche
Belgique
Danemark
Espagne
Finlande
France
Grce
Irlande
Italie
Luxembourg
Pays-Bas
Portugal
Royaume-Uni
Sude

1990

1995

2000

39,9
40,1
38
39
40,7
38,4
39,6
40,2
40,4
38,6
39,9
39
41,9
43,7
40,7

39,7
39,3
38,4
39
40,7
38,6
39,9
40,3
40,2
38,4
39,5
39,5
41,2
43,9
40

40,1
40,1
38,5
39,3
40,6
39,3
38,9
40,9
39,9
38,6
39,8
39
40,3
43,6
40

Source : Tableaux de lconomie Franaise, INSEE.

Le nombre de pays tant impair et gal 15, il y a deux valeurs de profondeur 1, 2, 3, 4, 5, 6, 7 et une seule valeur de profondeur 8 (cf. tableau 1.4).

Dunod. La photocopie non autorise est un dlit.

Tableau 1.4 Pays ordonns selon la dure hebdomadaire du travail des salaris
temps complet en 2000
Rang
croissant

Rang
dcroissant

Profondeur

Dure (heures)

Pays

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

15
14
13
12
11
10
9
8
7
6
5
4
3
2
1

1
2
3
4
5
6
7
8
7
6
5
4
3
2
1

38,5
38,6
38,9
39,0
39,3
39,3
39,8
39,9
40,0
40,1
40,1
40,3
40,6
40,9
43,6

Belgique
Italie
France
Pays-Bas
Danemark
Finlande
Luxembourg
Irlande
Sude
Allemagne
Autriche
Portugal
Espagne
Grce
Royaume-Uni

DISTRIBUTIONS STATISTIQUES UN CARACTRE

11

P001-046-9782100549412.fm Page 12 Mercredi, 24. novembre 2010 9:46 09

2) La reprsentation en diagramme branche et feuille


Son principe consiste distinguer deux parties pour tout nombre : les chiffres de
plus faible poids , la feuille, et les chiffres de plus haut poids , la branche.
La figure 1.6 reproduit les diagrammes Branche et feuille donns par
le logiciel SPSS pour les sries du tableau 1.3.
1990
Frequency Stem & Leaf

1995
Frequency Stem & Leaf

2000
Frequency Stem & Leaf

3,00
5,00
5,00
1,00
1,00

3,00
6,00
4,00
1,00
1,00

0,00
3,00
3,00
2,00
4,00
2,00
1,00

38 . 046
39 . 00699
40 . 12477
41 . 9
Extrmes (>=43,7)

Stem width : 1,0


Each leaf : 1 case(s)

38 . 446
39 . 035579
40 . 0237
41 . 2
Extrmes (>=43,9)

Stem width : 1,0


Each leaf : 1 case(s)

38 .
38 . 569
39 . 033
39 . 89
40 . 0113
40 . 69
Extrmes (>=43,6)

Stem width : 1,0


Each leaf : 1 case(s)

Figure 1.6 Branche et feuille (logiciel SPSS) pour les sries du tableau 1.3

Par exemple, pour le diagramme de lanne 1995 de la figure 1.6, en se


rfrant aux valeurs ordonnes :
la valeur 38,4 est reprsente par la branche 38 et la feuille 4 (pour les
deux observations) ;
la valeur 38,6 est reprsente par la branche 38 et la feuille 6.
Ces trois observations conduisent lcriture : 3,00
38. 446
La valeur 43,9 est beaucoup plus leve que les autres ; elle est mentionne comme valeur extrme . On verra comment une valeur est ainsi classe ( IV.B). Le nombre de feuilles de chaque branche donnant leffectif, un
histogramme classes gales damplitude 1 donne une reprsentation similaire, mais lavantage du diagramme branche et feuille est de conserver ici
linformation donne par le premier chiffre dcimal, donc de garder linformation de la rpartition lintrieur des classes.
Les logiciels choisissent, selon la structure des donnes, des amplitudes
gales 1, 0,5 ou 0,25. La plage des valeurs tant plus restreinte en 2000 quen
1990 et 1995, le logiciel SPSS a choisi des amplitudes gales 1 pour les
annes 1990 et 1995, et des amplitudes gales 0,5 pour lanne 2000.
On peut complter ce type de diagramme pour garder lidentit des individus en indiquant symtriquement lidentit de chaque feuille ( cf. figure 1.7).
On pourrait aussi reprsenter dos dos les distributions correspondant deux
annes diffrentes pour suivre lvolution de la dure hebdomadaire du travail.

12

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 13 Mercredi, 24. novembre 2010 9:46 09

Frequency

Stem & Leaf


Fin It Bel
Fr All P.Bas Lux Aut Dk
Esp Gr Irl Sud
Por
R-U

3,00
6,00
4,00
1,00
1,00

38 . 446
39 . 035579
40 . 0237
41. 2
Extremes (> = 43,9)

Stem width : 1,0


Each leaf : 1 case(s)
Figure 1.7 Diagramme Branche et feuille complt par lidentit des pays (1995)

III. Les indicateurs statistiques


Le tableau de distribution dune variable statistique prsente linformation
recueillie sur cette variable. Une reprsentation graphique en fournit un portrait pour apprhender plus facilement la globalit de linformation. On peut
dsirer aller plus loin en cherchant caractriser la reprsentation visuelle
par des lments synthtiques sur :
la valeur de la variable situe au centre de la distribution : la tendance centrale et, plus gnralement, un indicateur de position non
ncessairement centrale, lie un rang donn ;
la variation des valeurs : la dispersion ;
la forme de la distribution ;

Dunod. La photocopie non autorise est un dlit.

les aspects particuliers : valeurs extrmes, groupes de valeurs


Ces indicateurs tant exprims dans les units de la variable tudie, on
verra quil peut tre intressant pour comparer plusieurs distributions entre
elles de calculer des caractristiques de dispersion relative.

A. Conditions de Yule
Le statisticien britannique Yule 1 a nonc un certain nombre de proprits
souhaites pour les indicateurs des sries statistiques ; ceux-ci doivent tre
dune part, des rsums maniables et dautre part, les plus exhaustifs possibles relativement linformation contenue dans les donnes.
1. G. Udny Yule et M. G. Kendall, An Introduction to the Theory of Statistics, Charles Griffin
& Co, 14 e dition, 1950.

DISTRIBUTIONS STATISTIQUES UN CARACTRE

13

P001-046-9782100549412.fm Page 14 Mercredi, 24. novembre 2010 9:46 09

Dans son schma, une caractristique statistique doit tre une valeur-type :
1. dfinie de faon objective et donc indpendante de lobservateur ;
2. dpendante de toutes les observations ;
3. de signification concrte pour tre comprise par des non-spcialistes ;
4. simple calculer ;
5. peu sensible aux fluctuations dchantillonnage ;
6. se prtant aisment aux oprateurs mathmatiques classiques.
En ralit, on ne dispose pas de caractristiques rpondant simultanment
ces six conditions. Le choix dun indicateur sera lobjet dun compromis
guid par la spcificit de ltude en cours.

B. Les indicateurs de tendance centrale et de position


Selon lusage courant, toutes les mesures de tendance centrale mritent le
nom de moyenne . Lorsquon parle de moyenne, on pense la moyenne
arithmtique ; mais il existe dautres types de moyennes, chacune dentre
elles ayant la proprit de conserver une caractristique de lensemble quand
on remplace chaque lment de lensemble par cette valeur unique ; chaque
moyenne na donc dintrt que pour autant que cette proprit soit utile 1.
Les moyennes sont des valeurs abstraites qui, sauf par hasard, ne correspondent aucune ralisation concrte.

1) La moyenne arithmtique
On appelle moyenne arithmtique la somme de toutes les donnes statistiques
divise par le nombre de ces donnes. La moyenne arithmtique conserve la
somme totale des valeurs observes : si on modifie les valeurs de deux observations dune srie statistique tout en conservant leur somme, la moyenne de
la srie sera inchange.
Soit la srie statistique de donnes brutes : x1 , , x i , , x n , sa moyenne
arithmtique a pour expression :
n

1
x = --- x i
ni = 1
Bien entendu, si une valeur
xi de X est observe ni fois, comme
xi + xi + + xi = ni xi , la formule prcdente devient :

ni fois
k

1
x = --- n i x i =
ni = 1

fx

i i

i=1

1. Ch. Antoine, Les moyennes au quotidien , dans Les Moyennes, Que Sais-je, PUF, n 3383,
1998, p. 107.

14

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 15 Mercredi, 24. novembre 2010 9:46 09

n
o k dsigne le nombre de valeurs distinctes de X et fi = ----i
n
Lorsquon a une variable statistique continue, on ne connat pas les valeurs
exactes prises par la variable, mais seulement le nombre dobservations
lintrieur de chaque classe. Pour calculer la moyenne arithmtique dune
telle variable, on ramne chaque observation au centre de sa classe, ceci en
raison de lhypothse dquirpartition lintrieur des classes, et cel revient
considrer la moyenne des individus de la ie classe gale (xi1+ x i)/2.
Dans le cas des classes extrmes non limites, le choix des limites de ces
classes influe videmment sur la valeur de la moyenne arithmtique. Ces
limites devront tre choisies en fonction des connaissances sur les donnes
et en noubliant pas lhypothse de base : lhomognit lintrieur des
classes. Pour une classe extrme dans laquelle on sait quil ny a pas quirpartition, les observations tant vraisemblablement en majorit regroupes
sur une partie de la classe, il conviendra de choisir la borne extrme :
moins faible que la borne relle (suppose) sil sagit de la premire
classe ;
plus faible que la borne relle (suppose) sil sagit de la dernire classe.
Cest ce qui a t fait pour la srie prsente au tableau 1.2 et la figure 1.3,
lanciennet moyenne du chmage a t considre gale 48 mois pour ceux
dont lanciennet tait au moins gale 36 mois et la borne suprieure de la
dernire classe a t de ce fait fixe 60 mois (lhypothse dquirpartition
amne considrer que la moyenne des observations dune classe est gale au
centre de la classe).

Dunod. La photocopie non autorise est un dlit.

Proprits

1. La moyenne est une caractristique qui satisfait toutes les conditions


de Yule, sauf la conditions 5 : une observation extrme (exceptionnellement leve ou faible) peut avoir une forte incidence sur sa valeur.
2. La somme algbrique des carts des valeurs dune variable statistique sa moyenne arithmtique est nulle :

f ( x x)
i

= 0

i=1

3. Lorsquon fait subir une variable statistique X une transformation


affine, cest--dire un changement dorigine et dunit { Y = aX + x 0}, sa
moyenne arithmtique subit la mme transformation : y = ax + x 0
4. Soit une population  de taille n partage en deux sous-populations
1 de taille n1 et 2 de taille n2.
Soit X, une variable statistique observe sur la population , on peut
exprimer sa moyenne x en fonction de ses moyennes x 1 sur 1 et x 2 sur

DISTRIBUTIONS STATISTIQUES UN CARACTRE

15

P001-046-9782100549412.fm Page 16 Mercredi, 24. novembre 2010 9:46 09

2 en remarquant que la somme totale


n 1 x 1 et n 2 x 2 :

nx sobtient en additionnant

1
x = --- ( n 1 x 1 + n 2 x 2 )
n
Ce rsultat se gnralise une partition en k sous-populations (k 2) :
k

1
x = --- n i x i
ni = 1

 Exemple

Lanciennet moyenne dinscription au chmage pour hommes et femmes


runis en septembre 2006 est gale (cf. tableau 1.2 pour les donnes) :
1
x = ------------------ ( 1 094,5 341 + 1 077,7 334 )  338 jours
2 172,2

2) Dautres moyennes
a) La moyenne gomtrique
Cest la moyenne applicable des mesures de grandeurs dont la croissance
est gomtrique ou exponentielle.
La moyenne gomtrique conserve le produit des x i : si on modifie les
valeurs de deux observations tout en conservant leur produit, la moyenne
gomtrique sera inchange.
La moyenne gomtrique G de la srie de valeurs x1 , , x i , , x n supposes toutes positives (strictement), est dfinie ainsi :
n

G=

i=1

1
ln ( G ) = --- ln ( x i )
ni = 1

Lorsque la distribution de la variable statistique est donne par les k couples


(xi ,ni), les xi tant tous positifs ; la moyenne gomtrique a pour expression :
G=

i=1

ni

xi =

xi

fi

ln ( G ) =

i=1

f ln ( x )
i

i=1

 Exemple

Supposons que pendant une dcennie, les salaires aient t multiplis


par 2 et que pendant la dcennie sui vante, ils aient t multiplis par 4 ;
le coefcient multiplicateur moyen par dcennie est gal :
2 4 = 8 2,83
La moyenne arithmtique (= 3) nest pas gale au coefcient demand.

16

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 17 Mercredi, 24. novembre 2010 9:46 09

Prenons, par exemple, un salaire de 300 au dbut de la premire dcennie,


il sera de 300 2 4 = 2 400 au bout des vingt ans, ce qui qui vaut
2
300 (2,83) , soit un coefcient multiplicateur moyen de 2,83 par dcennie.
b) La moyenne harmonique
La moyenne harmonique est linverse de la moyenne arithmtique des inverses
des valeurs. Linverse de la moyenne harmonique conserve ainsi la somme des
inverses des x i : si on modifie les valeurs de deux observations tout en conservant la somme de leurs inverses, la moyenne harmonique sera inchange.
1 n - ou H = ----------H = ----------k
n
1f
------i
x
x
i=1 i

i=1

La moyenne harmonique peut tre utilise lorquil est possible dattribuer


un sens rel aux inverses des donnes en particulier pour les taux de change,
les taux dquipement, le pouvoir dachat, les vitesses. Elle est notamment
utilise dans les calculs d indices.

Dunod. La photocopie non autorise est un dlit.

 Exemple

On achte des dollars une premire fois pour 100 au cours de 1,23 le
dollar, une seconde fois pour 100 au cours de 0,97 le dollar.
Le cours mo yen du dollar pour lensemble de ces deux oprations est
gal :
200
-------------------------- 1,085
100- + --------100--------1,23 0,97
La moyenne arithmtique (= 1,1) ne reprsente pas le cours mo yen du
dollar.
Comparaison des 3 moyennes tudies
On montre que si les xi sont tous positifs :
min xi H G x max xi
lin

lin

Lgalit de deux de ces moyennes entre elles entrane leur galit dans
leur ensemble, et dans ce cas, toutes les valeurs xi sont gales.

3) Le mode
Pour obtenir une mesure de la tendance centrale non influence par les
valeurs extrmes de la distribution, on peut prendre la valeur ou la classe
de valeurs du caractre pour laquelle le diagramme en btons respectivement lhistogramme prsente son maximum : cest le mode respectivement
lintervalle modal de la distribution ; dans le cas o le diagramme en btons
ou lhistogramme prsente aussi un maximum local, il y a deux modes
respectivement deux classes modales.

DISTRIBUTIONS STATISTIQUES UN CARACTRE

17

P001-046-9782100549412.fm Page 18 Mercredi, 24. novembre 2010 9:46 09

Lorsque la variable statistique est discrte, le mode se dfinit donc laide


du tableau de distribution ou du diagramme en btons. Pour la distribution
prsente la figure 1.2, le mode est gal 2. Si la frquence maximum correspond deux valeurs successives de la variable, il y a un intervalle modal.
Lorsquune distribution prsente plusieurs modes auxquels correspondent
(gnralement) des frquences diffrentes, cest souvent lindice du mlange
de deux ou plusieurs populations ayant chacune leur mode propre
(cf. figure 1.8). Un exemple peut en tre la distribution des pointures de
chaussures des hommes et femmes runies.
Lorsque la variable statistique est continue, la classe modale est la classe
dont la frquence par unit damplitude est la plus leve. Pour la distribution
prsente la figure 1.3, la classe modale est la classe [1, 3[. Mais cette
dtermination nest absolument pas prcise, car elle dpend du dcoupage en
classes retenu ; son intrt est limit par cette imprcision.
Dans le cas dune distribution discrte, le mode satisfait aux conditions 1,
3, 4 et 5 de Yule. Dans le cas de la distribution du nombre denfants par
famille, le mode est rellement une valeur typique et parat mieux correspondre la ralit que la moyenne arithmtique qui est rarement un nombre
entier et qui est sensiblement influence par un nombre relativement petit de
familles trs nombreuses. linverse de la moyenne arithmtique, le mode
nglige dlibrement la prcision numrique au profit de la reprsentativit.
Dans un tel cas, il est souvent souhaitable de disposer de ces deux mesures
de la tendance centrale.
Le mode, historiquement lun des premiers paramtres de position utiliss, est un peu moins employ aujourdhui.

1er mode

2e mode

Figure 1.8 Exemple de distribution bimodale


dune variable discrte

4) La mdiane et les quantiles


Bien quhomognes dans leur composition, de nombreuses distributions prsentent de trs grands carts entre les valeurs extrmes de leurs lments.
De plus, elles ont souvent un manque de symtrie prononc, les lments
ayant tendance sagglomrer plus prs dun extrme que de lautre. Les

18

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 19 Mercredi, 24. novembre 2010 9:46 09

Dunod. La photocopie non autorise est un dlit.

distributions de salaires ou de revenus en donnent des exemples typiques .


Il est vident que, dans de tels cas, nous avons besoin dune mesure de la
tendance centrale qui ne soit pas influence par un nombre relativement petit
de valeurs extrmes se situant en queue de la distribution.
a) La mdiane
La mdiane est la valeur de la variable statistique telle quil y ait autant
dobservations suprieures et dobservations infrieures cette valeur. Elle
partage la srie statistique en deux parties dgal effectif. Elle se dtermine
soit partir de la srie des valeurs ordonnes, soit partir de la fonction
cumulative ( II.A.3).
Pour les variables statistiques discrtes , la mdiane est dtermine
laide de la profondeur .
Dans le cas o la srie comporte un nombre impair n dobservations, la
mdiane est gale la valeur de profondeur maximum (n + 1)/2 : pour la srie
des 15 valeurs du tableau 4, la mdiane est gale la valeur de profondeur
8, soit 39,9 h.
Dans le cas o la srie comporte un nombre pair
n dobservations, la
mdiane est la moyenne arithmtique des deux valeurs de profondeur n/2 et
est ainsi dfinie comme la valeur de profondeur ( n + 1)/2.
La mdiane est ainsi dans tous les cas la valeur de profondeur (n + 1)/2.
Lorsque les donnes dune variable statistique discrte sont classes, il
nexiste gnralement pas une valeur mdiane Me pour laquelle la fonction
cumulative vaut 50 %. Il faut dans ce cas utiliser dautres valeurs typiques
pour caractriser la tendance centrale de la srie : ceci est le cas pour la distribution du nombre de personnes par mnage dont la fonction cumulative est
reprsente la figure 1.4.
Pour les variables statistiques continues , la valeur mdiane Me est
telle que F(Me) = 50%. On commence par chercher la classe mdiane
laide des frquences cumules, la classe mdiane [xi 1 , xi[ tant telle que
Fi 1 < 50% et Fi > 50%. La valeur de la mdiane sobtient ensuite par interpolation linaire en raison de lhypothse dquirpartition lintrieur des
classes. Cette dtermination peut se faire par le calcul ou graphiquement
(cf. figure 1.9) :
Me x i 1 0, 5 Fi 1
----------------------- = -----------------------xi xi 1
fi

0,5 Fi 1
Me = x i 1 + ( x i x i 1 ) ---------------------fi

Pour la distribution de lanciennet du chmage des femmes (tableau 1.2


et figure 1.5), la mdiane appartient la classe [3 ; 6[ :
50 35,8
Me = 3 + 3 ---------------------- 5,8 mois
15,1

DISTRIBUTIONS STATISTIQUES UN CARACTRE

19

P001-046-9782100549412.fm Page 20 Mercredi, 24. novembre 2010 9:46 09

Fi

0,5

Fi-1

xi-1

fi
0,5- Fi-1

Me

xi

Figure 1.9 Dtermination graphique de la mdiane pour une variable continue

La mdiane peut aussi tre dtermine partir de la courbe des frquences


cumules comme labscisse du point dordonne 50 %.
Une seule observation trs leve (ou trs faible) peut influencer fortement
la moyenne, alors que la mdiane peut supporter sans tre modifie quune
moiti des observations soit trs leve (ou trs faible) : on dit que la mdiane
est rsistante. La mdiane satisfait aux conditions 1, 3, 4 et 5 de Yule.
Dans le cas de distribution unimodale, la mdiane est frquemment comprise entre la moyenne arithmtique et le mode, et plus prs de la moyenne
que du mode. Si la distribution est symtrique, ces trois caractristiques de
tendance centrale sont confondues (cf. figure 1.10).

Distribution
symtrique

{ Mo = Me = x }

Distribution tale
vers la gauche

Distribution tale
vers la droite

Mo Me x

x Me Mo

Figure 1.10 Positions respectives du mode, de la mdiane et de la moyenne

20

INTRODUCTION LA MTHODE STATISTIQUE

Dunod. La photocopie non autorise est un dlit.

P001-046-9782100549412.fm Page 21 Mercredi, 24. novembre 2010 9:46 09

b) Les quantiles
Les quantiles sont des indicateurs de position .
Le quantile dordre (0 1), not x , est tel quune proportion
des individus ait une valeur du caractre X infrieure ou gale x
Le quantile x0,5 est gal la mdiane.
On utilise couramment les quantiles dordre 1/4, 1/2 et 3/4. Ils sont ainsi
nots et nomms :
Q1 = premier quartile = x 0,25
Q2 = deuxime quartile = mdiane = x 0,5
Q3 = troisime quartile = x 0,75
Les quartiles se dterminent, comme la mdiane, laide de la profondeur
(variable discrte), ou laide des frquences cumules (variable continue).
Dans le cas dune variable statistique discrte, le premier quartile Q1 et le troisime quartile Q3 sont des lments de mme profondeur gale (m + 1)/2 o
m dsigne la partie entire de la profondeur de la mdiane. On peut aussi
considrer Q1 comme la mdiane des m premires valeurs de la srie et Q3
comme la mdiane des m dernires valeurs. Ainsi par exemple, pour une srie
de 39 observations, la mdiane a une profondeur gale 20, et les quartiles
Q1 et Q3 sont de profondeur 10,5 ; pour une srie de 50 observations, la
mdiane a une profondeur de 25,5 et la partie entire de cette profondeur
tant 25, les quartiles Q1 et Q3 sont de profondeur 13.
La pratique de la dtermination des quartiles ne respecte pas toujours la
dfinition prcdente due Tukey. Ainsi les calculatrices de poche (TI,
Casio,) dterminent le 1 er quartile (resp. le 3 e quartile) comme la mdiane
des valeurs de profondeur infrieure (resp. suprieure) la profondeur de la
mdiane. Le rsultat diffre de celui calcul avec la dfinition de Tukey dans
le cas dun nombre impair dobservations. Le logiciel SPSS dtermine deux
types de quartiles : Valeurs charnires selon la dfinition de Tukey, et
Moyenne pondre laide dune formule dinterpolation linaire
[Dodge, 1993]. La dtermination des premier et troisime quartiles nest pas
standardise.
Pour la distribution de la dure hebdomadaire du travail dans les 15 pays
de lUnion europenne en 2000 ( cf. tableau 1.4), les premier et troisime
quartiles sont les valeurs de profondeur 4,5 :
et
Q3 = 40,2 h
Q1 = 39,15 h
Dans le cas dune variable statistique
continue, on a F(Q1) = 0,25 et
F(Q3) = 0,75 et on calcule les quartiles par interpolation linaire, en raison
de lhypothse dquirpartition. Pour la distribution de lanciennet du chmage des femmes ( cf. figure 1.5) :

DISTRIBUTIONS STATISTIQUES UN CARACTRE

21

P001-046-9782100549412.fm Page 22 Mercredi, 24. novembre 2010 9:46 09

25 16,8
Q 1 = 1 + 2 ---------------------- 1,9 mois
19
75 68,7
Q 3 = 12 + 12 ---------------------- 16,1 mois
18,5
On peut dfinir partir des quartiles Q1 et Q3 le paramtre de tendance
centrale (Q1 + Q3)/2, gal la mdiane dans le cas dune distribution symtrique, ainsi que lintervalle interquartile [Q1, Q3] qui contient 50 % des observations.
Plus gnralement, deux quantiles dordres complmentaires x et x1-
dfinissent un intervalle dont le milieu peut tre considr comme un paramtre de tendance centrale.
De la mme faon, on dfinit les dciles D1, D2, , D9 qui sont les quantiles xi/10 (i = 1 9), les vingtiles, quantiles xi/20 ( i = 1 19), les centiles, etc.
Les classes dune variable statistique continue sont souvent dfinies
laide des dciles. Dans ce cas, on a 10 classes contenant chacune 10 % de
leffectif total ( cf. tableau 1.5 et figure 1.11).
Tableau 1.5 Distribution des salaires annuels nets de tous prlvements
pour les salaris temps complet du secteur priv et semi-public
Dciles*
(en euros courants)

Ensemble

Hommes

Femmes

2000

2006

2000

2006

2000

2006

Mdiane

D6
D7
D8
D9

10 790
12 220
13 520
14 910
16 500
18 410
20 890
24 780
32 810

12 718
14 219
15 545
16 977
18 631
20 685
23 430
27 826
36 941

11 230
12 760
14 140
15 580
17 270
19 330
22 170
26 660
35 020

13 181
14 776
16 209
17 729
19 466
21 657
24 734
29 787
40 305

10 190
11 420
12 500
13 710
15 130
16 810
18 850
21 620
26 950

12 075
13 431
14 531
15 715
17 141
18 924
21 300
24 590
30 962

D9 /D1

2,9

3,2

3,1

2,6

2,6

Salaire moyen

20 400

23 292

21 890

24 912

17 510

20 232

D1
D2
D3
D4

En 2006, 10 % des salaris temps complet du secteur priv et semi-public gagnent un salaire annuel
net infrieur 12 718 euros, 20 % infrieur 14 219 euros

Source : INSEE.

22

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 23 Mercredi, 24. novembre 2010 9:46 09

hi =

10
D i Di 1
h2

h1

D1 D2 D3 D4 D5 D6 D7 D8

D9

Figure 1.11 Histogramme de la distribution des salaires Ensemble en 2000


(voir tableau 1.5)

C. Les indicateurs de dispersion


1) Ltendue
Ltendue est la diffrence entre la plus grande et la plus petite des valeurs
observes :
tendue = max xi min xi
lin

lin

Dunod. La photocopie non autorise est un dlit.

Cette mesure de la dispersion ne dpend que des valeurs extrmes souvent


exceptionnelles ; elle ne satisfait pas aux conditions 2 et 5 de Yule. Il faut
remarquer aussi que la forme de la distribution entre les valeurs extrmes
ninflue pas sur ltendue. Cependant, cette caractristique, tant facile calculer et ayant une signification concrte facile comprendre, est frquemment utilise en contrle industriel de fabrication.

2) Ltendue interquartile
De par la dfinition des quartiles, lintervalle interquartile [ Q1, Q3] contient
50 % des observations. Sa longueur, note EIQ (tendue InterQuartile), est
un indicateur de dispersion :
EIQ = Q3 Q1
Le calcul de ltendue interquartile a lavantage par rapport celui de
ltendue dcarter les valeurs extrmes, souvent sans signification.
Plus gnralement, les longueurs des fourchettes dfinies par les dciles
extrmes, les centiles extrmes constituent des indicateurs de dispersion
contenant respectivement 80 % et 98 % des observations.

DISTRIBUTIONS STATISTIQUES UN CARACTRE

23

P001-046-9782100549412.fm Page 24 Mercredi, 24. novembre 2010 9:46 09

3) Lcart absolu moyen


On peut dfinir une caractristique de dispersion dune distribution statistique en calculant les carts des observations une tendance centrale
C. La
tendance centrale de la srie ( xi C) ne peut pas tre une mesure de dispersion puisque les carts positifs sont compensables par les carts ngatifs.
Par contre, la srie x i C dfinit une variable statistique positive dont les
valeurs centrales constituent une mesure de dispersion.
Lcart absolu moyen la mdiane
est la moyenne arithmtique des
valeurs absolues des carts la mdiane ; on dmontre que cest le plus petit
cart absolu moyen :
n

1
x i Me
e Me = --ni = 1

ou e Me =

x i Me

i=1

Lcart absolu moyen la moyenne


est la moyenne arithmtique des
valeurs absolues des carts la moyenne arithmtique :
n

1
x i x ou e x =
e x = --ni = 1

xi x

i=1

Dans le cas dune variable continue classe, on considre, comme pour le


calcul de la moyenne, que chaque individu a sa valeur gale au milieu de sa
classe daffectation.

4) Lcart-type
Lcart-type sX dune variable statistique X est la mesure de dispersion la plus
couramment utilise.
Algbriquement, il se dfinit comme la racine carre de la variance, et la variance
est la moyenne arithmtique des carrs des carts la moyenne arithmtique :
n

1
var ( X ) = --- ( x i x ) 2 ou var ( X ) =
ni = 1

f ( x x)
i

sX =

var ( X )

i=1

Il est possible de dvelopper la formule de la variance pour obtenir une


expression mieux adapte au calcul (mais cette formule devient inusite de
par la diffusion des calculatrices munies des fonctions statistiques 1) :
1. Les calculatrices munies des fonctions statistiques donnent les valeurs de la moyenne et de
lcart-type dune variable statistique dont on a saisi la distribution. Certaines calculatrices
(dont les calculatrices de marque CASIO ) proposent deux carts-types : n et n-1. La valeur
de n correspond celle de lcart-type sX dfini ici et utilis en statistique descriptive ; quant
n par la formule
celle de n 1 , elle est utilise en infrence statistique et se dduit de
n
suivante : n2 1 = ------------ n2
n1

24

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 25 Mercredi, 24. novembre 2010 9:46 09

1
1
var ( X ) = --- ( x i x ) 2 = --- x i2 ( x ) 2
ni = 1
ni = 1

ou var ( X ) =

f (x
i

i1

x )2=

f x

2
i i

( x )2

i=1

Dans le cas dune variable statistique continue, on ramne la valeur de chaque individu au milieu de sa classe daffectation. L encore, le choix des bornes
des classes extrmes non limites doit tre fait avec prcaution.
Mais, alors que pour le calcul de la moyenne, lerreur lie ce choix tait
faible dans le cas de distributions approximativement symtriques autour de
la moyenne, il nen est pas de mme pour le calcul de la variance o les
erreurs sajoutent et ne peuvent pas se compenser.
Lcart-type est exprim dans la mme unit que les observations, alors
que la variance sexprime dans le carr de cette unit.
On dmontre que lcart-type, donnant plus de poids aux observations
extrmes que lcart absolu moyen la moyenne, lui est toujours suprieur :
sX ex
Proprits

1. Lcart-type satisfait aux conditions 1, 2 et 6 de Yule ; lcart-type


est plus sensible aux fluctuations dchantillonnage et aux valeurs extrmes que la moyenne, en raison des lvations au carr.
2. On montre que la variance est le plus petit cart quadratique moyen,
cest--dire :
n

1
var ( X ) --- ( x i C ) 2 pour tout C
ni = 1
Dunod. La photocopie non autorise est un dlit.

3. Lorsque deux variables X et Y sont en correspondance par le changement dorigine x0 et le changement dchelle a, les cart-types se correspondent par le seul changement dchelle a pris en valeur absolue :
Y = aX + x 0 s Y = a s X
4. Soit une population  de taille n compose de deux sous-populations
1 de taille n1 et 2 de taille n2. Soit X, une variable statistique observe
sur la population , on peut exprimer sa variance var( X) en fonction de
x , ,x,1 x 2 var(X1) et var( X2) :
2
1
var ( X ) = --- n 1 var ( X 1 ) + n 2 var ( X 2 ) + n 1 ( x 1 x ) 2 + n 2 ( x 2 x )
n

DISTRIBUTIONS STATISTIQUES UN CARACTRE

25

P001-046-9782100549412.fm Page 26 Mercredi, 24. novembre 2010 9:46 09

Il faut bien remarquer que la variance de X sur  est la somme pondre des variances de X sur 1 et 2 augmente de la somme pondre des
carrs des diffrences entre la moyenne de X sur  et les moyennes sur
1 et 2. Ce rsultat se gnralise une partition en k sous-populations
(k 2).
5. Les distributions statistiques symtriques telles quenviron :
2/3 de la distribution se situent moins dun cart-type de x ;
95 % de la distribution se situent moins de deux carts-types de x
sont dites normales (chapitre 7, II).
Le triplet ( n, x, s X ) est un rsum exhaustif des distributions de ce type.
Dans de nombreux cas, la normalit tant approximative, ( n, x, s X ) est alors
un rsum (quasi-exhaustif) qui prsente un intrt primordial.

Dautres mesures de la dispersion peuvent tre envisages. On peut calculer un cart mdian, gal la mdiane de la srie des valeurs absolues des
carts une valeur centrale choisie. On peut aussi calculer la
diffrence
moyenne gale la moyenne arithmtique des valeurs absolues des diffrences entre les observations prises deux deux. Cest cet indicateur de dispersion qui est utilis pour le calcul de lindice de concentration de Gini ( III.E)
et qui, ne mesurant pas la dispersion par rapport la moyenne, est adapt aux
distributions non symtriques.

D. Les caractristiques de forme


La plupart des distributions statistiques sont unimodales. En complment de
ltude de la tendance centrale et de la dispersion, il est intressant de reprer
la forme (dj mise en vidence par une reprsentation graphique) par des
mesures de son asymtrie (en anglais, skewness) et de son aplatissement
(kurtosis).
La symtrie est un concept important pour plusieurs raisons. Tout
dabord, la dfinition de la tendance centrale est sans ambiguit pour une distribution symtrique puisque pour une telle distribution, la mdiane est gale
la moyenne et ( x + x 1 )/2 pour tout compris entre 0 et 0,5, et la
dispersion des observations est symtrique par rapport la moyenne. Dautre
part, de nombreuses mthodes statistiques reposent sur une hypothse de distribution(s) normale(s) ou sen approchant (chapitre 7). Le caractre de symtrie dune distribution apparat donc particulirement important.
Les mesures de la forme sont indpendantes des units de mesure de la
variable tudie.

26

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 27 Mercredi, 24. novembre 2010 9:46 09

1) Dfinition des moments centrs


Le moment centr dordre r dune distribution est gal la moyenne arithmtique des puissances dordre r des carts ( x i x ) :
n

1
r = --- ( x 1 x ) r
ni = 1

ou

r =

f ( x x)
i

i=1

Remarque
Le moment centr 1 est nul, et le moment centr 2 nest autre que la
variance et ne peut tre nul, comme tous les moments centrs dordre
pair, que si toutes les observations ont la mme valeur.

2) Lasymtrie
Pour une distribution symtrique, la moyenne arithmtique est gale la
mdiane et ( x + x 1 )/2 pour compris entre 0 et 0,5. Dautre part, les
moments centrs dordre impair sont nuls pour une distribution symtrique,
ngatifs pour une distribution unimodale tale gauche, positifs pour une
distribution unimodale tale droite. Ces proprits sont utilises pour diagnostiquer et mesurer lasymtrie.

Dunod. La photocopie non autorise est un dlit.

a) Diagnostic et mesure de lasymtrie laide des quantiles


Dans un cas dasymtrie, la
comparaison des quantits ( x + x 1 )/2 ,
milieux des intervalles [x , x1-], pour diffrentes valeurs de (0 0,5)
donne une indication rapide sur le type de lasymtrie. Certains logiciels donnent la reprsentation graphique de ces quantits en fonction des amplitudes
( x 1 x ) . Pour une distribution symtrique, on obtient une droite parallle
laxe des abscisses puisque les termes ( x + x 1 )/2 sont tous gaux la
mdiane (et la moyenne !).
Pour la distribution des salaris masculins en 2000 ( cf. tableau 1.5), la
comparaison des milieux des intervalles des dciles symtriques par rapport
la mdiane montre quil sagit dune distribution tale vers la droite :
D6 + D4
D7 + D3
D8 + D2
D9 + D1
- = 17 455 < ------------------ = 18 155 < ------------------ = 19 710 < ------------------ = 23 125
D5 = 17 270 < -----------------2
2
2
2
Le quotient suivant dfinit un coefficient dasymtrie, appel coefficient
de Yule et Kendall :
( Q3 Q2 ) ( Q2 Q1 )
Q 3 + Q 1 2Q 2
----------------------------------------------------= ---------------------------------( Q3 Q2 ) + ( Q2 Q1 )
Q3 Q1

DISTRIBUTIONS STATISTIQUES UN CARACTRE

27

P001-046-9782100549412.fm Page 28 Mercredi, 24. novembre 2010 9:46 09

Ce coefficient, compris entre 1 et + 1, est nul pour une distribution


symtrique, positif pour une distribution unimodale tale vers la droite et
ngatif dans le cas contraire, et il est, de plus invariant par changement dorigine et dchelle.
On obtient des variantes de ce coefficient en remplaant les quartiles par
les dciles. Pour les distributions des salaires prsentes dans le tableau 1.5,
on peut calculer le coefficient dasymtrie suivant :
D 9 + D 1 2D 5
---------------------------------D9 D1
qui vaut respectivement 0,49 et 0,41 pour les distributions des salaires masculins et fminins en 2000 ; ces valeurs indiquent des distributions asymtriques, tales vers la droite.
b) Le coefficient dasymtrie de Fisher
Le coefficient dasymtrie de Fisher , not 1, est ainsi dfini :
3
pour
2 0
1 = -------- 23 2
Comme tout coefficient dasymtrie, il est nul pour une distribution symtrique, ngatif pour une distribution unimodale tale vers la gauche, positif
pour une distribution unimodale tale vers la droite (figure 1.12).

1 > 0

1 = 0

1 < 0

Figure 1.12 Signe du coefficient dasymtrie

Les coefficients calculs par les logiciels statistiques sont soit celui de
Fisher, soit des variantes de mme linterprtation. Par exemple, le logiciel
SPSS donne un coefficient dasymtrie lgrement modifi :
n
------------------------------------- 1
(n 1) (n 2)

pour

n3

3) Laplatissement
Les coefficients daplatissement mesurent laplatissement dune distribution
ou limportance des queues dune distribution. Le coefficient daplatissement de Fisher, not 2 , est ainsi dfini :

2 0
pour
2 = -----42 3
2

28

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 29 Mercredi, 24. novembre 2010 9:46 09

Ce coefficient est nul pour une distribution normale (chapitre 7), positif
ou ngatif selon que la distribution est plus ou moins aplatie que la distribution normale de mme moyenne et de mme cart-type.
Les coefficients calculs par les logiciels sont celui de Fisher ou des
variantes de mme interprtation.
Ces coefficients dasymtrie et daplatissement sont invariants par changement dorigine et dchelle, mais ils sont sensibles aux fluctuations
dchantillonnage puisquils font intervenir des moments dordre lev.

E. Les caractristiques de dispersion relative


Ces caractristiques permettent de comparer les distributions statistiques de
plusieurs sous-ensembles dune mme population, ou de faire des comparaisons dans le temps ou dans lespace.

Dunod. La photocopie non autorise est un dlit.

1) Le coefficient de variation et linterquartile relatif


Supposons que nous sachions que lcart-type de poids dune certaine population est de 8 kg, limportance du degr de variabilit que cela suggre dpend
de la valeur du poids moyen : 10 kg, 50 kg ou plusieurs centaines de kg
Pour remdier cette difficult dinterprtation, il est naturel dexaminer
le rapport s X x appel coefficient de variation et dfini en gnral pour des
variables positives.
Cest un nombre sans dimension , invariant si on effectue un changement
dunit de mesure.
Plus le coefficient de variation est lev, plus la dispersion autour de la
moyenne est leve.
Ce coefficient permet de comparer les dispersions de distributions qui ne
sont pas exprimes dans la mme unit (comme des distributions de salaires
de pays diffrents) ou de distributions dont les moyennes sont diffrentes
(comme des distributions de salaires pour diffrentes qualifications).
On peut construire dautres coefficients de ce type en utilisant les statistiques dordre comme les quartiles et les dciles
; citons l interquartile
Q3 Q1
D9 D1
relatif : ------------------ et l interdcile relatif : ------------------Q2
D5
Pour les distributions des salaires Hommes et Femmes en 2001 (cf.
tableau 1.5), les interdciles relatifs valent respectivement 1,45 et 1,12.

DISTRIBUTIONS STATISTIQUES UN CARACTRE

29

P001-046-9782100549412.fm Page 30 Mercredi, 24. novembre 2010 9:46 09

2) Les caractristiques de concentration


La notion de concentration a t introduite propos des distributions de
salaires et de revenus. Cette notion est apparente celle de dispersion
puisquelle concerne lintensit du groupement des donnes.
Elle ne sapplique qu des variables continues valeurs positives, et pour
des ensembles statistiques dont chaque lment est affect dun caractre susceptible daddition :
un ensemble de mnages classs selon le revenu, lpargne, le
patrimoine ;
un ensemble dentreprises classes selon le chiffre daffaire, le nombre
de salaris, les montants des factures ;
un ensemble dexploitations agricoles classes selon la surface agricole
utilise.
Il est clair que la notion de concentration ne peut pas sappliquer, par
exemple, des ensembles dindividus classs selon lge, la taille ou le poids,
puisque la somme des ges, des tailles ou des poids dune population est sans
signification.
La concentration peut se caractriser, soit par un procd graphique, soit
par le calcul.
a) Construction de la courbe de concentration
Considrons la distribution des exploitations agricoles par classes de grandeurs des rgions Provence-Alpes-Cte dAzur (PACA) et Midi-Pyrnes en
2005 (cf. tableau 1.6). Lintervalle de variation de la SAU (superficie agricole
utilise) est partag en k classes (ici, k = 9) dont les bornes suprieures sont
notes dans lordre : x1 , , xi , , xk
On calcule pour chaque classe ( i = 1 k) :
la proportion cumule p i des exploitations de SAU infrieure xi
la proportion cumule qi de la SAU totale des exploitations de SAU infrieure xi
Sur un diagramme cartsien, on reprsente les k points de coordonnes
(pi , q i). Ces points sinscrivent dans un carr OABC dont la longueur des
cts est gale 1 (ou 100 si les proportions sont exprimes en pourcentage).
La courbe qui joint les points successifs est la courbe de concentration
ou courbe de Lorenz (cf. figure 1.13). La courbe, toujours en-dessous de la
bissectrice, permet de lire que les % des exploitations les moins bien
loties cultivent % de la SAU totale. Si toutes les exploitations ont une part
gale de SAU, la courbe se confond avec la bissectrice OB. La courbe sen
loigne lorsque lingalit saccrot.

30

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 31 Mercredi, 24. novembre 2010 9:46 09

Tableau 1.6 Distribution des exploitations agricoles par classes de grandeurs


en rgions PACA et Midi-Pyrnes
Midi-Pyrnes
Proportion
SAU

Moins de 5 ha

MidiPyrnes

PACA
f

Proportion
SAU

PACA

15,5

0,8

44,9

2,6

15,5

0,8

44,9

5 moins de 10 ha

9,0

1,4

12,5

3,1

24,6

2,2

57,4

5,7

10 moins de 20 ha

13,2

4,2

14,8

7,6

37,7

6,4

72,2

13,2

20 moins de 35 ha

15,7

9,2

9,3

8,6

53,4

15,7

81,5

21,9

35 moins de 50 ha

12,2

11,1

5,1

7,4

65,6

26,8

86,6

29,3

50 moins de 100 ha

23,1

35,1

7,2

17,6

88,7

61,9

93,8

46,9

100 moins de 200 ha

9,6

27,5

3,7

18,1

98,2

89,4

97,5

65,0

99,5

96,0

98,9

76,5

200 moins de 300 ha

1,3

6,6

1,4

11,5

300 ha ou plus

0,5

4,0

1,1

23,5

100,5

100,5

100,5

100,5

2,6

100,5 100,5 100,5 100,5


Source : agreste.agriculture.gouv.fr

Ceci suggre dutiliser laire, dite aire de concentration , comprise entre


la courbe et la bissectrice OB comme indicateur dingalit.
q

100
B

80
1I
2 G
Dunod. La photocopie non autorise est un dlit.

60
40
0

Figure 1.13 Courbe de Lorenz

20

PACA
Midi-Pyrnes

0
0

20

40

60

80

100

Figure 1.14 Courbes de concentration des SAU


dans les rgions PACA et Midi-Pyrnes

DISTRIBUTIONS STATISTIQUES UN CARACTRE

31

P001-046-9782100549412.fm Page 32 Mercredi, 24. novembre 2010 9:46 09

On peut comparer la concentration de deux ou plusieurs populations selon


un mme caractre en reprsentant sur un mme graphique leurs courbes de
Lorenz. Les terres agricoles sont plus concentres dans la rgion PACA que
dans la rgion Midi-Pyrnes puisque la courbe de Lorenz de la
SAU de la
rgion Midi-Pyrnes est incluse dans celle de la rgion PACA (cf. figure 1.14).
On peut aussi comparer la concentration de deux caractres sur une mme
population : sur la figure 1.15, on constate que la concentration du patrimoine
financier des mnages est plus forte que celle des revenus.
Dans les cas o les courbes se coupent, on ne peut pas comparer les degrs
dingalit.
En %

100
90
80
70
60
50
40
30
20
10
0

Patrimoine financier
Revenu disponible

10

20

30

40

50

60

70

80

90

100

Lecture : plus la courbe sloigne de la diagonale, plus la distribution de la variable considre est concentre. La moiti des
mnages les moins riches possde 27 % de la masse des revenus disponibles tandis que la moiti des mnages les moins
bien dots possde environ 4 % de la masse totale de patrimoine financier. Les 10 % les mieux dots en patrimoine
financier en possdent environ 63 %.
Champ : mnages dont la personne de rfrence nest pas tudiante et dont le revenu dclar est positif ou nul.
Sources : enqute Revenus fiscaux 2003, Insee-DGI pour le revenu disponible et enqute Patrimoine 2004, Insee, montants
de patrimoine financier recals sur les donnes de la Comptabilit nationale.

Source : INSEE, conomie et Statistique, n 414, 2008.

Figure 1.15 Courbes de concentration

b) Dtermination de l indice de concentration ou indice de Gini


Lindice IG de Gini est gal au double de laire de concentration ( cf. figure
1.13). Cet indice, compris entre 0 et 1, a une valeur dautant plus leve que
la rpartition est plus ingalitaire, et peut tre valu selon la formule 1 :
n

xi x j

i = 1j = i+1

I G = -------------------------------------n(n 1) x
les xi (i = 1, , n) dsignant ici les valeurs prises (supposes toutes distinctes)
par la variable sur chacun des n individus de la population tudie.
1. Le statisticien italien Corrado Gini a propos cette mesure de la concentration en 1912 et a
montr deux annes plus tard que son indice tait gal au double de laire comprise entre la
droite dquirpartition et la courbe propose par Max Otto Lorenz en 1905.

32

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 33 Mercredi, 24. novembre 2010 9:46 09

Cet indice sapparente donc bien la notion de dispersion relative des


lments dune srie. Cest un nombre sans dimension . Cette caractristique
de dispersion ne fait pas appel au calcul dcarts la moyenne. Elle est ainsi
particulirement bien adapte ltude de distributions trs dissymtriques
pour lesquelles la notion dcart la moyenne est sans grande signification.

IV. La bote de distribution


La bote de distribution (box-plot en anglais, ou encore bote--pattes ,
bote moustaches , bote de dispersion en franais) est un outil privilgi de l analyse exploratoire des donnes . Elle fournit en un seul coup
doeil des informations sur sa tendance centrale, sa dispersion, son asymtrie,
limportance des valeurs extrmes. Elle est aussi particulirement intressante pour la comparaison de distributions sur plusieurs de ces critres.

A. Rsum dune distribution par des quantiles


Les trois quartiles Q1 , Q2 et Q3 et les deux valeurs extrmes fournissent pour
une distribution des informations sur sa tendance centrale par les quantits
1
1
Q2 , --- ( Q 1 + Q 3 ) e t --- min xi + max xi , sur sa dispersion par ltendue et
2
2 1in 1in

Dunod. La photocopie non autorise est un dlit.

ltendue interquartile, et sur sa forme par la comparaison des trois indicateurs de tendance centrale.
En analyse exploratoire des donnes, ces cinq valeurs sont prsents avec
leur profondeur dans un tableau. Pour la distribution de la dure hebdomadaire du travail en 2000 ( cf. tableau 1.4) :
n = 15

Dure hebdomadaire

Me = 39,9 h

4,5
1

Q1 = 39,15
min xi = 38,5
1in

Q3 = 40,2
max xi = 43,6
1in

On peut complter ce tableau en indiquant ltendue interquartile, le


milieu de lintervalle interquartile, ltendue et le milieu de lintervalle dtermin par les deux valeurs extrmes. On obtient ainsi un rsum des informations sur la dispersion et lasymtrie :

DISTRIBUTIONS STATISTIQUES UN CARACTRE

33

P001-046-9782100549412.fm Page 34 Mercredi, 24. novembre 2010 9:46 09

n = 15

Dure
hebdomadaire

Dispersion

Position

1
--- ( Q 1 + Q 3 ) = 39,615
2

39,9 h

4,5

39,15

40,2

EIQ = 1,05

38,5

43,6

tendue = 5,1

1
--2

( min x + max x ) = 41,05


1in

1in

B. Reprsentation dune bote de distribution


Dans une bote de distribution , la bote reprsente lintervalle interquartile,
et lintrieur, la mdiane la spare en deux parties. Les lignes qui partent
du bord de la bote stendent jusquaux valeurs les plus extrmes qui ne sont
pas considres comme loignes. Le logiciel SPSS note valeur loigne
(o), les points situs plus de 1,5 fois ltendue interquartile par rapport aux
bords de la bote, et valeur extrme (), les points situs plus de 3 fois
ltendue interquartile ( cf. figure 1.17).
Ainsi, la taille de la bote reprsente ltendue interquartile, la position de
la mdiane est un bon indicateur de la symtrie de la distribution, la taille des
lignes de part et dautre de la bote traduit la dispersion, et les valeurs loignes ou extrmes sont immdiatement repres.
On reprsente une bote de distribution de la faon suivante (cf. figure 1.16) :
a) on trace un rectangle de largeur fixe priori et de longueur
EIQ = (Q3 Q1), et on y situe la mdiane par un segment positionn la
valeur Q2, par rapport Q3 et Q1 ; on a alors la bote,
b) on calcule ( Q3 + 1,5 EIQ) et ( Q1 1,5 EIQ) et on cherche :
la dernire observation xh en de de la limite ( Q3 + 1,5 EIQ) soit
xh = max{xi xi Q3 + 1,5 EIQ}
la premire observation xb au del de la limite ( Q1 1,5 EIQ) soit
xb = min { xi xi Q1 1,5 EIQ}
c) on trace deux lignes allant des milieux des largeurs du rectangle aux
valeurs xb et xh
Ainsi, pour la distribution reprsente la figure 1.16, la valeur
loigne associe au Royaume-Uni et mise en vidence sur le diagramme
Branche et feuille de la figure 1.6, est lextrieur de la bote de distribution.

34

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 35 Mercredi, 24. novembre 2010 9:46 09

38

39

40

41

42

43

tendue

*
Minimum
Q1 1,5 EIQ

xb

Q1

Me Q3

xh
Q3 + 1,5 EIQ

Maximum

Figure 1.16 Construction de la bote de distribution de la dure du travail en 2000


(tableau 1.4)

Ce type de diagramme permet aussi de comparer facilement plusieurs distributions en terme de mdiane, quartiles et valeurs loignes ou extrmes.
On peut reprsenter en parallle les botes de distribution de la dure hebdomadaire du travail des salaris temps complet de lUnion europenne en
1990,1995 et 2000, et comparer les trois distributions ( cf. figure 1.17).
45

* R-Uni

44

* R-Uni

R-Uni
43

42

Dunod. La photocopie non autorise est un dlit.

41

40

39

38

37
N=

15
1990

15
1995

15
2000

Figure 1.17 Reprsentation SPSS des botes de distribution du tableau 1.3

DISTRIBUTIONS STATISTIQUES UN CARACTRE

35

P001-046-9782100549412.fm Page 36 Mercredi, 24. novembre 2010 9:46 09

La mdiane nvolue pas de faon monotone, la dispersion diminue, le


Royaume-Uni passe de valeur loigne en 1990 valeur extrme en
1995 et 2000.
Pour les distributions prsentes par leurs dciles ( cf. tableau 1.5), on ne
connat pas les valeurs individuelles. Dans ce cas, on peut convenir de
considrer valeurs loignes les valeurs infrieures au premier dcile ou
suprieures au neuvime dcile.
La reprsentation des botes de distribution des distributions de salaires en
2000 permet de comparer les salaires selon le sexe (cf. figure 1.18). La reprsentation par des histogrammes ( cf. figure 1.11) ne permettrait pas de comparer aussi aisment les distributions, les histogrammes ne pouvant pas tre
superposs si on veut conserver la lisibilit, mais seulement juxtaposs.
Euros

40 000

Ensemble

Hommes

Femmes

30 000

20 000

10 000

Figure 1.18 Reprsentation des botes de distribution des salaires en 2000

C. Interprtation dune bote de distribution


Une bote de distribution rend compte de la tendance centrale, de la dispersion, des valeurs loignes ou extrmes et de la forme de la distribution ( cf.
figure 1.19), mme si dautre modes de reprsentation (histogramme, branche
et feuille) peuvent apporter un complment dinformation sur la forme.

36

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 37 Mercredi, 24. novembre 2010 9:46 09

Maximum

Minimum
1.

2.

3.

4.

Dunod. La photocopie non autorise est un dlit.

Figure 1.19 Quelques types de botes de distribution :


1. Distribution symtrique
2. Distribution peu disperse
3. Distribution tale vers les valeurs leves
4. Distribution tale vers les valeurs faibles

En statistique descriptive, on a vu limportance du triplet (n , ,x sX).


Pour la distribution de la dure hebdomadaire du travail du tableau 1.4, ce
triplet prend les valeurs (15 ; 39,93 ; 1,2) pour lanne 2000. La bote de
distribution (cf. figures 1.15 et 1.16) est un complment qui se rvle intressant puisquelle permet de dtecter lasymtrie, les valeurs extrmes, et
de reprer la mdiane et lintervalle interquartile qui contient la moiti des
observations.
Dans le cas dune asymtrie, lcart-type qui mesure la dispersion symtriquement par rapport la moyenne nest pas la mesure de dispersion la
mieux adapte, et peut tre complt par ltendue interquartile. Dautre part,
si la bote de distribution indique des valeurs loignes ou extrmes, on sait
que la moyenne et lcart-type sont particulirement influencs par ces
valeurs.

V. Bilan
Avant toute tude formelle, il est ncessaire de procder une valuation
descriptive des donnes. Cette approche descriptive prsente deux difficults,
lune lie aux calculs, lautre la diversit des indicateurs. Si les calculatrices
de poche ont permis depuis longtemps dj de rendre aiss les calculs de
moyenne et cart-type, il a fallu attendre la gnralisation des moyens de calcul

DISTRIBUTIONS STATISTIQUES UN CARACTRE

37

P001-046-9782100549412.fm Page 38 Mercredi, 24. novembre 2010 9:46 09

automatique (en particulier, des logiciels statistiques sur m icro-ordinateurs)


pour que tous les indicateurs bass sur la notion de profondeur, et en particulier la mdiane, soient facilement accessibles. Cest aussi lenvironnement
rcent des micro-ordinateurs qui a permis de dvelopper les modes de reprsentation graphique par lesquels on peut apprhender des indicateurs trs divers.
Lapproche descriptive des donnes trouve dans la reprsentation graphique un
enrichissement et une aide linterprtation. Simplicit et inter activit de cette
dmarche en font une premire tape maintenant indispensable toute tude
statistique.

38

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 39 Mercredi, 24. novembre 2010 9:46 09

Testez-vous (les rponses sont donnes page 283)

Il y a au moins une rponse exacte par question.

1. Pour une srie dobservations dune variable statistique :


a) on peut calculer quatre quartiles
b) lintervalle interquartile contient 50 % des observations
c) le cinquime dcile est gal la mdiane
d) 50 % des observations sont suprieures au premier quartile
2. Pour une variable statistique de distribution symtrique :
a) la moyenne est gale la mdiane
b) 50 % des observations sont suprieures la moyenne
c) la bote de distribution contient toutes les observations
d) ( Q3 Q1) = 2( Me Q1)
3. Pour comparer des distributions de variables statistiques exprimes dans des
units diffrentes (par exemple des distributions de salaires exprims dans des
monnaies diffrentes), on peut utiliser les caractristiques suivantes :
a) la mdiane
b) ltendue interquartile
c) le coefficient de variation
d) le rapport D9 /D1
4. Pour une srie dobservations dune variable statistique :
a) la somme des carts la moyenne est nulle
b) lcart absolu moyen la moyenne est un indicateur de dispersion
c) la mdiane de la srie des carts absolus la moyenne est une mesure de lasymtrie
d) les trois quartiles sont des indicateurs de tendance centrale

Dunod. La photocopie non autorise est un dlit.

5. Une tude des notes obtenues par deux classes dune cole un test commun
a fourni les rsultats suivants :
Classe

Classe 1

Classe 2

Effectif
Moyenne
cart-type
Mdiane

20
12
4
12

30
10
6
12

a) la note moyenne des deux classes runies est gale 11


b) lcart-type des notes des deux classes runies est gal 5
c) la mdiane des notes des deux classes runies est gale 12
d) lcart absolu moyen des notes la mdiane est infrieur ou gal 4 pour la classe 1

DISTRIBUTIONS STATISTIQUES UN CARACTRE

39

P001-046-9782100549412.fm Page 40 Mercredi, 24. novembre 2010 9:46 09

6. Si on veut minimiser linfluence des valeurs extrmes :


a) on prfre la mdiane la moyenne
b) on prfre lcart-type lcart absolu moyen la moyenne
c) on prfre ltendue ltendue interquartile
d) on prfre ltendue interdcile ( D9 D1) ltendue
7. Soit une grandeur dont le taux de croissance au cours de 3 annes successives
a t de 0,5 % pour les 2 premires annes et de 2 % pour la dernire anne.
Le taux annuel moyen de croissance pendant ces 3 annes est gal :
13

a) ( 0,005 ) 2 ( 0, 02 )

1
b) --- ( 2 0,005 + 0,02 )
3

13

c) ( 1,005 ) 2 1,02

d) une moyenne harmonique


8. Pour la distribution dune variable statistique continue (ou suppose
continue) :
a) lhistogramme est la reprsentation graphique des frquences cumules
b) 15 % des observations sont comprises entre le troisime quartile et le neuvime
dcile
c) la mdiane peut se dterminer laide de la courbe cumulative
d) ltendue interdcile ( D9 D1) contient 90 % des observations
9. Si les notes (comprises entre 4 et 16) obtenues une preuve de statistique
dans une classe de 30 lves sont toutes augmentes de 2 points :
a) la moyenne sera augmente de 2 points
b) lcart-type sera augment de 2 points
d) la mdiane sera augmente de 2 points
d) ltendue sera augmente de 2 points

40

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 41 Mercredi, 24. novembre 2010 9:46 09

Exercices (corrigs page 289)


Exercice 1.1
Le tableau suivant donne la rpartition des familles selon le nombre denfants et leur
ge de 1968 1999 :
Enfants de 0 18 ans (milliers)
Ensemble
sans enfant
avec enfants
1 enfant
2 enfants
3 enfants
4 enfants
5 enfants
ou plus
Nombre total
denfants

1968
12 063
5 302
6 760
2 723
2 052
1 063
481
441

1975
13 176
5 836
7 340
3 110
2 374
1 088
427
342

1982
14 119
6 508
7 610
3 303
2 734
1 081
310
183

1990
15 391
7 900
7 491
3 281
2 756
1 063
259
132

1999
16 097
8 679
7 418
3 317
2 772
1 008
230
91

14 569

14 826

14 294

13 748

13 308

Sources : Recensements de la population, INSEE

Dunod. La photocopie non autorise est un dlit.

1. Dfinir les populations tudies, lunit statistique, le caractre tudi et sa nature.


2. Examinez lvolution du nombre total de familles sans enfant, du nombre de
familles avec enfants, avec un enfant, avec deux enfants
3. On considre dans cette dernire question les familles avec enfant(s).
3.1. Aprs avoir calcul les frquences, tracez les diagrammes en btons de ces
distributions, et indiquez le mode.
3.2. Pour chacune des cinq annes, calculez le nombre moyen denfants par
famille et lcart-type (on considrera le nombre moyen denfants des familles
ayant cinq enfants ou plus gal 6). Commentez les rsultats.
Exercice 1.2
Le tableau suivant donne la distribution du niveau de lindice de la qualit de lair
ATMO en agglomration parisienne de 2000 2006 (en nombre de jours par an).
1. Dfinir les populations tudies, lunit statistique, le caractre tudi et sa nature.
2. Tracez le diagramme en btons de la distribution en 2006, et indiquez le mode.
3. Calculez les niveaux annuels moyens de 2000 2006.

DISTRIBUTIONS STATISTIQUES UN CARACTRE

41

P001-046-9782100549412.fm Page 42 Mercredi, 24. novembre 2010 9:46 09

Niveau Qualit
1
2
3
4
5
6
7
8
9
10

2000 2001 2002 2003 2004 2005 2006

Total
0
118
1 268
717
260
110
58
26
0
0

Trs bon
Trs bon
Bon
Bon
Moyen
Mdiocre
Mdiocre
Mauvais
Mauvais
Trs mauvais

0
8
206
99
36
13
2
2
0
0

0
15
190
97
33
13
14
3
0
0

0
9
183
111
45
8
7
2
0
0

0
15
138
109
47
30
16
10
0
0

0
23
186
96
39
19
2
1
0
0

0
23
188
99
34
11
6
4
0
0

0
25
177
106
26
16
11
4
0
0

Total

366

365

365

365

366

365

365

2 557

Source : AIRPARIF.

Exercice 1.3
On a relev pendant 50 quinzaines successives les niveaux de ventes, exprims en
milliers dunits de produit, de deux prsentations notes G (Gel) et P (Poudre) dun
mme produit. Les rsultats sont les suivants :
Prsentation G

Prsentation P

Niveau de
vente

<5

[5-10[

[10-12[

[12-20]

Niveau de
vente

< 10

[10-12[

[12-16[

[16-20]

Nombre de
quinzaines

20

15

10

Nombre de
quinzaines

10

25

10

1. Calculez les moyennes, carts-types et mdianes des niveaux de ventes pour chacune des deux prsentations.
Quelle est la condition ncessaire sur la moyenne et la mdiane dune distribution
pour que celle-ci soit symtrique ?
2. Sur lensemble des points de vente pour toute la priode de ltude, on disposait
de 30 % du produit en gel, et de 70 % du produit en poudre.
Quel a t le niveau de ventes moyen pour lensemble des deux prsentations du
produit ?
3. Les niveaux de ventes tant maintenant exprims en centaines dunits de produit,
donnez les nouvelles valeurs des moyennes, carts-types et mdianes calcules
la 1 re question.

42

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 43 Mercredi, 24. novembre 2010 9:46 09

Exercice 1.4
Afin dtudier les disparits de salaires entre hommes et femmes, une enqute a t
ralise auprs du personnel ouvrier dun secteur industriel. Les rsultats concernant
les salaires annuels nets en euros sont rsums dans les deux tableaux suivants :
Tableau 1. Hommes

Dunod. La photocopie non autorise est un dlit.

Effectif

180

Tableau 2. Femmes
Salaire annuel
(en milliers d)

Nombre douvrires

12 750

[10 ; 12[
[12 ; 14[
[14 ; 16[
[16 ; 20]

82
34
12
n4

Mdiane

14 800

Total

3e quartile

17 660

9e dcile

20 220

Salaire moyen

15 400

cart-type

3 620

1er dcile

10 950

1er quartile

1. Dfinir la population tudie, lunit statistique, le caractre tudi et sa nature.


2. Proposez pour la distribution du salaire des hommes en prcisant les valeurs correspondantes :
trois indicateurs de tendance centrale ;
deux indicateurs de dispersion ;
deux indicateurs de dispersion relative.
3. Sachant que le salaire annuel moyen des femmes enqutes est gal 12 000 ,
dterminez leffectif n4 de la dernire classe de la distribution du salaire des femmes, ainsi que leffectif total N.
4. Dterminez lcart-type et le coefficient de variation de la distribution des
femmes.
5. Dterminez le salaire annuel moyen de lensemble des ouvriers hommes et
femmes de lenqute.
Exercice 1.5
Dans un atelier, le cot horaire de la main doeuvre est de 8
(base 35 h par
semaine). Une heure supplmentaire revient 10 , et le service de paie indique que
le cot total des heures supplmentaires reprsente 30 % du cot total de la main
doeuvre.
Calculez le cot horaire moyen et indiquez le type de moyenne utilise.
Exercice 1.6
Une mme somme S a t confie deux banques B1 et B2 pour une dure de 10 ans.
Les rendements successifs des placements effectus par les deux banques ont t les
suivants :

DISTRIBUTIONS STATISTIQUES UN CARACTRE

43

P001-046-9782100549412.fm Page 44 Mercredi, 24. novembre 2010 9:46 09

Banque B1 : 12 % pendant 2 ans, puis 8 % pendant 4 ans, puis 6 % pendant 4 ans ;


Banque B2 : 10 % pendant 3 ans, puis 8 % pendant 3 ans, puis 7 % pendant 4 ans.
Les intrts sont toujours capitaliss en fin danne.
1. Calculez le taux moyen de croissance du placement dans chaque banque.
2. quel taux la moins performante des deux banques aurait-elle d placer largent
pendant la troisime priode pour galer lautre ?
Exercice 1.7
Le tableau ci-aprs donne des caractristiques des 30 premiers groupes franais de
lindustrie et des services selon leur chiffre daffaires en 2001 (Source : Tableaux de
lconomie Franaise 2003-2004, INSEE) :
Socit

CAHT
(millions
d)

Effectif

Socit

CAHT
(millions
d)

Effectif

TotalFinaElf

105 318

122 025

Aventis

22 941

91 729

Carrefour

69 486

382 821

Groupe Casino
(Rallye)

21 984

106 736

Vivendi Universal

57 360

321 000

Bouygues

20 473

126 560

PSA Peugeot
Citron

51 663

192 500

Airbus (EADS)

20 427

2 000

France Telecom

43 026

206 184

SNCF

20 129

220 747

Suez

42 359

188 050

Vonci

17 172

129 499

EDF

40 716

161 738

La poste

17 028

313 854

Les Mousquetaires

37 200

112 000

Publicis Groupe

16 667

20 592

Renault

36 351

140 417

Michelin

15 775

127 467

Saint-Gobain

30 390

173 329

Havas

14 950

20 373

Pinault-PrintempsLa Redoute

27 799

115 935

Usinor (Arcelor)

14 523

59 516

Groupe Auchan

26 200

136 000

Groupe Danone

14 470

100 560

Alcatel Alsthom

25 353

99 314

Gaz de France

14 357

36 451

Galec (Leclerc)

25 000

75 000

LOral (Gespartal)

13 740

49 150

Alstom

23 453

118 995

Lafarge

13 698

82 892

1. Dfinir la population tudie, lunit statistique et les caractres tudis.


2. Calculez la moyenne et lcart-type du chiffre daffaires et de leffectif.
3. tude du chiffre daffaires des 30 premiers groupes franais.
3.1. Dterminez les trois quartiles.
3.2. Reprsentez le diagramme branche et feuille de cette distribution.
3.3. Reprsentez la bote de distribution.

44

INTRODUCTION LA MTHODE STATISTIQUE

P001-046-9782100549412.fm Page 45 Mercredi, 24. novembre 2010 9:46 09

4. Quel est lintrt de chacune de ces deux reprsentations graphiques comparativement un histogramme ?
5. Reprendre la question 3 pour ltude de leffectif.
Exercice 1.8
Le tableau suivant donne le revenu annuel moyen des mnages, en euros, pour les
dix intervalles dfinis par les dciles, et la part de chaque intervalle dans le revenu
total.
Valeur des dciles
(euros)

Intervalle

Revenu moyen
dans lintervalle

% de la masse totale
des revenus
dans lintervalle

D1 = 7 304

< D1

13 845

12

D2 = 11 091

[D1 ; D2[

19 318

13

D3 = 14 099

[D2 ; D3[

12 601

15

D4 = 17 219

[D3 ; D4[

15 640

16

D5 = 20 631

[D4 ; D5[

18 863

17

D6 = 24 653

[D5 ; D6[

22 579

19

D7 = 29 361

[D6 ; D7[

26 904

11

D8 = 35 757

[D7 ; D8[

32 324

13

D9 = 46 642

[D8 ; D9[

40 548

16

 D9

69 930

28

Dunod. La photocopie non autorise est un dlit.

Source : INSEE, Revenus fiscaux 1999, hors revenus du patrimoine.

1. Dfinir la population, lunit statistique, le caractre tudi et sa nature.


2. Calculez le revenu annuel moyen des mnages.
3. Est-il lgitime de faire lhypothse dquirpartition dans les classes dfinies par
les dciles ?
4. Proposez trois indicateurs de tendance centrale, un indicateur de dispersion et un
indicateur de dispersion relative. Donnez les valeurs de ces indicateurs.
5. Cette distribution de revenus est-elle symtrique ? (justifiez votre rponse)
6. Proposez un indicateur de disparit des revenus, et donnez sa valeur. Interprtez.
7. Quelle est la part de lensemble des revenus perus par les 4 diximes des mnages
aux revenus les plus faibles ?
8. Soit F1 = 10 %, F2 = 20 %, , F10 = 100 %, et Ri la part de lensemble des revenus perus par lensemble des Fi mnages aux revenus les plus faibles.

DISTRIBUTIONS STATISTIQUES UN CARACTRE

45

P001-046-9782100549412.fm Page 46 Mercredi, 24. novembre 2010 9:46 09

8.1. Tracez la courbe joignant, dans lordre, les points ( Fi , Ri). Comment sappelle
cette courbe ?
8.2. Rappelez linterprtation graphique de lindice de concentration de Gini ?
8.3. Quelles sont les valeurs minimum et maximum de cet indice ?
8.4. quelles situations correspondent-elles ?
Daprs examen de juin 2004, GEA 1re anne Paris-Dauphine.

Exercice 1.9
Le tableau suivant donne le nombre (en milliers) et la superficie agricole utilise
(SAU, en milliers dha) des exploitations agricoles en France mtropolitaine par classes de grandeur pour les annes 1979, 1988, 2000 et 2005.
1979

Moins de 5 ha
5 moins de 20 ha
20 moins de 50 ha
50 moins de 100 ha
100 moins de
200 ha
200 ha ou plus
Ensemble

1988

2000

2005

Nombre

SAU

Nombre

SAU

Nombre

SAU

Nombre

SAU

357
410
347
114
29
6

677
4 778
10 962
7 683
3 798
1 598

278
279
288
128
37
7

519
3 238
9 348
8 709
4 864
1 918

193
132
138
122
64
15

362
1 464
4 666
8 662
8 655
4 047

132
104
109
113
70
17

262
1 163
3 714
8 083
9 486
4 762

1 263

29 496

1 017

28 596

664

27 856

545

27 470

Source : INSEE.

1. Dfinir la population, lunit statistique, le caractre tudi et sa nature.


2. Calculez, en pourcentage, les taux annuels moyens de variation du nombre des
exploitations agricoles de 1979 1988, de 1988 2000, de 2000 2005.
Exprimez le taux annuel moyen de variation de 1979 2005 en fonction de ces
3 taux, de quel type de moyenne sagit-il ?
Calculez sa valeur.
3. Pour les annes 1979, 1988, 2000 et 2005, calculez la SAU moyenne et la SAU
moyenne des exploitations de 50 ha ou plus.
4. Pour lanne 2005, reprsentez lhistogramme de la distribution des exploitations
agricoles, ainsi que la courbe de concentration de la SAU.

46

INTRODUCTION LA MTHODE STATISTIQUE

P047-066-9782100549412.fm Page 47 Jeudi, 18. novembre 2010 12:03 12

2. I ndices statistiques
P

Dunod. La photocopie non autorise est un dlit.

our ltude des problmes conomiques et sociaux, on a souvent


besoin de dcrire les variations de grandeurs simples telles que
le prix du baril de ptrole, la production de bl, le taux de
fcondit Ces comparaisons dans le temps (ou dans lespace) se font
gnralement en effectuant le rapport des valeurs de la grandeur considre deux dates diffrentes (ou en deux lieux distincts)
; on parle
dindice statistique lmentaire.
Mais, il est important dtre en mesure de suivre les volutions de grandeurs complexes telles que le niveau gnral des prix, la production
industrielle, les exportations Celles-ci peuvent tre rsumes par une
caractrisque de tendance centrale dindices lmentaires, ce qui amne
la construction d indices synthtiques.
Toute caractristique de tendance centrale, notamment les diffrents types
de moyennes, prsentant la fois des avantages et des inconvnients, il
nest pas possible de proposer une mthode unique de construction des
indices synthtiques. Il existe diffrentes formules. On va exposer les plus
utilises.
De par limportance que revtent ces indicateurs dvolution dans les discussions conomiques et politiques, il est ncessaire de bien comprendre
leur laboration, danalyser leurs modes de construction et dtudier
leurs proprits.

I.

Indices lmentaires

A. Dfinition
On appelle indice lmentaire de la grandeur simple x la date (ou priode)
t, dite date courante , par rapport la date 0, dite
date de rfrence , le
rapport :
x
I t 0 ( x ) = ----t
x0

INDICES STATISTIQUES

47

P047-066-9782100549412.fm Page 48 Jeudi, 18. novembre 2010 12:03 12

On a lhabitude, pour viter de traiter des valeurs dindice avec trop de


chiffres aprs la virgule de multiplier le rsultat par 100 et de laisser un chiffre aprs la virgule. Une variation ngative est repre par une valeur infrieure 100.

 Exemple

La population de la France mtropolitaine est passe de 53 731 milliers


dhabitants au 1 er janvier 1980 56
577 milliers dhabitants au
1er janvier 1990 et 58 749 milliers dhabitants au 1 er janvier 2000
(source : Tableaux de lconomie franaise 2003-2004, INSEE) :
56 577
I 1990 1980 ( P ) = 100 ---------------- 105, 3
53 731
58 749
I 2000 1980 ( P ) = 100 ---------------- 109, 3
53 731
La population franaise a augment de 5,3 % de 1980 1990 et de
9,3 % de 1980 2000.

B. Proprits
1) Circularit (ou transitivit ou transfrabilit)
I t 0 ( x ) = I t t ( x ) I t 0 ( x )
Cette formule permet de changer de base en passant de la date de rfrence 0 la date de rfrence t :
I t 0( x)
I t t ( x ) = ---------------I t 0 ( x )
Lutilisateur a en effet souvent besoin de mesurer lvolution dune grandeur entre deux dates diffrentes de la date de rfrence.
De cette proprit, rsulte la proprit denchanement :
I t 0( x) = I t t 1( x) I 1 0( x)

2) Rversibilit
1
I 0 t ( x ) = --------------I t 0( x)
Cette proprit est intressante dans le cas de comparaison gographique,
car le choix du lieu de rfrence est arbitraire.

48

INTRODUCTION LA MTHODE STATISTIQUE

P047-066-9782100549412.fm Page 49 Jeudi, 18. novembre 2010 12:03 12

3) Multiplication
Si une grandeur simple z est le produit de deux grandeurs x et y, lindice
lmentaire de la grandeur produit est gal au produit des indices des grandeurs facteurs :
quel que soit t : zt = xt yt It/0(z) = It/0(x) It/0(y)
Cas particulier fondamental :
Valeur = Prix Quantit

ou encore :

Dpense = Prix Volume

Cette galit entrane :


Indice lmentaire de valeur =
Indice lmentaire de prix Indice lmentaire de quantit
Ces proprits immdiates dun indice lmentaire ne sont gnralement
pas satisfaites par un indice synthtique.

II. Indices synthtiques


Les indices lmentaires retracent lvolution dune seule grandeur parfaitement dfinie et homogne.

Dunod. La photocopie non autorise est un dlit.

Mais, le plus souvent, lconomiste ou le dirigeant dentreprise, si ce nest


le citoyen dsire suivre les variations de grandeurs complexes telles que les
prix, la production industrielle
Ces grandeurs complexes sont composes dun nombre plus ou moins
important de grandeurs simples dont lvolution est dcrite par un indice lmentaire.
On appelle indice synthtique, un indice faisant intervenir dans son calcul
plusieurs grandeurs intressant un mme phnomne conomique. Ce type
dindice rsulte dun calcul de moyenne .
Il est impossible de proposer une mthode unique et incontestable permettant de dcrire lvolution dune grandeur complexe.
Les indices synthtiques ont linconvnient de ne pas prsenter gnralement les proprits de circularit et rversibilit. Or, ces proprits seraient
trs utiles au calcul conomique ; les changements de base et les raccordements dindices ne peuvent tre effectus de faon rigoureuse que sur des
indices possdant la proprit de circularit.

INDICES STATISTIQUES

49

P047-066-9782100549412.fm Page 50 Jeudi, 18. novembre 2010 12:03 12

A. Indices synthtiques de Laspeyres et Paasche :


premires formules

Soient deux dates 0 et t, la situation chaque date est caractrise par les quantits
disponibles de n biens physiques htrognes q 0i (i = 1, 2, , n) respectivement
q ti non sommables, le prix de chaque unit tant p 0i respectivement p ti
Seules les valeurs des divers biens sont sommables . On peut dfinir un
indice lmentaire de valeur
qui retrace lvolution de la valeur sous
linfluence simultane des variations de prix et de quantit :
Vt 0

p ti q ti
vt
i
= ---- = -----------------v0
p 0i q 0i

Pour sparer les deux influences et chiffrer les variations moyennes


des prix et celles des quantits, il est ncessaire de recourir des indices synthtiques. Le problme est de dcomposer la variation entre la situation 0 et
la situation t en ce qui est d la variation des prix et en ce qui est d la
variation des quantits vendues.
Premire ide :
Quelle aurait t la recette (ou la dpense) si les prix tant rests ce quils taient
la date 0, les ventes (ou les achats) avaient t celles (ou ceux) de la date t ?
Cela revient mesurer seulement leffet de la variation des quantits :

p q
i
0

i
t

i
L t 0 ( q ) = -----------------p 0i q 0i

On dfinit t 0 (p) tel que :

p q

i i
t t

V t 0 = Lt 0 ( q ) t 0 ( p )

i
t 0 ( p ) = ----------------p 0i q ti

On peut aussi proposer l autre solution suivante :

p q p q
i i
t 0

i i
t t

i
i
- ----------------V t 0 = L t 0 ( p ) t 0 ( q ) = -----------------i i
p0 q0
p ti q 0i

50

INTRODUCTION LA MTHODE STATISTIQUE

P047-066-9782100549412.fm Page 51 Jeudi, 18. novembre 2010 12:03 12

L(p) et L(q) sont les indices de Laspeyres des prix et des quantits, (p)
et (q) sont les indices de Paasche des prix et des quantits 1.
Essayons dexprimer littrairement la diffrence entre lindice de Laspeyres et lindice de Paasche. Pour un indice des prix par exemple :
indice de Laspeyres : on fige le panier2 dans sa composition de la
priode de base et on compare la valeur quil aurait la priode courante
avec sa valeur relle la priode de base ;
indice de Paasche : on fige le panier dans sa composition de la priode
courante, on calcule rtrospectivement ce quaurait t sa valeur la
priode de base et on la compare avec sa valeur actuelle.

B. Formules dveloppes
1) Indice de Laspeyres

i i
0 pt

i
L t 0 ( p ) = ------------------=
q 0i p 0i

q 0i p 0i . p ti
------------------ -----i
q 0i p 0i p 0

q 0i p 0i
q 0i p 0i
La pondration k 0i = ------------------ = ---------- sinterprte dans un indice des prix
v0
q 0i p 0i

Dunod. La photocopie non autorise est un dlit.

de dtail, comme le coefficient budgtaire (structure de valeurs) du produit


i , cest--dire la part de dpense totale qui lui est consacre, la priode
de base. On constate que la somme de ces pondrations est gale 1. Lindice
de Laspeyres des prix apparat comme une moyenne arithmtique pondre
des indices lmentaires des prix des biens individuels.
On montre de mme :

p q
i
0

i
t

I
- =
L t 0 ( q ) = -----------------p 0i q 0i

p 0i q 0i . q ti
------------------ -----i
p 0i q 0i q 0

1. tienne Laspeyres (conomiste et statisticien allemand dorigine franaise) et Hermann


Paasche (statisticien allemand) proposrent ces formules respectivement en 1864 et 1874.
2. Panier : expression INSEE, le panier par rapport celui de la mnagre a la particularit
de contenir aussi des services immatriels (tickets dautobus, mois de loyer, biens durables
comme appareils mnagers).

INDICES STATISTIQUES

51

P047-066-9782100549412.fm Page 52 Jeudi, 18. novembre 2010 12:03 12

Ces formules dveloppes apparemment plus compliques que les premires, sont plus pratiques appliquer ; cest sous cette dernire forme que
les instituts de statistique calculent les indices de Laspeyres, les plus frquemment utiliss. Ils dterminent dabord les coefficients de pondration,
structure des valeurs de la priode de base, et les appliquent aux indices
lmentaires de prix ou de quantits relevs mois aprs mois.

2) Indice de Paasche

q p
i
t

i
t

q p
i
t

i
t

i
i
t 0 ( p ) = ----------------- = ---------------------------p 0i
i i
q ti p 0i
q t p t . -----i
pt
i
i

1
------------------- =
t 0 ( p )

q ti p ti p 0i
---------------- -----i
q ti p it p t

Lindice de Paasche des prix ou des quantits est la moyenne harmonique


des indices lmentaires (de prix et de quantits) pondre par les structures
de valeurs de la priode courante.

C. Comparaison des indices de Laspeyres et de Paasche


On sait que la moyenne harmonique est infrieure la moyenne arithmtique,
mais on ne peut comparer les indices de Laspeyres et de Paasche que si les
coefficients de pondration sont les mmes.
Lindice de Paasche est souvent plus petit que lindice de Laspeyres. En
effet, si les coefficients ne changeaient pas entre la date de base et la date
courante, lindice de Paasche, moyenne harmonique, serait infrieur celui
de Laspeyres qui est une moyenne arithmtique. Pour que lindice de Paasche
dpasse lindice de Laspeyres, il faut que les pondrations des indices
lmentaires tendent se modifier dans le sens dun accroissement pour ceux
qui sont levs, et dune diminution pour ceux qui sont faibles.
Conformment la loi conomique de loffre et de la demande, les consommateurs ont tendance acheter moins lorsque les prix sont levs et acheter
davantage quand les prix baissent. Ce phnomne, appel parfois la demande
lastique, nest valable que dans le cas o les biens ne servent pas de faon
essentielle.
Dans le cas de lindice de Laspeyres, le numrateur

q
i

i i
0 pt

(cf. premi-

res formules) est un peu plus fort quil ne devrait ltre, car, conformment
la loi de loffre et de la demande, les consommateurs ont tendance acheter

52

INTRODUCTION LA MTHODE STATISTIQUE

P047-066-9782100549412.fm Page 53 Jeudi, 18. novembre 2010 12:03 12

moins de biens de prix levs et davantage de biens bon march. Il en rsulte


que le cot total sera infrieur celui donn par

i i
0 pt .

Ainsi, l indice de

Laspeyres a tendance survaluer une hausse.


Dans le cas de lindice de Paasche, les rles jous par les quantits consommes pendant lanne de rfrence et les quantits consommes pendant
lanne considre sont diamtralement opposs de ceux jous par ces mmes
quantits dans le cas de lindice de Laspeyres. Lindice de Paasche a donc tendance sous-valuer une hausse.

 Exemple

Entre janvier 2006 et janvier 2010, lvolution des prix et du nombre


dexemplaires de journaux vendus en un mois par une socit de presse
ditant trois journaux mensuels A, B et C a t la suivante :
Janvier 2006

Janvier 2010

Prix (en euros)

Quantit

Prix (en euros)

Quantit

Journal A

2,5

8 000

6 500

Journal B

4 000

4,5

5 000

Journal C

2 000

1 500

i) La variation des recettes de la socit de presse entre janvier 2006 et


janvier 2010 est de 10,9 %, en effet :

Dunod. La photocopie non autorise est un dlit.

51 000
V 2010 2006 100 = ---------------- 100 110,9
46 000
ii) Cette variation fait intervenir un effet-quantit et un effet-prix quon
peut valuer en calculant les indices des prix et des quantits de
Laspeyres et de Paasche :
L2010/2006(p) = 117,4 2010/2006(p) = 116,6

L2010/2006(p) > 2010/2006(p)


L2010/2006(q) = 95,1
2010/2006(q) = 94,4

L2010/2006(q) > 2010/2006(q)


iii) La variation de la valeur globale peut tre dcompose en ses deux
effets prix et quantit. En effet, partir de la formule :
V2010/2006 = L2010/2006(p) 2010/2006(q) = L2010/2006(q) 2010/2006(p)

INDICES STATISTIQUES

53

P047-066-9782100549412.fm Page 54 Jeudi, 18. novembre 2010 12:03 12

On peut tablir le schma de dcomposition donn la figure 2.1.


Prix constants

i
i
2010 p 2006

= 43 750

Effet volume
4,9 %

Effet prix
16,6 %

Valeur (janvier 2006)

Valeur (janvier 2010)

i
i
q 2006
p 2006

= 46 000 Effet valeur


10,9 %

i
i
2010 p 2010

= 51 000

Effet prix
17,4 %

Effet volume
5,5 %
Quantits constantes

i
i
2006 p 2010

= 54 000

Figure 2.1 Schma de dcomposition de lvolution dun indice de valeur

D. Indice de Fisher
Cet indice a t construit la suite de la recherche dun indice idal.
Dfinition

Ft 0( p) =

Lt 0 ( p ) t 0 ( p )

Cette dfinition provient du dveloppement suivant :


Vt/0 = Lt/0(p) t/0(q) = Lt/0(q) t/0(p)
Les indices de Laspeyres et de Paasche tant des nombres positifs, on
peut crire :
V t2 0 = L t 0 ( p ) t 0 ( p ) L t 0 ( q ) t 0 ( q ) V t 0 = F t 0 ( p ) F t 0 ( q )
Moyenne gomtrique des indices de Laspeyres et de Paasche, la valeur
de lindice de Fisher est comprise entre les valeurs de ces deux indices.
Comme lindice de Laspeyres a tendance surestimer une hausse de
prix, tandis que lindice de Paasche a tendance la sous-estimer, on en
dduit que lindice de Fisher doit donner une meilleure estimation dune
hausse des prix.

54

INTRODUCTION LA MTHODE STATISTIQUE

P047-066-9782100549412.fm Page 55 Jeudi, 18. novembre 2010 12:03 12

E. Proprits des indices de Fisher, Laspeyres et Paasche


Les indices de Laspeyres et de Paasche ne sont pas rversibles, mais :
1
t 0 = --------L0 t

t 0 L0 t = 1

Dunod. La photocopie non autorise est un dlit.

Lindice de Fisher est donc rversible, ce qui en fait un outil privilgi


dans les comparaisons gographiques.
Ces trois indices ne sont pas transitifs.
Agrgation
Les indices de Laspeyres et de Paasche ont des structures de moyenne. On
peut calculer la moyenne arithmtique dun ensemble partir des moyennes des
sous-ensembles qui le composent. Il en rsulte que lindice de Laspeyres (resp.
de Paasche) dun ensemble peut sobtenir partir des indices des groupes formant cet ensemble en leur appliquant la formule de Laspeyres (resp. de Paasche).
Les 303 postes de dpenses, rpartis en 159 groupes, servant aux calculs
des indices actuels des prix la consommation, base 100 en 1998, font lobjet
de regroupements en 12 fonctions (ex : 01 produits alimentaires et boissons
non alcoolises) et 37 sous-fonctions (ex : 01.1 produits alimentaires) 1. Cest
la formule de Laspeyres qui est utilise. On commence par calculer lindice
de Laspeyres de chacun des regroupements. On obtient ensuite lindice
densemble en appliquant nouveau la formule de Laspeyres ces sous-indices, avec des coefficients de pondration gaux aux parts de chacun des
regroupements dans la valeur de la consommation totale. Cette proprit permet de publier non seulement un indice global, mais aussi des sous-indices
correspondant aux groupes et sous-groupes.
Qualit

Laspeyres

Paasche

Fisher

Rversibilit

non

non

oui

1
mais : L 0 t = ----------t 0

1
mais : 0 t = ---------Lt 0

Transitivit

non

non

non

Agrgation

oui

oui

non

Emploi

couramment utilis

peu utilis

quasiment
inusit

1. Le nouvel indice des prix la consommation, anne de base 1998 , Bulletin Mensuel de
la Statistique, n 2-1999, INSEE.

INDICES STATISTIQUES

55

P047-066-9782100549412.fm Page 56 Jeudi, 18. novembre 2010 12:03 12

F. Utilisation de ces trois indices


Lindice de Laspeyres est le plus commode utiliser ; la plupart des indices
courants tablis par les instituts du monde entier sont du type Laspeyres .
Lindice de Paasche, symtrique de celui de Laspeyres quant sa signification, prsente des inconvnients pratiques cause de la mise jour permanente de ses pondrations. Il nest, de ce fait, pas utilis dans le calcul direct
des indices courants. Son calcul est nanmoins intressant pour obtenir avec
lindice de Laspeyres une fourchette destimation.
Lindice de Fisher est quasiment inusit, car son calcul ne peut pas se faire
par agrgation progressive.
Lorsquon divise un indice de valeur par un indice de Laspeyres de prix
(resp. de quantits), on obtient un indice de Paasche de quantits (resp. de
prix). Si on dflate1 lindice rendant compte de lvolution de la masse salariale (indice de valeur) par un indice de Laspeyres des prix (se rapportant
videmment aux mmes dates), on obtient un indice de pouvoir dachat de la
masse salariale qui est un indice de Paasche des quantits consommables.
On dispose assez souvent de sries de valeur totale
: chiffre daffaire,
montant des investissements Pour obtenir les indices de volume correspondants reprsentatifs de lvolution relle compte tenu des variations des prix,
il faut diviser les indices de valeur par les indices de prix correspondants.
Mais, on nobtient pas un indice de Paasche de volume puisque lindice des
prix utilis en France et dans la plupart des pays trangers nest pas un
indice de Laspeyres, mais un indice-chane de Laspeyres.

III. Indices-chanes
A. Raccord dindices
Les indices ont une dure de vie limite en raison de lvolution des structures
conomiques. Lorsquon veut dcrire lvolution dune grandeur complexe
1. Dflater : annuler la hausse due leffet de linflation.
La dflation du revenu nominal par lindice des prix la consommation permet de raisonner
en revenus constants en vitant lillusion montaire, et de comparer les niveaux de vie des
priodes diffrentes sans tenir compte dune augmentation du revenu ne compensant que la
hausse des prix.

56

INTRODUCTION LA MTHODE STATISTIQUE

P047-066-9782100549412.fm Page 57 Jeudi, 18. novembre 2010 12:03 12

sur une longue priode, on est amen se poser le problme du raccord de


deux sries dindices synthtiques conscutives.
Soit un indice I, base 100 la date 0, calcul jusqu la date t o il a t
remplac par un indice I*. La valeur de I une date t postrieure la date t
svalue en multipliant lindice I*t/t par lindice It/0 :
It/0 = I*t/t It/0
Cette formule, obtenu par un raccord dindice, nest quune approximation, car:
les indices synthtiques ne possdent pas la proprit de circularit ;
il est frquent que les indices I et I* naient ni le mme champ, ni la
mme composition (changement du nombre darticles d lintroduction
de produits nouveaux).

Dunod. La photocopie non autorise est un dlit.

B. Les indices-chanes
Pour valuer lvolution dune grandeur complexe sur une longue priode,
lemploi de la formule de Laspeyres prsente un inconvnient, car la pondration vieillit. Les prfrences des consommateurs comme les procds
auxquels recourent les producteurs se modifient : les articles choisis pour
reprsenter lvolution de certaines catgories de biens cessent dtre bien
adapts cet objectif et les pondrations de la priode de base et de la priode
courante deviennent trop diffrentes pour que la comparaison reste valable.
On a donc propos de calculer des indices dont la base changerait chaque priode.
Mais, comment comparer alors la situation entre deux dates o ont t calculs deux ou plusieurs indices ayant des bases diffrentes ? On adopte une solution
parfaitement empirique : le raccordement entre ces indices intermdiaires.
Les indices-chanes rsultent de la gnralisation de lopration de raccord de deux indices. Ce sont des indices dfinis partir du produit des indices ayant pour base lanne prcdente. Lindice-chane de Laspeyres est un
produit dindices de Laspeyres, mais nest pas un indice de Laspeyres :
t

CL t 0 =

ii1

CL t 0 = L t t 1 CL t 1 0

i=1

On dfinit de mme lindice-chane de Paasche.


Lindice-chane permet, mieux que les indices de Laspeyres ou de Paasche, de suivre lvolution de la grandeur tudie entre deux dates successives.
Si chaque maillon est calcul selon la formule de Laspeyres :
CL t 0
------------------ = Lt t 1
CL t 1 0

alors que :

Lt 0
------------- Lt t 1
Lt 1 0

INDICES STATISTIQUES

57

P047-066-9782100549412.fm Page 58 Jeudi, 18. novembre 2010 12:03 12

On est donc dans dexcellentes conditions pour comparer deux priodes


successives.
On a la mme proprit si chaque maillon est un indice de Paasche. Par contre:
toute erreur sur lun des lments de la chane se retrouve dans tous les
indices suivants ;
lindice obtenu na pas une signification bien prcise, le rsultat dpendant des modifications des pondrations dune priode lautre.
Un indice-chane sera donc moins bien adapt quun indice de Laspeyres
ou de Paasche pour tudier les variations survenues depuis la priode de base.

C. Indices publis par lINSEE


Les principaux indices publis par lINSEE 1 sont les suivants :
indices des prix : prix la consommation, prix de gros ;
indices du commerce extrieur ;
indices de la production industrielle ;
indices boursiers
Les indices des prix la consommation des mnages (IPC) calculs par
lINSEE sont des indices-chanes de Laspeyres. LINSEE publie chaque
mois plusieurs indices des prix, base 1998. Lindice des mnages urbains
dont le chef est ouvrier ou employ (mtropole et DOM) sert, dans sa version
hors tabac , lindexation du SMIC. Les autres indices concernant
lensemble des mnages ont un usage conomique dans leur version y compris tabac et un usage indexation dans leur version hors tabac .
Lindice des prix la consommation harmonis (IPCH) sert aux comparaisons internationales.

IV. Traitement statistique des indices


Pour reprsenter certains phnomnes, on peut tre amen graduer les axes
selon des chelles particulires. Le papier semi-logarithmique est particulirement adapt certains types de sries chronologiques, et les sries conomiques sont souvent des sries dindices.
1. www.insee.fr/fr/themes

58

INTRODUCTION LA MTHODE STATISTIQUE

P047-066-9782100549412.fm Page 59 Jeudi, 18. novembre 2010 12:03 12

A. chelle logarithmique
Le papier semi-logarithmique comporte un axe des abscisses chelle arithmtique et un axe des ordonnes chelle logarithmique. Sur laxe des abscisses, on peut choisir lorigine et une unit de longueur quelconque. Mais
pour laxe des ordonnes, on utilise une chelle logarithmique ; la place des
nombres est fixe par leur logarithme dcimal (cf. figure 2.2) :
Nombre

10

log

0,301

0,477

0,602

0,699

0,778

0,845

0,903

0,954

chelle
arithmtique
1

chelle
logarithmique
10
9
8
7

x 10

x 100

100
90
80
70

1000
900
800
700

0,8

60

600

0,7

50

500

0,6

40

400

0,5

30

300

20

200

10

100

0,9

0,4
0,3
0,2

Dunod. La photocopie non autorise est un dlit.

0,1
0

Figure 2.2 Construction dune chelle logarithmique

Sur une chelle logarithmique, la distance sparant deux multiples successifs de dix est toujours la mme puisque :
log 10 k log 10 k 1 = log 10

log 10k + 1 log 10 k = log 10

Lintervalle entre deux puissances successives de 10 sappelle un module


et lintrieur dun module, la place des nombres est donc fixe par leur
logarithme dcimal (cf. figures 2.2 et 2.4).

INDICES STATISTIQUES

59

P047-066-9782100549412.fm Page 60 Jeudi, 18. novembre 2010 12:03 12

Les papiers semi-logarithmiques ont habituellement 2, 3 ou 4 modules ;


un papier trois modules permet de reprsenter des sries temporelles xt dont
le rapport entre la plus grande et la plus petite valeur est au plus de 10 3. Les
reprsentations graphiques des logiciels usuels (Excel ) offrent directement la possibilit dutiliser les chelles logarithmiques.

B. Proprits dun graphique ordonne logarithmique


Une grandeur dont le taux daccroissement (ou de diminution) est constant
sur des laps de temps gaux a son volution reprsente sur du papier
ordonne logarithmique par une suite de points aligns (cf. figure 2.3).
En effet, si une grandeur x a un taux de variation annuel i constant, la
valeur x0 de x la date initiale prend, aprs t annes, la valeur xt telle que :
xt = x0 (1 + i)t log xt = log x0 + t log(1 + i)
xt = (1 + 0,5)t

log xt

10

8
7
6
5
4
3
2
1
0

1
2
3
4
Ordonne arithmtique

1
2
3
4
Ordonne logarithmique

Figure 2.3 Grandeur taux de croissance annuel constant

Une reprsentation avec une ordonne logarithmique permet :


la dtermination graphique du rapport entre deux valeurs de la variable
pour en dduire le taux de variation entre les deux dates considres ; une
diffrence de logarithme reprsentant un rapport, celui-ci est gal la diffrence des ordonnes entre les deux valeurs de la variable ;
la dtermination graphique du taux moyen de variation i, la pente de
la droite joignant les deux points extrmes ( cf. figure 2.4a) tant gale
(1 + i) ;
la comparaison graphique entre les taux de variation de deux grandeurs
reprsentes sur le mme graphique ordonne logarithmique ; deux droites parallles indiquent des taux de variation gaux ;
la reprsentation des sries aux variations importantes puiquavec quatre modules, on peut reprsenter une srie variant de 1 10 4.

60

INTRODUCTION LA MTHODE STATISTIQUE

P047-066-9782100549412.fm Page 61 Jeudi, 18. novembre 2010 12:03 12

V. Bilan
Un indice nest ni parfait, ni rigoureux, ni parfaitement reprsentatif ; en fait,
il existe autant dindices que le statisticien veut en construire, et chacun a la
signification qui rsulte de son calcul mme. Parmi tous ces indices, lconomiste choisira celui qui lui parat le mieux correspondre lusage quil
veut en faire.
Pour construire un indice synthtique, on est amen faire quatre choix :
deux choix dordre conomique :
choix des grandeurs entrant dans la composition de lindice,
choix de la priode de rfrence ;

Dunod. La photocopie non autorise est un dlit.

deux choix dordre statistique :


choix de la moyenne utiliser pour le calcul de lindice partir des
grandeurs composantes,
choix de la pondration appliquer aux valeurs des grandeurs afin de
tenir compte de leur importance relative.

INDICES STATISTIQUES

61

P047-066-9782100549412.fm Page 62 Jeudi, 18. novembre 2010 12:03 12

Testez-vous (les rponses sont donnes page 284)


Il y a au moins une rponse exacte par question.
1. Lindice de Laspeyres des prix est :
a) un indice des dpenses
b) une moyenne arithmtique dindices lmentaires
c) lindice des prix actuellement calcul par lINSEE
d) sexprime dans une unit montaire
2. Lindice de Paasche est :
a) nest pas un indice des prix
b) transitif
c) une moyenne harmonique dindices lmentaires
d) au plus gal lindice de Laspeyres
3. Un indice des dpenses est :
a) un indice de valeur
b) rversible
c) transitif
d) un indice de prix
4. Une grandeur mesure tous les ans :
a) est reprsente sur un papier semi-logarithmique par une suite de points aligns si
le taux annuel de variation est constant
b) a un taux annuel moyen de variation qui peut tre dtermin graphiquement
c) a un taux annuel moyen de variation gal la moyenne arithmtique des taux
annuels de variation
d) est reprsente sur un papier chelles arithmtiques par une suite de points aligns si laccroissement annuel est constant
5. Les taux annuels moyens de croissance du PIB en volume en France ont t
les suivants de 1997 2002
(source : Tableaux de lconomie franaise ,
INSEE) :
Anne
Taux annuel moyen de croissance (en %)

1997 1998 1999 2000 2001 2002


2,0

3,2

2,9

3,8

2,1

1,2

a) le taux de croissance sur les cinq annes est la somme des cinq taux de croissance
b) le taux annuel moyen de croissance sur la priode 1997 2002 est gal la
moyenne arithmtique des taux annuels moyens de croissance
c) le taux annuel moyen de croissance sur la priode 1997 2002 se calcule laide
dune moyenne gomtrique
d) pour la priode 1999 2001, le taux de croissance du PIB en volume a t de 9 %

62

INTRODUCTION LA MTHODE STATISTIQUE

P047-066-9782100549412.fm Page 63 Jeudi, 18. novembre 2010 12:03 12

Exercices (corrigs page 297)


Exercice 2.1
Une entreprise utilise pour ses fabrications trois types de matires premires qui sont
notes respectivement A, B et C.
En 2000 et 2004, les prix observs et les quantits achetes par cette entreprise ont
t les suivants :
Matires
premires

Prix par tonne


en euros 2000

A
B
C

800
500
600

Quantits achetes
Quantits achetes
Prix par tonne
en tonnes
en tonnes
en euros 2004
en 2000
en 2004
10
4
5

900
700
600

6
4
8

Dunod. La photocopie non autorise est un dlit.

1. Calculez les indices lmentaires rendant compte de lvolution des prix de chacune des matires premires entre 2000 et 2004.
2. Calculez la moyenne arithmtique des indices lmentaires prcdents pondre
par la part des dpenses engages par lentreprise pour chacune de ces matires
premires en 2000. De quel indice sagit-il ?
3. Effectuez le mme calcul pour rendre compte de lvolution des quantits entre
2000 et 2004.
4. Calculez lindice mesurant lvolution globale des dpenses de matires premires
entre 2000 et 2004.
5. Dterminez, en utilisant les rsultats des questions prcdentes, les taux de variation (exprims en pourcentage) des prix, des quantits et de la dpense totale.
Comment sexplique lvolution de la dpense totale ?
Exercice 2.2
Entre 1980 et 2000, les quantits de sel extraites dune mine ont t multiplies par
1,5 entre 1980 et 1985, sont passes de lindice 130 en 1985 lindice 168 en 1992
avant daugmenter de 6 % par an entre 1992 et 2000.
1. Quel est le taux annuel moyen de variation des quantits de sel extraites entre
1980 et 2000 ?
2. Au cours de la mme priode, le taux de variation annuel moyen du prix du sel a
t de 5 %. Quelle est la valeur de lindice du chiffre daffaire en 2000, base
1980 ?

INDICES STATISTIQUES

63

P047-066-9782100549412.fm Page 64 Jeudi, 18. novembre 2010 12:03 12

Exercice 2.3
Ce tableau donne les indices trimestriels des salaires horaires de base de lensemble
des ouvriers (secteurs non agricoles), base 100 au 4e trimestre 2008. La srie est rtropole depuis le 4 e trimestre 1998 (Source : INSEE) :
1999

2000

2001

2002

2003

31 mars

72,3

76,1

79,4

82,5

84,8

30 juin

72,8

76,8

80

83

85,3

30 septembre

73,7

77,6

80,8

83,7

86,1

31 dcembre

74,4

78,1

81,3

84,1

86,4

2004

2005

2006

2007

2008

2009

31 mars

87,1

89,7

92,5

95,2

97,9

100,8

30 juin

87,6

90,2

93,1

95,8

99

101,2

30 septembre

88,6

91,4

94

96,6

99,7

101,7

31 dcembre

88,9

91,8

94,3

97

100

Sachant que cet indice vaut 71,9 au 31 dcembre 1998, calculez le taux trimestriel
moyen de croissance entre le 31 dcembre 1998 et le 30 septembre 2009, et le taux
annuel moyen de croissance entre le 31 dcembre 1998 et le 31 dcembre 2008.
Exercice 2.4
Le tableau suivant est un extrait du tableau Production et valeur ajoute de lagriculture :
2008

2008/2007 en %

En Mds
deuros

Volume

Prix

Valeur

38,2

3,6

0,3

Crales

10,7

19,2

21,3

6,2

Olagineux, protagineux

2,4

4,8

3,2

Betteraves industrielles

0,8

7,2

3,4

10,3

Autres plantes industrielles*

0,3

2,9

13,5

10,3

Fruits, lgumes, pommes de terre

7,4

3,1

6,3

3,0

Vins

9,4

3,7

2,1

Fourrages, plantes, fleurs

7,4

1,2

9,7

8,4

Produits vgtaux

* Tabac, lin textile, houblon, canne sucre, etc.


Source : Tableaux de lconomie franaise, dition 2010.

64

INTRODUCTION LA MTHODE STATISTIQUE

P047-066-9782100549412.fm Page 65 Jeudi, 18. novembre 2010 12:03 12

1. Donnez lindice de valeur de la production des Produits vgtaux en 2008,


base 100 en 2007. Mme question pour
Olagineux, protagineux et pour
Vins .
2. Calculez lvolution 2008/2007 (en pourcentage) des prix la production des
Produits vgtaux . Mme question pour Olagineux, protagineux .
3. Calculez lvolution 2008/2007 (en pourcentage) du volume de la production des
Vins .
4. Commentez les rsultats obtenus.
Exercice 2.5

Dunod. La photocopie non autorise est un dlit.

Considrons la consommation mdicale totale en France (en milliards deuros courants) de 1970 2000 ( Source : Tableaux de l'conomie franaise , INSEE).
Anne

CM
(milliards
d'euros)

Anne

CM
(milliards
d'euros)

7,516

1981

35,399

1991

87,430

1972

8,568

1982

41,146

1992

93,482

1973

9,833

1983

46,848

1993

98,665

1974

11,586

1984

52,000

1994

101,866

1975

14,452

1985

57,046

1995

106,257

1976

16,815

1986

61,711

1996

109,245

1977

18,812

1987

64,776

1997

111,059

1978

22,547

1988

70,447

1998

112,731

1979

26,084

1989

76,377

1999

117,093

1980

30,215

1990

81,911

2000

123,545

Anne

CM
(milliards
d'euros)

1970

6,494

1971

1. Calculez la variation relative (en


et 2000.

%) de la consommation mdicale entre

1970

2. Calculez la srie des indices de la consommation mdicale base 1970.


3. Reprsentez la srie des indices sur un graphique ordonne logarithmique, et
calculez le taux annuel de croissance de cet indice pendant la priode 1970-1982.
4. Reprsentez la srie des indices sur un graphique ordonne arithmtique, et calculez laugmentation annuelle moyenne entre 1982 et 2000.
5. tude de lvolution de lindice en volume :

sachant que lindice des prix I82/70 est gal 318,7, calculez la variation de
lindice en volume entre 1970 et 1982, et en dduire le taux annuel moyen de
variation de cet indice entre 1970 et 1982 ;

INDICES STATISTIQUES

65

P047-066-9782100549412.fm Page 66 Jeudi, 18. novembre 2010 12:03 12

sachant quon utilise le coefficient de raccordement 1 de 5,584 pour calculer un


prix en 2000 partir dun prix en 1970, calculez le taux annuel moyen de croissance de lindice en volume entre 1982 et 2000.
6. Conclusion.

1. http://www.insee.fr/fr/indicateur/achatfranc.htm

66

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 67 Mercredi, 24. novembre 2010 9:53 09

3. Distributions

statistiques
deux caractres

Dunod. La photocopie non autorise est un dlit.

orsque les observations portent simultanment sur deux caractres, et lorsquelles sont trop nombreuses pour quon les cite une
tableau double
une, on les prsente sous la forme dun
entre. On dfinit alors la distribution conjointe, les distributions marginales et les distributions conditionnelles. Ltude de la distribution de
deux variables se pousuit par celle de leur liaison.
Ltude de la liaison entre les variables observes, appele communment ltude des corrlations, dpend de leur nature. On envisagera les
trois cas suivants : deux variables quantitatives, une variable quantitative
. Lorsque le
et une variable qualitative, deux variables qualitatives
domaine de variation dune variable quantitative a t dcoup en classes et que les observations sont prsentes dans un tableau double
entre, alors cette variable peut tre traite comme une variable qualitative et dans ce cas, on a plusieurs mthodes pour ltude de la liaison.

I.

Distributions statistiques deux variables

A. Distribution conjointe
Dsignons par X et Y les deux variables qui peuvent tre qualitatives ou quantitatives, et qui peuvent ne pas tre de mme nature. Les
k modalits de X
sont dsignes par x1 , , x i , , x k ; les l modalits de Y sont dsignes par
y1, , y j , , y l . La ie modalit dune variable dsigne le centre de la ie classe
dans le cas dune variable quantitative continue.

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

67

P067-102-9782100549412.fm Page 68 Mercredi, 24. novembre 2010 9:53 09

La rpartition des n observations, ou distribution conjointe , suivant les


modalits de X et Y se prsente sous forme dun tableau double entre,
appele tableau de contingence (cf. tableaux 3.1 et 3.2).
Tableau 3.1 Tableau de contingence : distribution conjointe de deux variables X et Y
Modalit de Y

y1

yj

yl

Total

x1
.
.
.
xi
.
.
.
xk

n 11
.
.
.
n i1
.
.
.
n k1

.
.
.

.
.
.

n1 j
.
.
.
n ij
.
.
.
n kj

.
.
.

.
.
.

n 1l
.
.
.
n il
.
.
.
n kl

n 1
.
.
.
n i
.
.
.
n k

Total

n 1

n j

n l

Modalit de X

Tableau 3.2 Exemple de tableau de contingence : distribution des notes de 100 tudiants
une preuve dun concours selon leur filire dorigine
Classe de notes Y

[0 ; 6[
3

[6 ; 10[
8

[10 ; 14[
12

[14 ; 20]
17

Total

Filire A
Filire B
Filire C
Filire D

26
12
1
10

6
9
4
8

4
3
5
3

1
1
6
1

37
25
16
22

Total

49

27

15

100

Filire dorigine X

Leffectif nij dsigne le nombre de fois o la modalit xi de la variable X


et la modalit yj de la variable Y ont t observes simultanment.
Leffectif ni est le nombre total dobservations de la modalit x i de X,
quelle que soit la modalit de Y :
l

ni =

ij

j=1

De mme, leffectif n j est le nombre total dobservations de la modalit yj


de Y, quelle que soit la modalit de X :
k

n j =

ij

i=1

68

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 69 Mercredi, 24. novembre 2010 9:53 09

On a videmment :

ni =

i=1

= n

j=1

La distribution conjointe peut aussi tre dfinie par les frquences :


n
fij = ----ijn

B. Distributions marginales
Les k couples (xi , ni) forment la distribution marginale de la variable X.
Les l couples (yj , n j) forment la distribution marginale de la variable Y.
Les distributions marginales peuvent aussi tre donnes sous forme de frquences :
n j
ni
et
f j = -----fi = ------
n
n
Disposant dune distribution conjointe, on peut dduire les distributions
marginales qui permettent dtudier sparment chaque variable en reprsentant graphiquement sa distribution et sil sagit dune variable quantitative, en
calculant ses caractristiques de tendance centrale, de dispersion, de forme

C. Distributions conditionnelles

Dunod. La photocopie non autorise est un dlit.

La distribution de la variable Y, la variable X tant gale xi, est appele


distribution conditionnelle de Y pour X = x i :
Y/X = xi

y1

yj

yl

Total

Effectif

ni1

nij

nil

ni

Cette distribution des ni observations, satisfaisant la condition X = x i ,


est prsente sous la forme de frquences conditionnelles :
n ij
f j/i = -----ni

avec :

j/i

= 1

j=1

Y/X = xi

y1

yj

yl

Total

Frquence

f1/i

fj/i

fl/i

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

69

P067-102-9782100549412.fm Page 70 Mercredi, 24. novembre 2010 9:53 09

La frquence 1 fj/i se lit f indice j si i , cest--dire frquence de yj si


X = x i . Il y a k distributions conditionnelles de Y pour X = x i (i = 1, , k).
Lorsque la variable Y est quantitative, on peut calculer pour chaque valeur
xi sa moyenne conditionnelle yi et son cart-type conditionnel si :
l

yi =

s i2 =

et

f j/i y j

j=1

j/i

( ( y j yi )

j=1

Les k modalits de X induisant une partition des observations en k sousgroupes, la moyenne y peut sexprimer comme somme pondre des
k
moyennes y i (chapitre 1) :
k

y =

f y
i

i=1

Symtriquement, on a l distributions conditionnelles de X et on dfinit les


frquences conditionnelles f indice i si j :
k

n
fi/j = -----ijn j

avec :

i/j

= 1

i=1

X/Y = yj

x1

xi

xk

Total

Frquence

f1/j

fi/j

fk/j

Lorsque la variable X est quantitative, on peut calculer pour chaque valeur


yj sa moyenne conditionnelle x j et son cart-type conditionnel sj :
k

xj =

fi/j x i

s 2j =

et

i/j

( xi x j )

i=1

i=1

et on a la relation suivante entre la moyenne x et les l moyennes conditionnelles x j :


l

x =

xj

j=1

Lorsquon dispose dobservations portant simultanment sur deux variables, il est frquent de les prsenter dans un tableau donnant lensemble des
distributions conditionnelles de Y, et on a alors un tableau dont toutes les

1. Les frquences fj/i sont aussi parfois notes f ji

70

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 71 Mercredi, 24. novembre 2010 9:53 09

sommes en ligne sont gales 100 % ; ce tableau est appel tableau des profils en ligne (cf. tableau 3.3).
Tableau 3.3 Tableau des profils en ligne correspondant au tableau de contingence 3.2
Classe de notes Y

[0 ; 6[
3

[6 ; 10[
8

[10 ; 14[
12

[14 ; 20]
17

Total

Filire A
Filire B
Filire C
Filire D

70,3
48,0
6,3
45,5

16,2
36,0
25,0
36,4

10,8
12,0
31,2
13,6

2,7
4,0
37,5
4,5

100
100
100
100

Distribution marginale de Y

49,0

27,0

15,0

9,0

100

Filire dorigine X

Bien videmment, on dfinit dune faon symtrique le tableau des profils


en colonne qui est le tableau des distributions conditionnelles de X avec des
sommes en colonne gales 1 ( cf. tableau 3.4).
Tableau 3.4 Tableau des profils en colonne
Modalit de Y

yj

yl

.
.
.

.
.
.

f1/j
.
.
.
f i/j
.
.
.
f k/j

.
.
.

.
.
.

f1/l
.
.
.
f i/l
.
.
.
f k/l

f1
.
.
.
fi

.
.
.
xk

f1/1
.
.
.
f i/1
.
.
.
f k/1

Total

Modalit de X
x1
.
.
.
xi

Dunod. La photocopie non autorise est un dlit.

Distribution
marginale
de X

y1

.
.
.
fk

D. Dpendance et indpendance statistique


Si tous les profils en colonne du tableau 3.4 sont identiques, cela signifie que
la distribution de la variable X ne dpend pas de la variable Y, on dit alors
que les variables X et Y sont statistiquement indpendantes dans lensemble
des n individus considrs, et dans ce cas toutes les distributions conditionnelles de X sont identiques la distribution marginale de X.

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

71

P067-102-9782100549412.fm Page 72 Mercredi, 24. novembre 2010 9:53 09

On peut crire en termes deffectifs ou de frquences ce que signifie


lindpendance statistique entre X et Y ; pour tout couple ( i, j) :
ni n j
f
fi/j = fi ------ij- = fi fij = fi f j n ij = -------------f j
n
Par raison de symtrie, lindpendance statistique entre X et Y implique
aussi des profils en ligne identiques la distribution marginale de
Y:
fj/i = f j pour tout couple ( i , j).
Lorsque deux variables dpendent statistiquement lune de lautre, on
cherche valuer lintensit de leur liaison et dans le cas de deux variables
quantitatives, on examine si on peut les considrer lies par une relation
linaire.

II. Deux variables quantitatives


Si les observations de deux variables statistiques X et Y sont connues individuellement, on commence par les visualiser en les reprsentant sous la forme
dun nuage de points (cf. figure 3.1) : dans un repre cartsien, chaque observation (xi , yi) est figure par le point Mi de coordonnes ( xi , yi), et la forme
du nuage donne une information sur le type dune ventuelle liaison.
y

Mi

yi

xi

Figure 3.1 Nuage de points

Supposons que lexamen du nuage de points conduise rechercher une


droite dajustement. Le calcul des coefficients de cette droite va tre expos
dans le cas o les observations sont connues individuellement. La gnralisation des rsultats au cas dune distribution rsume dans un tableau de
contingence se fait sans difficult.

72

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 73 Mercredi, 24. novembre 2010 9:53 09

A. Caractristiques dun couple

de deux variables quantitatives

1) Moyenne dune somme de deux variables statistiques


On montre sans difficult le rsultat suivant : x + y = x + y

a, b, c  ax + by + c = a x + by + c

2) Covariance entre deux variables statistiques


Cas de donnes individuelles :
1
cov(X,Y) = --n

( x i x ) ( y i y ) = 1--n
i=1

x y x y
i i

i=1

Cas de donnes groupes dans un tableau de contingence (covariance


pondre) :
k

cov(X,Y) =

ij

( x i x ) ( yj y ) =

ij

xi yi x y

i=1j=1

i=1j=1

Proprits de la covariance

Dunod. La photocopie non autorise est un dlit.

1. cov(X,Y) = cov(Y, X)
2. cov(X, X) = var(X)
3. var(X + Y) = var(X) + var(Y) + 2 cov(X, Y)
4. a, b, c, x 0, y0  : cov(aX + x0, bY + y0) = ab cov(X,Y)
var(aX + bY + c) = a2 var(X) + b2 var(Y) + 2ab cov(X,Y)
5. cov ( X , Y ) var ( X ) var ( Y )
Les proprits 1 et 2 sont videntes. Montrons la proprit 3 dans le cas
de donnes individuelles, la dmonstration pour des donnes groupes dans
un tableau de contingence se faisant de la mme faon en utilisant les formules pondres par les frquences :
n
n
2
2
1
( xi + yi x + y )
( x i + y i x + y ) = 1--var ( X + Y ) = --n i=1
n

i=1

n
n
n

2
2
1
( y i y ) + 2 ( x i x ) ( y i y )
= --- ( x i x ) +
n i = 1

i=1
i=1

= var ( X ) + var ( Y ) + 2cov ( X , Y )

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

73

P067-102-9782100549412.fm Page 74 Mercredi, 24. novembre 2010 9:53 09

La proprit 4 se dmontre sans difficult si on se souvient que


ax + x 0 = a x + x 0 . Quant la proprit 5, elle sera dmontre au II.C.1.

3) Coefficient de corrlation linaire


On appelle coefficient de corrlation linaire entre deux variables statistiques
X et Y, le rapport de leur covariance par le produit de leurs carts-types :
cov ( X , Y -)
r ( X , Y ) = ----------------------s X sY
Proprits du coefficient de corrlation linaire

On a pour tout a, b, x0, y0  :


cov ( aX + x 0 , bY + y 0 )
abcov ( X , Y )r ( aX + x 0 , bY + y 0 ) = ------------------------------------------------------- = -----------------------------s aX + x s bY + y
ab s X s Y
0

+ r ( X , Y ) si a et b de mme signe
=
r ( X , Y ) si a et b de signe oppos
""

Ce coefficient, invariant par changement dorigine et dchelle , est un


nombre sans dimension qui, daprs la proprit 5 de la covariance, varie
entre 1 et + 1. On montrera que sil est gal 1, les n points ( xi , y i )
sont aligns.

B. Ajustement linaire dun nuage de points


Les points (xi , yi) forment un nuage dont on cherche une approximation dans
un but de simplification. Mais qui dit simplification dit dformation : nous
voudrions quelle soit minimale ; encore faut-il prciser ce que lon entend
par l. Disons tout de suite que le choix du critre sera arbitraire mme si
lon tente de le justifier par des considrations plus ou moins intuitives .
On peut vouloir par exemple :
prserver au mieux les distances entre points ;
prserver au mieux les angles des droites joignant les points
Il nexiste pas de moyen de satisfaire toutes ces exigences la fois. Il
nous faut donc choisir.
Nous allons chercher la meilleure droite au sens des moindres carrs ,
n

cest--dire telle que :

MH
i

soit minimum ( cf. figure 3.2) :

i=1

74

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 75 Mercredi, 24. novembre 2010 9:53 09

M2

y
Mi

yi

y = ax + b

H1

H2

axi + b
Hi
M1
xi

Figure 3.2 Interprtation gomtrique de la droite des moindres carrs

Les distances sont comptes paralllement lun des axes des coordonnes ; nous avons choisi ici laxe des ordonnes ( cf. figure 3.2).
Il sagit de dterminer la droite  dquation { y = ax + b } telle que :
F ( a, b ) =

i=1

y ( ax + b ) 2 soit minimum
i
i

Nos inconnues sont a et b.


Commenons par chercher le minimum de F(a, b) relativement b lorsque
a est fix. On peut crire F(a, b) comme un trinme du second degr en b :
F ( a, b ) =

( y ax ) b
i

( y ax )

i=1

( y i ax i ) 2 2b

Dunod. La photocopie non autorise est un dlit.

i=1

i=1
n

( y ax ) + nb
i

2b ( y i ax i ) + b 2

i=1

Quand a est fix, le dernier membre constitue une fonction de b qui atteint
F
son minimum pour b = b tel que ------- ( a, b ) = 0 , soit :
b
n

F
------- ( a, b ) = 2 ( y i ax i ) nb = 0
b
i = 1

1
b = --n

( y ax )
i

= y ax

i=1

1re consquence : la droite des moindres carrs passe par le point de


coordonnes ( x , y ) quon appelle parfois le centre de gravit ou point
moyen du nuage.

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

75

P067-102-9782100549412.fm Page 76 Mercredi, 24. novembre 2010 9:53 09

Notre problme est maintenant de trouver le minimum de F ( a, b ) relativement a :


F ( a, b ) =

( y y ) a ( x x )
i

i=1

( y i y ) 2 2a

i=1

( yi y ) ( xi x ) + a2

i=1

(x x )
i

i=1

ce qui peut encore scrire :


F ( a, b ) = n a 2 var ( X ) 2a cov ( X , Y ) + var ( Y )

Le coefficient de a 2 tant positif ou nul, ce trinme du second degr en


a atteint son minimum relativement a pour a = a avec :

Ainsi le couple
fonction F

( X, Y )
a = cov
-----------------------var ( X )
( a , b ) avec b = y a x ralise le minimum de la

2e consquence : la droite des moindres carrs a pour quation


y = a x + b soit
cov ( X , Y )
y y = ------------------------ ( x x )
var ( X )
On posera pour tout i variant de 1 n : y i = a x i + b , y i est la valeur
estime de Y par la droite des moindres carrs lorsque X = xi

C. Interprtation du coefficient de corrlation linaire


1) Interprtation laide de la droite 
Il est toujours possible de tracer la droite des moindres carrs prcdente
quelle que soit la forme du nuage. Lapproximation du nuage par cette droite
est-elle lgitime ? Quel sens, quelle signification donner cette droite ?
Cest l une autre question, et fort importante. On pourra dire quil
est dautant plus lgitime de remplacer le nuage par la droite trouve que
la dispersion du nuage de points par rapport la droite des moindres
carrs :

76

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 77 Mercredi, 24. novembre 2010 9:53 09

M i H i 2 = F ( a, b ) =

( y y )
i

sera plus faible

i=1

i=1

En remplaant a par son estimation a , on obtient :


F ( a, b ) =

( cov ( X , Y ) )2

( cov ( X , Y ) )2
2
( y i y i ) = n ------------------------------- 2 ------------------------------- + var ( Y )
var ( X )
var ( X )

i=1
n

( cov ( X , Y ) )2
= n var ( Y ) -------------------------------
var ( X )

( cov ( X , Y ) )2
r 2 = -------------------------------------var ( X ) var ( Y )

et comme :
on a :
n

( y i y i ) = n var ( Y ) ( 1 r 2 )

i=1

( y i y i ) =

i=1

( y y ) (1 r )
2

i=1

ce qui implique :
1 r2 0

r +1

La quantit

( y y )
i

cov ( X , Y ) var ( X ) var ( Y )

et

, appele Somme des Carrs Rsiduelle (SCrs),

i=1

est dautant plus faible que r2 est proche de 1.


Elle est nulle pour r = + 1 et dans ce cas, on a une liaison linaire entre X et
Y, car si { y i = y i pour tout i}, alors les n points (xi , yi) sont aligns.
Dunod. La photocopie non autorise est un dlit.

La quantit

(y y )
i

tant appele Somme des Carrs Totale (SC

tot)

i=1

de Y, il sensuit :

( y y )
i

SC rs
i=1
1 r 2 = ------------------------------ = ----------n
SC tot
2
( yi y )

i=1

la quantit { 1 r 2 } est gale la proportion de variation de Y non explique par la droite des moindres carrs  (cf. figures 3.3 et 3.4) .

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

77

P067-102-9782100549412.fm Page 78 Mercredi, 24. novembre 2010 9:53 09

yi
y

xi

Figure 3.3

i=1

( y i y ) = SC tot

yi
yi

xi

Figure 3.4

i=1

2
( y i y i ) = SC rs

 est nulle :

Notons que la somme des carts la droite


y = a x + b

( y i a x i b ) = 0

( y y )

i=1

= 0

i=1

ce qui implique aussi que les moyennes des y i et des y i sont gales : y = y
et ceci est d au fait que la droite des moindres carrs passe par le point
moyen ( x , y ) du nuage des n points.
La dcomposition de la variation totale de Y permet une autre interprtation de r2 :
n

( yi y ) =

i=1

i=1

i=1

78

( y y + y y )
( y i y i ) 2 +

( y i y ) + 2

i=1

INTRODUCTION LA MTHODE STATISTIQUE

( y y ) ( y y )
i

i=1

P067-102-9782100549412.fm Page 79 Mercredi, 24. novembre 2010 9:53 09

Montrons que le 3 e terme du dernier membre est nul. On peut crire :


y i y = a ( x i x )

y i y i = y i y ( y i y ) = y i y a ( x i x )

et

ce qui donne une nouvelle expression de ce 3


n

( y y ) ( y y )
i

= a

i=1

terme :

y y a ( x x ) ( x x )
i

i=1

n
n

( xi x )2
= a ( y i y ) ( x i x ) a
i = 1

i=1

( y y ) ( y y )
i

i=1

( X , Y -)
a = cov
----------------------var ( X )

puisque
n

La quantit

= n a cov ( X , Y ) a var ( X ) = 0

( y y )
i

tant appele Somme des Carrs Explique (SCexpl),

i=1

on obtient l quation de la dcomposition de la variation totale de Y :


n

( yi y ) =

i=1

( y i y ) +

( y y )
i

SC tot = SC expl + SC rs

i=1

i=1

et une autre interprtation de r 2, complmentaire celle de ( 1 r 2 ) :


n

( y y )

SC expl
i=1
r 2 = ------------------------------ = -------------n
SC tot
2
( yi y )
Dunod. La photocopie non autorise est un dlit.

i=1

le carr r 2 du coefficient de corrlation linaire est gal la proportion de


la variation de Y explique par la droite des moindres carrs 
Conclusion sur linterprtation de la valeur du coefficient de corrlation
linaire :
r = 1
r = 1
r = 0

y i = y i = a x i + b

les n points (xi , yi) sont aligns


pas de liaison linaire, mais possibilit dune liaison
dun autre type

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

79

P067-102-9782100549412.fm Page 80 Mercredi, 24. novembre 2010 9:53 09

Voici un exemple de deux variables


r ( X, Y ) = 0 :
X

n = 5, x = 0, y = 2 et

X et Y non indpendantes avec

x y

i i

= 0 r ( X , Y ) = 0 et Y = X 2

i=1

Le coefficient de corrlation linaire entre deux variables quantitatives


indpendantes est nul, mais la rciproque nest pas vraie :

X et Y indpendantes

r(X, Y) = 0

2) Droite des moindres carrs 


Dans toute ltude prcdente, on a fait jouer des rles non symtriques X
et Y. On a procd comme si la variable X pouvait tre mesure, et quon
cherchait prvoir la variable Y.
Inversement, la droite  des moindres carrs pour laquelle les distances sont
comptes paralllement laxe des abscisses ( cf. figure 3.5) a pour quation :
cov ( X , Y )
var ( Y )
x x = ------------------------ ( y y )

y y = ------------------------ ( x x )
var ( Y )
cov ( X , Y )
Mais, dans certains cas, comme celui o la variable X dsigne le temps,
seule la droite  a un sens.
Le coefficient r tant symtrique par rapport X et Y, la Somme des
Carrs Rsiduelle associe la droite  est gale :
n

i=1

M i Gi

( x x )
i

= n var ( X ) ( 1 r 2 )

i=1

y
yi

Mi
Gi

xi

xi

Figure 3.5 Interprtation gomtrique de la droite des moindres carrs

80

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 81 Mercredi, 24. novembre 2010 9:53 09

D. Comparaison des deux droites des moindres carrs


Les deux droites  et  sont gnralement distinctes. Elles se coupent au
point moyen du nuage, et leurs coefficients directeurs sont de mme signe et
du signe de r :
cov ( X , Y )
var ( Y )
------------------------ = r ---------------var ( X )
var ( X )

1 var ( Y )
var ( Y )
------------------------ = --- ---------------r var ( X )
cov ( X , Y )

et

De plus, la valeur absolue du coefficient de corrlation r tant comprise


 est toujours infentre 0 et 1, la valeur absolue de la pente de la droite
rieure ou gale celle de la droite  (cf. figure 3.6).
Ces deux droites seront confondues si et seulement si les variables X et Y
sont lies par une relation linaire :
r = 1/r

r = 1

y
G

'
G

y


'
y
x

r = -1
y

'

Dunod. La photocopie non autorise est un dlit.

x
0 < r < +1

-1 < r < 0

G

x
r=0

y
y

'

y
y

'

r = +1

Figure 3.6 Positions respectives des droites des moindres carrs selon les valeurs de r

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

81

P067-102-9782100549412.fm Page 82 Mercredi, 24. novembre 2010 9:53 09

E. Le coefficient r et la qualit de lajustement linaire


Comment juger la qualit de lajustement linaire ? Il est clair que si le coefficient
r est voisin de 0, il faut rejeter lajustement linaire, mais pour quelles valeurs de
r, le considre-t-on de bonne qualit ? Cest une question importante, et beaucoup
dexemples montrent quon ne peut pas tablir de rgles de dcision partir du
seul examen de la valeur de r. Moyennant certaines hypothses dont il ne faut
pas oublier dexaminer la validit, la formalisation du modle linaire (qui
dpasse le cadre de ce livre) rpond partiellement la question.
Un rsum numrique est insuffisant pour rendre compte de la pertinence
dune liaison linaire. Pour sen convaincre, on se reportera aux rsultats de
F. J. Anscombe (cf. figure 3.7) : pour quatre sries de 11 observations simultanes de deux variables X et Y, on obtient la mme valeur du coefficient de
corrlation linaire { r = 0,82} et la mme droite des moindres carrs
{y = 3 + 0,5x}, mais lexamen graphique montre que lajustement linaire
nest adapt quau premier cas.
I

II

III

IV

10,0
8,0
13,0
9,0
11,0
14,0
6,0
4,0
12,0
7,0
5,0

8,04
6,95
7,58
8,81
8,33
9,96
7,24
4,26
10,84
4,82
5,68

10,0
8,0
13,0
9,0
11,0
14,0
6,0
4,0
12,0
7,0
5,0

9,14
8,14
8,74
8,77
9,26
8,10
6,13
3,10
9,13
7,26
4,74

10,0
8,0
13,0
9,0
11,0
14,0
6,0
4,0
12,0
7,0
5,0

7,46
6,77
12,74
7,11
7,81
8,84
6,08
5,39
8,15
6,42
5,73

8,0
8,0
8,0
8,0
8,0
8,0
8,0
8,0
19,0
8,0
8,0

6,58
5,76
7,71
8,84
8,47
7,04
5,25
12,50
5,56
7,91
6,89

II

III

IV

10

10

10

10

10

20

10

20

10

20

10

20

Figure 3.7 Extrait de F. J. Anscombe : Graphs in Statistical Analysis ,


adapt avec la permission de The American Statistician, 27 (February 1973), 17-21,
American Statistician Association

Lajustement linaire de la srie de la composition minrale en fluorures


et sodium (mg/l) de 21 eaux minrales gazeuses ( cf. tableau 3.5) ne peut que
renforcer lide de la ncessit dune tude graphique.

82

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 83 Mercredi, 24. novembre 2010 9:53 09

Tableau 3.5 Donnes extraites du journal Que Choisir ?, n 422 bis, 2005

Dunod. La photocopie non autorise est un dlit.

Eau minrale

Fluorures

Sodium

Arcens
Arvie
Badoit
Beckerich
Chteauneuf
Eau de Perrier
Faustine
La Salvetat
Perrier
Puits St-Georges
Pyrnes
Quzac
San Pellegrino
St-Diry
St-Jean
St-Pierre
St-Yorre
Vernet
Vernire
Vichy-Clestins
Wattwiller

1,3
0,9
1
0,6
3
0,05
2
0,25
0,05
0,5
0,05
2,1
0,6
0,3
1,1
1,7
9
1,3
0,05
5
1,6

439
650
150
34
651
11,5
230
7
11,5
434
31
255
35
385
228
383
1 708
120
154
1 172
3

Moyenne

1,55

338

cart-type

2,03

417

Le coefficient de corrlation linaire entre les deux composants minraux


est gal 0,90. Cette valeur assez proche de 1 peut conduire considrer que
la droite des moindres carrs ( cf. figure 3.8) permet dvaluer approximativement la teneur Y en sodium en fonction de la teneur X en fluorures :
Y 185X + 51

puisque

s
r ----Y- 185
sX

et

y 185x 51

Mais la reprsentation graphique du nuage des 21 points ( cf. figure 3.8)


montre deux points caractriss par une minralit particulirement leve :
Vichy-Clestins et Saint-Yorre .
La reprsentation des botes de distribution des deux variables Fluorures
et Sodium (cf. figure 3.9) confirme que ces deux eaux minrales ont respectivement des valeurs loigne et extrme pour les deux composants
minraux (chapitre 1, IV).

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

83

P067-102-9782100549412.fm Page 84 Mercredi, 24. novembre 2010 9:53 09

Sodium
2 100

1 800

1 500

1 200

900

600

300

0
0

10

Fluorures

Figure 3.8 Nuage des 21 eaux minrales gazeuses et droite des moindres carrs

10

2 000
St-Yorre

St-Yorre

8
1 500

Vichy-Clestins
Vichy-Clestins
1 000

500
2

0
Fluorures

Sodium

Figure 3.9 Botes de distribution des deux composants Fluorures et Sodium

84

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 85 Mercredi, 24. novembre 2010 9:53 09

En supprimant ces deux points et en ralisant lajustement sur les


19 autres points, on obtient :
r 0,50

a = 129

b = 96

et

Le coefficient r est pass de 0,9 0,5, et il faut aussi remarquer que les
coefficients de la droite des moindres carrs sont passs respectivement de
185 129 et de 51 96.87
Quel crdit apporter un ajustement pour lequel deux points ont une telle
influence ? On est donc oblig dabandonner lide dune relation linaire
entre les deux composants minraux.
Cet exemple nous montre que le calcul du coefficient de corrlation
linaire doit toujours tre complt par un examen graphique.
Lanalyse exploratoire des donnes propose dautres mthodes et dautres
coefficients pour lajustement linaire. Voici un exemple de coefficient propos pour la mesure de la qualit de lajustement et pouvant tre considr
comme un quivalent du carr du coefficient de corrlation linaire qui,
rappelons-le, peut tre ainsi dfini :
n

( y y )
i

i=1

r 2 = 1 -----------------------------n

(y y )

i=1

Dunod. La photocopie non autorise est un dlit.

Le deuxime terme de cette galit peut tre interprt comme le rapport


de la variance des carts ( y i y i ), puisque ceux-ci sont de moyenne nulle,
la variance des yi . Lanalyse exploratoire des donnes propose de mesurer
les dispersions de ces quantits par leur
tendue interquartile , do le
coefficient :
EIQ ( y i y i )
1 ----------------------------EIQ ( y i )
Si les points du nuage sont aligns, ce coefficient est gal 1, et plus la
dispersion des carts la droite sera faible (cest le cas lorsque lajustement
linaire du nuage est adapt), plus il sera proche de 1. Pour lajustement des
donnes Eaux minrales gazeuses ralis par la mthode des moindres
carrs, ce coefficient est gal : 1 221/400  0,45
Au cas o lexamen graphique naurait pas t fait, cette valeur trs diffrente de 1 doit amener remettre en cause lajustement linaire.
Tous ces rsultats montrent quil ne faut jamais conclure sur la dpendance entre deux variables quantitatives au seul examen de la valeur du coefficient de corrlation linaire.

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

85

P067-102-9782100549412.fm Page 86 Mercredi, 24. novembre 2010 9:53 09

Dautre part, lorsquune liaison linaire entre deux variables a t mise en


vidence par ltude dune srie de n observations sur ce couple, il faut bien
se garder de conclure une relation de cause effet entre ces variables sans
en avoir examin attentivement la signification : une corrlation voisine de 1
entre la taille (en cm) et la note un contrle de mathmatiques pour un
groupe de 12 lves ne doit pas amener conclure que plus on est grand,
mieux on russit en mathmatiques !
Lexamen graphique, ainsi que celui de la signification des variables, sont
des complments indispensables linformation donne par la valeur du
coefficient de corrlation linaire.
Dans le cas dobservations non connues individuellement et dont la distribution est donne dans un tableau de contingence , le coefficient de corrlation linaire et les droites des moindres carrs sont calculs partir des
formules pondres. Cependant, si le groupement de donnes quantitatives
en classes a lavantage de permettre de prsenter la distribution sous une
forme synthtique et de pouvoir en dduire des profils en ligne ou en
colonne, il constitue une perte dinformation quil est prfrable dviter de
rpercuter sur les calculs du coefficient de corrlation linaire et des coefficients des droites des moindres carrs.
Nous avons expos la mthode des moindres carrs pour lajustement
dun nuage de points par une droite qui est la fonction analytique la plus simple, mais cette mthode peut se gnraliser un ajustement par dautres fonctions analytiques. Les logiciels proposent des ajustements par un polynme
du second degr, une fonction exponentielle Cest lexamen graphique qui
donne une indication sur le type de fonction adopter. On peut aussi dans
certains cas transformer une des deux variables ou les deux variables avant
denvisager une relation linaire.

III. Une variable qualitative

et une variable quantitative

Soient n observations portant simultanment sur une variable qualitative X


k modalits {x1, , xi , , xk} et sur une variable quantitative Y l modalits
{y1, , yj , , yl}.

86

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 87 Mercredi, 24. novembre 2010 9:53 09

A. Mesure de la liaison par le rapport de corrlation


1) Dfinition du rapport de corrlation
Pour les ni (i = 1, , k) observations de chaque modalit xi de la variable X,
on calcule la moyenne conditionnelle y i et la somme des carrs des carts
la moyenne ( cf. tableau 3.6). On supposera tous les effectifs ni (ou les frquences fi = ni/n) non nuls, cette hypothse impliquant la suppression des
modalits pour lesquelles on ne dispose pas dobservations.
Tableau 3.6 Caractristiques de Y conditionnellement X
pour les donnes des tableaux 2 et 3
n

Modalit de X

ni

yi

Filire A
Filire B
Filire C
Filire D

37
25
16
22

5,16
6,44
12,31
6,68

j=1

n ij ( y ij yi )

496,91
368,25
293,44
340,78
k

fi yi
La moyenne y i tant la moyenne de Y pour X = xi , on a y =
(I.C), et pour notre exemple, y = 6,96
i=1
On dfinit la Somme des Carrs Intraclasse , la Somme des Carrs Interclasse et la Somme des Carrs Totale :
SC intra =

ij ( x ij

yi ) 2

SC inter =

i=1j=1

n (y y )
i

i=1

SC tot =

ij ( y ij

y )2

Dunod. La photocopie non autorise est un dlit.

i=1j=1

On montre que : SCtot = SCintra + SCinter


Le rapport de corrlation Y2 / X de Y en x est ainsi dfini :
SC inter
Y2 / X = ------------SC tot

2) Interprtation du rapport de corrlation


Ce rapport est toujours positif et infrieur ou gal 1. Il est
gal 0 si la
somme des carrs interclasse est nulle, cest--dire si les moyennes conditionnelles y i sont toutes gales y , mais cette condition nest pas suffisante
lindpendance des variables X et Y.

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

87

P067-102-9782100549412.fm Page 88 Mercredi, 24. novembre 2010 9:53 09

Si une variable quantitative Y est indpendante dune variable qualitative X,


alors leur rapport de corrlation est nul, mais la rciproque nest pas vraie :

= 0

Y /X

X et Y indpendantes

Le rapport de corrlation est gal 1 si la somme des carrs intraclasse


est nulle, donc si chaque modalit x i de X, correspond une seule valeur de
Y gale y i
Dans ce cas, la variable Y est lie fonctionnellement la variable X.
Y2 / X = 1 chaque xi , correspond une seule valeur de Y
Y lie fonctionnellement X
Pour les donnes du tableau 3.6 :

SCinter = SCtot SCintra = 2 086 1 499,38 = 586,62

Y2 / X = 0,28

Lexamen du tableau 3.3 des profils en ligne montre la dpendance entre


la filire dorigine et la note, rsultat en accord avec la valeur 0,28
Considrons maintenant une variable qualitative X 3 modalits et une
variable quantitative Y (discrte ou continue) rapporte 2 valeurs (
cf.
tableau 3.7). Les observations portent sur n individus : n11 + n22 + n31 = n :
Tableau 3.7 Tableau de contingence avec calculs des moyennes conditionnelles de Y
Y
X
x1
x2
x3

y1

y2

yi

n11
0
n31

0
n22
0

y1
y2
y1

Pour ces donnes :


{ X = xi

Y = yi

pour i = 1, 2, 3 }

Y2 / X = 1

et ce rsultat ne dpend pas des valeurs de y1, y2, n11, n22 et n31. Quelles que
soient ces valeurs, la variable Y est lie fonctionnellement la variable X.
Supposons maintenant que X soit une variable quantitative rapporte
3 valeurs ainsi dfinies :
x1 = 1 x2 = 4 x3 = 6
et que les effectifs soient les suivants ( cf. tableau 3.8) :
n11 = 20 n22 = 50 n31 = 30

88

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 89 Mercredi, 24. novembre 2010 9:53 09

Tableau 3.8 Valeurs particulires pour les effectifs du tableau 3.7


Y

y1

y2

yi

1
4
6

20
0
30

0
50
0

y1
y2
y1

xj

La variable X tant quantitative, on peut aussi calculer le rapport de corrlation de X en y. Les moyennes conditionnelles de X tant gales, la somme
des carrs interclasse est nulle et le rapport de corrlation Y2 / X est nul.
Il y a donc absence de corrlation entre la variable X et toute fonction de
Y. Cet exemple montre quon peut avoir la fois Y li fonctionnellement X
et absence de corrlation entre X et toute fonction de Y.
On remarquera que le rapport de corrlation Y2 / X de cet exemple est nul
quelles que soient les valeurs n11, n22, n31 et x1, x2, x3 telles que les moyennes
x 1 et x 2 soient gales, cest--dire si :
n 11 x 1 + n 31 x 3
------------------------------ = x2
n 11 + n 31

B. Comparaison du coefficient de corrlation linaire

Dunod. La photocopie non autorise est un dlit.

et des rapports de corrlation

Si la variable X est une variable quantitative k modalits, on peut reprsenter graphiquement les moyennes conditionnelles y i en fonction des modalits de la variable X. On obtient k points quon peut joindre, dans lordre,
par des segments de droite. On appelle la ligne brise obtenue courbe de
rgression de Y en x (cf. figure 3.10).
yk

yi
y1
x1

xi

xk

Figure 3.10 Courbe de rgression de Y en x

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

89

P067-102-9782100549412.fm Page 90 Mercredi, 24. novembre 2010 9:53 09

Dans ce cas o X et Y sont toutes les deux des variables quantitatives, on


peut calculer le rapport de corrlation X2 /Y de X en y (gnralement non gal
Y2 / X ) et tracer la courbe de rgression de X en y .
Disposant de n observations portant simultanment sur deux variables
quantitatives, on peut aussi calculer leur coefficient de corrlation linaire et
on montre quon a toujours la relation suivante entre les rapports de corrlation et le coefficient de corrlation linaire :
0 r 2 min ( X2 /Y ; Y2 / X ) max ( X2 /Y ; Y2 / X ) 1
Si lun des rapports de corrlation est nul, alors le coefficient de corrlation linaire lest aussi. Le lecteur peut vrifier que cest le cas pour lexemple du tableau 3.8, et il peut constater un nouvel exemple de deux variables
non indpendantes avec un coefficient de corrlation linaire nul.
Si Y2 / X = 0 , toutes les moyennes conditionnelles de Y sont gales et la
courbe de rgression de Y en x est une droite parallle laxe des
abscisses ; et rciproquement, si X2 /Y = 0 , les moyennes conditionnelles
de X sont gales et la courbe de rgression de X en y est une droite parallle laxe des ordonnes.
Si r 2 = Y2 / X , alors les moyennes conditionnelles y i sont lies aux modalits xi par une relation linaire, et la courbe de rgression de Y en x est une
droite qui nest autre que la droite des moindres carrs  de Y en x :
r 2 = Y2 / X
y i = a + bx i
et symtriquement, si r 2 = X2 /Y , alors la courbe de rgression de X en y
nest autre que la droite des moindres carrs  de X en y.

IV. Deux variables qualitatives


Les donnes relatives aux observations portant simultanment sur deux
variables qualitatives X et Y sont gnralement prsentes dans un tableau de
contingence ( cf. tableau 3.1), ou dans un tableau de profils en ligne ou en
colonne (cf. tableaux 3.3 et 3.4).
condition de disposer des effectifs marginaux , on peut retrouver le
tableau de contingence partir dun tableau de profils en ligne ou en colonne.
La question qui se pose est celle de lexistence dune
liaison entre les
deux caractres X et Y. On a vu que sils sont statistiquement indpendants
dans lensemble des n individus considrs ( I.D) :
ni n j
fij = fi f j
n ij = ---------------n
pour tous les couples ( i , j) tels que i = 1, , k et j = 1,, l

90

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 91 Mercredi, 24. novembre 2010 9:53 09

Dans le cas o les observations ne portent pas sur la population totale,


mais sur une partie de la population appele chantillon, on ne peut pas conclure lindpendance de X et Y par le seul examen des relations dindpendance, leur non-vrification sur un chantillon pouvant tre due au fait que
les observations ne sont pas exhaustives ; autrement dit, il faut tenir compte
des fluctuations dchantillonnage.
La comparaison des effectifs thoriques (ou attendus ) sous lhypo
ni n j
- et des effectifs observs n ij donne une
thse dindpendance n ij* = ---------------n

ide de la dpendance entre X et Y. Mais pour tre plus prcis, il convient de


calculer lcart entre ces effectifs thoriques et observs.
Pour des raisons thoriques, la mesure usuellement adopte est celle du
2 (khi-deux) qui peut tre considre comme un coefficient dassociation
entre deux variables :
2 =

i, j

( n ij n ij* ) 2
( fij fij* ) 2
----------------------=
n
-----------------------n ij*
fij*
i, j

avec :

n*
fij = fi f j = -----ij
n

concident, et
Le 2 est nul lorsque les effectifs thoriques et observs
plus les effectifs thoriques et observs diffrent, plus sa valeur est leve.
Une autre mesure de la dpendance est le
coefficient dassociation 2
2

(phi-deux) de Pearson gal ----- . Ce coefficient ne dpend donc pas de la


n
taille n de la population :
2 =

Dunod. La photocopie non autorise est un dlit.

i, j

( fij fij* ) 2
-----------------------fij*

Les valeurs de ces mesures d association entre deux variables peuvent


permettre de comparer plusieurs groupes dobservations sur un mme couple
de variables.
Reprenons les donnes du tableau 3.8 en considrant maintenant les variables X et Y comme des variables qualitatives et calculons les effectifs thoriques (ceux-ci sont crits entre parenthses dans le tableau 3.9) :

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

91

P067-102-9782100549412.fm Page 92 Mercredi, 24. novembre 2010 9:53 09

Tableau 3.9 Calcul des effectifs thoriques du tableau 3.8


Y

y1

y2

ni

x1

20
(10)

0
(10)

20

x2

0
(25)

50
(25)

50

x3

30
(15)

0
(15)

30

nj

50

50

100

Les valeurs des mesures dassociation 2 et 2 sont les suivantes :


2 =

n ij n ij*

)
(----------------------n
i, j

*
ij

= 100

et

2
2 = ----- =
n

fij fij*

(
)
-----------------------f
i, j

*
ij

= 1

V. Bilan
La mesure de lassociation de deux variables dpend de leur nature. Lorsque
les observations de deux variables quantitatives sont suffisamment nombreuses pour tre prsentes dans un tableau de contingence, on peut traiter lune
delles comme une variable qualitative ou mme les deux variables comme
des variables qualitatives. Leur association peut se mesurer par le coefficient
de corrlation linaire , les rapports de corrlation et le khi-deux.
Pour les donnes du tableau 3.8, les deux variables X et Y ne sont pas
indpendantes, mais :
elles sont linairement indpendantes puisque r = 0
il y a absence de corrlation entre X et toute fonction de Y puisque
X2 /Y = 0
la variable Y est lie fonctionnellement la variable X puisque Y2 / X = 1
Lanalyse conjointe de deux variables est un problme trs dlicat ; il faut
bien examiner les donnes avant de conclure lindpendance, et en cas de
liaison, il convient de ne pas conclure htivement une relation de cause
effet sans stre pench sur sa signification concrte.

92

INTRODUCTION LA MTHODE STATISTIQUE

X qualitative, Y qualitative :
tableau de contingence

X et Y quantitatives classes :
tableau de contingence

Pour chaque modalit xi de X, on dispose de :


ni = nbre de valeurs de Y associes {X = xi}
moyenne conditionnelle y i pour {X = xi}

Y quantitative et X qualitative k modalits


(ou quantitative avec k classes de valeurs)

X et Y quantitatives :
n couples (xi , yi), ou tableau de contingence

Nature des variables et prsentation des donnes

ni ( yi y ) 2

Calcul du khi-deux : 2 =

i, j

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

n ij

*
( n n )2
ij
ij
------------------------*

( fij fij ) 2
= n -------------------------fij*
i, j

Graphiques de la courbe de rgression de Y en x qui joint les points (xi , yi ),


les valeurs xi tant ordonnes, et de la courbe de rgression de X en y qui joint
les points ( x j , yj), les valeurs yj tant ordonnes.

Calcul des rapports de corrlation de Y en x et de X en y : Y2 / X et X2 /Y

Si X est une variable quantitative classe, graphique de la courbe de rgression


de Y en x qui joint les points (xi , yi )

i=1

SC inter
Calcul du rapport de corrlation de Y en x : Y2 / X = ------------------------------------- = --------------SC tot
SC tot

Elles se coupent au point moyen ( x , y )

Calcul et reprsentation graphique des deux droites des moindres carrs :


s
1 s
y y = --- ----Y- ( x x )
y y = r ----Y- ( x x )
sX
r sX

Calcul du coefficient de corrlation linaire :


( X, Y )
r = cov
------------------------ avec : 1 r + 1
s X sY

tude de la liaison entre deux variables X et Y

On noubliera pas les diffrents modes dtudes de la liaison de deux variables selon leur nature

Dunod. La photocopie non autorise est un dlit.

P067-102-9782100549412.fm Page 93 Mercredi, 24. novembre 2010 9:53 09

93

P067-102-9782100549412.fm Page 94 Mercredi, 24. novembre 2010 9:53 09

Testez-vous (les rponses sont donnes page 284)


Il y a au moins une rponse exacte par question.
1. Le coefficient de corrlation linaire entre deux variables statistiques :
a) ne peut tre calcul que si les deux variables sont quantitatives
b) est un nombre positif ou nul
c) est gal 0 si les variables sont indpendantes
d) est un nombre sans dimension
2. Deux variables statistiques X et Y sont lies par la relation X + Y = 2, alors :
a) la somme de leur moyenne est gale 2
b) les carts-types des deux variables sont gaux
c) les deux droites des moindres carrs sont confondues
d) les deux droites des moindres carrs ont une pente positive
3. On dispose de deux observations {(2, 3) et ( 3, 1)} sur un couple (
variables quantitatives :

X, Y) de

a) les deux droites des moindres carrs sont confondues


b) le coefficient de corrlation linaire entre X et Y est gal + 1
c) la pente de la droite des moindres carrs de Y en x est ngative
d) on peut calculer le rapport de corrlation de X en y
4. On dispose pour 10 annes du nombre X dabonns au tlphone et du nombre Y de botes dantalgiques (mdicament contre la douleur) vendues dans
une ville moyenne ; le coefficient de corrlation linaire calcul partir de ces
10 couples dobservations est gal 0,996 :
a) les deux variables X et Y sont lies par une relation linaire
b) pour diminuer la consommation dantalgiques, il suffit de refuser des abonnements
tlphoniques
c) les deux droites des moindres carrs sont quasi-confondues
d) les droites des moindres carrs ont des pentes ngatives
5. Sur une population, on a observ une variable quantitative X et une variable
qualitative Y trois modalits. La distribution est la suivante :
Y
X

94

y1

y2

y3

75

40

100

50

25

60

50

100

100

100

100

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 95 Mercredi, 24. novembre 2010 9:53 09

a) ce tableau est un tableau de contingence


b) la variable X a une moyenne gale 0,5
c) on peut mesurer la liaison entre X et Y par un rapport de corrlation
d) si les profils en colonne taient tous identiques, alors X et Y seraient indpendantes
6. Le tableau suivant donne la distribution de deux variables statistiques X et Y :
Y

20

20

10

40

10

a) la moyenne conditionnelle x 1 est gale 1/3


b) les moyennes conditionnelles de X sobtiennent partir du tableau des profils en
colonnes
c) la moyenne x est gale la somme des moyennes conditionnelles x 1
d) les moyennes conditionnelles de Y sobtiennent partir du tableau des profils en
lignes
7. Le tableau suivant donne la distribution conjointe de deux variables
quantitatives X et Y :
Y

10

10

Dunod. La photocopie non autorise est un dlit.

a) si a = 20 et b = 5, alors le coefficient de corrlation linaire r est nul


b) si a = 0 et b = 0, alors r = 1
c) si a = 0 et b = 10, alors r = 1
d) si a = 10 et b = 10, alors r = 0
8. Pour dfinir un tableau de contingence deffectif total
n k lignes et
l colonnes :
a) il suffit de connatre les effectifs marginaux
b) il suffit de connatre k (l 1) lments du tableau
c) il suffit de connatre k (l 1) lments du tableau et les sommes en lignes
d) il suffit de connatre ( k 1) (l 1) lments du tableau et ses marges

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

95

P067-102-9782100549412.fm Page 96 Mercredi, 24. novembre 2010 9:53 09

9. Parmi un groupe de 100 malades qui se plaignent de ne pas bien dormir, certains ont pris un somnifre sous forme de cachet, dautres ont pris un cachet
de sucre ; tous pensaient prendre un somnifre. Aprs la nuit, on leur a
demand si le cachet avait t efficace. Le tableau suivant donne la rpartition des rponses (on suppose que tous les malades ont dit la vrit) :
Ont bien dormi

Nont pas bien dormi

Somnifre

26

Sucre

48

20

a) ce tableau est un tableau de contingence


b) parmi les malades qui ont pris un somnifre, 26 % ont bien dormi
c) pour calculer le 2, il faut calculer les effectifs marginaux
d) le 2 est gal 1,284
10. Ce tableau donne la rpartition des salaris et non-salaris par sexe pour les
actifs de 15 ans ou plus ayant un emploi et vivant en France mtropolitaine :
Hommes

Femmes

Non-salaris

13,4

7,3

Salaris

86,6

92,7

2,8
1,7
6,0
76,1

1,4
0,9
10,8
79,6

100,0

100,0

13 670

12 243

Intrimaires
Apprentis
Contrats dure dtermine
Contrats dure indtermine

Total des emplois (milliers)

Source : INSEE, enqutes Emploi du 1er au 4e trimestre 2008.

a) les femmes plus souvent salaries que les hommes


b) la rpartition entre les statuts salaris et non-salaris est indpendante du sexe
c) pour lensemble des hommes et des femmes, il y a 20,7 % de non-salaris
d) pour lensemble des hommes et des femmes, il y a 89,5 % de salaris

96

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 97 Mercredi, 24. novembre 2010 9:53 09

Exercices (corrigs page 300)


Exercice 3.1
Une tude mene par un groupe de compagnies dassurances auprs de 30 000 assurs pour le risque vhicules moteur a permis de dterminer les proportions (en
pourcentage) dassurs correspondant la puissance fiscale , note X, du vhicule
assur et au kilomtrage parcouru au cours de la dernire anne, not Y. Les rsultats
sont reports dans le tableau suivant :
Y (milliers de km)
X (chevaux
fiscaux)
4
56
78
9 10
> 10

< 10

[10 ; 20[

4,4
7,2
2,4

1,6
8,2
7,2

[20 ; 30[

[30 ; 40[

40

4,0
13,6
2,4

2,6
14,4
11,6
4,4

4,4
6,0
5,6

1. Prcisez la population tudie, les caractres tudis et leur nature.


2. Donnez la distribution du kilomtrage parcouru. Comment sappelle cette
distribution ? Calculez sa moyenne et son cart-type en supposant que tous les
assurs ont fait au moins 2 000 km et au plus 50 000 km. Dterminez la mdiane.
3. Donnez la distribution, en pourcentage, du kilomtrage parcouru par les possesseurs dune voiture dune puissance fiscale dau plus 6 CV. Quel est le type de
cette distribution ?
Calculez sa moyenne et son cart-type.

Dunod. La photocopie non autorise est un dlit.

Exercice 3.2
Dans une entreprise, on tudie la rpartition de 100 salaries femmes ( cf. tableau 1)
et 140 salaris hommes ( cf. tableau 2) selon le salaire mensuel brut X exprim en
euros et lanciennet Y exprime en annes.
Tableau 1 Salaries femmes
Y

[0 ; 4[

[4 ; 8[

[8 ; 12[

[12 ; 20[

[1 200 ; 1 800[

12

10

10

[1 800 ; 2 200[

14

[2 200 ; 3 000[
[3 000 ; 4 200]

[20 ; 28]

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

97

P067-102-9782100549412.fm Page 98 Mercredi, 24. novembre 2010 9:53 09

Tableau 2 Salaris hommes


Y

[0 ; 4[

[4 ; 8[

[1 200 ; 1 800[

10

[1 800 ; 2 200[

[2 200 ; 3 000[

[3 000 ; 4 200]

[8 ; 12[

[12 ; 20[

[20 ; 28]

18

16

12

12

1. Dfinissez la population tudie, lunit statistique, les caractres tudis et leur


nature.
2. Quel pourcentage de femmes gagnent moins de 2 200 parmi les femmes qui ont
moins de 8 ans danciennet ?
3. Calculez la moyenne et lcart-type du salaire des femmes, ainsi que la moyenne
et lcart-type du salaire des hommes. En dduire le salaire moyen de lensemble
des 240 salaris.
4. Calculez la moyenne et lcart-type de lanciennet des femmes.
5. Reprsentez le graphe des frquences cumules de la distribution marginale de
lanciennet des femmes.
6. Calculez la distribution (en pourcentage) de lanciennet des femmes gagnant au
moins 1 800 .
7. On considre la distribution conjointe du salaire et de lanciennet des cent salaris femmes. Sachant que le coefficient de corrlation entre X et Y est gal
0,45 pour cette distribution, donnez lquation de la droite des moindres carrs de
Y en X. Quel est le point dintersection de cette droite avec lautre droite des moindres carrs de X en Y ?
Exercice 3.3
Le tableau suivant donne les pourcentages de variation par rapport la priode prcdente du produit intrieur brut (prix constants) et de la consommation finale prive
(prix constants) en France ( source : http://stats.oecd.org/)
Anne

1990

1991

1992

1993

1994

1995

1996

1997

1998

1999

PIB

2,6

1,0

1,4

0,9

2,2

2,1

1,1

2,2

3,5

3,3

Consommation

2,5

0,6

1,0

0,4

1,4

1,7

1,6

0,4

3,9

3,5

Anne

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

PIB

3,9

1,9

1,0

1,1

2,5

1,9

2,2

2,3

0,4

2,2

Consommation

3,6

2,6

2,4

2,0

2,5

2,6

2,4

2,5

1,0

0,8

1. Calculez les sries des indices, base 1989, du PIB et de la Consommation prive.

98

Calculez le coefficient de corrlation linaire entre les indices du PIB et de


la consommation prive.

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 99 Mercredi, 24. novembre 2010 9:53 09

2. Peut-on considrer qu'il y a approximativement une liaison linaire entre les indices de volume du PIB et de la Consommation prive ? Calculez lquation de la
droite des moindres carrs expliquant lindice de la Consommation prive en fonction de lindice du PIB.
Reprsentez le nuage des 21 points avec la droite des moindres carrs.
Quelle est la part de variation de l'indice de la consommation prive explique par la
relation linaire ?
3. Calculez le coefficient de corrlation linaire entre les variations du PIB et de la
Consommation prive. Calculez lquation de la droite des moindres carrs expliquant la variation de la Consommation prive en fonction de la variation du PIB.
Reprsentez le nuage des 20 points avec la droite des moindres carrs.
4. Vous semble-t-il plus intressant d'analyser la liaison entre les variations du PIB
et celles de la Consommation prive qu'entre les indices du PIB et de la Consommation prive ? Si oui, pourquoi ?
Exercice 3.4
Une entreprise a effectu un sondage auprs de sa clientle pour connatre son apprciation sur le service livraison. Les rsultats ont t les suivants :
Pas du
tout
satisfait

Plutt
pas
satisfait

Plutt
satisfait

Trs
satisfait

Clients de plus de 2 ans danciennet

10

50

245

195

Clients dau plus 2 ans danciennet

40

90

205

165

1. Calculez le pourcentage total de clients plutt satisfaits ou trs satisfaits.


2. Calculez le pourcentage de clients de plus de 2 ans danciennet parmi les clients
plutt satisfaits ou trs satisfaits.

Dunod. La photocopie non autorise est un dlit.

3. Donnez le tableau des profils en ligne.


4. Donnez le tableau de contingence obtenu en regroupant :
dune part les clients pas du tout satisfaits et plutt pas satisfaits ;
et dautre part les clients plutt satisfaits et trs satisfaits.
5. Si les 2 caractres taient indpendants, combien aurait-on de clients de plus de
2 ans danciennet dans la catgorie plutt satisfait ou trs satisfait ?
Daprs examen de juin 2001, GEA 1re anne Paris IX-Dauphine.

Exercice 3.5
Lobservation des quantits offertes sur un march de raisin de table et des prix de
vente a donn les rsultats suivants :
Quantit X la vente (tonnes)

100

120

84

78

87

80

110

95

Prix moyen Y par kg (euros)

1,60

1,40

1,95

2,10

1,75

2,25

1,50

1,80

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

99

P067-102-9782100549412.fm Page 100 Mercredi, 24. novembre 2010 9:53 09

1. Calculez le coefficient de corrlation linaire entre X et Y.


2. Dterminez lquation de la droite des moindres carrs de Y en X. Sans faire de
calcul, donnez le signe de la pente de la droite des moindres carrs de X en Y.
3. On admet que la valeur du prix moyen Y par kg en fonction de la quantit la
vente X est dtermine par lquation trouve la question 2.
La recette globale correspondant la vente de la totalit du raisin est-elle une fonction constamment croissante de x ?
Sinon, quelle est la valeur critique xc que les producteurs ont intrt ne pas
dpasser ?
Exercice 3.6
Le tableau suivant, extrait de la revue
Synthses, Revenus et patrimoine des
mnages (INSEE, n 19, 1998), donne la rpartition (en %) des mnages selon leur
niveau de vie et leur type socio-conomique.
Niveau de vie
(en F/uc/mois)

Infrieur
au 1er dcile
< 3 700

Type socio-conomique
Communes agricoles

22

Du 1er dcile
au 3e quartile
[3 700 ; 9 933[

Du 3e quartile au
9e dcile
[9 933 ; 13 900[

Au moins gal
au 9e dcile
13 900

13

18
Communes et quartiers ouvriers

41

70
41

11
Communes et quartiers
des classes moyennes tertiaires

28

Communes et quartiers
techniques trs qualifis

Quartiers hupps

31
71

34
8

65

100

100

19

100
9

30
100

15

100
7

28
20

65

100
34

13
25

44

37

32

12

100

17

51

100
10

22

11

12
4

12
39

6
Ensemble

Ensemble

100
100

10

100

uc : unit de consommation.
Lecture : 30 % des habitants des quartiers hupps appartiennent au 10e dcile de niveau de vie (cest--dire parmi les
10 % des mnages les plus aiss). Et 28 % des mnages du 10e dcile habitent dans des quartiers hupps.
Champ : mnages hors tudiants.
Source : Enqute Logement 1996, INSEE.

1. Prcisez la population tudie, lunit statistique, les caractres et leur nature.


2. Quels types de distributions avez-vous dans ce tableau ? crire les deux tableaux
de distributions conditionnelles.
3. Donnez la valeur mdiane du niveau de vie en F/uc/mois des mnages appartenant
aux Quartiers hupps .
4. Proposez un indicateur de disparit des niveaux de vie pour lensemble des mnages. Donnez sa valeur.
5. Parmi les mnages ayant un niveau de vie suprieur au 3 e quartile (mnages qui
se situent parmi les 25 % ayant le niveau de vie le plus lev, soit plus de

100

INTRODUCTION LA MTHODE STATISTIQUE

P067-102-9782100549412.fm Page 101 Mercredi, 24. novembre 2010 9:53 09

9 933 F/uc/mois), quel pourcentage habite dans un quartier hupp ou dans un


quartier technique trs qualifi .
6. Calculez la distribution (en %) du niveau de vie en F/uc/mois des mnages appartenant aux communes et quartiers techniques trs qualifis ou aux quartiers
hupps .
Exercice 3.7
Le tableau suivant donne la distribution de 200 tudiants selon leur note dexamen X
en conomie et leur note dexamen Y en Statistique.
Y

[5 , 7[

[7 , 9[

[9 , 11[

[5 , 7[

[7 , 9[

12

12

[9 , 11[

10

18

15

21

10

[13 , 15[

11

12

13

[15 , 17[

10

[11 , 13[

[11 , 13[ [13 , 15[ [15 , 17[ [17 , 19]

[17 , 19]

1. Calculez les rapports de corrlation de Y en x, et de X en y.


2. Tracez la courbe de rgression de Y en x.
3. Peut-on calculer une autre mesure de la liaison des variables X et Y ?
Exercice 3.8

Dunod. La photocopie non autorise est un dlit.

Reprenons les donnes relatives aux 21 eaux minrales gazeuses (cf. tableau 3.5). On
recode la variable X (fluorures) en trois classes et la variable Y (sodium) en quatre
classes, de la faon suivante :
C1X

[0 ; 1[

C1Y

[0 ; 100[

C2X

[1 ; 2[

C2Y

[100 ; 300[

C3X

[2 ; 9]

C3Y

[300 ; 500[

C4Y

[500 ; 2 000]

1. crire un tableau qui a pour premire colonne les eaux minrales, pour deuxime
colonne la variable XC (variable X recode) gale au numro de classe dans le
recodage de X, et pour troisime colonne la variable YC (variable Y recode) gale
au numro de classe dans le recodage de Y.

DISTRIBUTIONS STATISTIQUES DEUX CARACTRES

101

P067-102-9782100549412.fm Page 102 Mercredi, 24. novembre 2010 9:53 09

2. Construire le tableau de la distribution conjointe des variables XC et YC (XC en


ligne et YC en colonne). Donnez le tableau des profils en ligne associ.
3. Les variables XC et YC sont-elles indpendantes ? (justifiez votre rponse)
4. Donnez le tableau de distribution de la variable XC sachant que Y est suprieur
300 mg/l. Comment sappelle cette distribution ?
Exercice 3.9
Soit les donnes trimestrielles suivantes relatives des souscriptions de contrats
dassurance vie de fin mars 2000 fin dcembre 2002 :
Y = Nombre
de contrats
souscrits

1
2
3
4
5
6
7
8
9
10
11
12

117
178
149
189
145
173
170
223
223
281
285
339

400

Nombre de contrats

350
300
250
200
150
100
50
0

10 11 12 t

Reprsentation graphique

Tous les rsultats de cet exercice seront donns avec une prcision de deux dcimales.
1. Calculez le taux trimestriel moyen de croissance du nombre de contrats souscrits.
2. On ajuste cette srie par le modle linaire : Y = a t + b.
2.1. Calculez les coefficients de ce modle par la mthode des moindres carrs.
2.2. Quelle est la part de variation de Y non explique par le modle ?
3. On ajuste maintenant cette srie par le modle quadratique : Y = at2 + b.
3.1. Calculez les coefficients de ce modle par la mthode des moindres carrs.
3.2. Quelle est la part de variation de Y non explique par ce nouveau modle ?
4. Quel modle choisissez-vous ? (justifiez votre rponse)
Daprs examen de juin 2006, DUGEAD 1re anne Paris-Dauphine.

102

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 103 Mercredi, 24. novembre 2010 10:14 10

4. Sries chronologiques
et prvision

ne srie chronologique ou chronique est constitue par une


suite ordonne dobservations dune grandeur au cours du
temps. Ltude de ces sries intresse tous ceux qui dsirent
dcrire, expliquer, contrler, prvoir des phnomnes voluant au cours
du temps.

Dunod. La photocopie non autorise est un dlit.

I. lments constitutifs dune srie chronologique


Ltude dune srie chronologique { xt , t = 1, , T} consiste dissocier les
diffrents mouv ements qui la composent et les analyser
. Cette dcomposition est une construction de lesprit puisque les sries composantes sont
des concepts abstraits et ne peuv ent pas tre directement observes. Une
reprsentation graphique simpose en dbut danalyse de toute chronique an
de faire apparatre les lments fondamentaux.
Les intervalles entre deux observations successives sont supposs de
mme longueur. Dans la pratique, cette hypothse est rarement ralise.
Pour des sries mensuelles de productions, de ventes, le nombre de jours
ouvrables de chaque mois varie : le nombre de dimanches dans le mois, les
jours de certaines ftes mobiles ne sont pas les mmes chaque anne. Pour
que ces variations ne soient pas intgres dans la composante rsiduelle du
modle, on corrige les donnes en adoptant une correction proportionnelle
qui consiste pour des donnes mensuelles, par exemple, ramener chaque
mois un mme nombre thorique de jours.

A. La tendance long terme


La tendance long terme ou trend, note ft , est le f acteur reprsentant
lvolution long terme de la grandeur, et traduit laspect gnral de la srie :

SRIES CHRONOLOGIQUES ET PRVISION

103

P103-130-9782100549412.fm Page 104 Mercredi, 24. novembre 2010 10:14 10

croissance de la consommation dlectricit, croissance du trac arien,


diminution de la population rurale, par exemple.
Pour de longues sries, un mouvement cyclique peut se superposer la
tendance. La composante cyclique lie la succession des phases du cycle
conomique (prosprit, dpression, reprise), a donn lieu jusquau milieu du
XXe sicle de multiples travaux, mais nest plus actuellement lobjet dun
intrt aussi marqu.

B. Le mouvement saisonnier
Le facteur saisonnier, not st , se rpte intervalles de temps gaux avec une
forme peu prs constante. Il peut tre d au rythme des saisons ou des
facteurs humains. Sa priode est de 12 pour des sries mensuelles, de 4 pour
des sries trimestrielles
Si p dsigne la priode du mouvement saisonnier : st = st + p = st + 2p =
Le facteur saisonnier est donc totalement dtermin par
p coefficients
saisonniers :
s1 , , sj , , sp

C. Les irrgularits
Cette composante, appele aussi mouvement rsiduel et note et , re groupe
tout ce qui na pas t pris en compte par la tendance et le f acteur saisonnier.
Elle est la rsultante de uctuations irrgulires et imprvisibles dues des
facteurs perturbateurs non permanents ; ces uctuations sont supposes de
faible amplitude et de moyenne nulle sur un petit nombre dobserv ations
conscutives.

D. Les perturbations
Les perturbations sont des uctuations ponctuelles de forte amplitude. Elles
sont dues, par e xemple, une grv e, des conditions mtorologiques
exceptionnelles pour lagriculture, un krach nancier Il con vient de les
liminer avant tout traitement de la srie . Les mthodes pour le f aire sont
simples ; pour faire comme si ces vnements na vaient pas eu lieu, les
instruments pri vilgis sont linterpolation et la rgle de tr
ois. La
reprsentation de la srie chronologique des Voyageurs RATP de 1995
2002 ( cf. gure 4.1) montre une baisse importante du nombre de v oyageurs
en dcembre 1995 due une longue grv e. Avant destimer les composantes
de cette chronique, il est ncessaire de corriger la v
aleur 0,19 milliard de
voyageurs-km de ce mois de dcembre en la remplaant, par e xemple par la

104

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 105 Mercredi, 24. novembre 2010 10:14 10

moyenne des mois de dcembre 1994 et 1996 (resp. 1,06 et 0,95 milliards de
voyageurs-km), soit 1 milliard de voyageurs-km.
On traite gnralement des sries deux composantes : tendance et mouvement rsiduel, ou trois composantes : tendance, mouvement saisonnier
et mouvement rsiduel. Les observations dune chronique possdant une
composante saisonnire peuvent tre disposes dans un tableau selon les
deux dimensions du temps, annuelle et mensuelle (ou trimestrielle), comme
pour les tableaux 4.1, 4.2 et 4.4. Cette prsentation, introduite par C. BuysBallot en 1847, est appele table de Buys-Ballot .

II. Les modles de composition dune srie


chronologique

Dunod. La photocopie non autorise est un dlit.

La dcomposition dune srie chronologique possdant un mouv


ement
saisonnier peut seffectuer selon trois types de modles :
modle additif
x t = f t + st + et
t = 1, , T
modle multiplicatif
xt = ft (1+ st) (1+ et)
t = 1, , T
modle mixte
xt = ft (1+ st) + et
t = 1, , T
On choisit un modle multiplicatif ou mixte si le mouvement saisonnier
prsente des amplitudes proportionnelles la tendance.
Notons quune transformation logarithmique du modle multiplicatif
ramne au modle additif :
log ( x t ) = log f t ( 1 + s t ) ( 1 + e t ) log ( f t ) + log ( 1 + s t ) + e t

puisque log ( 1 + e t ) e t
Nous nenvisagerons de mthodes de dcomposition que pour les modles
additif et multiplicatif.
Pour le mouvement saisonnier de priode p, on fait lhypothse dune
compensation exacte sur une priode entre les variations saisonnires positives et les variations saisonnires ngatives, sinon, le partage entre le facteur
saisonnier et la tendance serait indtermin :
p

= 0

j=1

Quand on analyse une srie chronologique, le premier problme est le


suivant : la srie prsente-t-elle des variations saisonnires et si oui, quel est
le schma de composition le mieux adapt ?

SRIES CHRONOLOGIQUES ET PRVISION

105

P103-130-9782100549412.fm Page 106 Mercredi, 24. novembre 2010 10:14 10

On commence par reprsenter la srie graphiquement. Si la srie prsente des


variations saisonnires, les points hauts (maxima) ainsi que les points bas
(minima), sont toujours distants du mme nombre de dates, ce nombre tant la
priode du mouvement saisonnier. La chronique reprsente la figure 4.1 a une
composante saisonnire de priode 12 (srie mensuelle), et la chronique reprsente la figure 4.2 a une composante saisonnire de priode 4 (srie trimestrielle).
Tableau 4.1 Voyageurs RATP (milliards de voyageurs/km)
Anne

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

Moyenne
mensuelle

Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre

1,04
0,93
1,06
0,89
0,98
1,01
0,79
0,65
0,87
0,98
0,83
0,19

0,91
0,95
0,94
0,93
0,92
0,94
0,85
0,62
0,92
1,07
0,96
0,95

0,98
0,89
1,02
0,96
0,94
0,97
0,86
0,65
0,93
1,08
0,99
1,00

1,01
0,91
1,07
0,98
0,94
1,01
0,88
0,67
1,00
1,10
1,04
1,08

1,05
0,98
1,13
1,01
0,99
0,99
0,90
0,71
1,02
1,14
1,05
1,07

1,09
0,99
1,17
1,00
1,12
1,03
0,99
0,76
1,04
1,20
1,14
1,14

1,14
1,00
1,19
1,02
1,10
1,12
0,99
0,79
1,05
1,21
1,14
1,09

1,18
1,09
1,23
1,11
1,12
1,16
1,08
0,80
1,12
1,28
1,16
1,18

1,22
1,06
1,24
1,08
1,01
1,04
1,01
0,76
1,14
1,27
1,16
1,23

1,21
1,12
1,31
1,15
1,18
1,26
1,07
0,84
1,2
1,31
1,24
1,28

1,08
0,99
1,14
1,01
1,03
1,05
0,94
0,73
1,03
1,16
1,07
1,02

Moyenne
annuelle

0,85

0,91

0,94

0,97

1,00

1,06

1,07

1,13

1,10

1,18

1,02

Mois

Source : www.insee.fr

Tableau 4.2 Indices de valeur des produits alimentaires (base 2000)


Anne

1999

2000

2001

2002

2003

2004

Moyenne
mensuelle

68,4
67,2
77,9
83,3
85,0
85,8
90,4
81,1
86,5
92,9
90,9
98,5

69,4 76,1 78,5


70,7 79,3 76,3
78,9 92,4 99,0
87,1 92,7 90,1
84,6 91,8 90,8
86,3 98,3 100,5
95,0 99,9 102,9
88,6 93,3 102,4
98,0 102,7 110,4
101,7 96,0 104,0
96,2 106,3 118,6
101,5 107,3 111,9

75,9
79,1
99,7
88,5
103,8
98,6
95,0
108,1
113,9
105,3
119,7
112,6

87,0
82,5
98,7
89,6
100,7
102,6
101,4
107,7
105,9
111,0
122,8
107,8

87,8
89,1
99,9
103,0
100,0
103,6
110,8
107,6
112,4
119,8
126,9
122,5

90,3
90,1
102,7
108,9
103,1
116,4
125,2
117,6
121,7
125,8
127,8
134,8

96,0
93,9
117,5
118,2
108,1
133,6
130,9
125,0
130,3
118,4
141,5
142,3

79,2
79,3
94,8
93,4
95,3
101,0
104,1
101,4
107,1
106,0
114,3
112,8

84,0

88,2

100,0 101,5 107,0 113,7 121,3

99,0

1995

1996

Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre

62,2
64,7
81,3
72,4
85,3
84,5
89,0
82,5
89,1
85,1
91,9
88,5

Moyenne
annuelle

81,4

Mois

1997

1998

94,7

98,8

Source : www.insee.fr

106

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 107 Mercredi, 24. novembre 2010 1:08 13

Dunod. La photocopie non autorise est un dlit.

Figure 4.1 Reprsentation graphique de la chronique du tableau 4.1

Figure 4.2 Reprsentation graphique de la chronique du tableau 4.2

Pour choisir le modle de composition , on peut relier par une courbe (ou
plutt par une ligne brise) les maxima distants dune priode p et faire de
mme avec les minima.
Si ces deux courbes sont peu prs parallles, alors le facteur saisonnier
a des amplitudes peu prs constantes, cest--dire quil affecte la tendance indpendamment de son niveau, et le schma additif est adapt.

SRIES CHRONOLOGIQUES ET PRVISION

107

P103-130-9782100549412.fm Page 108 Mercredi, 24. novembre 2010 1:09 13

Cest le cas de la chronique des Voyageurs RATP de 1995 2004


(cf. figure 4.1).
Sinon, on reprsente la chronique sur un papier ordonne logarithmique
(chapitre 2, IV.A). Si les deux courbes reliant les extrema sont peu prs
parallles, alors le facteur saisonnier a des amplitudes peu prs proportionnelles la tendance, cest--dire que les effets des variations saisonnires
sont proportionnels au niveau atteint par la tendance, et le schma multiplicatif est adapt. Cest le cas de la chronique des
Indices de valeur des
produits alimentaires de 1995 2004 ( cf. figures 4.2 et 4.3).

Figure 4.3 Reprsentation de la chronique du tableau 4.2


avec une ordonne logarithmique

Le modle multiplicatif convient dans la plupart des cas puisque dune


part, leffet saisonnier est gnralement proportionnel la tendance, et que
dautre part, dans le cas dune chronique tendance faiblement croissante o u
faiblement dcroissante, les deux schmas sont quasiment quivalents. Cest la
raison pour laquelle on nvoque bien souvent que le modle multiplicatif.

III. Analyse de la tendance


A. Ajustement de la tendance par une fonction analytique
),
Les logiciels spcialiss (SPSS), mais aussi les tableurs (Excel
proposent des fonctions analytiques pour ajuster la tendance, lajustement se

108

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 109 Mercredi, 24. novembre 2010 10:14 10

faisant par la mthode des moindres carrs (mthode qui minimise les carts
quadratiques entre modle et observ ations). Citons quelques-uns de ces
modles :
modle linaire : y(t) = a + b t
modle quadratique : y(t) = a + b t + c t 2
modle exponentiel : y(t) = exp (a + b t), ce type de modle convient
des quantits voluant taux constant puisque y(t + 1) = exp(b) y(t)
( y (t + 1) = c y(t) o c est constant)
modle logarithmique : y(t) = a + b ln (t)
modle S (courbe sigmode ) : y(t) = exp(a + b/t), ce type dajustement convient la description du cycle de vie de certains produits.
Ces mthodes analytiques sont simples, mais reposent sur lhypothse
dune tendance voluant selon une fonction analytique dtermine, hypothse
quon ne peut pas frquemment faire, mme la suite dune transformation
de variable.
En labsence de rfrence un modle prcis pour la tendance, on prfrera utiliser une mthode non-paramtrique qui filtre la tendance en liminant
le facteur saisonnier tout en rduisant les irrgularits. Dans la suite, nous
appellerons filtre une sorte de bote noire rgularisant une chronique X en
la transformant en une chronique Y qui est une approximation de la composante tendancielle de la chronique X :
filtre

Nous tudierons deux des principaux filtres linaires qui sont la moyenne
mobile et le lissage exponentiel simple. Un filtre linaire est une application
linaire de lensemble des chroniques dans lui-mme transformant la chronique X en une nouvelle chronique Y de la faon suivante :
yt =

k t+k

avec

K

et

Dunod. La photocopie non autorise est un dlit.

kK

= 1

kK

Le choix du filtre linaire appropri certains objectifs se fait par lintermdiaire du choix de ses coefficients k

B. Dfinition dune moyenne mobile


On appelle moyennes mobiles centres de longueur p (p < T) de la srie
{xt , t = 1, , T} les moyennes successives calcules en fonction de la parit
de p selon les formules qui suivent.

SRIES CHRONOLOGIQUES ET PRVISION

109

P103-130-9782100549412.fm Page 110 Mercredi, 24. novembre 2010 10:14 10

1
Premier cas, p impair, p = 2m + l : M p ( t ) = --x t+k
p k = m
+m

Il y a ( T p + 1) moyennes mobiles centres de longueur impaire p.


Deuxime cas, p pair, p = 2m :
m1
x t + m
1 xt m
x t + k + ---------M p ( t ) = --- ---------+
-
p 2
2
k = m+1

La moyenne mobile centre M2m(t) apparat comme la moyenne pondre


de valeurs de la srie encadrant la date t avec les coefficients de pondration
1
1
gaux ------ pour les deux valeurs extrmes xt m et xt + m et gaux --- pour
2p
p
les (p 2) valeurs intermdiaires xt m + 1 xt + m 1 .
Elle comporte donc ( p + 1) termes :
Valeurs

Pondrations

tm

1
-----2p

xt m + 1

xt

xt + m 1

xt + m

1
--p

1
--p

1
--p

1
-----2p

Il y a ( T p ) moyennes mobiles centres de longueur paire p.


Pour simplifier, la longueur p de la moyenne mobile tant fixe, on notera
dsormais yt la moyenne mobile centre de longueur p la date t.

C. Dtermination de la tendance par la mthode


des moyennes mobiles

Si une srie X est priodique de priode p, cest--dire si la srie rede vient


identique elle-mme tous les
p termes, alors toute suite de mo yennes
mobiles de longueur p (diffrente de p) a pour priode p.
p est impair ( p = 2m + 1).
Dmontrons cette proprit dans le cas o
Soit yt la moyenne mobile centre de longueur p la date t de la srie X,
montrons que la srie Y est de priode p :
+m

+m

1
1 x t + p + k = ------------xt + k = yt
y t + p = -------------2m+1 k = m
2 m +1 k = m

La dmonstration de cette proprit est laisse au lecteur pour le cas o p


est pair, et celui-ci pourra montrer en sus que lorsque la priode de la srie

110

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 111 Mercredi, 24. novembre 2010 10:14 10

X est gale la longueur de la moyenne mobile ( p' = p), les moyennes mobiles forment alors une suite de termes constants gaux la moyenne des termes de la srie X sur une priode.
La moyenne mobile centre de longueur
p rend constantes les sries
priodiques de priode p.
Deux chroniques ont la mme suite de moyennes mobiles centres de
longueur p si leur diffrence est une srie priodique de priode p dont la
somme des termes sur une priode est nulle.

 Exemple

La chronique {xt , t = 1, ,12} du tableau 4.3 est priodique de priode


p = 4 ; les suites des moyennes mobiles de longueur 2, 3, 5 sont aussi
de priode 4, et la suite des moyennes mobiles de priode 4 est une suite
de termes constants gaux -1/4, moyenne des termes sur une priode.

Dunod. La photocopie non autorise est un dlit.

Tableau 4.3 Calcul de moyennes mobiles

Soit C, la courbe joignant les points ( t , xt). Si la concavit de C est


tourne vers le haut, alors yt est suprieur xt pour tout t ; dans le cas
contraire, yt est infrieur xt pour tout t. Si C est une droite, yt est gal
xt pour tout t.
En conclusion, la moyenne mobile centre transforme une srie aligne
en elle-mme et plus gnralement, une srie monotone faible courbure en une srie peu diffrente.
La moyenne mobile transforme des carts dus des irrgularits indpendantes, de moyenne nulle sur un petit nombre de dates successives
(par hypothse) et de mme variance en carts de variance plus faible;
on dit quelle a un effet de rabot , ou aussi quelle lisse la chronique, en ce sens que la srie Y est moins disperse que la srie initiale
X. Mais les nouvelles irrgularits qui sont corrles entre elles, peuvent
faire apparatre des oscillations parasites qui ne figuraient pas dans la
srie initiale (effet de Slutsky-Yule).

SRIES CHRONOLOGIQUES ET PRVISION

111

P103-130-9782100549412.fm Page 112 Mercredi, 24. novembre 2010 10:14 10

Si la priode du mouvement saisonnier est gale


p, alors la
moyenne mobile centre de longueur p est un filtre linaire qui limine
le mouvement saisonnier tout en rduisant lamplitude du mouvement
rsiduel. De plus, on montre que sa valeur yt la date t peut tre assimile la tendance ft si celle-ci est faible courbure faible variation
dans le cas dun schma multiplicatif sur p dates conscutives.

D. Inconvnients de la mthode des moyennes mobiles


Un changement de niveau ou de pente de la tendance une date t entrane une
mauvaise approximation de cette composante pendant toute une priode
prcdant et sui vant cette date (gure 4.4). Cest la raison pour laquelle on
fait lhypothse dune tendance monotone faible courbure.

Figure 4.4 Reprsentation dune chronique et de ses moyennes mobiles centres de longueur 4

Si on dispose de T = np observations (n = nombre dannes et p = priode


du mouvement saisonnier) et si p est pair, on ne peut calculer que ( T p )
moyennes mobiles de longueur p. On ne disposera pas de valeurs pour la
tendance sur les p/2 dernires dates qui ne pourront pas tre prises en compte
pour une prvision.
Malgr ces inconvnients, on admettra que dans la plupart des cas, la
valeur ft de la tendance svalue par la moyenne mobile centre yt de longueur gale la priode du mouvement saisonnier.

112

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 113 Mercredi, 24. novembre 2010 10:14 10

IV. Correction des variations saisonnires


Si on tudie une chronique a vec v ariations saisonnires, lv aluation de la
tendance chaque date
t par la mo yenne mobile centre de longueur
adquate, conduit pour chaque coefcient saisonnier plusieurs valeurs quil
faut rsumer. Pour bien comprendre toutes les oprations successi ves pour la
dtermination des coef cients saisonniers et de la srie corrige des
variations saisonnires, on se reportera lexemple trait au paragraphe 5.

A. Modle additif
Le modle est le suivant : xt = ft + st + et
On approxime la tendance ft par la moyenne mobile centre yt .
Soient n le nombre dannes et p la priode du facteur saisonnier :
T = np observations

np p = p (n 1) moyennes mobiles si
p est pair ( cf. tableau 4.5).
Les coefficients saisonniers tant priodiques de priode p, on dispose
pour chacun des p coefficients saisonniers de ( n 1) valeurs qui sont ( n 1)
diffrences {xt yt}. On rsume ces ( n 1) valeurs par leur moyenne arithmtique, ou leur mdiane, ou leur moyenne arithmtique aprs limination
de la valeur la plus faible et de la valeur la plus leve (le logiciel SPSS
utilise ce dernier rsum).
Si la somme des coefficients saisonniers nest pas nulle sur une priode,
on corrige les coefficients saisonniers obtenus de faon avoir une somme
nulle :

Dunod. La photocopie non autorise est un dlit.

st

s t* = s t s

1
avec s = --p

t=1

On appelle srie corrige des variations saisonnires (srie CVS) la srie


des diffrences :
x t* = x t s t*
Pour toutes les dates pour lesquelles on dispose de la valeur de la
moyenne mobile, et donc dune valuation de la tendance, on peut calculer
lcart entre le modle et lobservation :
et = x t y t s t* = x t* yt
Si le modle est adapt, les valeurs absolues des carts ne doivent pas tre
leves, et leur somme voisine de zro.

SRIES CHRONOLOGIQUES ET PRVISION

113

P103-130-9782100549412.fm Page 114 Mercredi, 24. novembre 2010 10:14 10

B. Modle multiplicatif
Le modle est le suivant : xt = ft (l + st) (l + et)
Comme prcdemment, on approxime la tendance
ft par la moyenne
mobile centre yt .
Les coefficients saisonniers tant priodiques de priode p, on dispose
pour chacun des p coefficients saisonniers de (n 1) valeurs qui sont ( n 1)
quotients {xt / yt}. On rsume ces ( n 1) valeurs par leur moyenne arithmtique, ou leur mdiane, ou leur moyenne arithmtique aprs limination de la
valeur la plus faible et de la valeur la plus leve (le logiciel SPSS utilise ce
dernier rsum).
Si la somme des (1 + st) nest pas gale p sur une priode, on fait une
correction proportionnelle :
1 + st

1+s
1 + s t* = -------------t
1+s

avec

1
s = --- s t
pt = 1

On tablit ensuite la srie corrige des variations saisonnires :


xt
x t* = ------------1 + s t*
Dans le cas du modle multiplicatif, les coefficients saisonniers sexpriment en pourcentage de la tendance. Ils ont une interprtation plus concrte
que ceux du modle additif.
Le modle multiplicatif prdit ainsi des valeurs y t ( 1 + s t* ) et il est alors
naturel, pour toutes les dates auxquelles on dispose de la valeur de la
moyenne mobile, et donc dune valuation de la tendance, de considrer les
rsidus et sous la forme :
xt
x*
- 1 = ----t- 1
e t = --------------------------yt
y t 1 + s t*

Les carts entre le modle et les observations sont gaux :


x t y t ( 1 + s t* ) = y t ( 1 + s t* ) e t
Si le modle est adapt, les valeurs absolues des carts ne doivent pas tre
leves, et leur somme voisine de zro.

114

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 115 Mercredi, 24. novembre 2010 10:14 10

C. Autres approches
On peut chercher amliorer lv aluation de la tendance en repassant un
ltre mo yenne mobile sur la srie
CVS. On choisit gnralement une
longueur assez faible pour cette nouvelle suite de moyennes mobiles : 5 ou 7
dans le cas dune srie de priode 12, et 3 dans le cas dune srie de priode
4. Avec cette nouv elle valuation de la tendance, on dtermine de nouv eaux
coefcients saisonniers et une nouv elle srie CVS. Cette mthode itrati ve
pourrait videmment tre poursuivie, mais le g ain devient peu prs nul audel de deux tapes.
On peut aussi remplacer la moyenne mobile centre par la mdiane mobile
centre qui est un filtre non linaire : au lieu de synthtiser une suite de valeurs
de la srie par une moyenne pondre, on les rsume par leur mdiane (particulirement aise dterminer la main avec p = 3). Les mdianes mobiles,
dveloppes par Tukey, sont robustes puisqutant fondes sur lutilisation
de statistiques dordre, elles liminent les valeurs singulires (chapitre 1,
III.B.4). Elles constituent des lisseurs aux proprits complmentaires des
moyennes mobiles. Certaines mthodes de dsaisonnalisation reposent sur
une association de ces deux types de lisseurs.
Disposant des coefficients saisonniers, on peut ajuster la srie CVS par
une fonction, faire une prvision pour la tendance en extrapolant cette fonction dajustement ou en utilisant une mthode de lissage exponentiel sur la
srie CVS ( VI). Mais, il ne faut pas oublier que ce mode de prvision ne
peut tre envisag que sur du court terme puisquil suppose une volution
future non perturbe par des changements sur lenvironnement.

Dunod. La photocopie non autorise est un dlit.

V. Un exemple de dcomposition dune srie


chronologique

Pour dterminer la tendance et les coef cients saisonniers dune chronique,


on peut actuellement utiliser un logiciel ou un tableur.
Nanmoins, une bonne comprhension des mthodes demande de les
avoir appliques. On va montrer les tapes successives du traitement de la
chronique des ventes trimestrielles en France dessences aviation
(cf. tableau 4.4).

SRIES CHRONOLOGIQUES ET PRVISION

115

P103-130-9782100549412.fm Page 116 Mercredi, 24. novembre 2010 10:14 10

Tableau 4.4 Ventes en France dessence aviation (en milliers de tonnes)


Trimestre
Anne

1er trimestre

2e trimestre

3e trimestre

4e trimestre

Moyenne
annuelle

2005
2006
2007
2008

3,6
3,6
3,7
3,6

7,0
6,7
6,4
5,7

7,6
7,4
7,1
7,1

3,7
3,9
4,1
3,7

5,5
5,4
5,3
5

Moyenne
trimestrielle

3,7

6,5

7,6

3,9

5,3

Source : Comit Professionnel du Ptrole

Figure 4.5 Chronique du tableau 4.4 et suite des moyennes mobiles de longueur 4

Une saisonnalit de priode 4 (nombre de trimestres dans lanne) apparat sur la reprsentation graphique ( cf. figure 4.5), ce qui explique que la
suite des moyennes mobiles de longueur 4 filtre la tendance.
Pour une dcomposition de cette chronique, nous allons envisager successivement le modle additif et le modle multiplicatif.

A. Schma additif
Pour obtenir la srie CVS et la srie des rsidus, les calculs ont t raliss
laide du tableur Excel selon les tapes indiques (cf. tableau 4.5). Dans cet
exemple, la synthse des coef cients saisonniers a t ralise par la
moyenne.

116

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 117 Mercredi, 24. novembre 2010 10:14 10

Dunod. La photocopie non autorise est un dlit.

Tableau 4.5 Dcomposition de la chronique du tableau 4.4 avec le schma additif

colonne C : moyennes mobiles de longueur 4 valuant la tendance


C4 =(B2/2 + SOMME(B3 : B5) + B6/2)/4, puis recopier vers le bas
colonne D : diffrence entre valeurs observes et tendance
D4 = B4 C4, puis recopier vers le bas
colonne E : E4 = (D4 + D8 + D12) / 3
E5 = (D5 + D9 + D13) / 3
E6 = (D6 + D10 + D14) / 3
E7 = (D7 + D11 + D15) / 3
premires valeurs des 4 coefficients saisonniers quon reporte sur
toute la colonne laide du
collage spcial , option coller
valeurs , puis recopier vers le bas
colonne F : calcul des coefficients saisonniers normaliss : F2 = E2 s
puis recopier vers le bas
colonne G : calcul de la srie CVS
G2 = B2 F2, puis recopier vers le bas
colonne H : calcul de la srie des carts ( IV.A)
H4 = G4 C4, puis recopier vers le bas

SRIES CHRONOLOGIQUES ET PRVISION

117

P103-130-9782100549412.fm Page 118 Mercredi, 24. novembre 2010 10:14 10

B. Schma multiplicatif
Comme pour le modle additif, les calculs ont t raliss laide du tableur
Excel (cf. tableau 4.6). La synthse des coef cients saisonniers a aussi t
ralise par la mo yenne. Les diffrences entre certains rsultats donns dans
le tableau 4.6 avec ceux obtenus par calcul direct, sont e xpliquer par le fait
que Excel utilise pour les calculs un grand nombre de dcimales.
Tableau 4.6 Dcomposition de la chronique du tableau 4.4
selon le schma multiplicatif

colonne C : moyennes mobiles de longueur 4 valuant la tendance


C4 = (B2/2 + SOMME(B3:B5) + B6/2)/4, puis recopier vers le bas
colonne D : quotient entre valeurs observes et tendance
D4 = B4 / C4, puis recopier vers le bas
colonne E : E4 = (D4 + D8 + D12) / 3
E5 = (D5 + D9 + D13) / 3
E6 = (D6 + D10 + D14) / 3
E7 = (D7 + D11 + D15) / 3
premires valeurs des 4 coefficients (1 + st) quon reporte sur toute
la colonne laide du collage spcial , option coller valeurs

118

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 119 Mercredi, 24. novembre 2010 10:14 10

colonne F : calcul des coefficients saisonniers normaliss : F2 = E2 s ,


puis recopier vers le bas
colonne G : calcul de la srie CVS
G2 = B2 / F2, puis recopier vers le bas
colonne H : calcul de la srie (1 + et)
H4 = G4 / C4, puis recopier vers le bas
colonne I : calcul de la srie et
I4 = H4 1, puis recopier vers le bas
colonne J : calcul de la srie des carts ( IV.B)
J4 = C4 F4 I4, puis recopier vers le bas
Les sries CVS induites par les deux modles de composition sont presque
confondues (cf. figure 4.6).

Dunod. La photocopie non autorise est un dlit.

Figure 4.6 Sries CVS

La reprsentation des sries des carts (colonne H du tableau 4.5 et


colonne J du tableau 4.6) permet de comparer les ajustements entre les deux
modles et les observations ( cf. figure 4.7). On constate que les deux sries
des carts sont presque confondues.

SRIES CHRONOLOGIQUES ET PRVISION

119

P103-130-9782100549412.fm Page 120 Mercredi, 24. novembre 2010 10:14 10

Modle multiplicatif

Modle additif

Figure 4.7 carts entre les modles et les observations

VI. Les mthodes de lissage exponentiel


Les mthodes de lissage e xponentiel, dveloppes par R. G. Bro wn dans les
xtrapolation qui donnent un poids
annes 60 1, sont des mthodes de
prpondrant aux v aleurs rcentes. Elles se caractrisent, en outre, par la
simplicit des calculs et le petit nombre des donnes garder en mmoire.

A. Le lissage exponentiel simple


Cette mthode de prvision sapplique des
chroniques sans variations
saisonnires et tendance localement constante . On suppose la grandeur
observe caractrise par des variations irrgulires autour de la moyenne :
x t = a + et

t =1, , T

Les sries conomiques prsentent souvent un niveau moyen qui volue


travers le temps. Pour la chronique reprsente la figure 4.4, il est clair
1. R. G. Brown, Smoothing, forecasting and prediction of discrete time series , Prentice Hall,
1962.

120

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 121 Mercredi, 24. novembre 2010 10:14 10

que le recours la moyenne arithmtique des observations conduirait sousvaluer les valeurs futures. Il convient de donner aux observations les plus
rcentes un poids prpondrant.
La prvision x T ( h ) faite par la mthode de lissage exponentiel simple la
date T pour lhorizon h, cest--dire pour la date T + h, est la suivante :
x T ( h ) =

T 1

(1 ) x
i

T i

avec

0<<1

i=0

Le paramtre est la constante de lissage. Si T est lev, la somme des


pondrations est peu diffrente de 1, en effet :

T 1

1 ( 1 )T
( 1 ) i = ----------------------------- = 1 ( 1 ) T 1

i=0

et la prvision x T ( h ) apparat comme la moyenne pondre des valeurs


x1 , , xT . Cette prvision ne dpendant pas de lhorizon h, nous la noterons
dsormais x T
Cette mthode de prvision repose sur lide que les observations influencent dautant moins la prvision quelles sont loignes de la date
T. En
outre, on suppose cette dcroissance exponentielle. Plus la constante de
lissage est proche de 0, plus linfluence des observations passes remontera
loin dans le temps et plus la prvision sera rigide , cest--dire peu sensible aux fluctuations conjoncturelles. Au contraire, plus la constante de
lissage est voisine de 1, plus la prvision sera souple , cest--dire principalement influence par les observations rcentes.

Dunod. La photocopie non autorise est un dlit.

1) Autres interprtations de la mthode


On voit aisment que :
x T = ( 1 ) x T 1 + x T
(1)
La prvision apparat comme la moyenne pondre entre la prvision
x T 1 faite la date T 1 et la dernire observation xT, le poids donn cette
observation tant dautant plus fort que est plus lev.
Dans le cas o est gal 1 : x T = s T , ce qui signifie que la prvision
est gale la dernire valeur observe, on parle de prvision nave .
On peut encore crire :
x T = x T 1 + ( x T x T 1 )
(2)
La prvision apparat alors comme gale la prvision la date prcdente corrige dun terme proportionnel la dernire erreur de prvision.
Dans ces deux formules qui fournissent des mthodes lmentaires de
mise jour de la prvision, linformation apporte par le pass est rsume
dans x T 1

SRIES CHRONOLOGIQUES ET PRVISION

121

P103-130-9782100549412.fm Page 122 Mercredi, 24. novembre 2010 10:14 10

On peut montrer que la valeur de a qui minimise la quantit :


T 1

(1 ) ( x
i

T 1

a )2

(3)

i=0

est la suivante :
T 1

(1 ) x
i

T i

i=0

- x T
a = ----------------------------------------1 ( 1 )T
La prvision sinterprte alors comme la constante qui sajuste le mieux
la srie au voisinage de T, lexpression au voisinage traduisant le
fait que dans la minimisation, linfluence des observations dcrot lorsquon
sloigne de la date T.
Cette dernire interprtation montre clairement que le lissage exponentiel
simple ne sapplique que si la chronique peut tre approche par une droite horizontale au voisinage de T, ce qui implique une tendance localement constante.

2) Proprits du lissage exponentiel simple


1. La chronique lisse { x t , t = 1 , ,T } a une variance infrieure celle
de la chronique initiale { x t , t = 1 , ,T } Comme tout filtre, le lissage exponentiel simple ralise un crtage des irrgularits de la srie.
2. Le lissage exponentiel simple est un filtre linaire.
3. De mme que la moyenne mobile, le lissage exponentiel simple
sadapte avec retard un changement de niveau de la chronique (cf. figures 4.4
et 4.8). Cest de la valeur de la constante de lissage que dpendent la stabilit et le taux de rponse de la srie lisse, ces deux caractristiques ayant
un aspect complmentaire.

3) Mise en uvre de la mthode


a) Initialisation
La mthode du LES utilise laide des formules (1) ou (2) ncessite
linitialisation de lalgorithme. On prend gnralement x 1 gal x 1 ou x 1 gal
x (initialisation par df aut du logiciel SPSS), et il est clair que la v aleur
choisie pour x 1 aura dautant moins dinuence sur que T sera grand.
b) Choix de la constante de lissage
Ce choix peut se f aire selon des critres subjectifs de
rigidit ou de
souplesse de la prvision. Mais une mthode plus objecti ve consiste
choisir minimisant :

122

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 123 Mercredi, 24. novembre 2010 10:14 10

soit l Erreur Quadratique Moyenne de prvision :


T 1

1
( x t + 1 x t ) 2
EQM = -----------T 1t = 1

soit l Erreur Absolue Moyenne de prvision :


T 1

1
EAM = -----------x t + 1 x t
T 1t = 1

Il ne faut pas manquer dexaminer aussi l Erreur Moyenne de prvision


qui peut indiquer dans certains cas une sous-valuation ou une survaluation
systmatique de la prvision qui sobserve dailleurs lexamen des graphiques des sries initiales et lisses :
T 1

1
EM = -----------( x t + 1 x t )
T 1t = 1

Dunod. La photocopie non autorise est un dlit.

La minimisation de ces critres peut tre faite sur toute la srie des
erreurs de prvision ou sur un pourcentage donn de ses derniers termes
(dans ce cas, on prend souvent le dernier tiers de la srie, tableau 4.7). Certains logiciels proposent actuellement les mthodes de lissage avec une
constante dtermine par la minimisation dun critre. Le logiciel SPSS
calcule la constante optimale en minimisant lErreur Quadratique Moyenne
de prvision.

Figure 4.8 Chronique du tableau 4.6 et srie obtenue par LES avec = 0,4

SRIES CHRONOLOGIQUES ET PRVISION

123

P103-130-9782100549412.fm Page 124 Mercredi, 24. novembre 2010 10:14 10

Tableau 4.7 Prsentation des calculs du LES avec les critres calculs
sur le dernier tiers de la srie
= 0,5

= 0,4
t

xt

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

130
121
120
127
122
129
124
120
139
136
135
134
136
133
138
133

LES

et

ABS (et)

(et)2

LES

et

ABS (et)

(et)2

130,00
126,40
123,84
125,10
123,86
125,92
125,15
123,09
129,45
132,07
133,24
133,55
134,53
133,92
135,55
134,53

9,00
6,40
3,16
3,10
5,14
1,92
5,15
15,91
6,55
2,93
0,76
2,45
1,53
4,08
2,55

9,00
6,40
3,16
3,10
5,14
1,92
5,15
15,91
6,55
2,93
0,76
2,45
1,53
4,08
2,55

81,00
40,96
9,99
9,63
26,39
3,68
26,53
253,12
42,85
8,57
0,57
6,02
2,33
16,67
6,50

130,00
125,50
122,75
124,88
123,44
126,22
125,11
122,55
130,78
133,39
134,19
134,10
135,05
134,02
136,01
134,51

9,00
5,50
4,25
2,88
5,56
2,22
5,11
16,45
5,22
1,61
0,19
1,90
2,05
3,98
3,01

9,00
5,50
4,25
2,88
5,56
2,22
5,11
16,45
5,22
1,61
0,19
1,90
2,05
3,98
3,01

81,00
30,25
18,06
8,27
30,94
4,92
26,11
270,45
27,28
2,60
0,04
3,62
4,20
15,81
9,07

EM =
0,64

EAM =
2,27

EQM =
6,42

EM =
0,12

EAM =
2,23

EQM =
6,55

Le tableau 4.8 donne, selon la constante de lissage variant par pas de


0,1, les valeurs des critres EM, EQM et EAM pour le LES appliques la
srie de la figure 4.8, ces critres ayant t calculs sur le dernier tiers de la
srie, cest--dire avec les cinq dernires erreurs de prvision.
Le critre EQM est minimum pour = 0,4, le critre EAM pour = 0,5
et la valeur absolue de lerreur moyenne est minimum pour = 0,5
Tableau 4.8 Valeurs des critres calculs sur le dernier tiers de la srie du tableau 4.7
Valeur de
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9

124

EM
4,548
2,931
1,545
0,643
0,125
0,148
0,280
0,339
0,369

EQM

EAM

25,311
14,068
8,151
6,421
6,547
7,361
8,436
9,670
11,095

4,548
3,101
2,495
2,274
2,227
2,449
2,648
2,833
3,012

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 125 Mercredi, 24. novembre 2010 10:14 10

B. Le lissage exponentiel double


Le lissage e xponentiel double est une gnralisation du lissage e xponentiel
simple au cas dune chronique tendance localement linaire ; on suppose
que la srie peut tre ajuste par une droite au voisinage de T :
xt = a1(T) + a2(T) ( t T)
Les coefficients a1(T) et a2(T) sont choisis de faon minimiser la quantit suivante qui est lanalogue de la quantit (3) minimise pour le lissage
exponentiel simple :

i
( 1 ) x T i a 1 ( T ) + a 2 ( T ) ( i )

i=0

T 1

On obtient la solution suivante :


T 1

( 1 )i xT i
a 1 ( T ) = 2S 1 ( T ) S 2 ( T )
S1 ( T ) =

i=0
avec

T 1
a 2 ( T ) = ----------
- S 1 ( T ) S 2 ( T )

( 1 )i S1( T i )

S2( T ) =
1

i=0

ce qui conduit la prvision : x T ( h ) = a 1 ( T ) + a 2 ( T ) h

Dunod. La photocopie non autorise est un dlit.

La quantit S1(T) rsultant du lissage exponentiel simple de la srie


{xt , t = 1, ,T} et la quantit S2(T) du lissage exponentiel simple de la
srie {S1 (t), t = 1, ,T } do le nom de lissage exponentiel double, on
dispose pour leurs calculs des formules de mise jour du LES :
S1 ( T ) = xT + ( 1 ) S1 ( T 1 )

S2( T ) = S1( T ) + ( 1 ) S2( T 1 )


Linitialisation de ces formules de mise jour peut tre :
S1 ( 1 ) = x1

S2( 2 ) = S1( 2 )

SRIES CHRONOLOGIQUES ET PRVISION

125

P103-130-9782100549412.fm Page 126 Mercredi, 24. novembre 2010 10:14 10

En dveloppant les galits ci-dessus, on obtient les formules de mise


jour des coefficients a 1 ( T ) et a 2 ( T ) :

a 1 ( T ) = a 1 ( T 1 ) + a 2 ( T 1 ) + ( 1 ( 1 ) 2 ) x T x T 1 ( 1 )

= x T ( 1 ) 2 x T x T 1 ( 1 )

a 2 ( T ) = a 2 ( T 1 ) + 2 x T x T 1 ( 1 )

a 1 ( 2 ) = x 2
Linitialisation de ces formules peut tre :
a 2 ( 2 ) = x 2 x 1

Comme pour le lissage exponentiel simple, le choix de la constante de


lissage peut se faire par la minimisation dun critre choisi.
La mthode de Holt-Winters tend les mthodes de lissage exponentiel
aux sries saisonnires. Cest une mthode de prvision trs utilise.

126

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 127 Mercredi, 24. novembre 2010 10:14 10

Testez-vous (les rponses sont donnes page 286)


Il y a au moins une rponse exacte par question.
1. Pour une chronique 12 termes :
a) on peut calculer 8 moyennes mobiles centres de longueur 4
b) on peut calculer une moyenne mobile centre de longueur 12
c) on peut calculer 10 mdianes mobiles centres de longueur 3
d) on peut calculer 2 moyennes mobiles centres de longueur 11
2. Identification du modle de dcomposition adapt :
a) si le facteur saisonnier est proportionnel la tendance, on choisit le modle additif
b) si les deux courbes joignant respectivement les maxima et les minima sont quasiparallles sur un graphique ordonne logarithmique, on choisit le modle multiplicatif
c) si les maxima de la courbe reprsentative de la chronique sont distants de 5 dates,
on choisit le modle additif
d) on peut toujours ramener un modle multiplicatif un modle additif

Dunod. La photocopie non autorise est un dlit.

3. Si une chronique X a une composante saisonnire de priode p, alors :


a) les moyennes mobiles centres de longueur 2 p liminent la saisonnalit
b) on peut approximer la tendance par la suite des moyennes mobiles centres de
longueur p
c) la somme de p termes successifs de X donne une approximation de la moyenne de
la tendance
d) on peut toujours calculer ( T p) moyennes mobiles centres de longueur p si elle
a T termes
4. Une prvision par lissage exponentiel simple :
a) tient dautant plus compte des valeurs rcentes de la srie que la constante est
faible
b) peut senvisager pour une chronique possdant une composante saisonnire
c) ne peut pas senvisager pour une chronique possdant une tendance la hausse
d) sadapte dautant plus rapidement un changement de niveau de la chronique que
est leve

SRIES CHRONOLOGIQUES ET PRVISION

127

P103-130-9782100549412.fm Page 128 Mercredi, 24. novembre 2010 10:14 10

Exercices (corrigs page 309)


Exercice 4.1
On dispose aussi de la rpartition mensuelle du niveau de lindice de la qualit de
lair ATMO dans lagglomration parisienne selon trois classes de niveau pour les
six annes agrges.
Frquences mensuelles dapparition des indices de 1998 2003
Niveau

14

57

8 10

Nombre total de jours

Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre

164
136
151
152
132
115
123
93
155
155
172
177

22
29
35
28
54
65
59
83
25
31
8
9

0
4
0
0
0
0
4
10
0
0
0
0

186
169
186
180
186
180
186
186
180
186
180
186

Nombre total de jours

1725

448

18

2191

Lgende : Niveau 1 4 : trs bon bon.


Lgende : Niveau 5 7 : moyen mdiocre.
Lgende : Niveau 8 10 : mauvais trs mauvais.

On sintresse la classe de niveau 5 7 .


1. Reprsentez graphiquement son volution au cours des 12 mois.
2. Calculez la suite des moyennes mobiles de longueur 3 et reprsentez-la sur le
mme graphique. Quelle proprit de la moyenne mobile venez-vous dillustrer ?
Exercice 4.2
t

xt

3
1

51

10

11

12

15

15

1. Calculez les suites des moyennes mobiles de longueurs 2, 3, 4 et 5.


Quelles sont les proprits de la moyenne mobile qui sont illustres par cet
exemple ?
2. Soit la chronique zt = 10 2t + xt , calculez la suite des moyennes mobiles de
longueur 4 de la nouvelle srie zt

128

INTRODUCTION LA MTHODE STATISTIQUE

P103-130-9782100549412.fm Page 129 Mercredi, 24. novembre 2010 10:14 10

Exercice 4.3
Le tableau suivant donne la srie chronologique bimestrielle du transport des voyageurs sur le rseau Air France International (en milliards de passagers-km) de 2002
2005.
Janv.-Fv

Mars-Avril

Mai-Juin

Juil.-Aot

Sept.-Oct.

Nov.-Dc.

13,3
13,8
14,4
15,4

15,1
14,2
16,0
16, 8

14,8
14,1
16,2
17,4

16,3
17,0
18,5
19,9

14,8
15,2
16,2
17,9

14,2
14,8
15,3
17,4

2002
2003
2004
2005

Source : www.insee.fr

1. On choisit de modliser cette chronique par un schma additif. Justifiez ce choix.


2. Dterminez la tendance de cette chronique par la suite des moyennes mobiles de
longueur adapte, et reprsentez-la sur le mme graphique que la srie initiale.
3. Calculez les coefficients saisonniers.
4. Calculez la srie corrige des variations saisonnires. Ajustez cette chronique par
une droite en utilisant la mthode des moindres carrs.
5. Au vu des rsultats, quelles prvisions pouvait-on faire fin 2005 pour janvierfvrier, mars-avril et mai-juin 2006 ?
6. Sachant quon a observ 17,2 milliards de passagers-km en janvier-fvrier 2006,
18,5 en mars-avril et 18,6 en mai-juin, calculez lerreur absolue moyenne de prvision.

Dunod. La photocopie non autorise est un dlit.

Exercice 4.4
1. Voici pour ses trois premiers mois douverture, le nombre de places xt vendues
par semaine par le cinma PARADISO (t dsignant le numro de la semaine varie
de 1 12) :
t

10

11

12

xt

3 428

3 295

3 376

3 195

3 573

3 334

3 434

3 300

3 703

3 411

3 545

3 327

1. Reprsentez cette chronique graphiquement. A-t-elle une composante saisonnire ?


Si oui, de quelle priode ?
2. Calculez la suite des moyennes mobiles de longueur approprie pour valuer la
tendance de la srie chronologique. Reprsentez cette suite sur le graphique prcdent.
3. On choisit un modle multiplicatif. valuez les coefficients saisonniers.
4. Calculez la srie corrige des variations saisonnires (srie CVS) et reprsentez-la
sur le graphique prcdent. Calculez la srie des rsidus.
5. Ajustez la srie CVS par une droite en utilisant la mthode des moindres carrs.
Reprsentez cette droite sur le graphique prcdent.
6. Donnez une prvision pour le nombre de places vendues pendant les deux premires semaines du quatrime mois.

SRIES CHRONOLOGIQUES ET PRVISION

129

P103-130-9782100549412.fm Page 130 Mercredi, 24. novembre 2010 10:14 10

Exercice 4.5
La demande dun certain article a t releve au cours de 15 mois conscutifs :
Mois

10

11

12

13

14

15

Demande

37

41

39

40

42

39

41

39

42

41

40

42

43

40

42

1. Appliquez un lissage exponentiel simple cette srie chronologique en


prenant = 0,6 jusquau 6e mois inclus et = 0,3 pour les mois suivants. Tracez
sur le mme graphique la chronique initiale et la srie lisse.
2. Justifiez le changement de valeur de la constante de lissage .
3. Calculez lerreur moyenne, lerreur absolue moyenne et lerreur quadratique
moyenne.
4. Donnez les prvisions de la demande pour les trois mois suivants.
Exercice 4.6
Le tableau ci-dessous donne les valeurs des indices trimestriels (base 2000) de la production industrielle des boissons pour les annes 2002 2005 :

2002
2003
2004
2005

1er trimestre

2e trimestre

3e trimestre

4e trimestre

194,2
198,3
100,9
198,7

105,3
103,8
110,7
109,8

103,5
115,7
106,6
110,8

127,5
125,5
126,3
129,4
Source : www.insee.fr

1. Commentez lvolution de cette srie chronologique en utilisant sa reprsentation


graphique. Justifiez le recours un schma de composition additif.
2. Dterminez la tendance de cette chronique par la suite des moyennes mobiles de
longueur adapte, et reprsentez-la sur le mme graphique que la srie initiale.
3. Calculez les coefficients saisonniers et la srie corrige des variations saisonnires.
4. Appliquez un lissage exponentiel simple la srie CVS avec = 0,3.
5. Quelles prvisions pouvait-on faire au dernier trimestre 2005 pour les deux premiers trimestres 2006 ? Sachant que cet indice a pris les valeurs 100,8 et 110,8
pour les 1 er et 2 e trimestres 2006, calculez lerreur moyenne et lerreur absolue
moyenne de prvision.

130

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 131 Mercredi, 24. novembre 2010 10:19 10

5. M odle probabiliste
et variable alatoire

Il ne faut donc pas se demander si nous percevons vraiment un monde, il faut se dire au
contraire : le monde est cela que nous percevons.
Phnomnologie de la perception, Maurice Merleau-Ponty (1908-1961)

Dunod. La photocopie non autorise est un dlit.

a statistique descriptive permet de rsumer les mesures dune ou


plusieurs grandeurs obtenues sur les individus dun chantillon ou
dune population par un classement (tri simple dans le cas dune
seule variable, tri crois dans le cas de plusieurs variables). Une grandeur
est alors dcrite par sa distribution, qui est dtermine partir des observations, justifiant ainsi le nom de distribution empirique de la grandeur
(ou de la variable). Cest la reprsentation de base pour apprcier
une grandeur aprs quelle a t classe.
Lobservation de nombreuses distributions empiriques montre pour certaines dentre elles des analogies de formes, et des caractristiques voisines. Ceci conduit dfinir des distributions thoriques afin de disposer
dinstruments plus formels regroupant les proprits. Ces distributions
thoriques sont une abstraction destine non pas simplement prsenter les donnes, mais les interprter ou les expliquer. Ce paralllisme
entre lobservation et la reprsentation thorique se retrouve galement
au niveau de lobservation individuelle quon replace dans un ensemble
potentiel dobservations supposes homognes. Les variations entre diffrentes observations sont considres comme des fluctuations non attribuables une cause identifie (contrlable ou non), et on dit alors
quelles sont le rsultat du hasard.
Il est ncessaire de disposer dun outil thorique permettant de considrer globalement les diffrentes observations provenant dune mme
population en tenant compte dune part, de lhomognit lie leur
origine commune et dautre part, des fluctuations entre observations.
Cest le concept de variable alatoire qui remplit ce double rle. Son
intrt dpend des proprits gnrales quon pourra lui associer, et de
leur fiabilit.
Le calcul des probabilits (puis son axiomatique) est le support formel de
cette reprsentation. Il a t introduit initialement au XVIIe sicle pour

MODLE PROBABILISTE ET VARIABLE ALATOIRE

131

P131-178-9782100549412.fm Page 132 Mercredi, 24. novembre 2010 10:19 10

tudier les jeux de socit (ds, cartes, roulette), et son dveloppement


a permis une approche intgrant les lments fluctuants et non permanents des phnomnes physiques, sociaux ou encore psychologiques. Les
probabilits se fondent sur la notion d exprience alatoire , cest--dire
dont les conditions dexcution bien que parfaitement dfinies, ne permettent pas de sassurer priori de lissue de lexprience.
contrario les expriences, dites dterministes, celles dont le rsultat est
matris par les conditions initiales, ont un seul rsultat possible, en
ngligeant les ventuelles erreurs de mesure. Ces situations sopposent
celles o le hasard intervient dans le rsultat attendu et pour lesquelles
on parle d incertitude. Cest pour ce dernier contexte qua t fond le
calcul des probabilits. Sous le terme de hasard, on a longtemps rsum
les facteurs considrs comme mineurs 1 dans ltude dun phnomne.
On pourrait plutt dire actuellement quentre dterminisme et incertitude repose toute la notion de ce qui chappe au contrle, ou encore de
linformation non disponible.
Le caractre alatoire dune grandeur peut tre partie intrinsque du
phnomne tudi. Cest le cas du rsultat dun jet de d, ou bien de la
quantit de fuel consomm annuellement en France. Dans dautres cas,
il nen est pas ainsi. Si on sintresse la distance moyenne parcourue sur
une autoroute par les automobilistes passant un poste de page
donn, un certain jour, on peut interroger tous les automobilistes se prsentant au page et calculer la moyenne. On peut aussi chercher cette
information en interrogeant un chantillon dautomobilistes se prsentant ce page. La valeur moyenne observe sur cet chantillon va
dpendre de lchantillon retenu qui nest pas lui-mme fix lavance
(il y a beaucoup dchantillons possibles), et peut tre considr comme
le rsultat dune exprience alatoire (le choix de lchantillon dautomobilistes). Ainsi, alors quinitialement le problme se posait en termes
dterministes, la procdure surajoute de choix de lchantillon introduit
un lment alatoire. La grandeur tudie (moyenne) nest pas ellemme alatoire, mais les donnes recueillies sur lchantillon le sont
puisque le contenu de lchantillon nest pas dtermin par son mode de
tirage.
Lobjectif du calcul des probabilits est lanalyse et lexplication des phnomnes non dterministes. Ses fondements thoriques, et en particulier
laxiomatique de Kolmogorov , lui donnent une valeur scientifique relativise toutefois par la signification de la notion de probabilit.

1. Historiquement, ces facteurs mineurs ont t dabord restreints la notion derreur.

132

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 133 Mercredi, 24. novembre 2010 10:19 10

Dunod. La photocopie non autorise est un dlit.

I.

lments de calcul des probabilits

Le calcul des probabilits est bas, comme nous lavons dj vu, sur la notion
dexprience alatoire. On associe une telle exprience  lensemble de
tous les rsultats possibles, appel ensemble fondamental, quon dsigne
communment par . Chaque rsultat possible est une partie de .
Lensemble fondamental associ une preuve non dterministe peut
contenir un nombre fini dlments (de la forme { 1, 2, , n}) ou bien
tre de type infini dnombrable 1 ou enfin tre de type infini non dnombrable. On assimile, comme dans la thorie classique des ensembles, un vnement, donc une partie de , la proprit qui le caractrise au sein de
lensemble fondamental, cest--dire la ralisation de cette proprit. On
dsigne par le rsultat qui sera observ lissue de lexprience alatoire,
et on crit G (avec G ()) lorsque la situation dcrite par G est
le rsultat de la ralisation de lpreuve E. La non-ralisation de lvnement G est note G (o G dsigne lensemble complmentaire 2 de G
dans ).
La notation et le vocabulaire ensembliste sont tout fait adapts la description des situations alatoires, et lvnement dont on a la certitude de la
ralisation est dsign par (vnement certain), tandis que lvnement
dont on sait quil ne se produira pas est dsign par (vnement impossible). La runion ensembliste G H correspond la ralisation dau moins
un des vnements G et H. Lintersection ensembliste G H correspond
la ralisation des deux vnements G et H. Lincompatibilit de G et H se
traduit par G H = . Enfin, la diffrence ensembliste G H correspond
la ralisation de G et la non-ralisation de H, ou encore lintersection
G H.
La reprsentation ensembliste justifie la caractrisation des issues dune
preuve alatoire au sein dune structure mathmatique sur laquelle on pourra
dfinir une probabilit. Cette structure est celle dune algbre de Boole (cas
fini), ou dune -algbre (cas infini).

A. Notion de probabilit
Soit lensemble fondamental associ une preuve alatoire et
lensemble des parties de .

 ()

1. Cest--dire pouvant tre mis en bijection avec tout ou partie de lensemble des entiers naturels.
2. Le complmentaire de lensemble G est not indiffremment G ou Gc.

MODLE PROBABILISTE ET VARIABLE ALATOIRE

133

P131-178-9782100549412.fm Page 134 Mercredi, 24. novembre 2010 10:19 10

On dit que  () est une algbre de Boole si les deux conditions
suivantes sont vrifies :

 G 
C2 : G  et H  G H 

C1 : G

Cette structure dalgbre de Boole correspond la traduction ensembliste


de la logique des vnements dans le cas o lensemble fondamental est fini.
On dit que   () est une -algbre de Boole (ou plus simplement
une -algbre) si les deux conditions suivantes sont vrifies :
C1 : G

C2 : Gi

 pour i 

UG 

i

La notion de -algbre tend la correspondance entre la logique vnementielle et la thorie des ensembles au cas dpreuves alatoires dont
lensemble fondamental est infini.
On notera que si E est un vnement quelconque de ,  = {, , E, }E
est une -algbre.

Lorsquon a dfini une -algbre  dvnements de , on dit que le


couple (, ) est un espace probabilisable dans le sens o il ne reste plus
qu prciser la probabilit de chaque vnement de .
Les premires fondations de la notion de probabilit1 visaient dfinir une
chelle ordonne des chances de russite certains jeux. Lapproche frquentiste qui en a rsult est construite sur lobservation et le dnombrement de
situations dites lmentaires, cest--dire reprsentant toutes les issues diffrentes de lpreuve alatoire. Ce point de vue ne peut sappliquer qu des
cas o lensemble fondamental associ est fini.
On suppose tout dabord que les vnements lmentaires ont une chance
gale de ralisation, contexte dit d quiprobabilit, ce qui implique ladditivit des chances. Pour cette hypothse et pour un ensemble fondamental de
type fini, on dfinit la probabilit dun vnement comme lanalogue dune
frquence relative afin davoir une chelle de valeurs comprise entre 0 et 1,
et de disposer dune mesure additive : pour des vnements lmentaires
quiprobables, la probabilit dun vnement quelconque  est sa frquence
relative dapparition dans lensemble fondamental. Ce point est connu sous
le nom de rgle de Laplace.
1. Blaise Pascal et Pierre de Fermat correspondent en 1654, sur la rpartition quitable des
enjeux dans les jeux de hasard ; et Christian Huyghens, en 1657, formule et rsout le problme
dit de la ruine du joueur.

134

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 135 Mercredi, 24. novembre 2010 10:19 10

Donnons-en un exemple dapplication, en calculant la probabilit de faire


apparatre les chiffres 4, 2 et 1 en lanant trois ds parfaitement quilibrs.
Chaque d possde 6 faces, ce qui implique que lensemble fondamental
possde 6 3 = 216 lments. Dans cet ensemble fondamental form des figures 3 chiffres entre 1 et 6, celles qui permettent de reconstituer 421 sont
toutes les 3 ! = 6 permutations des trois chiffres 1, 2 et 4. La frquence relative de la figure 421 ou probabilit de lvnement obtention des chiffres 4, 2, 1 est gale 1/36
Ds lors que lensemble fondamental nest pas fini et/ou que lquiprobabilit nest pas assure sur les vnements lmentaires de , on ne peut plus
appliquer cette rgle du nombre de cas favorables sur nombre de cas possibles. On doit gnraliser cette dmarche et dfinir abstraitement la probabilit
pour quelle concide avec la rgle de Laplace lorsque cette dernire sapplique. On utilise alors la reprsentation ensembliste des vnements pour dfinir une probabilit sur un espace probabilisable ( , ).
Soit (, ) un espace probabilisable. Une probabilit1 P sur cet espace
est une application de  valeurs dans lintervalle [0;1] vrifiant :
i) P () = 1
ii) pour des vnements {Gi , i } incompatibles (i j Gi Gj = ) :

Dunod. La photocopie non autorise est un dlit.

P
G =
i  i

P(G )

i

On dit alors que le triplet (, , P) est un espace probabilis. Il est construit sur une preuve alatoire dont on se donne lensemble fondamental ,
tous les vnements simples ou complexes tant dcrits par , sur laquelle
on se donne lchelle des chances P.1
De cette dfinition, ou axiomatique de Kolmogorov, on dduit les proprits suivantes :
1. Si G

, alors P( G )

En effet, on a : G =G

1= P(G)
et G G = , ce qui donne :

P() = 1 = P (G G ) = P(G) + P( G )
2. La probabilit de lvnement impossible est nulle : P() = 0
Il suffit dappliquer la proprit prcdente en posant G =
1. On dit encore une mesure de probabilit pour bien faire rfrence aux qualits mtrologiques
de cette application. On dsignera indiffremment par la suite la probabilit par Pr ou par P.

MODLE PROBABILISTE ET VARIABLE ALATOIRE

135

P131-178-9782100549412.fm Page 136 Mercredi, 24. novembre 2010 10:19 10

3. Si G

 et H  sont tels que

G H, alors P(G) P(H)

Puisque H = G ( G H) et que G ( G H) = , on a :
P(H) = P(G) + P( G H), et P( G H) 0 implique P(H) P(G)
Il est important de noter que lingalit entre les probabilits est au sens large.
4. Si G et H sont deux lments quelconques de  :
P(G H) = P(G) + P(H) P(G H)
En effet, on a : G H = G ( G H) avec G ( G H) =
donc P(G H) = P(G) + P( G H)
De mme H = (G H) ( G H) avec ( G H) ( G H) =
donc P(H) = P(G H) + P( G H)
En combinant les deux rsultats, on obtient :
P(G H) = P(G) + P(H) P(G H)
Ce dernier rsultat est connu sous le nom de thorme des probabilits
totales.

B. Probabilits conditionnelles
Nous avons voqu en introduction de ce chapitre le lien particulier entre
linformation disponible, le contrle des facteurs dterminants dun phnomne
et limportance de sa partie alatoire, donc de sa probabilit de ralisation.
Nous allons retrouver ceci au travers de la notion de probabilit conditionnelle.
Soit une preuve alatoire donne, munie de son ensemble fondamental ,
de la -algbre des vnements, et de la probabilit P associe chacun de ces
derniers, en dautres termes, nous supposons donn un espace probabilis
(, , P). La connaissance dune information complmentaire sur le droulement de lpreuve quivaut la modification des probabilits dfinies sur les
lments de . En effet, cette information acquise nest autre quune condition
dsormais suppose ralise quel que soit le rsultat de lexprience alatoire.
Prenons-en un exemple. Nous avons vu que la probabilit de raliser la
figure 421 lors du jet de 3 ds tait de 1/36. Supposons maintenant que le
premier d soit lanc avant les deux autres, et quil fasse apparatre le chiffre
2. Lensemble fondamental associ au jet des 2 ds restant contient 36 vnements lmentaires, mais parmi ceux-ci, seuls les couples (4 ;1) et (1 ; 4) permettent de complter la configuration 421 . On en dduit donc que si on sait que
le premier d a affich la valeur 2, la probabilit de raliser un 421 est de 1/18.
On remarque dans cet exemple que lensemble fondamental a t modifi, et
donc aussi la -algbre des vnements, ainsi que la mesure de probabilit P.

136

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 137 Mercredi, 24. novembre 2010 10:19 10

Cette modification sappelle un conditionnement, car elle correspond la prise


en compte dune condition supplmentaire sur la ralisation de lpreuve alatoire (ici le fait que le premier d doit tre lanc sparment et quil affichera la
valeur 2). On est ainsi conduit dfinir les probabilits conditionnelles.
Dfinition 1

Soit (, , P) un espace probabilis et soit C  un vnement particulier, appel condition, de probabilit non nulle. Pour tout vnement
A , on appelle probabilit conditionnelle de A sachant C , note
P ( A C ), la quantit :
P( A C )
P ( A C ) = -----------------------P(C )
Cette dfinition est bien videmment drive de lapproche frquentiste des
probabilits puisquen raisonnant avec la rgle de Laplace, on pourrait dire que
les cas favorables sont ceux o les vnements A et C sont tous deux raliss,
alors que les cas possibles sont ceux pour lesquels de toutes faons lvnement
C est observ. Il faut noter quune probabilit conditionnelle na de sens que si
la condition est ralisable (de probabilit non nulle). La notion de probabilit
conditionnelle, ou encore de conditionnement des probabilits, revient modifier lensemble fondamental puisque lvnement C  se trouve tre rapport une probabilit gale un. Ainsi, sur la figure 5.1, par conditionnement
la probabilit de A devient ramene la seule part de A incluse dans C.

A
C

Dunod. La photocopie non autorise est un dlit.

Figure 5.1 Conditionnement dune probabilit

On peut vrifier que lapplication qui tout


bien une mesure de probabilit.

A  associe P ( A C ) est

Proprit
Si A1, A2, , An sont n vnements quelconques dune -algbre
dun espace probabilis ( , , P), on peut crire :
P ( A1 A2 An ) =
P ( A1 ) P ( A2 A1 ) P ( An A1 A2 An 1 )

MODLE PROBABILISTE ET VARIABLE ALATOIRE

137

P131-178-9782100549412.fm Page 138 Mercredi, 24. novembre 2010 10:19 10

En effet, si n = 2, cette proprit nest autre que la formule de dfinition des


probabilits conditionnelles. Supposons cette proprit vraie lordre n 1 :
P ( A1 A2 An 1 ) =
P ( A1 ) P ( A2 A1 ) P ( An 1 A1 A2 An 2 )
et montrons quelle est encore vraie lordre n.
On peut crire A 1 A 2 A n = ( A 1 A 2 A n 1 ) A n
On pose : B = A 1 A 2 A n 1 et on obtient :
P ( A1 A2 An ) = P ( An B ) = P ( An B ) P ( B )
soit :
P ( A1 A2 An ) =
P(An A1 A2 An1) P(A1) P(A2 A1) P(An1 A1 A2 An2)
Dfinition 2
Deux vnements A et B dun espace probabilis ( , , P) sont dits
indpendants en probabilit si la ralisation de lun deux ne modifie pas
la probabilit de survenue de lautre.

Il sagit dune relation symtrique. On parle galement dvnements stochastiquement indpendants. Dans la suite de ce livre, on crira toutefois
simplement vnements indpendants.
On voit alors que si A et B sont deux vnements indpendants, on a :
P( A B) = P( A)
P(B A) = P(B)
et chacune de ces galits montre que :
A et B indpendants P ( A B ) = P ( A ) P ( B )
Dautre part, il est important de ne pas confondre les notions dindpendance et dincompatibilit. Dans le premier cas, si les deux vnements A et
B sont de probabilit non nulles, alors la probabilit P ( A B ) est aussi non
nulle. Dans le second cas, mme si A et B sont de probabilit non nulles,
lintersection ( A B ) est de probabilit nulle. Il sensuit que deux vnements la fois indpendants et incompatibles sont tels quau moins lun
deux est un vnement impossible (cest--dire de probabilit nulle).
Notons encore que si A et B sont deux vnements indpendants, alors :
P( A B) = P( A B) = P( A)
P( B A) = P( B A) = P( B)

138

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 139 Mercredi, 24. novembre 2010 10:19 10

Cette notion dindpendance stend plus de deux vnements.


Dfinition 3
Soient n vnements dun espace probabilis ( , , P). On dit quils
sont mutuellement indpendants si quels que soient A1, A2, , Ak choisis
parmi ces n vnements, on a :
P ( A1 A2 Ak ) = P ( A1 ) P ( A2 ) P ( Ak )

Des vnements mutuellement indpendants sont indpendants deux deux


(simple application particulire de la dfinition), mais des vnements A1, A2, ,
An qui sont indpendants deux deux ne sont pas toujours mutuellement indpendants.
Cette notion dindpendance sera tendue plus loin au cas des variables alatoires, et peut aussi tre gnralise plusieurs preuves (ou expriences alatoires).
La mise en uvre des probabilits conditionnelles a conduit une rflexion
trs importante sur le concept de probabilit lui-mme, ce que nous verrons plus
loin. Cest certainement lapport de Thomas Bayes 1 qui en a reprsent le point
de dpart. Nous donnerons donc dabord le rsultat connu sous le nom de thorme de Bayes, pour examiner ensuite le dbat sur la notion de probabilit.
Thorme de Bayes
Soit (, , P) un espace probabilis, et soient A1, A2, , An un ensemn

A k = (on dit
k=1
que les Ak forment un systme complet dvnements). Pour tout vneP ( B Ai ) P ( Ai )
ment B, on a alors : P ( A i B ) = ------------------------------------------------ pour i = 1, 2, , n
ble dvnements deux deux incompatibles vrifiant

P( B A ) P( A )
k

Dunod. La photocopie non autorise est un dlit.

k=1

En effet, on sait que :


P ( Ai B )
P ( B Ai ) P ( Ai )
P ( A i B ) = ------------------------ = -------------------------------------P( B)
P( B)
n

et dautre part que B = B = B k = 1 A k =

U (B A )
k =1

1. Le rvrend Thomas Bayes (1701-1761) est lauteur de An Essay Towards Solving a Problem in the Doctrine of Chances qui ne fut publi quen 1763, aprs sa mort.

MODLE PROBABILISTE ET VARIABLE ALATOIRE

139

P131-178-9782100549412.fm Page 140 Mercredi, 24. novembre 2010 10:19 10

Les vnements B A k tant incompatibles deux deux puisque les Ak le


sont, on en dduit que :
P( B) =

k=1

P ( B Ak ) =

P( B A ) P( A )
k

k=1

et la formule de Bayes est dmontre.


On dit frquemment que les vnements Ai , qui forment une partition de
, sont les causes. Une autre dnomination, trs courante, consiste nommer
probabilits a priori les valeurs P(Ak), et probabilits a posteriori les valeurs
P ( A k B ). En effet, la formule de Bayes permet dobtenir une valeur rvise
des probabilits des vnements
Ai une fois connue la ralisation de
lvnement B.
On notera que lapplication de la formule de Bayes demande lvaluation
des probabilits dites a priori P(Ak) ainsi que des probabilits P ( B A k ) de
leffet B connaissant chacune des causes.

 Exemple

Pour un systme de crdit la clientle on distingue trois types de


dossiers : les dossiers aboutissant en contentieux, les dossiers dif cults
temporaires ou lgres et les dossiers sans dif cults de paiement. On a
valu sur la base de xpriences antrieures les proportions respecti ves
des trois catgories 1/5, 3/10 et 1/2. Dautre part, on dispose pour
chaque dossier dun score dapprciation global du client rapport lune
des deux modalits sui vantes : lev ou bas. Enn, on sait que 90 % des
dossiers en contentieux correspondaient un score bas, que 60
% des
dossiers difcults lgres correspondaient un score bas, et que 85 %
des dossiers sans difcults correspondaient un score lev. Si on tire un
dossier au hasard pour lequel le score est bas, quelle est la probabilit
quil ait abouti en contentieux ? (resp. quil nait donn lieu aucune
difcult de paiement ? quil ait engendr des difcults lgres ?)
Les trois vnements A1 = aboutir en contentieux , A2 = difcults
lgres et A3 = aucune difcult forment un systme complet. On
dispose des probabilits a priori :
P(A1) = 0,2
P(A2) = 0,3
P(A3) = 0,5
ainsi que des probabilits conditionnelles pour les vnements
B = score bas et B = score lev
P ( B A 1 ) = 0,9
P ( B A 2 ) = 0,6
P ( B A 3 ) = 0,15
do :
P ( B ) = P ( B A1 ) + P ( B A2 ) + P ( B A3 )
= P ( B A1 ) P ( A1 ) + P ( B A2 ) P ( A2 ) + P ( B A3 ) P ( A3 )
= 0,435

140

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 141 Mercredi, 24. novembre 2010 10:19 10

On en dduit :
P ( Ai B )
P ( B A1 ) P ( A1 )
0,5
P ( A 1 B ) = ------------------------ = --------------------------------------- = 0,9
------------------- = 0,414
P( B)
P( B)
0,435

Dunod. La photocopie non autorise est un dlit.

ainsi que : P ( A 2 B ) = 0,414

et

P ( A 3 B ) = 0,172

Ce calcul montre que linformation complmentaire le dossier tudi


correspond un score bas a permis une augmentation de la probabilit
associe au de venir contentieux (0,414 au lieu de 0,2) et de la
probabilit associe au de venir difcults lgres (0,414 au lieu de
0,3), et une forte diminution de la probabilit associe au de
venir
aucune difcult (0,172 au lieu de 0,5).
On nomme aussi probabilits rvises, les probabilits a posteriori P ( A k B ).
Le thorme de Bayes est lorigine de nombreux dveloppements formant ce quon a appel la statistique baysienne. Les domaines dapplication
sont trs varis : gestion financire, prvisions, diagnostic,
Cependant, son utilisation est trs conteste, notamment en raison de la
ncessit dune valuation a priori , subjective, de probabilits. De plus les
causes Ak se trouvent affectes de probabilits, ce qui peut apparatre
paradoxal si on se rfre la notion dterministe de causalit. Pour ceux qui
contestent la statistique baysienne, un phnomne est, ou nest pas, cause
(ventuellement partielle) dun autre, et ne saurait donc tre muni dune probabilit sur cette causalit 1.
De nombreuses difficults persistent autour de la notion de probabilit, et
particulirement celle du choix des probabilits quon affecte aux vnements rapports une preuve alatoire. Lanalyse combinatoire et lapproche frquentiste offrent une solution, dite
objectiviste . Cependant, ce
point de vue se heurte :
quelques contradictions logiques : le lien entre la probabilit et la frquence relative, qui permet dvaluer une probabilit, est relativiser par
la loi faible des grands nombres ( cf. infra ), donc par une probabilit ; on
dfinit concrtement une probabilit en se basant sur une autre probabilit
qui demande tre value, et ainsi de suite ;
quelques paradoxes : le paradoxe de Bertrand 2 montre 3 solutions distinctes, 1/4, 1/3 et 1/2 (toutes par lapproche frquentiste) au calcul de la
probabilit que la longueur dune corde dun cercle soit suprieure au ct
du triangle quilatral inscrit dans ce cercle ; le paradoxe de St Peters1. On ne vise pas, dans ce livre, prendre parti pour ou contre loptique baysienne, mais
donner au lecteur des lments simples sur les arguments en prsence. Le dbat nest pas
encore clos !
2. Prsent en dtail, par exemple, dans le livre de G. Saporta, pages 11, op. cit .

MODLE PROBABILISTE ET VARIABLE ALATOIRE

141

P131-178-9782100549412.fm Page 142 Mercredi, 24. novembre 2010 10:19 10

bourg1 montre que la notion frquentiste de probabilit (donc


objective ) peut parfois demander des apprciations complmentaires
(utilit) trs subjectives ;
et quelques limites (comment valuer les probabilits pour une preuve
qui nest pas rptable ?).
Lanalyse baysienne cherche contourner ces obstacles, surtout ceux lis
lapproche frquentiste, mais au prix de valeurs subjectives pour certaines
probabilits, ainsi que de quelques difficults mathmatiques de mise en
uvre.

II. Variables alatoires une dimension


A. Dfinitions
tant donn un espace probabilis ( , , P), une variable alatoire (v.a. en
abrg) est une application X dfinie sur lensemble fondamental et
valeurs relles :

X:

X()
tout vnement lmentaire , lapplication X associe une valeur numrique X() ; cest pourquoi on prcise parfois en parlant de variable alatoire
relle2 nomme aussi ala ou ala numrique .
On observe que la terminologie utilise peut paratre abusive, car X est
une application, donc une fonction de dans . Les variables alatoires
seront notes par des lettres majuscules telles que X, Y, Z, pour les distinguer des valeurs quelles sont susceptibles de prendre (ou ralisations), gnralement notes en minuscules.
1. Jacques et Pierre jouent avec une pice. Pierre paie Jacques 1 si pile sort ds le premier
jet, 2 si pile sort seulement au 2e jet, 4 sil ne sort quau 3e jet et ainsi de suite en doublant
la somme paye par Pierre Jacques chaque jet supplmentaire o pile nest pas sorti. On
cherche savoir quelle somme Jacques devrait accepter de payer Pierre pour jouer ce jeu
si lon veut quil soit quilibr, cest--dire que leurs espoirs de gain soient gaux ; le paradoxe
de cette situation provient du fait quon peut montrer que le prix alors payer par Jacques
devrait tre infini. Ce paradoxe a longuement t tudi par Daniel et Nicolas Bernoulli, puis
par Buffon, Laplace, Poisson entre autres ; il a contribu dgager la notion dutilit.
2. Il faut distinguer une variable alatoire laquelle est associe une loi, appele aussi
distribution , de probabilit (thorique) dune variable statistique quantitative laquelle est
associe une distribution statistique (observe), chapitre 1, II.A.

142

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 143 Mercredi, 24. novembre 2010 10:19 10

 Exemple

On jette deux ds non pips ; lensemble fondamental associ cette


exprience alatoire est form de 36 vnements lmentaires quiprobables :
= ({1,1} ; {1,2} ; {2,1} ; ; {6,6})
Si on sintresse la somme des points marqus par les deux ds, on
dnira sur cet espace probabilis une v .a. X gale cette somme ;
lensemble de ses valeurs possibles est :
{2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
Pour obtenir la probabilit dune v aleur quelconque de X, il suf t de
dnombrer les vnements lmentaires de qui ralisent cette valeur;
ainsi :
P ( X = 4 ) = P ( { 1,3 } { 2,2 } { 3,1 } )
= P ( { 1,3 } ) + P ( { 2,2 } ) + P ( { 3,1 } ) = 3/36 = 1/12

On dit que la variable alatoire X est :


discrte finie si lensemble X() est fini, discrte infinie si lensemble
X() est infini dnombrable,
continue si lensemble X() est un intervalle de  non rduit un point
(ou une runion dintervalles de ).
On retrouve une classification analogue celle rencontre pour les variables statistiques (chapitre 1), la notion de probabilit remplaant la notion de
frquence ; la loi des grands nombres ( V) permet dtablir un lien entre ces
deux notions.

Dunod. La photocopie non autorise est un dlit.

Remarque
Pour une variable alatoire continue X, il faut complter la dfinition
en ajoutant que limage rciproque de tout intervalle ]
, x] doit
appartenir la -algbre  :
x  X1(],x]) = ( ( X ) ( ) x ) 
La probabilit tant dfinie sur la famille des parties de
formant
une -algbre, cette condition permet de dterminer la probabilit de
tout intervalle de .
Notons que cette condition est gnrale puisquelle est ralise pour
les variables alatoires discrtes ; pour ces variables alatoires, limage
rciproque de tout intervalle de  est une partie de laquelle est
associe une probabilit.

MODLE PROBABILISTE ET VARIABLE ALATOIRE

143

P131-178-9782100549412.fm Page 144 Mercredi, 24. novembre 2010 10:19 10

B. Loi de probabilit dune variable alatoire


1) Fonction de rpartition dune variable alatoire
La fonction de rpartition FX (ou F) dune variable alatoire X valeurs dans
lintervalle [0, 1] est dfinie par : FX ( x ) = P ( X x )
Proprits caractristiques dune fonction de rpartition
dune variable alatoire

F est une fonction de rpartition si :


1.
2.

F est croissante (au sens large)


lim F ( x ) = 0 et
lim F ( x ) = 1

3.

F est continue droite

x+

Compte tenu de la proprit ii) dune probabilit ( I.A), on peut crire


pour tout a, b , a < b :
F(b) = F(a) + P(a < X b) P(a < X b) = F(b) F(a)
la probabilit pour que X appartienne un intervalle de  pouvant se
calculer partir de sa fonction de rpartition FX , cette fonction caractrise la
loi de X.

2) Loi de probabilit dune variable alatoire discrte


La fonction de rpartition dune telle v.a. est une fonction constante par intervalle (ou en escalier ) continue droite, les points de discontinuit correspondant des valeurs possibles de X (cf. figure 5.2) ; sa courbe reprsentative
sappelle la courbe de rpartition ou courbe cumulative ; on peut remarquer
que cette fonction prsente une identit formelle avec la fonction de rpartition dune variable statistique discrte.
Considrons le cas dune v.a. X discrte finie ; ses diffrentes valeurs possibles, en nombre fini, sont supposes distinctes et ranges dans lordre croissant :
X ( ) = { x 1 , , x i , ,x k }
Connaissant la fonction de rpartition de X, on peut calculer la probabilit
pi de ralisation de toute valeur x i ( 1 i k ) :
F ( x1 )
pi = P ( X = xi ) =
F ( xi ) F ( xi 1 )

pour i = 1
pour i = 2, , k

Une telle distribution de probabilit peut se reprsenter par un diagramme


en btons ( cf. figure 5.3).

144

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 145 Mercredi, 24. novembre 2010 10:19 10

Valeur de X

x1

xi

xk

Probabilit

p1

pi

pk

i=1

pi = 1

 Exemple 1

Loi de probabilit de la v.a. discrte nie X gale la somme des points


marqus lors du lancer de deux ds non pips :
Valeur de X

10

11

12

Probabilit

1
-----36

1
-----18

1
-----12

1
--9

5
-----36

1
--6

5
-----36

1
--9

1
-----12

1
-----18

1
-----36

Inversement, on calcule aisment la fonction de rpartition partir de la


connaissance des k couples (xi , pi) :
si x < x 1

i
F( x) =
pj
j = 1

si x i x < x i + 1

pour 1( i k 1 )

si x x k

Lorsque la v .a. est discrte innie , lensemble X() est inni


dnombrable, et on peut, comme dans le cas ni, calculer les
probabilits de chaque v aleur possible partir de la fonction de
rpartition ; en sens inverse, on peut dduire la fonction de rpartition de
la connaissance des valeurs possibles et des probabilits associes.

 Exemple 2

Dunod. La photocopie non autorise est un dlit.

Loi de probabilit de la v .a. discrte innie X gale au nombre de jets


ncessaires dune pice de monnaie non pipe pour obtenir la f
ace
pile :

Valeur de X

Probabilit

1
--2

1---22

1---23

1--2i

On verra au chapitre 6 (
paramtre 0,5

1
---- = 1
i
2
i=1

II.C) que X suit une loi gomtrique de

MODLE PROBABILISTE ET VARIABLE ALATOIRE

145

P131-178-9782100549412.fm Page 146 Mercredi, 24. novembre 2010 10:19 10

F(x)
1
35/36
33/36
30/36
26/36
21/36
15/36
10/36
6/36
3/36
1/36
0

10 11 12

Figure 5.2 Fonction de rpartition (exemple 1)

P
1/6

1/12

10

11

12

Figure 5.3 Diagramme en btons (exemple 1)

3) Loi de probabilit dune variable alatoire continue


Une variable alatoire X absolument continue est une variable alatoire dont
la fonction de rpartition FX possde en sus des trois proprits dj nonces, les deux proprits suivantes :1
4. FX est une fonction continue sur tout
5. FX est drivable presque partout 1

1. Cest--dire que la fonction Fx peut ne pas tre drivable sur un ensemble dnombrable de
points de 

146

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 147 Mercredi, 24. novembre 2010 10:19 10

Toute fonction vrifiant ces cinq proprits peut tre considre comme
la fonction de rpartition dune variable alatoire absolument continue.
La drive de FX , note fX , est appele densit de probabilit de la variable alatoire X.
Une fonction f, dfinie sur tout , peut tre considre comme la densit
de probabilit dune variable alatoire absolument continue si elle possde
les trois proprits suivantes :1
1. f ( x ) 0 x 
2. f continue presque partout 1
3.

f ( x ) dx

= 1

La fonction de densit est une reprsentation trs utile de la loi de probabilit dune variable alatoire continue. On peut dfinir la loi de probabilit
dune variable alatoire continue, soit par sa fonction de rpartition, soit par
sa fonction de densit, et on a la relation fondamentale suivante :
x 

F( x) =

f ( t ) dt

La probabilit relative un intervalle se calcule laide de la fonction de


rpartition ou de la fonction de densit ( cf. figure 5.4) :
P(a < X b) = F (b) F (a) =

f ( x ) dx
a

Dunod. La photocopie non autorise est un dlit.

f(x)

Figure 5.4 Reprsentation de la probabilit dun intervalle


1. Cest--dire que la fonction f peut ne pas tre continue sur un ensemble dnombrable de
points de  ; on dit encore que f est continue par morceaux ; mentionnons que les points de
non-drivabilit de F correspondent aux points de discontinuit de f

MODLE PROBABILISTE ET VARIABLE ALATOIRE

147

P131-178-9782100549412.fm Page 148 Mercredi, 24. novembre 2010 10:19 10

Probabilit attache un point x


Soient deux nombres rels a et b positifs :
0 P( X = x) P( x a < X x + b) = F ( x + b) F ( x a)
= F ( x + b ) F ( x ) + F ( x ) F ( x a )


la fonction F tant continue : F ( x + b ) F ( x ) 0

si b 0

F ( x ) F ( x a ) 0

si a 0

do : P ( X = x ) = 0
la probabilit quune v.a. continue X prenne une valeur donne x est
nulle, on dit que la loi de X est diffuse (ou continue).
Par consquent, pour une variable alatoire continue :
F(x) = P(X x) = P(X < x)

a, b

, a < b :

P(a < X < b) = P(a X b) = P(a < X b)


= P(a X < b) = F(b) F(a) =

f ( x ) dx
a

 Exemple
Soit la fonction f dnie par :
0

1
f ( x ) = ---------2 x
0

pour x 0
pour 0 < x 1
pour x > 1

Montrons que cette fonction peut tre considre comme la fonction de


densit dune v.a. continue :
1. f(x) 0 x 
2. f continue sauf en x = 0 et x = 1
3.

148

12
1
f ( x ) dx = --- x 1 2 dx = x
2

1
0

= 1

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 149 Mercredi, 24. novembre 2010 10:19 10

Calculons sa fonction de rpartition :


pour x 0

F(x) =

0 dt = 0

pour 0 < x 1

F(x) =

1
0 dt + --------- dt =
2 t

1 - dt + 0 dt = 1
0 dt + -------2 t

0
0
On vrie aisment que cette fonction F possde les proprits de la
fonction de rpartition dune v.a. continue1.
On peut calculer la probabilit de tout interv alle ou runion dintervalles,
par exemple :
P(0,16 < X < 0,25) = F(0,25) F(0,16) = 0,5 0,4 = 0,1
pour x >1

F(x) =

C. Loi dune fonction de variable alatoire


Si est une fonction dfinie sur  valeurs dans , lapplication X,

note Y = (X) est une variable alatoire dont on peut dterminer la fonction de rpartition et donc la loi de probabilit partir de celle de X.

1) Changement de variable Y = aX + b

Dunod. La photocopie non autorise est un dlit.

Les paramtres a (a 0) et b sont des nombres rels. Connaissant la fonction


de rpartition de X, on peut calculer la fonction de rpartition FY de la v.a. Y :
pour a > 0 :
yb
yb
F Y ( y ) = P ( Y y ) = P ( aX + b y ) = P X ----------- = F X -----------
a

1. On peut remarquer que les deux points de discontinuit de la fonction de densit { x = 0} et


{x = 1} correspondent aux deux points de non-drivabilit de la fonction de rpartition.

MODLE PROBABILISTE ET VARIABLE ALATOIRE

149

P131-178-9782100549412.fm Page 150 Mercredi, 24. novembre 2010 10:19 10

pour a < 0 :
yb
F Y ( y ) = P ( Y y ) = P X -----------

a
yb
1 F X -----------
si X est une v.a. continue

=
y a

si X est une v.a. discrte


1 P X < ----------a
Lorsque la variable alatoire X est continue, on obtient la fonction de densit fY par drivation de la fonction FY

2) Autres types de fonctions


bijective (donc monotone)
croissante : F Y ( y ) = P ( Y y ) = P ( X 1 ( y ) ) = F X ( 1 ( y ) )
dcroissante :
F Y ( y ) = P ( Y y ) = P ( X 1 ( y ) )
si X est une v.a. continue
1 F X ( 1 ( y ) )
=
1 P ( X < 1 ( y ) ) si X est une v.a. discrte
Si X est une v.a. continue et si la fonction est drivable, on obtient la
fonction de densit fY par drivation de la fonction FY

 Exemple

Soit une v.a. continue X, on peut calculer les fonctions de rpartition et


de densit de Y = exp(X), la fonction exponentielle tant croissante :
0
FY ( y) =
F X ( lny )

pour
pour

y0
y>0

f Y ( y) = 1
--y- f X ( lny )

pour
pour

y0
y>0

quelconque
Le principe consiste toujours identifier la fonction de rpartition FY en
recherchant lantcdent pour X de lvnement { Y y = (x)}.
Par exemple, pour Y = X2 :
0 si y < 0
FY(y) =
P( y X + y) = F X ( y) F X ( y)

150

INTRODUCTION LA MTHODE STATISTIQUE

si y 0

P131-178-9782100549412.fm Page 151 Mercredi, 24. novembre 2010 10:19 10

III. Couple de variables alatoires


A. Fonction de rpartition dun couple alatoire
Soient deux variables alatoires X et Y dfinies sur le mme espace probabilis ( , ,P) ; on appelle fonction de rpartition du couple alatoire (X,Y) ,
la fonction F dfinie sur 2 par :
(x , y)2

F ( x , y ) = P ( X x ) ( Y y )

Caractrisation dune fonction de rpartition dun couple alatoire (X,Y )


1. F croissante par rapport chacune des variables x et y
2. lim F(x , y) = 1
et
lim F(x , y) = 0
x +
y +

x
y

3. Continuit droite : lim F(x , y ) = F(x0 , y0)


x x 0+
y y 0+

Dunod. La photocopie non autorise est un dlit.

B. Loi dun couple alatoire discret


Les variables alatoires discrtes finies X et Y sont dfinies sur le mme
espace probabilis ( ,,P). Leurs valeurs, supposes distinctes, sont ranges dans lordre croissant :
X() = { x1, , xi , , xk } et Y() = { y1, , yj , , yl }
La loi du couple alatoire ( X,Y) est dfinie par les probabilits pij associes tout couple de valeurs possibles ( xi , yj) (cf. tableau 5.1) :
p ij = P ( X = x i ,Y = y j )

ij

=1

j = 1i = 1

MODLE PROBABILISTE ET VARIABLE ALATOIRE

151

P131-178-9782100549412.fm Page 152 Mercredi, 24. novembre 2010 10:19 10

Tableau 5.1 Distribution de probabilit dun couple alatoire (X,Y)


Valeur de Y
y1

yj

yl

Loi marginale
de X

x1
.
.
.
xi
.
.
.
xk

p11
.
.
.
pi1
.
.
.
pk1

.
.
.

.
.
.

p1j
.
.
.
pij
.
.
.
pkj

.
.
.

.
.
.

p1l
.
.
.
pil
.
.
.
pkl

p1
.
.
.
pi
.
.
.
pk

Loi marginale
de Y

p1

pj

p1

Valeur de X

On notera lanalogie du tableau 5.1 avec le tableau dune distribution conjointe en statistique descriptive (chapitre 3, I.A).
On a :

p i =

ij

= P ( X = xi )

j=1
k

p j =

ij

= P ( X = xi )

i=1

Les couples ( xi, pi ) constituent la loi marginale de X et les couples


(yj, pj) constituent la loi marginale de Y.
Si la probabilit que X prenne la valeur xi nest pas nulle (pi 0), on peut
calculer la probabilit conditionnelle pj/i de Y = yj sachant que X = xi :
p
p j i = P ( Y = y j X = x i ) = -----ijp i
Les couples ( yj, pj/i ) constituent la loi conditionnelle de Y lie par X = xi
On note cette v.a. { Y X = xi }, et on prsente sa distribution comme celle de
toute v.a. une dimension :
Valeur de Y

y1

yj

yl

P(Y = y j X = x i )

p1/i

pj/i

pl/i

j=1

p j/i = 1

Il y a k lois conditionnelles de Y sachant que X prend une valeur donne.


De mme, si la probabilit pj nest pas nulle :
p
p i j = P ( X = x i Y = y j ) = ------ij
p j

152

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 153 Mercredi, 24. novembre 2010 10:19 10

Les couples (xi , pi/j ) constituent la loi conditionnelle de X lie par Y = yj :


{ Y X yj }=
Il y a l lois conditionnelles de X sachant que Y prend une valeur donne.
Les deux formules prcdentes entranent 1 :
p ij = p i p j i = p j p i j
Indpendance
Les variables alatoires X et Y sont indpendantes si pour tout couple
(xi , yj), on a la relation :
P((X = xi) (Y = yj)) = P ( X = x i ) P ( Y = y i )
X et Y indpendantes

pij = pi p j pour tout couple (i , j)

En cas dindpendance, les lois conditionnelles sont gales la loi marginale correspondante :
p
pj i = -----ij- = p j
pi

et

pij
pi j = ------ = pi
p j

ce qui signifie que la connaissance de la valeur prise par X napporte aucune


information sur la valeur de Y, et inversement.

Dunod. La photocopie non autorise est un dlit.

La loi de probabilit dun couple alatoire (X,Y) permet de calculer les lois
marginales des deux variables X et Y. En revanche, la connaissance de ces
lois ne permet pas de dterminer la loi conjointe, sauf si les variables X et Y
sont indpendantes.
Mentionnons lanalogie existant entre les notions de lois de probabilit
marginales et conditionnelles dfinies pour un couple alatoire et celles de
distributions marginales et conditionnelles rencontres en statistique descriptive (chapitre 3).
Toutes les notions dveloppes pour les couples de variables alatoires discrtes finies peuvent tre gnralises des variables alatoires discrtes infinies.
La loi de probabilit dun couple alatoire discret peut aussi tre dfinie
par sa fonction de rpartition.
Pour {xi x < xi+1} et { yj y < yj+1}:
F ( x , y) = P(( X x) (Y y)) =

mn

n=1 m=1

1. Les probabilits conditionnelles pj/i et pi/j sont aussi parfois notes p j et p i

MODLE PROBABILISTE ET VARIABLE ALATOIRE

153

P131-178-9782100549412.fm Page 154 Mercredi, 24. novembre 2010 10:19 10

C. Loi dun couple de variables alatoires continues


La fonction de rpartition dun couple (X,Y) de variables alatoires continues possde en sus des trois proprits dj nonces, les deux proprits suivantes :
4. F est une fonction continue sur 2
5. F est drivable presque partout
Toute fonction vrifiant les cinq proprits peut tre considre comme la
fonction de rpartition dun couple de variables alatoires continues.
2F
La densit f du couple ( X, Y) est donne par : f ( x , y ) = ------------ (x , y)
xy
La loi de probabilit dun couple de variables alatoires continues peut
tre dfinie, soit par la fonction de rpartition, soit par la fonction de densit,
et on a la relation fondamentale suivante :
(x , y ) 

F ( x , y) =

f ( u , v ) d u dv
2 du type [ a ; b] [c ; d]

La probabilit relative un sous-ensemble de


est gale :
P ( X , Y ) [ a ; b ] [ c ; d ] =

f ( u , v ) d u dv

Plus gnralement, la probabilit que


le couple alatoire ( X,Y) appartienne
un domaine  2 est gale :

f ( x , y ) dx dv
P ( X, Y )  =


Les densits marginales g de X et h de Y sont respectivement :

g( x) =

f ( x , y ) dy

et

h( y) =

f ( x , y ) dx

 Exemple

Un couple (X, Y) de variables alatoires continues suit une loi uniforme


sur [ 0 ; 1 ] [ 0 ; 1 ] si sa densit de probabilit est la suivante :
0
F ( x, y ) =
1

154

pour tout
pour tout

( x , y) [0 ; 1] [0 ; 1]
( x , y) [0 ; 1] [0 ; 1]

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 155 Mercredi, 24. novembre 2010 10:19 10

Connaissant la fonction de densit, on peut calculer la probabilit de


2
tout sous-ensemble de  :
P ( X < 0,3 ) ( 0,1 Y < 0,8 ) =

0,8 0,3

0,1

1 dx dy = 0,21

Considrons le domaine  de  ainsi dni :


 = {(x , y) 2 x > 0, y > 0 et x + y < 1},
alors P{X, Y } =

1 1u

1 du dv = 0,5

Le lecteur peut vrier que les


lois marginales de X et Y sont des
lois uniformes continues sur
[0 ; 1] (chapitre 7, I.A).

1


Indpendance
Les variables alatoires X et Y sont indpendantes si et seulement si
2
(x , y)  :
f(x , y) = g(x) h(y)
Plus gnralement, un n-uplet de variables alatoires ( X1 , X2 , , Xn) de
densit de probabilit f est un n-uplet de variables alatoires indpendantes si
et seulement si la densit f du n-uplet est le produit des n densits marginales fi :

Dunod. La photocopie non autorise est un dlit.

f ( x1 , x2 , , xn ) = f1 ( x1 ) f2 ( x2 ) fn ( xn )

IV. Indicateurs des variables alatoires


Une diffrence entre la statistique descriptive et la thorie des probabilits
rside dans le fait que la premire discipline vise reprsenter les donnes
de faon les rendre plus lisibles , tandis que la seconde a pour objectif
de fournir des modles adapts au traitement mathmatique, donc abstraits,
qui se veulent des images, la fois idales et approches de ces donnes.
Lutilisation simultane de ces deux dmarches doit permettre de faire
apparatre les lois susceptibles de rgir les phnomnes dont proviennent les
donnes, puis de les exprimer de manire plus prcise et maniable grce au
formalisme mathmatique qui en dgage les proprits essentielles.

MODLE PROBABILISTE ET VARIABLE ALATOIRE

155

P131-178-9782100549412.fm Page 156 Mercredi, 24. novembre 2010 10:19 10

Il est naturel, comme on la fait en statistique descriptive, de dfinir et dtudier des indicateurs (ou caractristiques) des variables alatoires. La motivation
est la mme : la loi de probabilit constitue une grande quantit dinformations,
et est souvent trop riche pour tre apprhende dans sa globabilit. Il est donc
utile den rsumer certains aspects (les mmes que ceux envisags en statistique descriptive) par des valeurs numriques convenablement choisies.
Des indicateurs relatifs aux trois aspects principaux des lois de probabilit
sont dfinis, savoir :
la tendance centrale ;
la dispersion ;
la forme (asymtrie et aplatissement).
Les outils mathmatiques qui interviennent dans la dfinition de ces indicateurs varient dun type de loi lautre. Les lois discrtes finies utilisent les
mmes outils que ceux ncessaires la dfinition des indicateurs des variables statistiques. Pour les lois discrtes infinies, quelques connaissances sur
les sries numriques (et parfois sur les sries entires) sont utiles. Pour les
lois absolument continues, des notions sur lintgration sont utilises. Cependant, la signification de ces indicateurs ne dpend pas du type de loi de probabilit considre, ni des techniques mathmatiques utilises.

A. Mode
Le mode dune variable alatoire est la valeur pour laquelle le diagramme en
btons ou la courbe de densit prsente son maximum. On appelle mode relatif une valeur correspondant un maximum local du diagramme en btons
ou de la courbe de densit, mais en gnral, le mode est unique. Le mode est
un indicateur de tendance centrale.

B. Esprance mathmatique
Lesprance mathmatique dune variable alatoire
X est aussi appele
moyenne ou valeur moyenne de X. Elle est gnralement note m.

1) Cas discret
Soit X une variable alatoire discrte finie :

156

Valeur de X

x1

.....

xi

.....

xk

Probabilit

p1

.....

pi

.....

pk

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 157 Mercredi, 24. novembre 2010 10:19 10

On appelle esprance mathmatique ou moyenne E(X) de X :


E(X ) =

x p
i

i=1

titre dillustration, le lecteur peut vrifier que la v.a. de lexemple 1 du


II.B a une moyenne gale 7. On peut remarquer la similitude des dfinitions de lesprance mathmatique et de la moyenne arithmtique dune
variable statistique discrte. On a remplac dans la formulation de cette dernire les frquences par les probabilits.
Lesprance mathmatique est un nombre rel, mais souvent, pour une
variable alatoire discrte, sa valeur ne correspond pas une des valeurs possibles de cette variable alatoire.

 Exemple

Une loterie comporte 1 000 billets et un seul lot de 10 000 . Si tous les
billets ont t v endus et si le tirage se f ait au hasard , lesprance
mathmatique de la valeur V dun billet sera :
999
1
E ( V ) = 10 000 ------------ + 0 ------------- = 10
1 000
1 000
Mais, en f ait, aucun billet ne rapporte 10 : chacun rapporte 0 ou
10 000 . Cependant, si on achte un billet chaque tirage de cette
loterie (en supposant quelle ait lieu rgulirement dans les mmes
conditions), la moyenne des gains sera voisine de 10 au bout dun
grand nombre de tirages ; ce rsultat qui f ait limportance du concept
desprance mathmatique se rfre la loi des grands nombres ( V).

Dunod. La photocopie non autorise est un dlit.

La moyenne dune variable alatoire X a ainsi la signification dun indicateur de tendance centrale de X.
Dans le cas dune variable alatoire X discrte infinie : E ( X ) =

x p
i

i=1

sous rserve que la srie de terme gnral xi pi soit absolument convergente 1,


sinon, et mme si elle est simplement convergente, on dira que la v.a. X na
pas desprance mathmatique.

1. La srie

i=1

x i p i est absolument convergente si la srie

i=1

xi pi =

i=1

x i p i est

convergente.

MODLE PROBABILISTE ET VARIABLE ALATOIRE

157

P131-178-9782100549412.fm Page 158 Mercredi, 24. novembre 2010 10:19 10

Lesprance mathmatique de la v.a. discrte conditionnelle { Y X = xi},


dfinie au III.B. est appele esprance conditionnelle de Y sachant que
X = xi. Elle a pour expression :
E { Y X = xi } =

y p
j

j/i

j=1

E { X Y = yi } =

De mme :

x p
i

i/ j

i=1

2) Cas continu
La variable alatoire X tant continue de densit
mathmatique E(X) de X :
E(X ) =

f, on appelle esprance

f ( x ) dx

Cette dfinition suppose lintgrale du second membre absolument convergente1, sinon et mme si elle est simplement convergente, on dira que
la v.a. X na pas desprance mathmatique.

Remarque
Lesprance mathmatique dune variable certaine X, cest--dire une
v.a. ne prenant quune seule valeur, note b, avec la probabilit 1, est
gale cette valeur : E(b) = b. Notons quune telle variable ne mrite
pas exactement le nom de variable alatoire puisquelle peut tre identifie la constante b.
On appelle variable alatoire centre
lesprance mathmatique est nulle.

une variable alatoire dont

3) Proprits de lesprance mathmatique


1. Si a et b sont deux nombres rels : E(aX + b) = a E(X) + b
si une v.a. X possde une esprance mathmatique m, alors la variable
alatoire Y = X m est la variable alatoire centre associe X.
+

1. Lintgrale

x f ( x ) dx est absolument convergente si lintgrale

convergente.

158

INTRODUCTION LA MTHODE STATISTIQUE

x f ( x ) dx est

P131-178-9782100549412.fm Page 159 Mercredi, 24. novembre 2010 10:19 10

2. Soit une fonction dfinie sur  valeurs dans , alors si X est une v.a.,
(X) est une v.a. ( II.C) dont on peut calculer lesprance sans avoir dterminer sa loi.
Cas discret
E (( X )) =

( x ) p
i

en supposant toujours que la srie du second mem-

bre est absolument convergente. En particulier :


E( X 2) =

2p

Cas continu
E (( X )) =

( x ) f ( x ) dx

en supposant toujours lintgrale du second

membre absolument convergente. En particulier :


E( X 2) =

f ( x ) dx

3. Lesprance dune somme de variables alatoires est gale la somme des


esprances :
E(X + Y) = E(X) + E(Y)
1re consquence :
E(X Y) = E(X) + E( Y) = E(X) E(Y)
2de consquence :
Soient n variables alatoires X1, X2,, Xn ayant la mme esprance mathmatique m. Lesprance de leur somme est gale :
n
E X i =
i = 1

Dunod. La photocopie non autorise est un dlit.

E(X )
i

= nm

i=1

1
si on dsigne par X leur moyenne : X = --- X i , on obtient : E ( X ) = m
ni = 1

4. Esprance dun produit de variables alatoires


Cas discret
Soit (X, Y) un couple de v.a. discrtes, on a, si la srie du second membre
est absolument convergente :
E(X Y ) =

x y p
i i

ij

i, j

MODLE PROBABILISTE ET VARIABLE ALATOIRE

159

P131-178-9782100549412.fm Page 160 Mercredi, 24. novembre 2010 10:19 10

Cas continu
Soit (X, Y) un couple de v.a. continues, on a, si lintgrale du second membre est absolument convergente :
E(X Y ) =

xy

f ( x, y ) d x d y

R2

pij = pi p j ou
Si X et Y sont indpendantes, de la proprit {
f(x,y) = g(x) h(y)}, on dduit E(X Y) = E(X) E(Y), mais la rciproque nest
pas vraie :
X et Y indpendantes

E(X Y) = E(X) E(Y)

C. Variance
La variance dune variable alatoire X est lesprance mathmatique du carr
de la v.a. centre associe X (si elle existe) :
var ( X ) = E ( X m ) 2
La variance est un nombre positif ou nul ; sa racine carre, note , est
appele cart-type1 :
=

var ( X )

Lcart-type dune v.a. X, exprim dans les mmes units que la variable
X, a la signification dun indicateur de dispersion autour de la moyenne
m de X. Illustrons cette ide par un exemple. Soient les variables alatoires
X et Y :
Valeur de X

E(X) = 4

Valeur de Y

30

Probabilit

1
--2

1
--4

1
--4

X =

Probabilit

1
--3

1
--2

1
--6

E(Y) = 4

Y =

148

Ces deux variables alatoires ont mme esprance. Cette grandeur typique ne permet pas de les distinguer. Cet exemple montre bien que lcarttype dune variable alatoire est un indicateur de dispersion autour de sa
moyenne.
1. Les calculs de la moyenne et de lcart-type des v.a. discrtes finies peuvent se faire avec
des calculatrices possdant les fonctions statistiques, les frquences tant remplaces par les
probabilits.

160

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 161 Mercredi, 24. novembre 2010 10:19 10

Proprits de la variance

1. var(X) est la valeur minimale de E ( X b ) 2 , car on montre que :

E ( X b ) 2 = var ( X ) + E ( X ) b

De cette formule, on dduit :


{var(X) = 0 X est une variable certaine}
2

la relation usuelle : var ( X ) = E ( X 2 ) E ( X )

2. laide de cette dernire expression de la variance, on montre sans


difficult :
a et b , var ( aX + b ) = a 2 var ( X ) aX + b = a X
3. La variance dune somme de deux variables alatoires indpendantes
X et Y est gale la somme des variances :
var(X + Y) = var(X) + var(Y)
en effet :

Dunod. La photocopie non autorise est un dlit.

var ( X + Y ) = E ( ( X + Y E ( X + Y ) ) 2 )
= E ( X E ( X ) + (Y E ( Y ) ) 2
= E ( ( X E ( X ) )2 ) + E ( ( Y E ( Y ) )2 )
+ 2E (( X E ( X ))(Y E (Y )))
= var ( X ) + var ( Y ) + 2 E ( X E ( X ) ) ( Y E ( Y ) )
pour deux variables indpendantes, le dernier terme est nul
var(X + Y) = var(X) + var(Y)
1re consquence
X et Y indpendantes var(X Y) = var(X) + var( Y) = var(X) + var(Y)
2de consquence
Soient n variables alatoires X1 , X2 , ,Xn mutuellement indpendantes
et de mme variance 2, la variance de leur somme est gale n2 :
n
n
var ( X i ) = n 2
var X i =
i = 1
i=1

1
Si on dsigne par X leur moyenne : X = --- X i , on obtient :
ni = 1

2
var ( X ) =
----n

MODLE PROBABILISTE ET VARIABLE ALATOIRE

161

P131-178-9782100549412.fm Page 162 Mercredi, 24. novembre 2010 10:19 10

Une variable alatoire rduite est une variable alatoire dont lcart-type
est gal 1. Si X a une moyenne m et un cart-type , on peut lui associer
une variable alatoire Y centre rduite :
Xm
Y = ------------

D. Covariance de deux variables alatoires,


coefficient de corrlation linaire

On appelle covariance dun couple de variables alatoires X et Y la quantit :


cov ( X , Y ) = E { ( X E ( X ) ) ( Y E ( Y ) ) } = E ( XY ) E ( X ) E ( Y )
var(X + Y) = var(X) + var(Y) + 2cov(X, Y)
On dduit de la proprit 4 de lesprance mathmatique :
X et Y indpendantes

cov(X, Y) = 0

Proprits de la covariance

1. cov(X,Y) = cov(Y, X)
2. cov(X, X) = var(X)
3. a, b, c et d  :
cov ( aX + b, cY + d ) = ac cov ( X , Y )
var ( aX + bY + c ) = a 2 var ( X ) + b 2 var ( Y ) + 2ab cov ( X , Y )
4. cov ( X , Y ) var ( X ) var ( Y ) , cette ingalit est une consquence
de lingalit de Schwarz.
On appelle coefficient de corrlation linaire entre X et Y le rapport :
( X , Y )---------------------- = cov
X Y
Des proprits de la covariance, on dduit que le coefficient de corrlation
linaire est invariant par changement dorigine et dchelle et quil est compris entre 1 et + 1. On peut montrer quil est gal + 1 si et seulement si X
et Y sont lies par une relation linaire. Dautre part, si X et Y sont indpendantes, leur coefficient de corrlation linaire est nul, mais la rciproque nest
pas vraie. On retrouve lanalogie de ce coefficient avec le coefficient de
corrlation linaire r dfini entre deux variables statistiques au chapitre 3, II.A.

162

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 163 Mercredi, 24. novembre 2010 10:19 10

E. Moment, fonction gnratrice des moments


1) Moment
On appelle moment mk dordre k (k entier positif) dune variable alatoire X
lesprance mathmatique de Xk si elle existe :
mk = E ( X k )
Lesprance mathmatique nest autre que le moment dordre 1.
On appelle moment centr k dordre k (k entier positif) dune variable
alatoire X lesprance mathmatique de ( X E(X))k, si elle existe :
k = E X E ( X )

La variance nest autre que le moment centr dordre 2 ; le moment centr


dordre 1 est toujours nul.

2) Moment factoriel
On appelle moment factoriel [k] dordre k (k entier positif) dune variable
alatoire X lesprance mathmatique de X ( X 1 )..... ( X k + 1 ) si elle
existe :

Dunod. La photocopie non autorise est un dlit.

[ k ] = E X ( X 1 )..... ( X k + 1 )

Le moment factoriel dordre k est une combinaison linaire des moments


non centrs m1 , m2 , , mk
Relations entre moments et moments factoriels jusqu lordre 4 :
[1]

[2]

[3]

[4]

= m2 m1

= m 3 3m 2 + 2m 1

= m 4 6m 3 + 11m 2 6m 1

= m1

m1 = [1]
m2 = [2] + [1]
m3 = [3] + 3 [2] + [1]
m 4 = [ 4 ] + 6 [ 3 ] + 7 [ 2 ] 11 [ 1 ]

3) Fonction gnratrice des moments


La fonction gnratrice des moments va tre prsente en se restreignant
une variable alatoire discrte valeurs possibles entires non ngatives.
Cette fonction caractrise la loi dune variable alatoire, et elle permet de
plus dobtenir les moments factoriels par drivation.

MODLE PROBABILISTE ET VARIABLE ALATOIRE

163

P131-178-9782100549412.fm Page 164 Mercredi, 24. novembre 2010 10:19 10

On appelle fonction gnratrice gX des moments dune variable alatoire


X discrte, valeurs possibles entires non ngatives , lesprance mathmatique de uX, u tant compris entre 0 et +1 :
gX (u) = E (uX ) =

u p
i

0u1

pour

i=0

Proprits de la fonction gnratrice des moments

1. Pour 0 u 1 , la fonction gX est continue, car la srie qui la dfinit


est uniformment convergente en u :
gX (u) =

ui pi

i=0

= 1

i=0

2. gX(0) = 0 et gX(1) = 1
3. Si le moment factoriel dordre k de X existe, on montre que pour u
compris entre 0 et 1:
g X( k ) ( u ) =

[ i ( i 1 )..... ( i k + 1 )u

i k]

pi

g X( k ) ( 1 ) = [ k ]

i=k

en notant g X( k ) la drive dordre k de la fonction g X


Cette proprit de la fonction gnratrice est utilise pour le calcul des
moments factoriels qui permettent de calculer les moments non centrs, puis
centrs.

F. Indicateurs de forme
Ces indicateurs donnent des informations sur la forme de la loi de X, et en
particulier, ils la comparent la loi normale (chapitre 7, II.B). Ils sont directement inspirs des coefficients dasymtrie (en anglais skewness) et daplatissement ( kurtosis) dfinis en statistique descriptive.
Fisher a dfini les coefficients dasymtrie et daplatissement dune variable alatoire X, dont les premiers moments existent, par :
3
coefficient dasymtrie 1 = ------- 23/2

coefficient daplatissement 2 = -----24 3


2
Les moments centrs dordre impair tant nuls pour une distribution
symtrique, 1 est nul si la distribution de X est symtrique par rapport la

164

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 165 Mercredi, 24. novembre 2010 10:19 10

moyenne m, mais la rciproque nest pas vraie : 1 peut tre nul sans que la
loi de X soit symtrique. Si la distribution de X est unimodale tale vers la
droite, 1 est positif. Dans le cas contraire, 1 est ngatif.
Le coefficient daplatissement 2 est nul pour une variable distribue selon
une loi normale, mais l encore, la rciproque nest pas vraie. Selon que la
loi de X est plus ou moins aplatie que la loi normale, 2 sera positif ou ngatif.
Plus que laplatissement, ce coefficient mesure limportance des queues
dune distribution.
Ces coefficients 1 et 2 sont invariants par changement dorigine et
dchelle.

Dunod. La photocopie non autorise est un dlit.

G. Quantiles
Comme pour les variables statistiques, on dfinit pour les variables alatoires
les quantiles, encore appels fractiles, qui sont indicateurs de position partir
desquels on peut dfinir des indicateurs de tendance centrale et de dispersion.
On appelle quantile dordre (0 1) dune variable alatoire X de fonction de rpartition F toute valeur x telle que : F(x) = ( P(X x) = )
Notons que si F est continue et strictement croissante, le quantile x, pour
donn, existe et est unique. Si F nest pas continue et strictement croissante, il peut ne pas exister ou il peut y avoir plusieurs solutions possibles.
La mdiane Me dune v.a. X est le quantile dordre 1/2 : Me = x0,5
Le premier quartile , not Q1, est le quantile dordre 1/4. Le troisime
quartile, not Q3, est le quantile dordre 3/4. La mdiane est le second quartile. On dfinit aussi les dciles : le ime dcile Di est le quantile dordre i /10
(1 i 9).
Comme en statistique descriptive, on peut dfinir plusieurs indicateurs
partir des quantiles :
des indicateurs de tendance centrale comme par exemple, la mdiane
Me ou encore le milieu de lintervalle interquartile :
1
--- ( Q 1 + Q 3 )
2
des indicateurs de dispersion comme, par exemple, ltendue interquartile (Q3 Q1) ou lesprance mathmatique des carts absolus la mdiane :
E X Me ( = min E X b )
b

des indicateurs de forme comme, par exemple :


Q 3 + Q 1 2Q 2
---------------------------------Q3 Q1

MODLE PROBABILISTE ET VARIABLE ALATOIRE

165

P131-178-9782100549412.fm Page 166 Mercredi, 24. novembre 2010 10:19 10

Ce coefficient, compris entre 1 et + 1, est nul pour une distribution


symtrique, positif pour une distribution unimodale tale vers la droite, et
ngatif dans le cas contraire.

V. Convergence des variables alatoires relles


Les variables alatoires relles sont des applications de lensemble fondamental dans . Dans certains cas, il est utile (voire ncessaire) de considrer des suites de v.a. correspondant des suites dpreuves alatoires (ou
comme on le verra aux chapitres suivants, des suites de modles). Pour ces
suites, on va dfinir plusieurs notions de convergence, visant toutes dfinir
un comportement (ou une distribution) limite. Chacune correspond des conditions diffrentes, mais bien entendu, plus ces conditions seront gnrales,
moins les proprits qui sen dduisent seront puissantes. Nous partirons du
mode de convergence le plus gnral, donc le plus faible.
Soit (Xn) une suite de v.a. relles, de fonctions de rpartition Fn . On
dit quelle converge en loi vers la v.a. X de fonction de rpartition F si
on a :
lim F n ( x ) = F ( x ) en tout point x , sauf aux points de disconti-

nuit de F
L
On crit alors X n X , et on parle aussi de convergence faible.
Cette notion de convergence est particulirement simple en pratique. En
effet, pour des variables alatoires { Xn } et X discrtes, elle revient :
lim P ( X n = x ) = P ( X = x )

et dans tous les autres cas, elle met en uvre les critres classiques de convergence des fonctions.
Pour le cas des variables alatoires discrtes, cette notion de convergence
est utilise par exemple pour lapproximation dune loi binomiale par une loi
de Poisson ( laide de la formule de Stirling), ce que nous voyons au chapitre 6, III.E. On notera cependant quil est possible par la convergence en
loi, qui ne fait intervenir que les fonctions de rpartition, de rechercher (et/
ou de poser) la convergence de v.a. discrtes vers une v.a. continue.
Dautre part, si on suppose la convergence en loi des v.a. { Xn } vers X, on
peut approcher Fn par F, et si leurs densits existent on peut approximer fn
par f, ce qui est pratiqu dans les chapitres suivants.

166

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 167 Mercredi, 24. novembre 2010 10:19 10

Plus restrictive que la convergence en loi, la convergence en probabilit


est dfinie ainsi :
Une suite Xn de v.a. relles converge en probabilit vers la v.a. X, si on a :
lim P ( X n X > ) = 0 pour tout > 0

On crit alors X n X ou galement plim Xn = X


Dans le cas de la convergence en probabilit vers une v.a. certaine, on
peut se ramener des conditions portant sur les deux premiers moments des
v.a. Xn. Pour passer au cas gnral de la convergence de Xn vers X, on considre alors la convergence vers 0 de la suite { Xn X}.
Pour le montrer, nous allons dabord tablir un rsultat intermdiaire.
Ingalit de Bienaym-Tchbychev
Soit Z une v.a. de moyenne et dcart-type , on a alors pour tout nombre rel k :
1
P ( Z > k ) ----2
k
Supposant la variable Z continue, soit  lensemble des valeurs z de Z
tels que Z > k , on peut crire, en partant de la dfinition de la
variance de Z :
2 = var ( Z ) =

(z )

f ( z ) dz > ( z ) 2 f ( z ) dz


2 k 2 2 f ( z ) dz = k 2 2 f ( z ) dz = k 2 2 P ( Z > k )

Dunod. La photocopie non autorise est un dlit.

et lingalit sen dduit. La dmonstration pour une v.a. discrte, identique


dans son principe, est laisse au lecteur.
Appliquons maintenant ce rsultat dans le contexte de la convergence en
probabilit dune suite de v.a. Zn vers 0. En posant alors k = , lingalit
de Bienaym-Tchebychev scrit :
var ( Z n )
P Z n E ( Z n ) > ----------------

2
On voit par consquent que si la suite des moyennes E(Zn) converge vers
0, et si la suite des variances var( Zn) converge aussi vers 0, alors on a :
lim P ( Z n > ) = 0

ce qui montre que la suite de v.a. { Zn} converge en probabilit vers la v.a.
certaine 0.

MODLE PROBABILISTE ET VARIABLE ALATOIRE

167

P131-178-9782100549412.fm Page 168 Mercredi, 24. novembre 2010 10:19 10

Il suffit alors de prendre {Zn = Xn a} pour voir que si la suite des moyennes E(Xn) converge vers a et la suite des variances var( Xn) converge vers 0,
alors la suite des v.a. { Xn} converge en probabilit vers a.
Une suite de v.a. dont la suite des moyennes converge vers une limite a
et dont la suite des variances converge vers 0, converge en probabilit vers a.
On notera cependant que ce dernier rsultat nest pas quivalent la dfinition, et que lon peut parler de convergence en probabilit sans supposer
lexistence des moments dordre 1 et 2.
On peut montrer que la convergence en probabilit implique la convergence en loi, mais que la rciproque nest pas exacte.
Le troisime mode de convergence que nous prsenterons, la convergence
en moyenne quadratique, est trs utilis dans les problmes destimation statistique.
Soit Xn une suite de v.a. relles de moyennes et de variances finies. On
dit que la suite Xn converge en moyenne quadratique vers X si
lim E ( X n X ) 2 = 0

Il sagit en fait dun cas particulier de la convergence dite en moyenne


dordre p, et dfinie pour des v.a. Xn telles que E X n X p existe, par :

lim E X n X p = 0

Dans la convergence en moyenne dordre p de la suite Xn vers X, on notera


lhypothse dexistence de :
E X n X p

On montre que si la suite Xn converge en moyenne quadratique vers X, et


que si la suite Yn converge en moyenne quadratique vers Y, alors la suite XnYn
converge en moyenne dordre 1 vers
XY, cest--dire que la suite des
moyennes E(XnYn) converge vers E(XY). Ce rsultat est videmment particulirement intressant dans ltude des liaisons entre variables alatoires.
Plus gnralement, on montre que si g(x, y) est une fonction continue en x
et en y, et si Xn (resp Yn) converge en probabilit vers X (resp. vers Y), alors
g(Xn , Yn) converge en probabilit vers g(X, Y).
Il sagit dun mode de convergence fort qui implique la convergence en
probabilit.
Dautre part, il est important de noter que la convergence en moyenne
dordre p implique la convergence en moyenne dordre q pour tout q < p. On

168

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 169 Mercredi, 24. novembre 2010 10:19 10

notera aussi que la convergence en probabilit nimplique pas la convergence


en moyenne dordre 1, cest--dire la convergence des moyennes.
Lensemble de ces trois modes de convergence est donc hirarchiquement
ordonn.
Mais il existe dautres modes de convergence, quil est plus difficile de
placer dans une telle squence hirarchique.
Ainsi, la convergence presque sre est dfinie comme suit.
La suite de v.a. relles Xn converge presque srement vers la v.a. relle
X si on a :
P lim ( X n X ) = 0 = 1
n

Ce mode de convergence implique aussi la convergence en probabilit,


donc galement la convergence en loi. Il nest pas li la convergence en
moyenne dordre p, mais les deux modes de convergence peuvent cependant
exister simultanment pour une suite de v.a. relles Xn.
Le diagramme de la figure 5.9 montre les relations que lon peut tablir
entre les diffrents modes de convergence.
Dautres modes de convergence (dont ltude est en dehors du cadre de
cet ouvrage) sont utiliss pour obtenir certaines proprits en thorie des probabilits, parmi lesquelles on citera :
la convergence complte ;
la convergence uniforme presque sre.

Dunod. La photocopie non autorise est un dlit.

Convergence
en moyenne dordre p

Convergence
en moyenne dordre q < p

Convergence
presque sre

Convergence
en probabilit

Convergence en loi

Figure 5.9 Hirarchie des diffrents modes de convergence

MODLE PROBABILISTE ET VARIABLE ALATOIRE

169

P131-178-9782100549412.fm Page 170 Mercredi, 24. novembre 2010 10:19 10

Lapplication majeure des convergences de v.a., et particulirement de la


convergence en probabilit est la loi faible des grands nombres :
Soient Xi (i = 1, 2,, n) n v.a. relles indpendantes desprances mi
et dcarts-types i toutes finies, telles que :
n

1
lim ---
mi = m
n n
i=1

et

1
lim ----- i2 = 0
n n2
i=1

P
1--Xi m

n i=1

alors on a :

Soit alors une preuve alatoire lissue de laquelle un rsultat R peut se produire avec la probabilit p. On rpte cette preuve indpendamment n fois, et
lon dsigne par Fn la variable alatoire gale la proportion dpreuves ayant
donn le rsultat R. Ces variables sont appeles frquences empiriques.
On applique directement la loi des grands nombres pour montrer la convergence en probabilit des frquences empiriques vers la probabilit p. Cest
le thorme de De Moivre-Laplace.
partir de ce rsultat, toute lapproche frquentiste des probabilits ( supra,
I) sest dveloppe sur lvaluation de la probabilit dun vnement par la
limite de la frquence relative dapparition de cet vnement lorsquon rpte
indfiniment lpreuve alatoire lors de laquelle il peut se raliser.
On peut aussi dmontrer un rsultat plus gnral.
Loi forte des grands nombres
Soient Xi (i = 1, 2, , n) n variables alatoires relles indpendantes
desprances mi et dcarts-types i tous finis, telles que :
n

1
lim ---
mi = m
n n
i=1

alors on a :

et

lim

2
-----2i- <
i
i=1
n

p.s
1--
Xi m
n i=1

Lune des applications de ce rsultat est la gnralisation du thorme


central-limite sous la condition de Lindeberg (chapitre 7, II.E).
Au total, ce sont donc toutes les bases des applications du calcul des probabilits en statistique classique qui reposent sur ces deux rsultats, loi faible
et loi forte des grands nombres, donc sur les diffrentes notions de convergence des suites de variables alatoires.

170

INTRODUCTION LA MTHODE STATISTIQUE

Cas discret

et

iI

pi = 1

i I*

p i avec I * = ( i I x i [a ; b] )

mk =

Moment dordre k :
mk = E(Xk)
k

xi pi

xi pi

iI

iI

E(X ) =

si

si

iI

iI

x i k p i < +

x i p i < +

P ( X b ) P ( X a ) = FX ( b ) FX ( a )

P(X ]a ; b ] ) =

P(X [a ; b]) =

a, b , a < b :

Cas continu

mk =

k f ( x ) dx

xf ( x )dx


E(X ) =

si

si

= F X (b) F X (a) =

k f ( x ) dx

< +

x f ( x )dx < +


f ( x ) dx

P(X = x) = 0
a, b , a < b :
P(X [a ; b]) = P(X [a ; b[) = P(X ]a ; b]) = P(X ]a ; b[)

x 
1. f ( x ) 0

f
presque
continue
partout
2.

3. f ( x ) dx = 1

dintervalles) de , ou dans  tout entier


Densit de probabilit fX :

X prend ses valeurs dans un intervalle (ou une runion

On noubliera pas :

La loi de probabilit est dfinie par les couples :


{xi , pi}, i I

avec : P(X = xi) = pi > 0

Les vnements lmentaires sont :


{X = xi}, xi , i I, I 

Esprance
mathmatique

Loi ou
distribution de
probabilit dune
variable
alatoire relle

Dunod. La photocopie non autorise est un dlit.

P131-178-9782100549412.fm Page 171 Mercredi, 24. novembre 2010 10:19 10

MODLE PROBABILISTE ET VARIABLE ALATOIRE

171

P131-178-9782100549412.fm Page 172 Mercredi, 24. novembre 2010 10:19 10

Testez-vous (les rponses sont donnes page 286)


Il y a au moins une rponse exacte par question.
1. Dans lensemble des classes Terminales dun lyce, 14 % des lves tudient le russe, 68 % ntudient ni le russe ni lespagnol, 2 % tudient ces deux
langues :
a) 20 % des lves tudient au moins lespagnol
b) 16 % des lves tudient seulement le russe
c) 18 % des lves tudient seulement lespagnol
d) 32 % des lves tudient le russe ou lespagnol
2. Soient deux vnements A et B dun mme espace de probabilit tels que :
AB=
a) P(A B) = 0
b) A et B sont deux vnements incompatibles
c) A et B sont deux vnements indpendants
d) A et B sont la fois incompatibles et indpendants
3. Soient deux vnements A et B dun mme espace de probabilit tels que :
P(A) = 0,3 P(B) = 0,2 et P(A B) = 0,09
a) P( A B ) = 1,50 et P( B A ) = 0,60
b) P( A B ) = 0,30 et P( B A ) = 0,45
c) P( A B ) = 0,45 et P( B A ) = 0,30
d) P( A B ) = 0,27 et P( B A ) = 0,18
4. Soient deux vnements indpendants A et B dun mme espace de probabilit
tels que :
P(A) = 0,3 et P(B) = 0,2
a) P(A B) = 0,5
b) P(A B) = 0,06
c) P(A B) = 0,06
d) P(A B) = 0,44
5. Trois chasseurs visent simultanment un mme livre et tirent en mme
temps. Soient p1, p2, p3 les probabilits respectives de toucher le livre pour chaque chasseur, alors la probabilit que le livre soit touch par au moins un des
chasseurs :
a) peut tre infrieure p1
b) est gale ( p1 + p2 + p3)
c) est gale (1 (1 p1)(1 p2)(1 p3))
d) est comprise entre ( p1 p2 p3) et (p1 + p2 + p3)

172

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 173 Mercredi, 24. novembre 2010 10:19 10

6. Soient deux vnements A et B dun mme espace de probabilit tels que :


P(A) = 0,6 P(B) = 0,5 et P(A B) = 0,1
a) les vnements A et B sont indpendants
b) les vnements A et B sont incompatibles
c) lvnement A B est certain
d) P( A B ) = 0,2
7. Si X est une variable alatoire continue, on a, quelque soient les nombres rels
et b :
a) P(X = a) = 0
b) P(a < X < b) = P(a < X b)
c) P(a < X < b) P(a X < b)
d) P(X > a) = 1 P(X < a)

8. Une fonction de rpartition :


a) est une fonction strictement croissante
b) est dfinie sur tout 
c) prend ses valeurs dans lintervalle [0 ; 1]
d) est toujours continue et drivable
9. La loi de probabilit dune variable alatoire :
a) est entirement dfinie par la fonction de rpartition
b) est entirement dfinie par la fonction de densit
c) est entirement dfinie par lesprance mathmatique et la variance
d) est associe un espace probabilis

Dunod. La photocopie non autorise est un dlit.

10. Lesprance mathmatique dune variable alatoire relle :


a) est toujours gale lune des valeurs possibles de la variable alatoire
b) est un nombre rel
c) est gale la mdiane si la distribution de probabilit est symtrique
d) existe toujours si la variable alatoire est discrte
11. Soient X une variable alatoire, a et b deux nombres rels :
a) E(aX + b) = aE(X) + b
b) var( X + b) = var(X) + b
c) P(X > E(X)) = 0,5
yb
d) Y = aX + b FY(y) = F X -----------
a

MODLE PROBABILISTE ET VARIABLE ALATOIRE

173

P131-178-9782100549412.fm Page 174 Mercredi, 24. novembre 2010 10:19 10

12. La loi jointe des deux variables alatoires


suivant :
Y

X et Y est donne dans le tableau

0,10

0,20

0,10

0,15

0,30

0,15

a) X et Y sont indpendantes
b) P(Y = 2 X = 1) = 1/4
c) (X,Y) = +1
d) E(Y) = 1
13. Soient deux variables alatoires X et Y lies par la relation X 2Y = 1 :
a) E(X) = 2E(Y) + 1
b) var(X) = 2var(Y)
c) (X,Y) = + 1
d) X et Y sont indpendantes
14. Soient deux variables alatoires X et Y telles que var(X) = 144, var(Y) = 81 et
var(X + Y) = 25
a) cov(X,Y) = -100
b) (X,Y) = 0
c) var(X Y) = 425
d) X et Y sont lies par une relation linaire
15. Soit un couple de v.a. (X,Y) pour lequel on dispose des lois conditionnelles de
X pour chaque valeur possible de Y et de la loi marginale en Y :
Y

0,2

0,5

0,8

0,5

et de la loi marginale de Y :

Valeur de Y

Probabilit

0,5

0,3

0,2

a) disposant de cette information, on peut calculer la loi du couple


b) la distribution de la v.a. { X Y = 3} est symtrique
c) la v.a. { X Y = 2} est certaine
d) P(X = 1) = 0,7

174

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 175 Mercredi, 24. novembre 2010 10:19 10

16. La loi jointe des deux variables alatoires


suivant :
Y

X et Y est donne dans le tableau

0,15

0,20

0,15

0,10

0,25

0,15

a) le coefficient dasymtrie de la v.a. X est nul


b) var(X) = 0,25
c) E( Y X = 0) = 1
d) X et Y sont indpendantes

Dunod. La photocopie non autorise est un dlit.

17. La loi jointe dun couple ( X, Y) de variables alatoires discrtes finies :


a) est entirement spcifie par le tableau donnant les xi , yj et pij
b) est entirement spcifie par les k lois conditionnelles { Y X = xi}
c) est entirement spcifie par les l lois conditionnelles { X Y = yj}
d) est entirement spcifie par les esprances, variances de X et Y et leur covariance

MODLE PROBABILISTE ET VARIABLE ALATOIRE

175

P131-178-9782100549412.fm Page 176 Mercredi, 24. novembre 2010 10:19 10

Exercices (corrigs page 315)


Exercice 5.1
Dans un club sportif, il y a 75 adultes (dont 45 femmes) et 45 enfants (dont 25 filles).
On interroge au hasard un adhrent du club. Quelle est la probabilit que cet adhrent :
soit un adulte ;
soit de sexe masculin ;
soit une femme adulte ;
soit un adulte ou soit de sexe fminin.
Exercice 5.2
Aprs une enqute auprs dune population, on sait que 40 % des individus ne sont
jamais alls en Espagne et que 55 % des individus nont jamais pris lavion, mais que
25 % ont t en Espagne et ont dj pris lavion.
Quelle est la probabilit quun individu tir au hasard dans cette population ne soit
pas all en Espagne et nait jamais pris lavion ?
Exercice 5.3
Une enqute exhaustive sur un campus universitaire montre que sur les 32 564 tudiants, 23 522 lisent la revue Notre campus publie par lUniversit, 18 859 lisent la
revue La Vie tudiante publie par le BDE, et 11 422 tudiants lisent Notre campus
et La Vie tudiante.
1. On interroge au hasard un tudiant du campus. Calculez la probabilit que cet
tudiant :
ne lise ni Notre campus, ni La Vie tudiante ;
lise Notre campus et ne lise pas La Vie tudiante.
2. On interroge au hasard deux tudiants du campus et on admet que leurs rponses
sont indpendantes. Calculez la probabilit
que les deux tudiants ne lisent aucune des deux revues ;
quun tudiant lise les deux revues et que le second nen lise aucune.
Exercice 5.4
On lance n fois une pice de monnaie, on suppose que la probabilit dobtenir pile
est gale la probabilit dobtenir face. Soient A et B les vnements suivants :
A = obtenir au plus une fois pile
B = obtenir au moins une fois pile et au moins une fois face
1. Calculez P(A), P(B) et P(AB) pour n = 2 ; A et B sont-ils indpendants pour
n=2?
2. Mme question pour n = 3.
Exercice 5.5
Calculez la probabilit quil y ait 3 filles et 2 garons dans une famille de 5 enfants :
1. Si on suppose la probabilit de naissance dune fille gale la probabilit de naissance dun garon
2. Si on suppose la probabilit de naissance dune fille gale 0,48

176

INTRODUCTION LA MTHODE STATISTIQUE

P131-178-9782100549412.fm Page 177 Mercredi, 24. novembre 2010 10:19 10

Exercice 5.6
La demande journalire X dun bien fabriqu par une entreprise est une v.a. qui suit
la loi suivante : P(X = 0) = 1/6 P(X = 1) = 1/6 P(X = 2) = 1/2 P(X = 3) = 1/6.
On suppose que le profit, fonction de la demande et du cot, vrifie la relation
:
(X) = p.X C, p tant le prix unitaire du bien fix 600 , C tant le cot suppos
indpendant de la demande et gal 800 .
1. Calculez lesprance et lcart-type du profit. Quelle est la signification de lesprance du profit ?
2. Dterminez la fonction de rpartition du profit et tracez son graphe.
Exercice 5.7
Une compagnie dassurances admet pour lanne venir et pour un certain type de
contrat, que 60 % des assurs nauront pas de sinistre. Par ailleurs on suppose que le
cot moyen de rglement des accidents est de 500 avec une probabilit de 0,25, de
1 500 avec une probabilit de 0,1, de 2 500 avec une probabilit de 0,05. Un
assur dclare au plus un sinistre de ce type dans lanne.
1. Pour esprer un bnfice moyen de 50 par assur, quel doit tre le montant de
la cotisation ?
2. Quelle est la probabilit pour que le cot de rglement total de deux assurs pris
au hasard nexcde pas le montant encaiss de leurs cotisations (au tarif dtermin
au 1) ?
Exercice 5.8
Dans une banque, un systme de guichet automatique a t mis en place et permet de
faire des oprations bancaires courantes : extrait de compte, remise de chque, retrait.
Le nombre de clients utilisant le guichet automatique dans un intervalle de temps de
5 minutes est une v.a. X telle que :
P(X = 0) = 0,3, P(X = 1) = 0,3 et P(X = 2) = 0,4
1. Calculez E(X) et var(X).
2. On suppose que les nombres de clients utilisant le guichet automatique sur deux
priodes de 5 minutes ne se chevauchant pas sont indpendants. Soit
Y la v.a.
gale au nombre de clients utilisateurs sur une priode dune heure. La v.a. Y peut
scrire :

Dunod. La photocopie non autorise est un dlit.

Y =

12

i=1

Xi

o Xi dsigne le nombre de clients utilisateurs au cours de ie intervalle de 5 minutes


lorsquon dcoupe lheure en 12 intervalles de 5 minutes ; chaque Xi suit la mme loi
que X.
Quelles sont les valeurs possibles de Y ?
Calculez E(Y), var(Y) et P(Y = 0).
3. Chaque client ne peut effectuer plus de 2 oprations au guichet automatique. La
banque a constat que chaque client effectue :
3 fois sur 10 : 2 oprations
6 fois sur 10 : 1 opration
1 fois sur 10 : 0 opration (compte non approvisionn, par exemple)
Soit Z, le nombre doprations effectues dans un intervalle de temps de
5 minutes.

MODLE PROBABILISTE ET VARIABLE ALATOIRE

177

P131-178-9782100549412.fm Page 178 Mercredi, 24. novembre 2010 10:19 10

3.1. Donnez dans un tableau double entre lensemble des probabilits conditionnelles de Z sachant X.
3.2. Quelle est la loi de Z ? Calculez E(Z) et var(Z).
Exercice 5.9
Une usine de pellicules de photo dispose de trois machines A, B et C qui fabriquent
respectivement 20 %, 50 % et 30 % de la production totale. Les proportions de pellicules dfectueuses fabriques par les machines A, B ou C sont respectivement gales
6 %, 5 % et 3 %.
On tire au hasard une pellicule dans la production, calculez :
la probabilit que cette pellicule soit dfectueuse ;
la probabilit quelle provienne de la machine A sachant quelle est dfectueuse ;
la probabilit quelle provienne de la machine A sachant quelle est non dfectueuse.
Exercice 5.10
Un couple ( X, Y) de variables alatoires suit la loi jointe donne dans le tableau
suivant :
Y

1/4

1/8

1/5

1/10

u, a et b tant des valeurs relles.


1. Pouvez-vous dterminer a et b de telle sorte que les variables alatoires X et Y
soient indpendantes en probabilit ?
2. Dans ces conditions, dterminez la loi marginale de X, et les lois conditionnelles
de X pour les diffrentes valeurs de Y.
3. Si a = 1/5, existe-t-il une valeur de
u telle que le coefficient de corrlation
linaire (X, Y) soit nul ? Les variables alatoires X et Y sont-elles alors indpendantes en probabilit ?
Exercice 5.11
Soient deux variables alatoires X et Y : X prend les valeurs 0 et 1 avec les probabilits 1/2 et 1/2, Y prend les valeurs 0 et 2 avec les probabilits 1/3 et 2/3. On
note : P(X = 0 et Y = 0) = p.
1. Calculez, en fonction de p, les probabilits suivantes :
P(X = 0 et Y = 2) P(X = 1 et Y = 0) et P(X = 1 et Y = 2)
Entre quelles limites peut varier p ?
2. Calculez, en fonction de p, le coefficient de corrlation linaire (X, Y).

178

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 179 Jeudi, 18. novembre 2010 12:09 12

6. L es principaux

modles statistiques
discrets

Dunod. La photocopie non autorise est un dlit.

Notion de modle
Par modle on entend une reprsentation simplifie dun processus,
dun systme.
Dans les domaines des sciences conomiques et de gestion, on cherche
disposer de modles pour analyser, prvoir et dcider. La nature mme
des facteurs intervenant en gestion et en conomie explique le caractre
alatoire, cest--dire non dterministe, donc non contrlable totalement du modle quon cherche dfinir pour reprsenter le systme
tudi.
Dans la plupart des cas, on dispose dun ensemble fragmentaire de donnes partir desquelles on cherche une reprsentation globale. Cest l
une des dmarches classiques en statistique, dduire des informations
fournies par un chantillon une ou plusieurs caractristiques concernant
la population do lon extrait lchantillon ; il sagit l de linfrence statistique.
La construction dun modle est destine donc analyser, prvoir ou
dcider partir dun support rigoureux et fiable ; sa recherche est ainsi
un travail formel. Pour laborder il est ncessaire de dfinir avec prcaution tous les lments dont on dispose :
la population pour laquelle le modle est destin ;
lindividu, ou unit lmentaire de la population ;
le caractre tudi sur chacun des individus, et qui dfinit le phnomne tudi ;
la nature de ce caractre (qualitatif, quantitatif, discret ou continu).
partir de l, on peut associer par une dmarche analogue celle vue
en statistique descriptive une variable alatoire chaque individu de
la population. Cest cette variable alatoire et sa distribution de probabilit qui vont constituer les lments du modle ; on dit que cette variable alatoire est la variable gnrique de la population (on dit aussi

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

179

P179-210-9782100549412.fm Page 180 Jeudi, 18. novembre 2010 12:09 12

variable parente) puisque tout individu tant quon ne connat pas ses
caractristiques individuelles peut tre reprsent par une variable
alatoire de mme loi quelle. Il sera alors possible dtudier un ensemble dindividus extrait de la population gnrale comme un ensemble de
variables alatoires ayant toutes comme loi, la loi de la variable gnrique de la population. Lorsque ces variables sont indpendantes entre
elles, on dit quelles forment un chantillon de la variable parente ; cette
condition dindpendance est quivalente un tirage avec remise des
individus formant lchantillon au sein de la population.
Modles empiriques (ou exprimentaux)
Ce sont des modles qui sont construits sur lobservation dune srie statistique. Leur validit dpend tout particulirement de la taille de la
srie statistique des observations. On recherche ici les caractristiques
essentielles de la srie observe (moyenne, mdiane, mode, quartiles,
symtrie ou non). Parmi les reprsentations en lois de probabilit connues, on en cherche une qui soit cohrente avec les donnes observes,
du point de vue de ces caractristiques. On procde par analogie.
Modles thoriques (ou analytiques)
On tudie le phnomne en essayant de le dcomposer en composantes
lmentaires directement reprsentes et de faon naturelle par une loi
de probabilit (telle que la loi de Bernoulli ou la loi uniforme).
Le schma binomial comme le schma hypergomtrique ( infra II.B et
II.C), ou encore la loi gomtrique ( II.D) sont des exemples de cette
approche.
Classification des modles
On doit distinguer les modles discrets pour lesquels les diverses occurences sont ponctuelles et parfaitement bien isoles (spares) les unes
des autres, des modles continus pour lesquels les occurences sont beaucoup trop nombreuses pour pouvoir tre isoles ponctuellement et ne
peuvent tre tudies que par classes de valeurs. lintrieur des modles discrets, on distingue encore les modles discrets finis (cest--dire
dont le domaine des valeurs est de cardinal fini) des modles discrets
infinis dnombrables.
Il existe dautres classifications mais qui concernent des modles qui ne
sont pas abords dans ce cours du fait de leur plus grande complexit et
de leur utilisation moins frquente.
De trs nombreux modles (discrets ou continus) ont t construits pour
correspondre des situations pratiques dtermines. N ous prsentons
dans ce chapitre et dans le suivant ceux qui sont le plus frquemment
utiliss, mais bien entendu il ne faudra pas croire que tout phnomne
puisse tre rapport aux quelques modles dcrits ici.

180

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 181 Jeudi, 18. novembre 2010 12:09 12

I.

Les modles lmentaires

Dunod. La photocopie non autorise est un dlit.

A. Le schma de Bernoulli
Toute preuve alatoire nayant que deux rsultats possibles peut tre considre comme une situation dalternative : si lun des deux rsultats ne se ralise pas, cest que lautre le sera obligatoirement. En dautres termes, dans
une telle situation, les deux rsultats possibles sont complmentaires lun de
lautre, la somme de leurs probabilits tant gale 1.
Il sagit l dune situation extrmement frquente puisque ds quon cherche
mettre en vidence la prsence dun caractre particulier pour les individus
dune population, tout individu de cette population peut tre dcrit selon une
telle alternative : ou bien il prsente ce caractre ou bien il ne le prsente pas.
Ainsi par exemple lorsquon cherche valuer limpact dune campagne
publicitaire sur les achats dun nouveau produit, on peut associer chaque
individu sond (parmi ceux ayant acquis ce produit aprs la campagne publicitaire) trois variables alatoires :
la premire met en vidence si lindividu possdait dj auparavant ce produit ;
la seconde met en vidence si lindividu a t touch par la campagne
publicitaire ;
la troisime dcrit si lacquisition du produit a t induite par la campagne publicitaire.
Il sagit l dune possibilit de formalisation (et bien entendu ce nest pas
la seule !), mais chacune de ces trois variables correspond bien une situation dalternative. Ltude des effets ventuels de cette campagne publicitaire
met en uvre les outils appropris de lanalyse statistique.
Dans ces situations de dualit, lune des deux issues est celle que privilgie ltude, elle correspond la positivit dun index, la prsence du caractre pour chaque individu de la population faisant lobjet de ltude, par
opposition son absence. Les alas quon peut dfinir dans ces cas tant des
alas qualitatifs, il faut trouver le codage le plus appropri. Cest cet aspect
de prsence/absence qui limpose, et on code par 0 et 1 les deux issues possibles, celle quon cherche mettre en vidence tant code 1.
On dfinit ainsi une variable alatoire qui ne peut prendre que
deux valeurs, savoir 0 et 1. Elle porte alors le nom de variable alatoire de
Bernoulli1, et possde alors une loi de probabilit trs simple pour laquelle p
1. Jacques Bernoulli (1654-1705), scientifique suisse a beaucoup contribu au dveloppement
du calcul des probabilits (loi des grands nombres) et aux statistiques.

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

181

P179-210-9782100549412.fm Page 182 Jeudi, 18. novembre 2010 12:09 12

reprsente la probabilit de lissue quon veut mettre en vidence (notation


conventionnelle). On note souvent q = 1 p la probabilit de lautre terme
de lalternative. Le terme de variable alatoire de Bernoulli est synonyme de
celui de variable alatoire indicatrice (indiquant la ralisation ventuelle de
lvnement de probabilit p). Il faut bien se souvenir quune variable de
Bernoulli est dfinie par les 2 valeurs 0 et 1 (et celles-l seulement
; toute
autre paire de valeurs ne permet plus lappellation de variable de Bernoulli ;
ceci se justifie comme on le verra dans la suite pour la construction des
modles binomial, hypergomtrique et de Pascal). Le tableau de la loi de
probabilit dune telle variable est parfaitement connu ds que p lest. La loi
de Bernoulli dpend du seul paramtre p.
Valeur de X

Probabilit

q=1p

Le diagramme en btons et le graphe de la fonction de rpartition dune


variable de Bernoulli ( cf. figure 6.1) sont particulirement simples.
Diagramme en btons

Fonction de rpartition
1

1p

1p

Figure 6.1 Loi de Bernoulli

Lesprance dune variable de Bernoulli de paramtre p est gale p. En


effet :
E(X) = 0 (1 p) + 1 p = p
Le moment dordre 2 est gal aussi p, puisque :
E(X2) = 02 (1 p) + 12 p = p
Par consquent, la variance est gale pq :
var(X) = E(X2) (E(X))2 = p p2 = p(1 p) = pq
On remarquera au passage que la fonction x(1 x) dont la drive est gale
(1 2x) a un maximum pour x = 1/2, maximum gal 1/4. Par consquent,

182

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 183 Jeudi, 18. novembre 2010 12:09 12

la variance dune variable de Bernoulli est au plus gale 1/4, et lcart-type


est au plus gal 1/2.
En conclusion, on retiendra que toute situation alatoire dalternative
peut tre reprsente par une variable de Bernoulli dont le paramtre p,
gal la probabilit de lissue quon cherche mettre en vidence, est
gal lesprance, la variance tant gale p(1 p).

B. La loi uniforme discrte


Un exemple particulier de loi de Bernoulli est celui pour lequel p = q = 1/2.
Dans ce cas, les deux termes de lalternative pouvant se prsenter lissue
de lpreuve alatoire sont quiprobables. Cette situation dquiprobabilit
correspond souvent des situations dans lesquelles on ne dispose daucune
information permettant de mieux apprhender lvnement auquel on sintresse.
La loi uniforme discrte en est la gnralisation. On suppose cette fois que
lexprience alatoire possde k issues distinctes, possdant chacune la mme
chance dtre ralise. On dfinit alors dans ce contexte une variable alatoire
X pouvant prendre toutes les valeurs entires comprises entre 1 et k, chacune
de ces valeurs tant associe lune des k issues de lpreuve alatoire. On
peut donc crire dune part :
k

( X = i ) = 1
P( X = i) = P
i =1

i=1

et dautre part, P(X = i) tant constante, on peut la dsigner par p.


On en dduit :
k

Dunod. La photocopie non autorise est un dlit.

1 =

P( X = i) =

i=1

p = k p

i=1

et la probabilit commune p est gale 1/ k


La loi de probabilit de cette variable alatoire est rsume dans le tableau
suivant :
Valeur de X

Probabilit

1/ k

1/ k

1/ k

On dduit les caractristiques essentielles :


E(X ) =

1
1 k(k + 1)
1
+1
i --- = --- i = --- -------------------- = k----------k
k
k
2
2
i=1
i=1

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

183

P179-210-9782100549412.fm Page 184 Jeudi, 18. novembre 2010 12:09 12

autrement dit, lesprance de cette variable alatoire se situe lexact milieu


des valeurs possibles. Ce rsultat est tout fait naturel compte tenu de lquiprobabilit.
Dautre part :
E( X 2) =

1
1
1 k ( k + 1 ) ( 2k + 1 )
k + 1 ) ( 2k + 1 )
i 2 --- = --- i 2 = --- ---------------------------------------- = (-----------------------------------k
k
k
6
6
i=1
i=1

do lexpression de la variance :
2
( k + 1 ) ( 2k + 1 ) ( k + 1 ) 2
k2 1
var ( X ) = E ( X 2 ) [ E ( X ) ] = ------------------------------------- ------------------- = ------------4
12
6
En ce qui concerne ces rsultats, on notera quils sont obtenus pour une
loi uniforme discrte dont les valeurs sont les entiers compris entre 1 et k (au
sens large). Par consquent, ils peuvent sappliquer toute situation alatoire
k issues quiprobables ds que celles-ci peuvent tre codes par les nombres 1, 2, ,k. Si on doit adopter un autre codage, les valeurs de lesprance
et de la variance (comme de tout autre moment) seront modifies puisquelles
dpendent des valeurs possibles de la variable alatoire.
On peut encore donner la fonction gnratrice des moments de cette variable alatoire uniforme discrte. On a :

gX (u) = E (uX ) =

u --ki

i=1

ce qui permet dobtenir les moments successifs, mais aussi de retrouver les
rsultats prcdents. On constate aussi par ailleurs que les moments factoriels
dordre strictement suprieur k sont nuls : [n](X) ds que n > k
On ajoutera simplement pour terminer que le diagramme en btons de
cette loi est form de btons de mme hauteur, et que le graphe de la fonction
cumulative est form de marches descalier galement espaces (lespace
entre deux dentre elles tant de 1/ k) et de mme largeur (lunit).

II. Les schmas de Bernoulli itratifs


Le schma de Bernoulli est le plus simple des modles probabilistes, cependant
il est fondamental. Ceci est d au fait que le plus grand nombre de situations
alatoires peuvent se dcomposer en successions dpreuves lmentaires de
Bernoulli. On nenvisagera ici que la situation o le rsultat du phnomne
complexe initial est gal la somme des rsultats des preuves lmentaires
de Bernoulli.

184

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 185 Jeudi, 18. novembre 2010 12:09 12

Dans ce cadre, on tudiera une succession dpreuves de Bernoulli :


en nombre fix, et avec indpendance schma binomial,
en nombre fix et sans indpendance schma hypergomtrique,
re fois
en nombre alatoire, jusqu ce que lon ait obtenu pour la 1
lissue recherche de lalternative ainsi rpte schma gomtrique,
en nombre alatoire, jusqu ce que lon ait obtenu pour la
kme fois
lissue recherche de lalternative ainsi rpte schma de Pascal.
Les deux premiers cas sont de nature totalement diffrente des deux derniers, car le nombre des itrations du modle lmentaire de Bernoulli est,
pour les premiers, connu au dpart, alors quil est la quantit alatoire pour
les derniers.

A. Le schma binomial
Dfinition

Dunod. La photocopie non autorise est un dlit.

Une variable alatoire est dite suivre une loi binomiale de paramtres
n et p, note (n ; p), si elle peut tre considre comme la somme de n
variables alatoires de Bernoulli, indpendantes et de mme paramtre p.
Soit par exemple, une population dans laquelle une proportion p dindividus
prsente un caractre donn. On se pose la question de savoir si un chantillon1 de n individus choisis au hasard dans la population a de grandes chances de contenir k individus ayant le caractre.
Chaque individu de la population (et donc de lchantillon) est prsent
dans ce problme par une alternative : il possde le caractre tudi ou non.
Il est parfaitement justifi de lui associer une variable de Bernoulli prenant
la valeur 1 sil a le caractre tudi, et la valeur 0 sinon. Cette variable ainsi
dfinie pour chaque individu est la variable gnrique de la population (ou
encore la variable parente). Si on la note X, on a P(X = 1) = p, et donc aussi
P(X = 0) = 1 p = q. Les n individus (1, 2, n) de lchantillon seront ainsi
reprsents par n variables de Bernoulli X1, X2, , Xn ayant toutes la mme
loi de probabilit, celle de X, une loi de Bernoulli de paramtre p. On peut
supposer toutes ces variables indpendantes pour la simplicit du problme,
ce qui correspond par exemple un tirage des n individus avec remise, ou
bien un taux de sondage n / N infrieur 10 %, N tant la taille de la population (ce point important sera revu au II.C avec la loi hypergomtrique).
1. Ce terme dchantillon se rfre la fois au sens usuel, et galement une collection de
variables alatoire indpendantes et de mme distribution.

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

185

P179-210-9782100549412.fm Page 186 Jeudi, 18. novembre 2010 12:09 12

Considrons la variable alatoire Y, somme des n v.a. Xi :


Y = X1 + X2 + + Xn
Les ralisations de cette variable alatoire tant des sommes de 0 et de 1,
sont des nombres entiers compris entre 0 et n.
La ralisation de la v.a Y associe un chantillon donn reprsente le
nombre dindividus qui possdent le caractre tudi dans lchantillon .
Cest ce type de construction par itration dun processus de Bernoulli, le
nombre ditrations tant fix et les preuves tant indpendantes, quon
appelle schma binomial.
La loi de probabilit de la variable somme Y est dfinie par :
les valeurs susceptibles dtre prises, ici les valeurs entires comprises
entre 0 et n
les probabilits correspondant ces valeurs :
n
P( Y = k ) = pk ( 1 p )n k
k
En effet, chaque groupe de k individus associs la valeur 1 (possdant
le caractre tudi), correspond un groupe form de ( n k) individus associs
la valeur 0. La probabilit de ralisation dune telle situation ( k fois prsence
du caractre et (n k) fois son absence) sobtient en multipliant les probabilits
associes aux ralisations des variables de Bernoulli correspondant chaque
individu (ces variables tant indpendantes, les vnements le sont aussi) :
p p p ( 1 p ) ( 1 p ) ( 1 p ) = p k ( 1 p ) n k
k fois
(n k) fois
n
n!
Il y a exactement = ------------------------ faons disoler k individus parmi les
k
k! ( n k )!
n de lchantillon (les k premiers, les ( k 1) premiers et le dernier, , les
k derniers), donc dobtenir une somme gale
k, chacun de ces
assemblages tant incompatible avec lun quelconque des autres
puisquau moins une paire dindividus passe dun tat lautre. La probabilit que la somme Y prenne la valeur k, sans tenir compte du rang des Xi
prenant la valeur 1 condition quil y en ait k et k seulement, est ainsi laddin
tion de fois la probabilit p k ( 1 p ) n k
k
Le tableau suivant prsente la loi de probabilit binomiale (n ; p) :
Valeur de Y
Probabilit

186

n k
n
( 1 p ) n np ( 1 p ) n 1 p 2 ( 1 p ) n 2 p ( 1
2
k

p ) n k pn

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 187 Jeudi, 18. novembre 2010 12:09 12

Les caractristiques dune loi binomiale (n ; p) sont trs faciles calculer si on utilise la dcomposition en somme de variables de Bernoulli indpendantes. En effet :
E(Y ) = E( X1 + X2 + + Xn)
= E( X1) + E( X2) + + E( Xn)
= n E(X )
et par consquent :
E ( Y ) = np
Pour le calcul de la variance, la proprit dadditivit, toujours vraie pour
lesprance, suppose que les variables de Bernoulli Xi sont indpendantes, et
cette hypothse est fondamentale pour la validit du rsultat :
var ( Y ) = var ( X 1 + X 2 + + X n )
= var ( X 1 ) + var ( X 2 ) + + var ( X n )
= n var ( X ) = np ( 1 p )
On obtient le rsultat :
var ( Y ) = npq
On pourra comparer ce dernier rsultat avec celui du II.B obtenu pour
une loi hypergomtrique, cas dune somme de variables alatoires de Bernoulli non indpendantes.
La proprit suivante est intressante en pratique.
Proprit 1

Dunod. La photocopie non autorise est un dlit.

Si Y et Z sont deux variables alatoires indpendantes, respectivement


distribues selon des lois binomiales (n1 ; p) et (n2 ; p), leur somme
Y + Z suit une loi binomiale (n1 + n2 ; p)
En effet, Y tant la somme de n1 variables de Bernoulli indpendantes de
mme paramtre p, et Z tant la somme de n2 variables de Bernoulli indpendantes de mme paramtre p, la v.a. Y + Z est la somme de (n1 + n2) variables
alatoires de Bernoulli indpendantes de mme paramtre p, et suit une loi
binomiale (n1 + n2 ; p).
Une seconde proprit trs utilise est la suivante.
Proprit 2

Si Y suit une loi (n ; p), alors n Y suit une loi (n ; 1 p)

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

187

P179-210-9782100549412.fm Page 188 Jeudi, 18. novembre 2010 12:09 12

En effet, nous avons vu que Y reprsente le nombre de fois, sur n individus, o on a observ lun des termes de lalternative, celui de probabilit p.
Il sensuit que ( n Y) est le nombre des autres rsultats, ceux correspondant
une probabilit lmentaire (1 p). Or, il serait tout fait possible de recoder les deux termes de lalternative, en dfinissant une nouvelle variable de
Bernoulli prenant la valeur 1 avec la probabilit (1 p) et la valeur 0 avec la
probabilit p. La somme de ces n nouvelles variables alatoires reprsente de
nombre dpreuves (parmi les n ralises) qui donnent le rsultat de probabilit (1 p), cest--dire la variable alatoire ( n Y) que nous tudions.
Cest une somme de variables alatoires de Bernoulli, indpendantes et de
mme paramtre (1 p). Do le rsultat annonc.
La construction du schma binomial par les variables de Bernoulli justifie
dautre part la notation (1 ; p) adopte parfois pour dsigner un ala de
Bernoulli de paramtre p.
Une variante de la loi binomiale est la loi dite binomiale en proportion .
On a vu quune loi binomiale caractrise le nombre de rsultats cods 1 dans
une succession dpreuves de Bernoulli (dont le nombre est fix lavance)
indpendantes. Dans un certain nombre de circonstances, on sintresse plutt la proportion des rsultats cods 1. Or si Y est le nombre des rsultats
cods 1 dans une suite de n preuves de Bernoulli indpendantes, Y/n est la
frquence relative ou proportion.
Lorsque Y prend une valeur quelconque k comprise entre 0 et n, Y/n prend
la valeur k/n et rciproquement. Les deux vnements quivalents { Y = k} et
{Y/n = k/n} ont ainsi la mme probabilit. La loi de Y/n est dfinie par ses
valeurs et les probabilits correspondantes :
Valeur de Y/n
Probabilit

1/n

2/n

n
( 1 p ) n np ( 1 p ) n 1 p 2 ( 1 p ) n 2
2

k/n

n
n
p k ( 1 p ) n k p
k

Le tableau de cette loi de probabilit se dduit de celui dune loi binomiale


en divisant simplement chaque valeur possible par n.
Le diagramme en btons et la fonction de rpartition dune loi (n ; p)
dpendent des 2 paramtres n et p. Le cas particulier o p = 0,5 correspond
lquiprobabilit des deux termes de lalternative de base (prsence/
absence) et se traduit graphiquement par une symtrie du diagramme en
btons (cf. figure 6.2).

188

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 189 Jeudi, 18. novembre 2010 12:09 12

Diagramme
en btons

Fonction
de rpartition

Figure 6.2 Loi binomiale (6 ; 0,5)

Les calculs relatifs aux distributions binomiales peuvent se faire laide


de tables statistiques ( cf. annexe IV). Ces tables donnent pour quelques
valeurs de n et de p, les probabilits cumules de telles rpartitions. Le nombre des valeurs de n et de p envisages est forcment trs limit. Grce la
proprit 2, on peut dduire les probabilits dune loi (n ; 1 p) de celles
dune loi (n ; p). Au lieu de recourir des interpolations linaires (parfois
causes dimportantes erreurs dapproximation), on utilisera plutt la formule
de rcurrence suivante (rappele lannexe II), entre les probabilits de deux
valeurs successives k et (k + 1) dune distribution binomiale (n ; p) :

Dunod. La photocopie non autorise est un dlit.

n pk + 1( 1 p )n k 1
n!
----------------------------------------------- p

k
+
1
P( X = k + 1)
( k + 1 )! ( n k 1 )!
-------------------------------- = ------------------------------------------------------------ = --------------------------------------------------P( X = k )
n!
n
pk ( 1 p )n k
------------------------ ( 1 p )
k
k! ( n k )!
(n k) p
= ---------------------------------(k + 1)(1 p)
Cette formule permet de calculer successivement les probabilits individuelles, en partant de P(X = 0) = (1 p)n

 Exemple
Aprs une lection deux candidats A et B, cest A qui lemporte avec
un score de 52 %. On suppose que le nombre dlecteurs qui se sont
exprims est lev.
On cherche dterminer la probabilit quun sondage prlectoral
portant sur 50 lecteurs ait donn une majorit de suffrages pour
B
(cest--dire un rsultat loppos de la ralit des intentions de vote de
la population).

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

189

P179-210-9782100549412.fm Page 190 Jeudi, 18. novembre 2010 12:09 12

Ce problme doit tre modlis en dfinissant la population, celle des


lecteurs, puis lindividu, un lecteur et le caractre tudi, le bnficiaire du vote : soit A, soit B (B quivalant non A ).
Le caractre est un caractre qualitatif deux modalits, et chaque
lecteur est associe une variable de Bernoulli qui prend la valeur 1 sil
vote pour A et la valeur 0 sinon. La variable gnrique de la population
est une variable de Bernoulli de paramtre 0,52 puisque chaque lecteur
tir au hasard vote pour A avec une probabilit gale la proportion de
votants en faveur de A (cf. lanalogie entre probabilit et frquence relative vue au chapitre 5).
Les 50 lecteurs interrogs avant le scrutin forment un ensemble de
50 variables de Bernoulli de mme paramtre, savoir 0,52. De plus ces
variables sont indpendantes si le tirage est effectu avec remise ou si le
taux de sondage est infrieur 10 % (ce qui est suppos ici compte tenu
de la taille de lchantillon).
La somme de ces 50 variables Y = X1 + X2 + + X50 contient autant de
1 que dlecteurs favorables A, et reprsente le nombre dlecteurs,
parmi les 50 sonds, favorables A. Cette somme de variables de Bernoulli suit une loi binomiale (50 ; 0,52).
La probabilit que cet chantillon donne une majorit pour B est gale
la probabilit que le nombre dlecteurs favorables A soit strictement
infrieur 25.
Puisque Y reprsente le nombre dlecteurs favorables A, la variable
alatoire (50 Y) reprsente le nombre dlecteurs favorables B. Par un
raisonnement identique celui fait pour Y, la variable alatoire (50 Y) suit
une loi binomiale (50 ; 0,48). Lorsque B a la majorit, on a {50 Y > 25}
et la probabilit cherche vaut :
P(Y < 25) = P(50 Y > 25) = 1 P(50 Y 25)
Le calcul (programme ou table) donne P(50 Y 25) = 0,6648 pour la
loi (50 ; 0,48), et il y a donc prs de 33,5 % de chances quun chantillon de 50 personnes donne un rsultat contraire la ralit ! Ceci est
d la conjonction de deux lments :
le rsultat final est assez serr car les deux termes de lalternative
sont trs peu spars en probabilit (0,52 contre 0,48) ce qui signifie que
si lchantillon tait lexact reflet de la population, on aurait 26 contre
24, soit 2 voix de diffrence seulement ;
on ninterroge que 50 personnes, et cela est bien peu, compte tenu des
scores rels, pour discriminer les 2 candidats de manire fiable (donc
crdible).
On notera enfin sur cet exemple que si le nombre de votants favorable
A suit une loi binomiale (50 ; 0,52), la proportion de votants favorables A suit une loi binomiale en proportion.

190

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 191 Jeudi, 18. novembre 2010 12:09 12

Dunod. La photocopie non autorise est un dlit.

B. Le schma hypergomtrique
Dans le schma binomial, on rpte une preuve de Bernoulli n fois, mais de
telle faon que les preuves soient indpendantes.
Cette condition peut paratre peu raliste. En pratique lorsquon tire un
chantillon de taille n dans une population de taille N(n < N), le bon sens veut
quon ne prenne pas 2 fois le mme individu, ce qui quivaut tirer lchantillon sans remise (on parle encore de tirage exhaustif). Les variables alatoires de Bernoulli associes aux diffrents lments de lchantillon, et
indicatrices de la prsence ou de labsence dun caractre donn, sont, du fait
du tirage sans remise, mutuellement dpendantes.
La variable alatoire Y gale au nombre dindividus de lchantillon possdant le caractre considr est dans ce cas somme de n v.a. de Bernoulli
dpendantes, et de mme paramtre.
Notons p, la proportion dindividus dans la population (dont on dsigne
la taille par N) possdant le caractre tudi, et tudions la loi de cette variable alatoire Y dabord en ce qui concerne les valeurs possibles, puis pour ce
qui est des probabilits associes.
Le nombre dindividus de la population possdant le caractre tudi est
gal Np, et le nombre de ceux qui ne le possde pas est gal Nq. Le nombre
maximum dindividus de lchantillon possdant le caractre tudi ne peut
tre suprieur ni la taille de lchantillon, ni Np. Par consquent, la valeur
maximum de Y est gale min( n, Np). Le nombre minimum dindividus de
lchantillon possdant le caractre tudi est, bien entendu, au moins gal 0,
mais aussi au moins gal ( n Nq). En effet, si le nombre dindividus ne
possdant pas le caractre tudi, soit Nq, est plus petit que la taille n de
lchantillon, on aura au moins (n Nq) individus qui possderont le caractre
tudi dans lchantillon. Il sensuit que le nombre minimum dindividus de
lchantillon possdant le caractre tudi est gal max(0, n Nq).
La variable alatoire Y peut prendre toutes les valeurs entires comprises
entre :
max(0, n Nq) et min(n, Np)
Pour le calcul de P(Y = k), k tant lune des valeurs possibles entre
max (0, n Nq) et min(n, Np), on peut utiliser la mthode combinatoire classique et calculer le rapport du nombre des occurences favorables au nombre
des occurences possibles.
Les occurences possibles sont reprsentes par le nombre dchantillons
de taille n quon peut extraire sans remise dune population de taille N, cest-dire . N
n

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

191

P179-210-9782100549412.fm Page 192 Jeudi, 18. novembre 2010 12:09 12

Les occurrences favorables sont reprsentes par les chantillons de taille


n pour lesquels k individus possdent le caractre tudi et ( n k) individus
ne le possdent pas.
Ces cas favorables sont ceux o lon a tir k units parmi les Np ayant le
caractre tudi, en nombre Np , et ( n k) units parmi les Nq ne le pos k
sdant pas, en nombre Nq . On a donc :
n k
Np Nq
k n k
P ( Y = k ) = ----------------------------- pour max(0, n Nq) k min (n, Np)
N
n
On dit que la variable alatoire Y suit une loi hypergomtrique de paramtres N, n et p, ce quon note (N ; n ; p).
Lesprance dune telle variable alatoire est E(Y) = np puisque Y est la
somme de n variables de Bernoulli de paramtre p. La variance est gale :
Nn
var ( Y ) = np ( 1 p ) ------------N1
mais, le calcul est plus dlicat en raison de la non indpendance des variaNn
n 1 est appel facteur
bles de Bernoulli. Le terme correctif ------------ = 1 -----------N1
N1
dexhaustivit. On remarque tout de suite que si le taux de sondage n/N est
trs petit, ce facteur dexhaustivit est trs proche de 1, et donc que lexpression de la variance dune loi hypergomtrique est trs voisine de celle dune
loi binomiale.
Plus gnralement on peut montrer que la loi
(N ; n ; p) peut tre
approxime par une loi (n ; p) ds que le taux de sondage n/N est infrieur 10 %. Cette conclusion justifie lutilisation des calculs sous lhypothse dindpendance ds que le taux de sondage est assez petit, mme si
le tirage est exhaustif.
Cest la raison pour laquelle en pratique, malgr des tirages dchantillons
le plus souvent exhaustifs, on se rfre la loi binomiale, les probabilits
calcules laide de la loi binomiale donnant une bonne approximation des
probabilits de la loi hypergomtrique ds que le taux de sondage est assez
petit (cest--dire infrieur 10 %).
En conclusion, la loi hypergomtrique (N ; n ; p) est la distribution
dune somme de n variables alatoires de Bernoulli non indpendantes.
Une variable alatoire hypergomtrique reprsente, dans un contexte de
tirage exhaustif cest--dire de variables dpendantes le nombre de ralisations parmi n preuves de Bernoulli de lun des termes dune alternative. Elle prend des valeurs comprises entre max(0, n Nq) et min(n, Np).

192

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 193 Jeudi, 18. novembre 2010 12:09 12

Cette variable alatoire a la mme esprance np que la variable binomiale


qui serait obtenue dans un contexte dindpendance, mais sa variance est
plus petite, diminue dans un rapport
Nn
------------N1
appel facteur dexhaustivit. Dans le cas dune trs grande population ou
plus gnralement dun taux de sondage faible (infrieur 0,1), on peut
supposer les tirages indpendants et remplacer la loi hypergomtrique
(N ; n ; p) par la loi binomiale (n ; p)

C. La loi gomtrique et la loi de Pascal


On se place dans une optique totalement diffrente, les conditions de base
restant inchanges, cest--dire quil y a toujours une succession dpreuves
de Bernoulli de mme paramtre p, mais dont on ne connat pas le nombre
de rptitions : on ne sarrte que lorsque le rsultat auquel on sintresse est
obtenu pour la l re fois (cas de la loi gomtrique) ou pour la Ke fois (loi de
Pascal).
chaque preuve lmentaire, est associe une variable de Bernoulli Xi
qui prend la valeur 1 si le rsultat auquel on sintresse sest ralis, et la
valeur 0 sinon. On pose :
et

P(Xi = 0) = 1 p = q

On suppose que les preuves sont rptes indpendamment les unes des
autres. On dsigne par Y le nombre total dpreuves ralises jusqu
lobtention du premier rsultat lmentaire de probabilit p. Il est clair
que Y peut prendre toute valeur entire au moins gale 1 (cest--dire strictement positive), et que ces valeurs peuvent tre aussi grandes que lon veut.
Nous rencontrons ici pour la premire fois une variable alatoire dont le nombre de valeurs possibles est infini.
Cette dfinition doit tre bien comprise, car dans certains cas on sintresse au nombre Z dpreuves prcdant la premire ralisation du rsultat de
probabilit p, et on a bien sr : Z = Y 1
Pour ce qui concerne la variable alatoire Y, si le rsultat cod 1 se produit
pour la 1re fois la ke preuve, cela signifie que les (k 1) premires preuves
ont produit le rsultat complmentaire cod 0 de probabilit q. En raison de
lindpendance des preuves on a :
P( Y = k ) = q q q p = qk 1 p

Dunod. La photocopie non autorise est un dlit.

P(Xi = 1) = p

(k 1) fois

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

193

P179-210-9782100549412.fm Page 194 Jeudi, 18. novembre 2010 12:09 12

On en dduit la fonction de rpartition :


n

P(Y n) =

n1

qk 1 p = p

k=0

k=1

1 qn
= p -------------- = 1 q n
1q

On calcule aussi :
E(Y) =

k qk 1 p = p

k=1

k qk 1 = p

k=1

-(q )
----dq
k

k=1

La srie de terme gnral


tant absolument convergente, la srie des
drives est gale la drive de la srie :
qk

d k
d
----q
(
)
q k
E(Y ) = p
= p ------
dq
dq k = 1
k=1

d
q
1
1
= p ------ ------------ = p -------------------2 = --dq 1 q
(1 q)
p
On calcule de mme le moment dordre 2 :

E(Y 2) =

qk 1

k=1

k=1

= p

k 2 qk 1 p = p .

k ( k 1 ) + k q

k1

= p

k=1

k(k 1)q

k 2q

+p

k=1

kq

k1

k=1

Le second terme de lexpression obtenue nest autre que E(Y). Pour le premier terme, on remarque que :

k ( k 1 )q k 2 q = p q

k ( k 1 )q

k2

k=1

k=1

= pq

k(k

1 )q k 2

k=2

= pq

d2

-(q )
------dq

k=2

car encore une fois la double drivation sous le signe somme est licite en
raison de la convergence absolue de la srie.
On obtient :

d 2-
q k
k ( k 1 )q k 2 q = p q ------
2
dq k = 2
k=1

2q
d 2 q2
2
= p q --------2 ------------ = p q -------------------3 = -----2

dq 1 q
(1 q)
p

194

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 195 Jeudi, 18. novembre 2010 12:09 12

et par consquent :
2q 1
q+ p+q
q+1
2q + p
- = --------------------- = ----------E ( Y 2 ) = -----2- + --- = --------------2
2
p
p
p2
p
p
On dduit la variance dune variable alatoire de loi gomtrique :
q+1 1
q
var ( Y ) = ----------- -----2 = -----2
p2
p
p
Dans ltude de la modlisation des situations concrtes de ce type, on
doit faire trs attention de prciser si on sintresse au nombre total
Y
dpreuves alternatives ralises jusqu lobtention du premier rsultat lmentaire de probabilit p (cas tudi), ou si on sintresse au nombre
Z
dpreuves lmentaires de probabilit (1 p) ralises jusqu lobtention
du premier rsultat de probabilit p.
Comme nous lavons dj mentionn Z = Y 1. Les valeurs possibles de
Z sont toutes les valeurs entires positives ou nulle, alors que les valeurs possibles de Y sont toutes les valeurs entires strictement positives. La relation
entre Y et Z implique quon peut calculer les probabilits associes Z partir de celles de Y :
P( Z = k ) = P( Y = k + 1 ) = qk p

Dunod. La photocopie non autorise est un dlit.

P( Z n ) = P( Y n + 1 ) = 1 qn + 1
Lesprance mathmatique de Z est gale celle de Y diminue dune
unit :
1p
q
E ( Z ) = E ( Y 1 ) = E ( Y ) 1 = --1- 1 = ------------ = --p
p
p
alors que les variances de Y et Z sont gales :
q
var ( Z ) = var ( Y 1 ) = var ( Y ) = -----2
p
En rsum

La loi gomtrique de paramtre p caractrise le nombre dpreuves de


Bernoulli indpendantes quil faut raliser pour obtenir pour la 1 re fois le
rsultat (de lpreuve de Bernoulli) auquel on sintresse (cod 1). Lesp1p
1
rance est gale --- et la variance ----------p
p2
La loi de Pascal est la gnralisation de la loi gomtrique lorsquon
recherche lobtention pour la Ke fois du rsultat considr. Une variable alatoire de Pascal Y dpend de deux paramtres p et K et peut prendre toutes
valeurs entires au moins gales K.

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

195

P179-210-9782100549412.fm Page 196 Jeudi, 18. novembre 2010 12:09 12

Pour calculer P(Y = j) pour j K, on remarque que si le je essai a donn le


rsultat de probabilit p, cest quau cours des (j 1) essais prcdents, on aura
obtenu (K 1) fois ce rsultat et ( j K) fois le rsultat contraire. On applique
la combinatoire du schma binomial, et la probabilit dobserver ( j K) fois le
rsultat de probabilit { q = 1 p} et ( K 1) fois le rsultat de probabilit p
au cours de ( j 1) essais est donne par :
j 1 pK 1 ( 1 p ) j K
K 1
Pour obtenir lvnement { Y = j}, il faut et il suffit que dans les ( j 1) premiers essais, on ait obtenu (K 1) fois le rsultat de probabilit p et (j K) fois
le rsultat contraire, et que le je essai donne le rsultat de probabilit p. En
raison de lindpendance des preuves :
K
jK
P(Y = j) = j 1 p (1 p)
pour j K
K 1
On peut montrer que moyenne et variance de la loi de Pascal de
paramtres p et K sont donns par :
K (1 p)
E(Y ) = K
---- et var ( Y ) = ------------------------p
p2
On doit bien porter attention au fait que la ressemblance avec les probabilits dune loi binomiale nest quapparente. En effet, non seulement la somme
des exposants des termes p et (1 p) nest pas gale au nombre ( j 1), mais
ces probabilits sont dfinies pour toutes les valeurs de j au moins gales K,
et donc pour un ensemble de valeurs non born. Pour une loi de Pascal, gnralisant la loi gomtrique, cest le nombre total dpreuves, et non pas le nombre dpreuves conduisant au rsultat de probabilit p qui est alatoire .
Ces deux lois prsentent une diffrence trs importante avec la loi
binomiale : le nombre de rptitions de lpreuve lmentaire de Bernoulli
nest pas connu, et cest lui qui reprsente lalatoire du problme. En particulier, une variable gomtrique peut prendre toute valeur entire positive,
sans limite suprieure.
Lexemple suivant montre lapplication de ces modles et linterprtation
de leurs caractristiques.

 Exemple

Supposons quon observe en moyenne 5 % de pices dfectueuses en


sortie dune chane de production lorsquelle est optimise. Si on souhaite
connatre la probabilit quun chantillon de 20 pices issu de cette chane
ne contienne aucune pice dfectueuse, on associe chaque pice un
caractre deux modalits, et cette modlisation de base amne dfinir
des variables de Bernoulli.
Le paramtre de ces variables de Bernoulli tant gal 0,05 puisque si
5 % des pices en moyennes sont dfectueuses, cela revient dire que la

196

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 197 Jeudi, 18. novembre 2010 12:09 12

probabilit quune pice prise au hasard soit dfectueuse est gale 0,05
(chapitre 5). On peut supposer les tirages indpendants en raison de la
grande taille de la population (ici la production).
Le schma binomial est ici adapt puisquon recherche la probabilit
dun nombre donn de dfectueux sur un chantillon de taille fixe.
Pour cette loi (20 ; 0,05), on a P(X = 0) = (0,95)20 = 0,3585
Si dautre part, on cherche calculer la probabilit que le premier dfectueux ne soit pas lune des 20 premires pices, on gardera la modlisation des units statistiques par les alas de Bernoulli de paramtre 0,05
toujours supposs indpendants pour les mmes raisons. Mais le nombre de pices tudies ntant plus donn, ce nombre devient lala dont
on a besoin de dterminer la loi de probabilit.
Soit Y le nombre de pices observes jusqu lobtention de la premire
pice dfectueuse. La variable alatoire Y est une variable alatoire distribue selon une loi gomtrique de paramtre 0,05 ; par consquent :
P ( Y 21 ) =

0,95

k1

0,05 = 0,05

k 21

k 21

0,95

20

P ( Y 21 ) = 0,05 0,95

0,95

k1

= 0,05

0,95

j 20

j0

Dunod. La photocopie non autorise est un dlit.

20
20
1
= 0,05 0,95 ------------------- = 0,95 = 0,3585
1 0,95

Lesprance mathmatique de cette variable alatoire Y tant gale 20,


on doit tirer en moyenne 20 pices pour en observer une dfectueuse,
cest--dire quavant de tirer une pice dfectueuse, on tire, en
moyenne, 19 pices qui ne le sont pas.
La relation entre tous ces rsultats est laisse au lecteur.
Si on stait intress au nombre de pices examiner pour en tirer deux
dfectueuses, on aurait une loi de Pascal desprance mathmatique
gale 40. Ici encore, on laisse au lecteur le soin de comparer les deux
derniers rsultats.
Ces deux lois, loi gomtrique et loi de Pascal, interviennent particulirement
en contrle de qualit, mais aussi dans la surveillance des vnements dont une
certaine frquence de survenue est interprte en terme de signal dalarme.
Les formules de la loi gomtrique sont suffisamment simples pour que les calculs ne posent aucune difficult avec une petite calculatrice, et pour la loi de Pascal, on peut recourir quelques pas de programme comme pour la loi binomiale.

Remarque
Les lois binomiale, hypergomtrique, gomtrique et de Pascal sont
donc toutes construites sur la base de la rptition dpreuves deux

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

197

P179-210-9782100549412.fm Page 198 Jeudi, 18. novembre 2010 12:09 12

issues (ou preuves de Bernoulli). lexception de la loi hypergomtrique, elles se placent toutes dans un contexte dpreuves indpendantes dont la caractristique p (probabilit de lissue de lalternative
quon cherche observer) est constante au cours du temps.
Ceci correspond une notion trs dveloppe dans la modlisation des
phnomnes dpendant du temps, savoir la stationnarit. Cette proprit nest pas systmatiquement rencontre, et il faut apporter la plus
grande attention lanalyse de cette hypothse dans toutes les situations quon cherche reprsenter.
Beaucoup de cas ne correspondent pas en effet une succession stationnaire dpreuves de Bernoulli indpendantes. Nous avons vu que lindpendance stricto sensu pouvait quelquefois servir de reprsentation
approche des tirages exhaustifs (pour un taux de sondage suffisamment faible), mais on devra soigneusement analyser le contexte pour
reconnatre sil est celui dune parfaite stationnarit (cest--dire de
constance dans le temps du paramtre p des preuves de Bernoulli successives), sil est celui dune stationnarit approximative, ou si cette condition ne peut tre suppose (auquel cas les outils mettre en uvre sont
plus complexes et dbordent du propos de cet ouvrage).
Le tableau suivant rsume de faon synthtique les principaux modles construits partir de litration du schma de Bernoulli.
Loi

Nombre
ditrations

Valeur
minimale

Valeur
maximale

Type
de tirage

Esprance

Variance

Bernoulli

fix

sans

p(1 p)

Binomiale

fix

indpendant

np

np(1 p)

Hypergomtrique

fix

max(0, n Nq)

min(n, Np)

exhaustif

np

Nn
np ( 1 p ) ------------N1

Gomtrique

alatoire

sans

indpendant

1
--p

1 p
-----------p2

Pascal

alatoire

sans

indpendant

K
---p

K (1 p)
---------------------p2

III. La loi de Poisson


Cette loi peut tre envisage dans un contexte empirique (statistique), ou
danalyse (probabiliste).

198

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 199 Jeudi, 18. novembre 2010 12:09 12

A. Dfinitions et proprits

Dfinition

Une variable alatoire X ayant pour valeur possible tout nombre entier
positif ou nul, et telle que :
mk
P ( X = k ) = e m -----k!
pour tout k 0 entier, est dite distribue selon une loi de Poisson1 de paramtre m, m tant un nombre rel strictement positif.
On remarque tout de suite quune telle variable alatoire prsente une diffrence essentielle avec les variables de Bernoulli ou binomiales, car elle est
discrte, mais non finie (cest--dire ici que les valeurs possibles ne sont pas
limites suprieurement). Nous avons dj rencontr cette situation avec la
loi gomtrique et la loi de Pascal.
Il sagit bien dune distribution de probabilit car, il est facile de le constater que :
toutes les probabilits sont positives ;
la somme des probabilits est gale 1, compte tenu de lexpression de
la srie exponentielle :
mk
mk
e m ------ = e m
P( X = k ) =
------ = e m . e m = e 0 = 1
k!
k!
k0
k0
k0

Le calcul de la moyenne est assez simple :


E(X ) =

k P( X = k ) = k e

Dunod. La photocopie non autorise est un dlit.

k0

k0

mk
-----k!

mk
mk
k ------ = e m
k -----= e m
k!
k!
k0
k1

car le premier terme de la somme est nul. Par consquent,


E ( X ) = e m

m mk 1

-------------------( k 1 )!

k1

= m e m

mk 1

-----------------( k 1 )!

k1

1. Simon-Denis Poisson (1781-1840), mathmaticien, probabiliste et physicien franais, qui


on doit dimportant dveloppements sur la loi des grands nombres, sur les suites dpreuves
de Bernouilli, sur la loi de Poisson, mais aussi sur les applications des probabilits dans les
domaines du droit.

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

199

P179-210-9782100549412.fm Page 200 Jeudi, 18. novembre 2010 12:09 12

Le changement de variable j = k 1 donne :


E ( X ) = m e m

mj

-----j!-

= m e m e m = m

j0

Ce rsultat justifie la notation m adopte pour le paramtre de la loi de


Poisson puisque ce paramtre nest autre que la valeur moyenne.
En ce qui concerne le moment dordre 2, le calcul du mme type donne :
E( X 2) =

P( X = k ) =

k0

= e m

k0

k0

mk
e m -----k!

mk
k 2 ----- ------ = e m
k!
k!
k1
mk

car le l er terme de la srie tant nul, on peut commencer cette somme pour
k=1
On obtient ensuite :
E ( X 2 ) = e m

mk
k 2 ------ = e m
k!
k1

mk
( k ( k 1 ) + k ) -----k!
k1

= e m

mk

-+
k
{ k ( k 1 ) } ----k!

k1

k1

mk
------
k!

Le deuxime terme de la dernire parenthse nest autre que


E(X) soit
m. Pour le calcul du premier terme, on remarque que le terme initial pour
k = 1 est nul. On dbute la somme k = 2, et on simplifie par k(k1) :
E ( X 2 ) = e m .

mk
mk
k ( k 1 ) ------ + m
k ( k 1 ) ------ + m = e m
k!
k!
k2
k1

= e m
soit :

m2 mk 2
----------------------- + m
( k 2 )!
k2

E ( X 2 ) = m 2 e m

mk 2

+m
-----------------( k 2 )!

k2

En faisant le changement de variable { j = k 2} dans la dernire somme,


on retrouve encore le dveloppement de la srie exponentielle, do :
E ( X 2 ) = m 2 e m e m + m = m 2 + m
Et on dduit la variance :
2

var ( X ) = E ( X 2 ) E ( X ) = m 2 + m m 2 = m

200

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 201 Jeudi, 18. novembre 2010 12:09 12

Ce rsultat a un intrt considrable, comme on le verra plus loin :


Pour une distribution de Poisson, moyenne et variance sont gales (et
gales la valeur du paramtre).
On peut aussi calculer la fonction gnratrice :
gX (u) = E (uX ) =

k
k m m
------

u e

k!

k0

= e m

( um ) k

------------k!

= e m e um = e m ( 1 u )

k0

ce qui permet dobtenir le moment factoriel dordre r(r *) : [r](X) = mr


La proprit suivante est trs utile dans la construction des modles rgis
par des lois de Poisson.
Proprit 1

Si X1 et X2 sont deux variables alatoires indpendantes qui suivent des


lois de Poisson respectivement de paramtres m1 et m2, alors Y = X1 + X2
suit une loi de Poisson de paramtre m1 + m2
En effet, la variable Y peut prendre toutes les valeurs entires, positives ou
nulle. Calculons la probabilit quelle prenne lune quelconque de ces valeurs.
i
P(Y = k ) = P
i

= k

U ({ X

= 0

i=k

P({ X

= i } { X 2 = k i } )

= i} { X2 = k i})

= i}) P({ X 2 = k i})

Dunod. La photocopie non autorise est un dlit.

i=0

i=k

P({ X

i=0

donc :
P(Y = k ) =

i=k

P( X 1 = i) P( X 2 = k i) =

i=0

mi
m 2k i
e m1 -----1- e m2 ---------------i!
(
k

i
)!
i=0
i=k

soit :
P(Y = k ) = e

( m1 + m2 )

i=k

i=0

( m + m ) i = k
m 1i m 2k i
e 1 2
k!
---------------------- = ----------------------------------------- m 1i m 2k i
k! i = 0 i! ( k i )!
i! ( k i )!

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

201

P179-210-9782100549412.fm Page 202 Jeudi, 18. novembre 2010 12:09 12

et on reconnat dans la dernire somme le dveloppement du binme de


Newton appliqu la somme ( m 1 + m 2 ) k . Ce qui permet dcrire :
P(Y = k ) = e

( m1 + m2 )

( m1 + m2 ) k
------------------------k!

ce rsultat prouvant le rsultat annonc.

Remarque
Ce rsultat peut stendre une somme finie de variables alatoires
indpendantes distribues toutes selon des lois de Poisson .
Il existe une forme rciproque de cette proprit.
Proprit 2

Si les variables alatoires indpendantes


X et Y sont telles que la
somme (X + Y) est distribue selon une loi de Poisson, alors les variables
X et Y sont elles-mmes distribues selon des lois de Poisson.
On ne dmontrera pas cette proprit trs utile. Il faut remarquer ici quon
na pas le moyen direct de dcomposer (pour cette proprit 2) le paramtre
de (X + Y) en deux paramtres, lun pour X et lautre pour Y.
Une proprit, elle aussi caractristique de la loi de Poisson, est celle qui
suit, obtenue aisment en crivant le rapport des probabilits et en simplifiant :
Proprit 3

Si X suit une loi de Poisson de paramtre m, on a :


P( X = k )
-------------------------------- = m
---P( X = k 1)
k
Cette proprit implique la croissance des probabilits ponctuelles
P(X = k) tant que k m, et la dcroissance (rapide puisquinversement proportionnelle k) ds que k > m.
P( X = m)
Dautre part si m est un entier, le rapport --------------------------------- est gal 1. Ceci
P( X = m 1)
signifie quil existe deux valeurs, m et m 1, qui ont mme probabilit. Cette
probabilit commune est la plus leve daprs ce quon vient de voir. Par
consquent, la loi de Poisson possde deux valeurs modales lorsque son
paramtre est un nombre entier .

202

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 203 Jeudi, 18. novembre 2010 12:09 12

B. Abord statistique
Daprs les proprits qui viennent dtre montres, on remarque quil est
justifi denvisager une loi de Poisson comme un modle reprsentatif de
donnes statistiques discrtes pour lesquelles la variable ne prend que
des valeurs entires, positives ou nulle, et pour lesquelles :
la moyenne et la variance sont sensiblement gales ;
fk
- de 2 frquences conscutives sont inversement
les rapports ---------fk 1
proportionnels k
Il est frquent que cette dernire condition ne soit vrifie que pour les
faibles valeurs de k. Dans la pratique, on accorde moins dimportance aux
entorses cette proprit pour les queues de distribution.
Enfin, on prendra garde de bien noter quil ne sagit l que dune indication. Il
est indispensable de justifier le choix dun modle par un jugement dadquation.

C. Abord probabiliste
Il sagit maintenant de poser la loi de Poisson comme modle dune preuve
alatoire avec laide dune analyse raisonne de cette preuve. Un rsultat est
ncessaire cette dmarche.

Dunod. La photocopie non autorise est un dlit.

Proprit 4

Les probabilits dune loi binomiale (n ; p) peuvent tre approximes


par les probabilits dune loi de Poisson de paramtre np si les conditions
suivantes sont ralises :
n > 50
et
p < 0,1
Ceci implique que la loi de Poisson peut tre considre comme lapproximation dune loi binomiale qui reprsente la somme dun grand nombre
(n > 50) dalas de Bernoulli de faible paramtre ( p < 0,1).
On remarque ce sujet que si une variable alatoire est distribue selon
une loi binomiale (n ; p) pour laquelle n > 50 et p < 0,1, on aura q 1 et
par consquent np npq. Si on approxime cette loi binomiale par une loi de
Poisson (np), on imagine que les deux lois doivent tre assez proches pour
que les esprances mathmatiques, dune part, et les variances, dautre part,
soient voisines, sinon mme gales. Or, les esprances sont gales toutes

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

203

P179-210-9782100549412.fm Page 204 Jeudi, 18. novembre 2010 12:09 12

deux np, mais les variances respectivement gales npq pour la loi binomiale et np pour la loi de Poisson sont proches puisque q 1. La valeur de
lapproximation apparat bien lie la faible valeur de p
Bien videmment, par symtrie, et en particulier en tenant compte de la
proprit 2 vue au II.A, pour une variable X suivant une loi (n ; p) o
n > 50 et p > 0,9, cette approximation sera applique la variable ( n X) qui
suit une loi (n ; 1 p)
Lorsquun vnement a une faible probabilit ( p < 0,1) dapparition lors
dune preuve lmentaire, et si on rpte cette preuve un grand nombre de
fois (n > 50), le nombre total de ralisations de lvnement considr suit
peu prs une loi de Poisson de paramtre np. Les graphiques de la figure 6.3a
et 6.3b montrent la comparaison entre les diagrammes en btons de plusieurs
lois binomiales et des lois de Poisson qui sont proposes comme approximation. On retrouve en examinant ces graphiques que plus p est petit, meilleure
est la qualit de lapproximation.
Pour cette raison, la loi de Poisson a t appele la loi des petites probabilits, ou loi des faibles occurences, ou loi des phnomnes rares .

0,18

0,18

(60 ; 0,1)

0,16

0,16

0,14

0,14

0,12

0,12

(6)

0,10

(60 ; 0,15)

(9)

0,10

0,08

0,08

0,06

0,06

0,04

0,04

0,02

0,02

0,00

0,00

0,10
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00

0,10
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00

(100 ; 0,4)

(40)

(100 ; 0,25)

Figure 6.3a Approximations de mauvaise qualit par la loi de Poisson

204

INTRODUCTION LA MTHODE STATISTIQUE

(25)

P179-210-9782100549412.fm Page 205 Jeudi, 18. novembre 2010 12:09 12

0,25

0,6
0,5
0,4

(60 ; 0,05)

0,20
(60 ; 0,01)
0,15

0,3

(3)

0,10
0,2
(0,6)

0,05

0,1

0,00

0,0

0,14

(100 ; 0,1)

0,12
0,10
0,08
0,06
0,04
0,02
0,00

(10)

0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00

(100 ; 0,05)

(5)

Dunod. La photocopie non autorise est un dlit.

Figure 6.3b Approximations correctes par la loi de Poisson

Voici quelques exemples o cette loi est voque :


nombre de pices dfectueuses dans un chantillon de grande taille prlev
dans une production o la proportion des pices dfectueuses est faible ;
nombre de naissances de quadrupls, de quintupls, par an dans un pays
fix ;
nombre dappels intercontinentaux sur une ligne pendant une priode
donne.
Les formules des probabilits de lois binomiale et de Poisson montrent
bien lintrt de la seconde. Mme avec une bonne calculatrice, il nest pas
ais (et parfois pas possible directement) de calculer les probabilits dune
loi binomiale. Mais cependant, on ne recourra lapproximation par la loi de
Poisson que lorsquon ne peut aisment obtenir le rsultat exact, cest--dire
quon ne cherchera pas approximer la loi binomiale tant que le calcul est
simple.

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

205

P179-210-9782100549412.fm Page 206 Jeudi, 18. novembre 2010 12:09 12

Les tables de la loi de Poisson ( cf. annexe IV) donnent les valeurs de la
fonction de rpartition pour les valeurs du paramtre :
entre 0 et 1 par pas de 0,1
entre 1 et 10 par pas de 0,5
entre 10 et 25 par pas de 1
Comme pour la loi binomiale, lusage des tables est limit certaines
valeurs du paramtre. On peut utiliser quelques pas de programme pour tous
les calculs (annexe II).
Toutefois, lorsque m dpasse 25, on utilise lapproximation par la loi de
Gauss et la correction de continuit (chapitre 7).
La loi de Poisson de paramtre m est une loi caractrise par lgalit
de sa moyenne et de sa variance, et dont les probabilits pk croissent tant
que k < m, puis dcroissent. Elle peut tre envisage comme une approximation de la loi binomiale, donc comme la loi approche de la somme
dun grand nombre (n > 50) dalas de Bernoulli indpendants reprsentant une alternative dont lune des issues est de probabilit trs faible
(p < 0,1). Elle est ainsi directement postule comme modle reprsentatif du nombre doccurences au cours du temps pour un vnement
particulirement peu probable, mais dont la probabilit de survenue est
stable.
On ajoutera encore quil sagit dun modle particulirement utilis en
pratique dans la gestion des files dattente notamment, et qui est lorigine
de dveloppements trs importants dans lanalyse des sries dvnements
(processus poissoniens).
On noubliera pas :
1. Que la loi de Bernoulli reprsente toute situation dalternative dans
laquelle une issue est code 0 et lautre code 1
2. Que la loi binomiale correspond la somme dun nombre fix de
variables alatoires de Bernoulli de mme paramtre et indpendantes
(donc un tirage avec remise)
3. Que la loi hypergomtrique correspond la somme dun nombre
fix de variables alatoires de Bernoulli de mme paramtre, mais dans
un tirage sans remise
4. Que la loi gomtrique correspond la somme de variables alatoires de Bernoulli de mme paramtre et indpendantes, mais en nombre
alatoire
5. Que la moyenne et la variance dune variable alatoire de Poisson
sont gales

206

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 207 Jeudi, 18. novembre 2010 12:09 12

Exercices (corrigs page 319)


Exercice 6.1
Des sondages permettent de constater que 10 % de la population est constitue de
gauchers. On considre donc, dans cet exercice, que la probabilit quun individu pris
au hasard soit gaucher est gale 0,1 et celle quil soit droitier est gale 0,9.
1. Calculez la probabilit quun groupe de 10 individus contienne :
au moins un gaucher ;
au plus trois gauchers.
2. Un atelier de couture est quip de 9 paires de ciseaux pour droitiers et de 3 paires
de ciseaux pour gauchers. Quelle est la probabilit que chacun des 10 membres du
personnel trouve une paire de ciseaux sa convenance ?
3. Soit Z la variable alatoire gale au nombre de personnes ayant trouv une paire
de ciseaux sa convenance. tablir un tableau donnant Z en fonction du nombre
Y de gauchers dans les 10 membres du personnel. En dduire la loi de probabilit
de Z.
Exercice 6.2
Une compagnie dassurances envisage de crer des polices dassurances individuelles
contre un certain type daccidents. Une enqute pralable du service statistique a permis destimer quau cours dune anne, chaque personne a une chance sur 5 000 environ dtre victime dun accident couvert par ce type de police, et que la compagnie
pourra vendre en moyenne 10 000 polices dassurance de ce type par an.
Dterminez la probabilit que le nombre daccidents ne dpasse pas trois par an (on
supposera que chaque personne assure a au plus un accident par an).
Exercice 6.3

Dunod. La photocopie non autorise est un dlit.

La socit Alpha a vendu deux machines de pesage la socit Beta qui est une
socit de prestations de services. La Socit Beta loue ces machines la journe. Le
prix de location lui laisse, par jour et par machine, une marge brute de 20 . Chaque
machine est immobilise 1 jour sur 10 au hasard, pour rglage et contrle.
1. Donnez, en la justifiant, la loi de la variable alatoire Y gale au nombre de machines disponibles un jour quelconque.
2. Par ailleurs, on admet que le nombre dentreprises dsirant louer une machine
pour une journe est une variable alatoire Z ainsi dfinie :
Valeurs de Z

Probabilit

0,1

0,2

0,4

0,3

Cette loi de demande reste invariable au cours du temps et na aucune incidence


sur le planning des immobilisations pour vrification, car aucune rgularit temporelle na t dcele. Une entreprise est satisfaite si elle repart avec une
machine. Soit N, la variable alatoire gale au nombre dentreprises satisfaites au
cours dune journe.

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

207

P179-210-9782100549412.fm Page 208 Jeudi, 18. novembre 2010 12:09 12

2.1. Quelles sont les valeurs possibles de N ?


2.2. En dduire la loi de N, ainsi que son esprance mathmatique. Donnez la
marge brute moyenne ralise au cours dune journe.
3. La socit Alpha constate quune machine sur 20 tombe en panne la premire
anne (on suppose quune machine ne peut pas tomber plus dune fois en panne
au cours dune anne). Le cot de rparation est de 200 par machine.
Au lieu de garantir les machines pendant un an, la socit Alpha propose de faire
un discount de 20 par machine aux acheteurs ventuels qui se chargeront euxmmes des rparations.
Vous tes prsident-directeur gnral dune socit qui achte 60 machines. Quel
choix ferez-vous si votre dcision est prise en fonction de chacun des deux critres
suivants :
vouloir ne pas y perdre en moyenne ;
refuser de courir un risque suprieur 1 % de voir la remise consentie tre infrieure au cot de rparation.
Exercice 6.4
Lors de tests daccs un ordinateur central par rseau tlmatique, on a constat que
95 % des essais permettaient une connexion correcte. Une entreprise doit se connecter 5 fois dans la journe pour la mise jour de ses fichiers. Soit Y le nombre dessais
ncessaires pour se connecter 5 fois.
1. Dterminez la loi de probabilit de la v.a. Y, ainsi que son esprance et sa variance.
2. Calculez P(Y = 5) et P(Y > 6).
Exercice 6.5
Soit Xt le nombre de demandes daccs une ressource informatique en partage, pendant un intervalle de temps de dure t fixe. On suppose Xt distribue selon une loi
de Poisson de paramtre = t. Lorsque cette ressource est sature, ce qui se produit
avec une probabilit , la demande ne peut tre satisfaite. Soit
Yt le nombre de
demandes satisfaites durant lintervalle de temps de longueur t.
1. Montrez que la v.a. conditionnelle { Y t X t = x } suit une loi binomiale dont on
dterminera les paramtres.
2. Montrez que Yt suit une loi de Poisson de paramtre
3. On se donne = 10 et = 0,2, lunit de temps tant la seconde.
Calculez : P(Yt < 8) et P(3 < Yt < 10)
Exercice 6.6
Dans une tude sur le comportement dachat de consommateurs, on suppose qu
chaque minute, une unit (au maximum) dun certain produit a 1 % de chances dtre
vendue. On suppose les achats de ce produit effectus des temps diffrents, indpendants les uns des autres.
1. Quelle est la loi de probabilit exacte du nombre dunits de ce produit vendues
en 30 min ?
Calculez la probabilit de vendre au moins 3 units en 30 min.
2. Le magasin est ouvert 7 h 30 par jour. Quel est le nombre moyen dunits vendues
par jour ?
Par quelle loi peut-on approcher la loi de probabilit du nombre dunits de ce
produit vendues en un jour ?

208

INTRODUCTION LA MTHODE STATISTIQUE

P179-210-9782100549412.fm Page 209 Jeudi, 18. novembre 2010 12:09 12

3. Chaque matin, le stock est reconstitu 8 units pour le premier produit, et


220 units pour le second. Quelle est la probabilit de rupture de stock pour chacun des deux produits ?
Exercice 6.7
Dans un grand magasin, des observations sur un grand nombre de jours ouvrables au
rayon des magntoscopes ont amen faire lhypothse selon laquelle le nombre de
magntoscopes X vendus au cours dun jour ouvrable quelconque suit une loi de
Poisson de paramtre 5. Les ventes sont supposes indpendantes.
1. Calculez la probabilit de chacun des vnements suivants :
la vente journalire de magntoscopes est au plus gale 2 ;
la vente journalire de magntoscopes est au plus gale 2 ou au moins gale
6;
la vente journalire de magntoscopes est au plus gale 6 sachant quelle est
au moins gale 2.
2. Donnez, en la justifiant, la loi de la somme des ventes de deux jours conscutifs.
Calculez la probabilit que la somme des ventes de deux jours conscutifs soit
gale 10.
3. Le directeur du magasin dcide de faire pendant une semaine une campagne publicitaire sur les magntoscopes.
Il estime que, pendant cette semaine, la vente journalire suivra toujours une loi de
Poisson et que son paramtre sera gal 6 avec une probabilit gale 2/3 ou
8 avec une probabilit gale 1/3.
Quelle est alors la probabilit que, pendant cette campagne publicitaire, la vente
journalire de magntoscopes soit au moins gale 3 ?
Exercice 6.8
Dans une grande ville, la rgie des transports urbains dispose de 1 000 autobus. Des
observations antrieures ont montr que la probabilit quun autobus tombe en panne
un jour donn est gale 0,0025. Soit Y le nombre dautobus en panne un jour donn.

Dunod. La photocopie non autorise est un dlit.

1. Dterminez, en la justifiant, la loi de la variable alatoire


rance et sa variance.

Y. Calculez son esp-

2. Donnez, en la justifiant, une loi approximative de la loi de la variable alatoire Y.


3. Calculez P (3 < Y < 7).
4. Quelle doit tre la capacit minimum du service de maintenance des autobus pour
que la probabilit que toutes les pannes soient traites dans la journe, soit au
moins gale 0,998 ?
5. Le service de maintenance peut, en fait, rparer 6 pannes par jour. Calculez la
probabilit que, un jour quelconque, ce service soit dans lincapacit de rparer
tous les autobus tombs en panne.
6. Soit Z, le nombre de jours de lanne (anne de 365 jours) pour lesquels la maintenance est insuffisante. Dterminez, en la justifiant, la loi de la variable alatoire
Z, ainsi quune loi approche. En dduire la probabilit que la maintenance soit
suffisante tous les jours de lanne.
Daprs examen de juin 2000, GEA 1re anne Paris IX-Dauphine

LES PRINCIPAUX MODLES STATISTIQUES DISCRETS

209

P179-210-9782100549412.fm Page 210 Jeudi, 18. novembre 2010 12:09 12

Exercice 6.9
Le nombre de vhicules se prsentant au page A de lautoroute du Soleil pendant
un certain intervalle de temps T est suppos suivre une loi de Poisson de paramtre 3,
et le nombre de vhicules se prsentant au page B de la mme autoroute pendant le
mme intervalle de temps est suppos suivre une loi de Poisson de paramtre 2.
1. Dterminez la loi du nombre de vhicules se prsentant lun ou lautre des deux
pages pendant un laps de temps T en prcisant lhypothse ncessaire.
2. Calculez la probabilit que 8 vhicules se prsentent lun ou lautre des deux
pages pendant un intervalle de temps T.
3. Sachant que 8 vhicules se sont prsents lun ou lautre des deux pages, quelle
est la probabilit quil y en ait eu 5 au page A (toujours pendant un mme laps
de temps T) ?
Daprs examen de juin 2006, DUGEAD 1re anne Paris-Dauphine

Exercice 6.10
Les donnes suivantes, bases sur les annales de dix corps de larme prussienne sur
une priode de vingt ans la fin du XIXe sicle, rendent compte du nombre de cavaliers tus par une ruade de cheval au cours dune anne.
Nombre de dcs xk

100

11

12

5 ou +

Cumul des annes nk

109

65

22

Donnes recueillies par le statisticien L. Bortkiewicz

1. Calculez la moyenne et la variance de cette distribution.


2. Proposez, en la justifiant, une loi de probabilit pour ajuster cette distribution.
Daprs examen de septembre 2005, DUGEAD 1re anne Paris-Dauphine

210

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 211 Mercredi, 24. novembre 2010 10:33 10

7. Les principaux

modles statistiques
continus

I.

Modles continus simples

A. La loi uniforme continue


Nous avons dj abord la notion dquiprobabilit dans les distributions statistiques discrtes au I.B du chapitre 6 avec la loi uniforme discrte. Nous allons
ladapter au cas dune variable alatoire continue. Pour une telle variable, on ne
peut pas parler de probabilit pour des valeurs isoles, et on imaginera la probabilit comme une masse rpartie de faon diffuse. Il est clair alors que lquiprobabilit se traduira par une probabilit dintervalle proportionnelle la longueur
de lintervalle. La probabilit cumule sur tout  tant limite lunit, on ne
pourra avoir de probabilit non nulle que sur un sous-ensemble born de .

Dunod. La photocopie non autorise est un dlit.

Dfinition

Une variable alatoire X, absolument continue, suit une loi uniforme


continue sur lintervalle [a, b]  si sa densit de probabilit est donne par :
k
f X( x) =
0

si
si

x [a, b]
x [a, b]

Compte tenu des proprits dune densit de probabilit, il rsulte que


k > 0 et que :
b

1 =

f ( x ) dx = k dx
R

= k(b a)

1
k = ----------ba

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

211

P211-282-9782100549412.fm Page 212 Mercredi, 24. novembre 2010 10:33 10

Lintervalle sur lequel la densit nest pas nulle est ncessairement fini.
Cette contrainte apparat tout fait naturelle si on interprte la probabilit
comme une masse.
Dautre part,
x

FX ( x ) =

f ( t ) dt

par consquent FX (x) = 0 si x a, alors que pour x ]a, b [, on aura :


FX ( x ) =

f ( t ) dt =

1
x a0 dt + ------------ dt = ----------ba
ba

et enfin si
x

f ( t ) dt

x b, F X ( x ) =

1
a
0 dt + ------------ dt + 0 dt = b----------- = 1
ba
ba

La densit de probabilit dune loi uniforme continue est donc constante


par morceaux, tandis que sa fonction de rpartition est linaire croissante par
morceaux ( cf. figure 7.1, i et ii).

(i)

(ii)

1
1/ (b-a)
a

Figure 7.1 Densit (i) et fonction de rpartition (ii) de la loi uniforme continue

Pour ce qui concerne les moments de X :


E(X ) =

xf ( x ) dx =

x
1 2 a2
b+a
------------ dx = ------------ b---------------- = ----------ba
ba 2
2

et plus gnralement :
b

k
1
bk + 1 ak + 1
1
E ( X ) = ------------ x k dx = ------------ ---------------------------ba
k+1
ba

212

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 213 Mercredi, 24. novembre 2010 10:33 10

ce qui donne en particulier :

Dunod. La photocopie non autorise est un dlit.

et par consquent :

1
E ( X 2 ) = --- ( b 2 + ab + a 2 )
3

b a )2
2 ( X ) = E ( X 2 ) ( E ( X ) ) 2 = (-----------------12
On note que la loi uniforme continue est symtrique, et que par consquent,
sa mdiane et sa moyenne sont confondues au milieu de lintervalle [
a, b ].
Comme pour la loi uniforme discrte, ce rsultat est naturel compte tenu de
lquiprobabilit. Le calcul du coefficient dasymtrie 1 de Fisher retrouve
cette proprit puisque 1 = 0. On notera que cette distribution na pas de
mode au sens strict.
Les fractiles de la loi uniforme continue sont trs aisment calculables,
comme pour toute distribution continue dont la fonction de rpartition
sexprime analytiquement, et ici le calcul est particulirement simple. En
effet le fractile x dordre est dfini par FX (x) = . Il correspond :
x a
------------- = , soit x = a + ( b a )
ba
On retrouve la valeur de la mdiane, gale la moyenne, soit :
1
b+a
x 0,5 = a + --- ( b a ) = ----------2
2
Il faut remarquer que pour cette loi, la probabilit de voir une ralisation
appartenir un intervalle donn ne dpend que de la longueur de cet intervalle, et quelle ne dpend pas de la position de cet intervalle. Deux intervalles de mme longueur auront la mme probabilit, condition quils soient
tous deux inclus dans [ a, b ], domaine de dfinition de X.
Compte tenu de la symtrie de cette loi, on peut aussi adopter la dfinition
suivante.
Une variable alatoire X est uniforme continue sur [ a h, a + h] si sa
densit est dfinie par :
1
-----f ( x ) = 2h
0

si x [a h, a + h]
si x [a h, a + h]

Lquivalence des deux dfinitions est laisse au lecteur. Cest, historiquement, cette seconde dfinition qui est lorigine dune grande utilisation de la loi
uniforme continue dans le domaine de la prise en compte des erreurs darrondi 1.
1. On a ainsi pu tudier que la rpartition des erreurs darrondi suit une loi uniforme continue
dans de nombreux cas.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

213

P211-282-9782100549412.fm Page 214 Mercredi, 24. novembre 2010 10:33 10

Cette distribution uniforme recouvre trs naturellement la notion dquiprobabilit dans le contexte de rpartitions continues, et elle a t probablement
utilise comme telle avant le XVIIIe sicle, date des premiers crits la concernant.
La loi uniforme continue est, en raison de son lien avec lquiprobabilit,
lorigine de multiples modlisations (en sociologie, conomie, gestion de flux,
gestion de stocks, biologie, physique). On doit galement mentionner son intrt pour la simulation 1 des modles, quel que soit le domaine dapplication. Le
rsultat fondamental sur lequel reposent ces simulations est le suivant.
Thorme
Soit X une variable alatoire continue dont la fonction de rpartition
F(x) est suppose bijective. Alors la variable alatoire Y = F(X) suit une loi
uniforme continue sur [0 ; 1].
En effet, la fonction F tant bijective et monotone, elle admet une rciproque quon note F1. Si on crit la fonction de rpartition de Y, on obtient :
P(Y < y) = P(F(X) < y) = P(X < F1(y)) = F[F1(y)] = y
ce qui prouve le rsultat annonc.
Partant donc dune ralisation y de variable alatoire distribue selon une
loi uniforme sur [0 ; 1], on peut reconstruire une ralisation x de variable alatoire X de fonction de rpartition F donne en calculant x = F1(y). Connaissant
des ralisations de loi uniforme discrte, il est possible dobtenir des ralisations pour une loi quelconque partir du moment o on connat sa fonction
de rpartition (analytiquement ou avec ses valeurs point par point).
Cette mthode extrmement simple dans son principe (et base sur un rsultat lmentaire) permet une trs grande quantit dapplications, que ce soit
entre autres pour la simulation de modles rels (flux, stocks) ou pour ltude
de phnomnes alatoires dont la distribution nest pas connue a priori .

B. La loi exponentielle
Dans ce paragraphe, on prsente la loi exponentielle sous son aspect le
plus simple, sans tenir compte de la famille de lois dans laquelle elle se place.
Afin de ne pas donner un contexte trop abstrait et mathmatique, on ne parlera pas des lois gamma et des proprits qui en dcoulent pour la loi exponentielle. Toutefois, en conclusion de ce paragraphe, on mentionnera les
relations de ce modle exponentiel avec des modles correspondant des
schmas prcis didentification. Le but de cette prsentation tant essentiellement de comprendre la nature des phnomnes alatoires pour lesquels on
envisage une reprsentation de type loi exponentielle ou drive de ce type.
1. Une prsentation simple de la simulation, avec des exemples, est donne lannexe III.

214

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 215 Mercredi, 24. novembre 2010 10:33 10

Dfinition

On dit quune variable continue


X suit une loi exponentielle de
paramtres > 0 et lorsque sa densit est :
1
si x
--- e ( x )/
f ( x) =
0
si x <

La figure 7.2 montre lallure des courbes reprsentatives de la densit de


la loi exponentielle de paramtres et .
2
=0,5

1,6
1,2

=1

0,8
0,4
0

=2
=1

=2

Figure 7.2 Densits de lois exponentielles pour diffrentes valeurs de (1 et 2)


et de (0,5, 1 et 2)

Les situations usuelles correspondent au choix de = 0, ce que nous garderons pour la suite, en prenant pour densit la fonction :

Dunod. La photocopie non autorise est un dlit.

1
--- e x/
f ( x) =
0

si x 0
si x < 0

qui est ainsi une distribution un seul paramtre. Le cas particulier o = 1


est dit loi exponentielle standard.
Un calcul lmentaire montre que la fonction de rpartition (si = 0) est
donne par :
0
F( x) =
1 e x/

si x < 0
si x 0

Calculons les moments de cette distribution :

k
1
E ( X ) = --- x k e x/ dx

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

215

P211-282-9782100549412.fm Page 216 Mercredi, 24. novembre 2010 10:33 10

qui devient par le changement de variable t = --x- :

k
1
E ( X ) = --- ( t ) k e t dt = k t k e t dt

dont le calcul est trs simple


dernire intgrale :

Ik =

en appliquant une intgration par parties la

t k e t dt = [ t k e t ] 0 + k t k 1 e t dt = k I k 1
0

ce qui permet dcrire :


I k = kI k 1 = k ( k 1 ) I k 2 = = k ( k 1 ) ( k 2 ) 2 1 I 0
et puisque I0 est gal 1 (intgrale de la densit), on obtient finalement
Ik = k! et :
E ( X k ) = k! k
Pour cette distribution exponentielle un paramtre ( tant nul),
lesprance et lcart-type sont tous deux gaux , alors que la variance
est gale 2
E(X) = et var(X) = 2
Dans le cas particulier de la loi exponentielle standard, il y a galit de
lesprance, de la variance et de lcart-type, tous gaux lunit. On peut
tablir un parallle avec la loi discrte qui possde une proprit analogue,
cest--dire la loi de Poisson pour laquelle lesprance est gale la variance,
mais non lcart-type (chapitre 6, III.A).
Ce modle correspond des phnomnes alatoires dont les valeurs 2
positives sont dautant moins probables quelles sont grandes, la dcroissance
tant de type exponentiel. En pratique, on a souvent recours un modle
exponentiel lorsquon a une variable continue positive, dont la moyenne et
lcart-type sont sensiblement gaux, et dont les probabilits dintervalles de
longueur fixe dcroissent rapidement au fur et mesure quils concernent des
valeurs leves.

1. On notera que cette intgrale Ik nest autre que la valeur de la fonction eulrienne classique
gamma pour lentier ( k + 1), soit (k + 1).
2. Le terme valeur ici ne doit pas prter confusion et concerne en toute rigueur un intervalle infiniment petit entourant une valeur ponctuelle ; ce terme est utilis ici pour ne pas
alourdir inutilement la prsentation.

216

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 217 Mercredi, 24. novembre 2010 10:33 10

Une situation trs classique aussi o on envisage un modle exponentiel


est celle o on sintresse au dlai de survenue dvnements alatoires dans
le temps (souvent appel dure de vie), et o on admet que le devenir X dun
individu (au sens statistique du terme) ne dpend pas de son ge :
P ( X x0 + x X > x0 ) = P ( X x )

x > 0 , x 0 > 0

On peut montrer que cette condition implique que X suit une loi de type
exponentiel.
Ces modles de dure de vie sont particulirement utiliss en conomie
du travail et dans ltude de lamortissement des investissements, mais aussi
bien entendu en fiabilit des matriels et en mdecine.
Parmi les autres domaines dapplication de la loi exponentielle, on citera
la dmographie et les files dattente.
Les deux proprits suivantes (donnes sans justification ni dmonstration)
peuvent tre utiles pour lidentification dune distribution exponentielle :
1. Si X1 et X2 sont deux variables indpendantes absolument continues telles que V = min(X1, X2) et W = (X1 X2) soient indpendantes, alors X1 et X2
sont des variables alatoires exponentielles de mme paramtre , mais pouvant avoir des carts-type 1 et 2 diffrents.
2. Si X1 et X2 sont deux variables de mme distribution absolument cont inue,
X1
et si T = -----------------suit une loi uniforme continue sur [0 ; 1], indpendante
X1 + X2
de ( X1 + X2), alors X1 et X2 sont distribues selon une loi exponentielle de
mmes paramtres = 0 et .
Lcriture trs simple de la fonction de rpartition :

Dunod. La photocopie non autorise est un dlit.

0
F( x) =
1 e x/

si x < 0
si x 0

rend tous les calculs trs simples avec une petite calculatrice.
Ainsi pour la loi exponentielle de paramtre = 2, on peut calculer la
valeur du premier dcile D1 tel que F(D1) = 0,1, do exp( D1/2) = 0,9 et
D1 = 0,21072
De mme, la valeur du premier quartile Q1 est telle que F(Q1) = 0,25, do :
exp( Q1/2) = 0,75 ou encore Q1 = 2ln(0,75) = 0,57536
De mme encore, la valeur de la mdiane Q2 est telle que F(Q2) = 0,5, do :
Q2 = 2ln(0,5) = 1,386

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

217

P211-282-9782100549412.fm Page 218 Mercredi, 24. novembre 2010 10:33 10

Ces trois valeurs particulires ont t reportes sur la figure 7.3.


1,0
F(x)

0,8
0,6
0,4
0,2

f(x)
0
0 D1

Q1

Q2

Figure 7.3 Loi exponentielle de paramtres = 0 et = 2 :


premier dcile, premier quartile, mdiane

Parmi les distributions de probabilit troitement lies la loi exponentielle, on citera :


la loi de Weibull (tudie au IV.C) trs utilise dans les modles de dure
de vie ; elle correspond une variable alatoire X telle que Y = (X )c
suive une distribution exponentielle de paramtres = 0 et ;
la premire loi de Laplace utile en statistique ds lors quon dispose de
donnes dans lesquelles certaines valeurs sont extrmes ; elle correspond une double distribution exponentielle en miroir autour de la
valeur ;
la loi dite du 2 2 degrs de libert (reprise au III.A) qui nest autre
quune loi exponentielle pour laquelle = 0 et = 2 ;
la loi dErlang, extrmement utilise en gestion des files dattente et fiabilit, est la loi suivie par la variable
Y =

X
j

j=1

dans laquelle les Xj (j = 1, 2, , n) sont indpendantes, toutes de loi exponentielle standard, et o les j sont tous distincts.

218

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 219 Mercredi, 24. novembre 2010 10:33 10

II. La loi normale ou loi de Laplace-Gauss


On dit encore loi de Gauss ou loi gaussienne, ou plus simplement une gaussienne (au lieu de variable alatoire distribue selon une loi de Gauss).

A. La loi normale centre rduite


Dfinition

Une variable alatoire suit une loi normale centre rduite si elle peut
prendre toute valeur relle et si sa densit de probabilit est donne par :
1
f ( x ) = ----------exp ( x 2 /2 )
2

Dunod. La photocopie non autorise est un dlit.

Cette fonction de densit est une fonction paire, et son graphique admet
laxe des ordonnes comme axe de symtrie. Il y a un maximum pour x = 0
qui correspond au mode de cette distribution. Compte tenu de deux points
dinflexion, le graphique est simple tracer et prsente lallure caractristique connue sous le nom de courbe en cloche (cf. figure 7.4).

-4

-3

-2

-1

Figure 7.4 Densit de la loi normale centre rduite

Il nexiste pas de fonction analytiquement exprimable qui corresponde


une primitive de la fonction de densit f. La fonction de rpartition dune loi
normale centre rduite scrit :
1
F ( x ) = ---------2

exp ( t /2 )dt
2

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

219

P211-282-9782100549412.fm Page 220 Mercredi, 24. novembre 2010 10:33 10

Le produit t f(t) tant une fonction impaire :

t exp ( t /2 ) dt
2

= 0

et il sensuit que E(X) = 0. Ce rsultat justifie le nom de variable centre.


Plus gnralement la fonction t2k +1 f(t) tant impaire, on a : E(X2k +1) = 0
Pour le calcul de la variance, on calcule dabord E(X2) par une intgration
par parties et on obtient :
+ 2
1
t exp ( t 2 /2 ) dt
E ( X 2 ) = ---------

1
= ---------- [ t exp ( t 2 /2 ) ] +
exp ( t 2 /2 ) dt
+

Le premier terme de laccolade tant nul, il sensuit :


1 +
E ( X 2 ) = ---------exp ( t 2 /2 ) dt = 1

2
puisque le second membre nest autre que lintgrale de la densit sur
lensemble des rels.
Ce rsultat justifie le nom de variable rduite.
Cette distribution de probabilit possde une moyenne gale 0. Le graphique tant symtrique par rapport laxe des ordonnes (parit de la densit), on a une surface totale (gale 1) comprise entre la courbe et laxe des
abscisses, partage en deux parties gales par laxe vertical (soit 0,5 gauche
et 0,5 droite). La mdiane de cette distribution est aussi gale 0. Enfin, le
sommet de la cloche est au point x = 0

Proprit 1
Pour la loi normale centre rduite , la valeur 0 reprsente la fois la
moyenne, la mdiane et le mode.

On verra au II.C, et au-del, limportance de cette proprit pour


lensemble des applications du calcul des probabilits lies la loi normale,
centre rduite ou non.
Par la suite cette v.a. normale centre rduite sera toujours note U
pour bien lidentifier.

B. La loi normale (m ; )


Une variable normale centre rduite U a pour moyenne 0 et pour variance 1.
Prenons alors une variable X telle que X = aU + b (avec a  et b ). Il
est clair que :
E(X) = aE (U) + b = b et var (X) = a2 var(U) = a2

220

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 221 Mercredi, 24. novembre 2010 10:33 10

Mais on peut aller plus loin encore et dterminer la fonction de rpartition


de X puis sa densit :

xb
P U < -----------
a

FX ( x ) = P ( X < x ) = P ( aU + b < x ) =
x b

1 P U < ----------a

xb
---------- 1
a
exp ( t 2 /2 ) dt
---------
2
FX ( x ) =
xb
----------
1
a
exp ( t 2 /2 ) dt
1 ---------

si

a>0

si

a<0

si

a>0

si

a<0

On drive cette fonction par rapport x pour obtenir la densit de X :


1
fX ( x ) = ----------------- exp { ( x b ) 2 /2 a 2 }
a 2
Sur cette expression, on remarque que pour a = 1 et b = 0, on retrouve la
densit de la loi normale centre rduite. Dans le cas gnral, b reprsente la
moyenne et a lcart-type.
Ceci conduit poser que X suit une loi normale de moyenne m et dcarttype lorsque X prend toute valeur relle avec la densit :
1
fX ( x ) = --------------exp { ( x m ) 2 /2 2 }
2

Dunod. La photocopie non autorise est un dlit.

et la loi normale centre rduite en est un cas particulier. Ce rsultat dune


importance pratique considrable, peut se prsenter sous la forme gnrale
suivante.
Proprit 2

Si X est une variable alatoire normale, alors toute fonction du


1er degr (fonction affine) de X suit aussi une loi normale.
Ainsi que nous lavons vu, la densit dune variable normale, donc sa loi,
dpend de deux paramtres. On a montr que le premier paramtre nest autre
que sa moyenne tandis que le second correspond son cart-type. Une variable alatoire normale est entirement dtermine par sa moyenne et son
cart-type.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

221

P211-282-9782100549412.fm Page 222 Mercredi, 24. novembre 2010 10:33 10

Dans le cas dune variable alatoire

X distribue selon une loi normale

(m ; ), la variable alatoire Y = aX + b suivant aussi une loi normale avec

E(Y) = am + b et var( Y) = a22 (lcart-type de Y valant a ), Y est distribue selon une loi normale (am + b ; a ).
Xm
En particulier, on peut construire la variable -------------- de moyenne nulle et

Xm
dcart-type gal 1 ; on dit alors que -------------- est la variable normale centre

rduite dduite de X. Cest elle qui permet de faire aisment tous les calculs
relatifs X ( II.C).
Rciproquement, toute v.a. X distribue selon une loi de Gauss (m ; )
peut scrire X = U + m o U est une variable alatoire distribue selon une
loi de Gauss centre rduite.
Ltude de la densit
( x m )2
1
-
fX ( x ) = --------------exp ------------------2 2
2

dune variable alatoire normale (m ; ) montre une courbe en cloche


avec un axe de symtrie vertical en x = m.
La valeur de la moyenne dtermine laxe de la courbe de densit. Pour
deux densits correspondant un mme cart-type, mais deux moyennes
diffrentes, on obtient deux courbes dcales (translates) lune par rapport
lautre.
Comme on le constate aisment, le sommet de la courbe en cloche a pour
ordonne :
1
------------- 2
Cette valeur inversement proportionnelle signifie que plus grand est
lcart-type dune loi de Gauss, plus petit est le maximum de sa densit. tant
donn que la surface totale sous la courbe est constante (et gale lunit),
on en dduit que la courbe est dautant plus aplatie que lcart-type est
grand.
Au total, pour une valeur moyenne constante (sinon, il suffit de raisonner en translatant la courbe), plus lcart-type est grand (cest--dire plus
la dispersion de la distribution est leve), plus la densit aura des extrmits (aussi appeles queues de distribution) paisses, compensant ainsi un
sommet peu marqu. Inversement, plus lcart-type est petit (cest--dire
plus la distribution est concentre autour de sa moyenne) et plus le sommet
de sa densit sera lev, diminuant dautant lpaisseur aux extrmits
(cf. figure 7.5).

222

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 223 Mercredi, 24. novembre 2010 10:33 10

Un cart-type petit correspond une distribution resserre autour de la


moyenne, cest--dire montrant par la finesse des queues de distribution que
la probabilit de scarter beaucoup de la moyenne diminue trs fortement en sens inverse de lcart-type.
Nous avons dj dit quune loi de Gauss tait totalement caractrise par
sa moyenne et son cart-type. Nous voyons maintenant que, pour une telle
distribution, lcart-type donne une excellente apprciation de la dispersion.

variance=0,25

variance=4
variance=1

Dunod. La photocopie non autorise est un dlit.

Figure 7.5 Effet concentrateur de la diminution de la variance dune loi normale

Pour finir, prcisons ces notions de dispersion autour de la moyenne


laide de quelques rsultats exprims en terme de probabilit dobserver une
valeur scartant de la moyenne de plus de k carts-types (dispersion relative), pour plusieurs valeurs de k
En effet, soit X une v.a. distribue selon une loi (m ; ). Une valeur x
qui scarte de la moyenne m (dans un sens ou dans lautre, cest--dire vers
les valeurs infrieures ou vers les valeurs suprieures) de plus de
k fois
lcart-type est caractrise par lingalit :
x m > k

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

223

P211-282-9782100549412.fm Page 224 Mercredi, 24. novembre 2010 10:33 10

La probabilit cherche est :


Xm
Xm
Xm
P ( X m > k ) = P ----------------- > k = P -------------- < k -------------- > k

soit,

Xm
Xm
P ( X m > k ) = P -------------- < k + P -------------- > k

Xm
La variable -------------- tant centre rduite, sa fonction de rpartition est

dsigne par FU . Dautre part, la densit de la loi normale centre rduite


tant symtrique par rapport laxe vertical, il en rsulte que (cf. figure 7.6) :
FU( k) = P(U < k) = P(U > k) = 1 P(U < k) = 1 FU(k)

Figure 7.6 Utilisation de la symtrie dune loi de Gauss

Ce rsultat implique que :


Xm
Xm
P ( X m > k ) = P -------------- < k + P -------------- > k

= 1 FU ( k ) + 1 FU ( k ) = 2 ( 1 FU ( k ) )
Nous verrons au II.C la pratique de la lecture des tables. Nous admettrons pour le moment les diffrentes valeurs de FU(k) suivantes :
k

0,5

1,5

2,5

FU(k)

0,6915

0,8413

0,9332

0,9772

0,9938

0,9987

224

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 225 Mercredi, 24. novembre 2010 10:33 10

Dunod. La photocopie non autorise est un dlit.

Ceci permet dobtenir le tableau des probabilits cherches :


k

0,5

1,5

2,5

P ( X m > k )

0,6170

0,3174

0,1336

0,0456

0,0124

0,0026

Ces calculs donnent des rsultats indpendants de m et de qui peuvent


tre convertis en dispersions absolues pour des valeurs donnes de comme
on le verra galement.
On note ainsi quil y a plus de 60
% des observations issues dune loi
(m ; ) qui scartent de la moyenne de plus dun demi cart-type, mais quil
ny a que 0,26 % (environ un quart de pour cent) qui scarte de la moyenne
de plus de 3 carts-types. En particulier pour une loi normale centre rduite,
cela signifie que 99,74 % des observations sont comprises entre 3 et + 3. On
remarquera encore que plus des deux tiers des observations issues dune loi
(m ; ) sont comprises dans lintervalle [ m ; m + ], alors quil ny en a
plus que 4,56 % (moins de 5 %) sortir de lintervalle [m 2 ; m + 2]. Tous
ces lments montrent bien la signification de lcart-type dune loi normale en
termes de concentration des valeurs autour de la moyenne. Ce point est tout fait
fondamental pour la pratique des applications (estimations et tests) des calcu ls
fonds sur la loi normale.
Pour finir de caractriser la loi de Laplace-Gauss, examinons les deux
coefficients 1 et 2, caractrisant respectivement lasymtrie et laplatissement.
3
Puisque 1 = -------o les k dsignent les moments centrs, il sensuit
23/2
que 1 = 0. Ceci est tout fait naturel et cohrent puisque ce coefficient vise
rechercher les entorses la symtrie de la distribution.

Pour le coefficient daplatissement, 2 = -----24 3 qui caractrise un degr


2
de dcroissance aux extrmits de la distribution, le calcul (pour 4 on pro2
cde par intgration par parties successives et on obtient
4 = 3 )
donne 2 = 0. Ce coefficient daplatissement a t choisi afin davoir, par la
loi normale, un chelon daplatissement relatif la valeur 0.
Parmi les proprits essentielles de la distribution de Gauss, on doit
retenir :
La distribution normale est caractrise par sa symtrie par rapport la
moyenne et, moyenne, mdiane et mode sont confondus. Les coefficients
dasymtrie 1 et daplatissement 2 sont nuls.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

225

P211-282-9782100549412.fm Page 226 Mercredi, 24. novembre 2010 10:33 10

Une autre proprit de la loi normale est essentielle dans la pratique.


Proprit 3

Si on a n variables alatoires normales (mi ; i) et indpendantes ,


alors leur somme suit une loi normale (m ; ).
On admettra ce rsultat qui ncessite le calcul de la densit de la somme
de v.a. continues indpendantes (produit de convolution, prsent au III.A).
Daprs ce qui prcde, la loi de la somme admet pour paramtres
respectivement :
n

la somme des moyennes : m =

i=1

la racine carre de la somme des variances : =

2
i

i=1

En effet, la moyenne dune somme de variables alatoires est toujours


gale la somme des moyennes, do la valeur de m. Dautre part, les variables alatoires tant supposes indpendantes, la variance de la somme est
gale la somme des variances, ce qui montre le second rsultat.
On notera bien que le second paramtre de la somme est la racine carre
de la somme des variances. Les variances sadditionnent lorsque les variables
sont indpendantes 1, mais il nen est jamais de mme pour les carts-types.

C. Usage des tables


Deux tables relatives la loi de Gauss sont utilises : la table de la fonction
de rpartition et la table des fractiles (annexes IV). Nous allons les examiner
dans cet ordre.
Pour bien comprendre leur gnralit, rappelons tout dabord le point le
plus fondamental des calculs de probabilits lis une loi de Gauss :
X

(m ; )

Xm
U = ------------

(0 ; 1)

1. On dit aussi parfois variables orthogonales en rfrence au thorme de Pythagore de la


gomtrie classique.

226

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 227 Mercredi, 24. novembre 2010 10:33 10

Par consquent la probabilit dun vnement li


X peut toujours
sexprimer par la probabilit dun vnement li U. Les tables de la loi de
Gauss centre et rduite permettent ainsi de calculer les probabilits associes une loi de Gauss de moyenne et dcart-type quelconques.
Tout dabord examinons les utilisations de la table de la fonction de rpartition de la loi (0 ; 1). Cest une table double entre par laquelle on dtermine la valeur de P(U < u) pour u [0 ; 3,5] donn.
On cherche :
i) la ligne correspondant la partie entire et au 1 er chiffre dcimal de u ;
ii) la colonne correspondant au 2 e chiffre dcimal de u ;
puis lintersection de cette ligne et de cette colonne, on lit la probabilit cherche.

 Exemple
Par exemple si U suit une loi (0 ; 1), on lit directement lintersection
de la ligne correspondant 0,3 et de la colonne correspondant 0,08 :
P(U < 0,38) = 0,6480
et de mme lintersection de la ligne portant 1,9 et de la colonne
portant 0,06 :
P(U < 1,96) = 0,9750
Pour une loi normale quelconque X, la procdure est presque identique. Il
faut simplement se ramener une loi normale centre rduite U, selon
Xm
U = ------------

Dunod. La photocopie non autorise est un dlit.

Lcart-type tant strictement positif :

X m a m
si {X < a}, alors { X m < a m} et U = -------------- < -------------

a m
mais aussi rciproquement si U < ------------- , alors { X < a}

a m
Les vnements { X < a} et U < ------------- tant identiques, ils ont la mme

probabilit. On sest ramen une lecture de table de loi normale centre rduite.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

227

P211-282-9782100549412.fm Page 228 Mercredi, 24. novembre 2010 10:33 10

 Exemples

X 3- suit une loi (0 ; 1)


Si X suit une loi (3 ; 2), U = -----------2
X 3 6,24 3

P(X < 6,24) = P ------------- < ------------------- = P(U < 1,62) = FU (1,62) = 0,9474
2
2
X + 4 suit une loi (0 ; 1)
Si X suit une loi ( 4 ; 5), U = -----------5
X + 4 1,65 + 4
P(X < 1,65) = P ------------- < ------------------- = P(U < 1,13) = FU (1,13) = 0,8708
5
5

On remarque que la table nest donne que pour des valeurs de u (le seuil)
comprises entre 0 et 3,49. Les extensions sont trs simples :
pour une valeur u < 0, on utilise la symtrie de la loi normale centre
rduite (cf. figure 7.7) :
FU ( u) = P(U < u) = P(U > + u) = 1 Pr(U < + u) = 1 FU (+ u)
Par exemple, pour une variable X distribue selon une loi (4 ; 2) calculons P(X < 2) :
X4
P ( X < 2 ) = P ------------- < 1 = F U ( 1 ) = 1 FU ( 1 ) = 0,1587
2

pour les grandes valeurs de u (cest--dire au moins gales 3,5)


on dispose dune ligne supplmentaire en bas de table, moins dtaille et
sarrtant u = 4,5. Ceci sexplique par le fait (tudi plus haut au
prcdent) quune loi de Gauss na que moins de 0,30
% de chances de
scarter de plus de 3 carts-types de sa moyenne. Les probabilits cumules
(cest--dire les valeurs de la fonction de rpartition) pour des seuils suprieurs 3 sont trs proches de 1, et varient extrmement peu. On le constate
la lecture de la ligne des grandes valeurs puisque lorsque le seuil passe de
4 4,5, la fonction de rpartition naugmente que de 0,00003 environ (alors
quelle augmente de 0,017 entre 2 et 2,5, soit environ 550 fois plus !) ;
enfin pour toute valeur de u contenant plus de 2 dcimales, on fait lhabituelle interpolation linaire. Si
U suit une loi (0 ; 1), la valeur de
P(U < 1,645) se calcule en remarquant que 1,645 est exactement au milieu
entre 1,64 et 1,65, valeurs pour lesquelles les probabilits cumules sont respectivement de 0,9495 et 0,9505. On prend donc
P(U < 1,645) = 0,95 (la
valeur plus prcise est en ralit de 0,94449).
Prenons un autre exemple, en calculant P(X > 4,94) pour une v.a. X distribue selon une loi ( 2 ; 4). On crira :
X + 2 4,94 + 2
P ( X > 4,94 ) = 1 P ( X < 4, 94 ) = 1 P ------------- < -------------------
4
4
X+2
= 1 P ------------- < 1,735 = 1 FU ( 1,735 )
4

228

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 229 Mercredi, 24. novembre 2010 10:33 10

Pour obtenir le rsultat, on relve dans la table :


FU (1,73) = 0,9582 et FU (1,74) = 0,9591
ce qui permet dobtenir
FU (1,735) = 0,95865 par interpolation, et
P(X > 4,94) = 0,04135
Pour le calcul de la fonction de rpartition FU , il peut tre souvent ncessaire dutiliser une formule approche, comme la formule de Hastings prsente lannexe II. De nombreux calculs automatiques, par exemple ont
recours ce procd.
Parmi les autres utilisations de la table de la fonction de rpartition de la
loi de Gauss centre rduite, on retrouve souvent le calcul de probabilits
dintervalles. Ce calcul repose sur la formule tablie au chapitre
5,
P(a < X < b) = F(b) F(a) dans laquelle F dsigne la fonction de rpartition
de la v.a. continue X.
Prenons lexemple de la v.a. X distribue selon une loi ( 3 ; 2) et pour
laquelle on souhaite connatre P( 4 < X < 0). On centre et on rduit au
niveau des deux ingalits pour obtenir :
P( 4 < X < 0) = P( 0,5 < U < 1,5)
La probabilit cherche est gale :
FU (1,5) FU ( 0,5) = FU (1,5) (1 FU (0,5)) = FU (1,5) + FU (0,5) 1
= 0,9332 + 0,6915 1 = 0,6247
Tous les autres calculs, comme par exemple ceux de probabilits conditionnelles reposent de mme sur le passage une v.a. centre rduite, et ventuellement sur les formules usuelles du calcul de base des probabilits.
Ainsi pour une variable alatoire X distribue selon une loi de Gauss
(1 ; 3), on crira pour calculer P(0 < X < 2 X > 2) :

Dunod. La photocopie non autorise est un dlit.

P ( 0 < X < 2 ) ( X > 2 )

( 0 < X < 2 )P ( 0 < X < 2 X > 2 ) = ------------------------------------------------------------------ = P


-----------------------------P ( X > 2 )
P ( X > 2 )
21
01
FU ------------ FU ------------

3
3
P( X < 2) P( X < 0)
= -------------------------------------------------- = -------------------------------------------------------1 P ( X < 2 )
21
1 F U ----------------
3
2FU ( 0,33 ) 1
FU ( 0,33 ) FU ( 0,33 )
- 0,31
= ----------------------------------------------------- = ---------------------------------FU ( 1 )
1 FU ( 1 )
On remarquera ce stade que pour les probabilits dintervalles, il est
indiffrent de considrer des intervalles ferms, ouverts ou mixtes puisque la
probabilit dun point pour une v.a. continue est nulle (comme on la vu au
chapitre 5, II.B).

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

229

P211-282-9782100549412.fm Page 230 Mercredi, 24. novembre 2010 10:33 10

Pr (U<u)

Pr (U>u)=1Pr (U<u)

Figure 7.7 Calcul de probabilit dintervalles symtriques


pour une loi de Gauss centre rduite

Un calcul trs frquent est celui de P ( U < u ) , avec u > 0. Nous sommes
dans le cas dintervalles symtriques par rapport la moyenne ( cf. figure 7.7),
ce qui revient chercher :
P( u < U < + u) = P(U < + u) P(U < u), or P(U < u) = 1 P(U < u)
On a le rsultat : P ( U < u ) = 2P ( U < u ) 1 = 2FU ( u ) 1
Par complmentarit, on obtient galement :
P ( U > u ) = 1 P ( U < u ) = 2 [ 1 FU ( u ) ]
Par exemple :

P ( U < 1,96 ) = 0,95


P ( U < 1,645 ) = 0,90

On peut retrouver ainsi quelques caractristiques utiles de toute distribution normale.


Si X suit une loi normale (m ; ), en donnant u successivement les
valeurs 1, 2 et 3, on trouve que la probabilit que :
X scarte de sa moyenne dau plus 1 cart-type est
2 0,8413 1 = 0,6826
X scarte de sa moyenne dau plus 2 carts-types est
2 0,9772 1 = 0,9544
X scarte de sa moyenne dau plus 3 carts-types est
2 0,9987 1 = 0,9974
On pourrait aussi prsenter ces rsultats sous la forme ( cf. figure 7.8) :
il ny a que 31,74 % des observations dune loi normale qui scartent
de la moyenne de plus de 1 cart-type ;

230

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 231 Mercredi, 24. novembre 2010 10:33 10

il ny a que 4,56 % des observations dune loi normale qui scartent de la


moyenne de plus de 2 carts-types ;
il ny a que 0,26 % des observations dune loi normale qui scartent de
la moyenne de plus de 3 carts-types.

2,28 % (= 4,56 % / 2)

15,87 % (= 31,74 % / 2)

Figure 7.8 Dispersion de la loi normale

Dans ce domaine gaussien, la valeur 1,96 est retenir, car elle correspond
95 % des observations, ou par complmentarit,

Dunod. La photocopie non autorise est un dlit.

Il ny a que 5 % des observations qui scartent de la moyenne de plus


de 1,96 fois lcart-type.
La troisime table relative la loi de Gauss est celle des fractiles.
Rappelons tout dabord quon appelle fractile dordre (0 1) pour
une distribution de fonction cumulative F, la valeur xa telle que F(x) =
Cest donc la valeur seuil x telle que sur lensemble ] ; x[, on accumule
une probabilit .
Il est conventionnel, nous lavons dj mentionn, de dsigner par U la
loi normale centre rduite, et par consquent, on note u le fractile dordre
(0 1) pour cette rpartition (0 ; 1).
Lutilisation de cette table des fractiles prsente une particularit : on peut
avoir la lire de deux faons diffrentes. En effet, la probabilit pour
laquelle on cherche le fractile se lit soit :
sur la colonne de gauche (2 premiers chiffres dcimaux de ) et la ligne
suprieure (3 e chiffre dcimal de ) si < 0,5
sur la colonne de droite (2 premiers chiffres dcimaux de ) et la ligne
infrieure (3 e chiffre dcimal de ) si > 0,5

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

231

P211-282-9782100549412.fm Page 232 Mercredi, 24. novembre 2010 10:33 10

Il suffit de prendre alors la valeur lintersection de la ligne et de colonne


dtermines, en laffectant :
du signe + si > 0,5
du signe si < 0,5
Donnons quelques exemples dapplication pour une loi de Gauss centre
rduite :
le fractile dordre 0,010 est gal u0,01 = 2,3263
le fractile dordre 0,950 est gal u0,95 = + 1,6449 (on peut comparer ce
rsultat celui obtenu plus haut dans ce mme paragraphe, dans un exemple dinterpolation linaire)
le fractile dordre 0,250 (premier quartile) est gal u0,25 = 0,6745
le fractile dordre 0,750 (troisime quartile) est gal u0,75 = + 0,6745
La comparaison de ces deux derniers fractiles fait bien sr ressortir la
symtrie de la loi.
Notons encore deux fractiles qui jouent un grand rle en statistique
dcisionnelle :
u0,975 = + 1,96 et u0,995 = + 2,5758
Si on sintresse une v.a. X de loi normale quelconque (m ; ), on
obtiendra le fractile x dordre , par :
X m x a m
x m
- = FU -------------- = P ( X < x ) = P -------------- < -------------


xa m
- tant le fractile u dordre dune loi de Gauss centre
la quantit -------------
rduite.
xa m
On peut crire u = -------------- , soit x = m + u

Ainsi par exemple, le fractile dordre 0,675 pour une loi


(2 ; 0,5)
sobtient partir du fractile dordre 0,675 de la loi de Gauss centre rduite
lu sur la table, soit u0,675 = 0,4538, et vaut :
2 + 0,5 0,4538 = 2 + 0,2269 = 2,2269
Par la mme mthode, le fractile dordre 0,333 pour une loi (-1 ; 2) vaut :
1 + 2 ( 0,4316) = 1,8632
Dans le premier cas, 32,5 % des observations issues dune population distribue selon une loi (2 ; 0,5) sont suprieures 2,2269. Dans le second cas, on
peut constater quil y a une chance sur trois dobtenir une observation tire dans
une population distribue selon une loi ( 1 ; 2) qui soit infrieure 1,8632
Ces calculs de fractiles sont particulirement utiles pour lobtention
dintervalles de confiance et la ralisation de tests.

232

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 233 Mercredi, 24. novembre 2010 10:33 10

Enfin, nous mentionnons lexistence (et lutilisation) de la table dite de lcartrduit. Elle permet de lire les quantits P ( U > u ) , autrement dit les probabilits
pour quune gaussienne scarte de sa moyenne de plus de u fois son cart-type.
Cette table prsente un intrt limit, car elle ncessite quelques calculs
complmentaires ds lors que lintervalle auquel on sintresse nest pas
symtrique autour de la moyenne. De plus on sait que
P ( U < u ) = 2 ( 1 FU ( u ) )
et ces probabilits sont en fait immdiates obtenir partir de la table de la
fonction de rpartition sans justifier de table supplmentaire.

Dunod. La photocopie non autorise est un dlit.

D. Abord statistique de la loi normale


On a vu dans le paragraphe prcdent que pour une variable normale,
moyenne, mdiane et mode sont confondus, et que la rpartition est totalement symtrique par rapport cette valeur.
Cette proprit essentielle est souvent utilise devant des donnes observes pour poser une hypothse de normalit cest--dire pour envisager un
modle fond sur une loi normale.
Cest donc partir de lexamen de lhistogramme des donnes recueillies
et de ses caractres de symtrie que lon peut rechercher un modle gaussien.
Dans ce cas, on prendra tout de mme bien soin de vrifier quelques caractristiques de la dispersion des donnes pour avoir une apprciation plus
complte. Pour cela, on examinera le pourcentage des observations qui
scartent de la moyenne de moins dun cart-type et de moins de deux
carts-types, et on comparera ces pourcentages aux valeurs thoriques qui
seraient obtenues si les observations taient purement gaussiennes, cest-dire respectivement 68,26 % et 95,44 %. Trs grossirement, on recherche
des pourcentages pas trop loigns de 70 % et de 95 %.
Toutefois, mme lorsque des donnes vrifient la fois la symtrie et
cette proprit de dispersion, on ne peut conclure qu une apparence de
normalit (plus ou moins approximative selon les entorses la symtrie et
aux pourcentages de dispersion). Il sagit l, comme ce qui a t prsent
pour la loi de Poisson ou la loi exponentielle, dune mthode pragmatique
visant reconnatre grossirement un contexte possible de loi de Gauss.
Le diagramme quantile-quantile, prsent dans la plupart des logiciels statistiques et trs facile construire avec un tableur muni de possibilits de
reprsentations graphiques, permet une apprciation graphique de la concordance entre une distribution observe et un modle thorique. Dans ce graphe, laxe des ordonnes porte les fractiles de la distribution observe, tandis
que laxe des abscisses porte les fractiles correspondants de la loi thorique.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

233

P211-282-9782100549412.fm Page 234 Mercredi, 24. novembre 2010 10:33 10

Le nuage des points saligne sur la premire bissectrice lorsque la distribution thorique propose est une bonne reprsentation des observations. On
doit remarquer que lapprciation de lalignement des points le long de la
bissectrice peut tre considre comme subjective. Toutes les dviations par
rapport lalignement (extrmits prsentant une courbure, points loigns) peuvent tre repres et analyses. En cas dalignement, le type de
modle est alors retenu, et il reste apprcier ses paramtres par une ventuelle translation et/ou inclinaison par rapport la premire bissectrice :
un alignement sur une parallle la premire bissectrice fera voquer
une erreur sur le choix de la caractristique de position (moyenne) de
la distribution thorique ;
un alignement sur une droite passant par lorigine mais incline par rapport la premire bissectrice voquera une erreur sur la caractristique de
dispersion (cart-type) ;
un alignement sur une droite ne passant pas par lorigine et incline par
rapport la premire bissectrice voquera une erreur sur le choix des
caractristiques de position et de dispersion.
Prenons comme illustration lexemple suivant. Un magasin dsire adapter
ses produits sa clientle, et pour cela, tudie le nombre de clients selon lge,
partir dun chantillon de 100 clients. On a obtenu la rpartition suivante :
ge

< 20

[20-25[

[25-30[

[30-35[

[35-40[

[40-45[

[45-50[

50

Nombre
de clients

10

13

17

22

11

12

Peut-on accepter une hypothse de normalit pour lge des clients avec
une moyenne 35 et un cart-type 10,5 ?
On calcule pour la borne suprieure de chaque classe le quantile thorique
dune loi normale centre rduite correspondant la frquence cumule observe,
et on dduit le quantile thorique correspondant la loi normale (35 ; 10,5).
Quantile observ xi

20

25

30

35

40

45

50

Frquence cumule Fi

0,08

0,18

0,31

0,48

0,70

0,81

0,93

0,5244

0,8779

1,4758

40,51

44,22

50,50

Quantile thorique (0 ; 1)


Quantile thorique (35 ; 10,5)

1,4051 0,9154 0,4959 0,0502


20,25

25,39

29,79

34,47

Appelons u*i et x*i , les quantiles thoriques (0 ; 1) et (35 ; 10,5) correspondant au ie quantile observ xi
partir du quantile u*i tel que FU ( u*i ) = Fi , on calcule le quantile x*i :
x*i = 10,5 u*i + 35
*
Puisque les points ( x i , xi) sont peu prs aligns le long de la premire
bissectrice ( cf. figure 7.9), lajustement par la loi normale (35 ; 10,5) est
retenu.

234

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 235 Mercredi, 24. novembre 2010 10:33 10

Figure 7.9 Diagramme Quantile-Quantile


dune rpartition observe sensiblement normale

Notons que le diagramme Quantile-Quantile ne sapplique pas seulement


pour un modle gaussien. On peut tracer un diagramme Quantile-Quantile
pour un ajustement par une loi continue dont la fonction de rpartition est
strictement croissante, cest--dire une loi dont la fonction de rpartition est
bijective sur lintervalle correspondant des valeurs non nulles de la fonction
de densit et ne prsentant pas de trous 1.
Nous en montrerons lapplication pour la loi log-normale ( IV.A) et pour
la loi de Pareto ( IV.B).
Le diagramme Quantile-Quantile sutilise aussi pour comparer deux sries
dobservations.

Dunod. La photocopie non autorise est un dlit.

E. Abord probabiliste de la loi normale


Cest comme loi approche quil est fait lusage le plus habituel de la loi
normale :
soit on la retient pour des arguments statistiques tels que ceux voqus
au paragraphe prcdent ;
soit on remplace la distribution relle (qui peut tre connue ou inconnue)
par une distribution gaussienne lorsquelle est une bonne approximation.
Cette recherche du recours une loi de Gauss est guide par deux
considrations :
dune part, les calculs relatifs des gaussiennes prsentent une grande simplicit (notamment en raison de la symtrie) ;
1. Goldfarb B., Pardoux C., Comment faire les diagrammes Quantile Quantile ( Q Q) et
Probabilit Probabilit (P P) ? , La Revue de Modulad, n 33, juillet 2005 (www.modulad.fr,
ExcelEnse ).

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

235

P211-282-9782100549412.fm Page 236 Mercredi, 24. novembre 2010 10:33 10

dautre part, des rsultats (dits asymptotiques) qui seront abords ultrieurement donnent de nombreuses v.a. particulires des lois sensiblement gaussiennes
ds lors que leur application est fonde sur de trs grandes sries dobservations.
Trs concrtement, on peut tre conduit poser une hypothse de normalit dans trois grandes situations.
i) Lorsquon a construit un schma binomial o n > 50 et p compris entre
0,4 et 0,6 , on approxime (pour les calculs) par une loi normale (np ; npq).
La condition npq > 18 est quelquefois utilise dans un souci de simplicit.
ii) Lorsquon a un modle de Poisson dont le paramtre m est suprieur
25, on approxime (pour les calculs) par une loi normale (m ; m ).
Dans ces deux cas, la justification rigoureuse de lapproximation ncessite la
connaissance de certaines formules danalyse mathmatique, telles que la formule de Stirling. Nous les admettrons sans dmonstration. Quelques illustrations
de ces approximations et de leurs limites sont donnes aux figures 7.10a et 7.10b.
iii) La somme de n variables alatoires indpendantes, suivant la mme loi,
de moyennes m et dcarts-types suit approximativement une loi normale dont
la moyenne est la somme des moyennes, et lcart-type est la racine carre de la
somme des variances, et ce ds que n est assez grand, soit en pratique n > 30
Lapproximation de la loi binomiale par la loi normale en est un cas particulier de cette dernire situation puisquune v.a. binomiale est la somme de
v.a. de Bernoulli.
Ce rsultat joue un rle essentiel dans toute la statistique classique. Sa
dmonstration est en dehors du cadre de ce livre.
Thorme central-limite (ou de la limite centrale, ou encore de la limite centre)

Xi , i = 1, 2, , n, v.a. indpendantes, de mme loi,


de moyenne m, dcart-type
n
Xi m L
-------------- (0 ; n )

i=1

Insistons sur la ncessaire existence de m et de pour lutilisation de cette


forme du thorme central-limite, inapplicable sinon (loi de Cauchy, 3.2).
Ce thorme a t tendu la convergence en loi de variables alatoires
nayant pas la mme distribution (donc avec des moyennes et des variances
diffrentes, mais cependant toutes finies), sous la condition dite de Lindeberg, exprimant que les variables
X i mi
----------------sont trs petites en probabilit
2i

236

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 237 Mercredi, 24. novembre 2010 10:33 10

Sous cette dernire forme, on peut alors interprter la loi de Gauss


comme la loi approximative des phnomnes rsultant dun grand nombre
de petites causes indpendantes, et qui sadditionnent, sans quaucune
de ces causes ne soit prdominante. Cette apparente gnralit fait postuler
trop souvent une hypothse de normalit, en fait par dfaut dinformation
(et/ou danalyse) sur les causes dun phnomne que lon cherche
tudier.
0,09
0,08

0,09
(100 ; 0,4)

0,08

0,07

0,07

0,06

0,06

0,05

0,05
(40)

0,04

0,03

0,02

0,02

0,01

0,01

0,00

0,00
(100 ; 0,25)

(25)

(40 ; 4,9)

0,04

0,03

0,10
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00

(100 ; 0,4)

0,10
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00

(100 ; 0,25)

(25 ; 4,33)

Dunod. La photocopie non autorise est un dlit.

Figure 7.10a Approximations correctes par la loi de Gauss, incorrectes par la loi de Poisson

Notons encore quun domaine dapplication particulier de la loi normale par cette dernire approche est ltude de la variable alatoire
X1 + X2 + + Xn
X n = ------------------------------------------n
qui, lorsque les variables Xi sont toutes de mme loi et indpendantes
porte le nom de moyenne empirique.

1,

1. On parle alors de variables indpendantes et identiquement distribues (soit i.i.d. en abrg).

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

237

P211-282-9782100549412.fm Page 238 Mercredi, 24. novembre 2010 10:33 10

0,14

(100 ; 0,1)

0,14

0,12

0,12

0,10

0,10
(10)

0,08

0,08

0,06

0,06

0,04

0,04

0,02

0,02

0,00

0,00

0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00

(100 ; 0,05)

(5)

(100 ; 0,1)

0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00

(10 ; 3)

(100 ; 0,05)

(5 ; 2,18)

Figure 7.10b Approximations incorrectes par la loi de Gauss, correctes par la loi de Poisson

Lensemble des variables Xi caractrise n individus extraits dune mme


population ; on lappelle n-chantillon extrait de cette population. Dans ce
contexte, X n dsigne la moyenne cet chantillon, mais au sens alatoire,
cest--dire compte tenu des fluctuations dchantillonnage . La moyenne
empirique dun chantillon ds lors que sa taille est assez grande (en pratique
n > 30) suit peu prs une loi normale.
Ce rsultat est dune application extrmement courante et montre dj que
le recours la loi de Gauss est trs classique pour des raisons qui mlent, tout
la fois, les arguments statistiques et les arguments probabilistes. Les lois
prsentes au paragraphe suivant sont ainsi les lois fondamentales de lunivers gaussien.
De tout ce qui prcde, on peut dresser le diagramme de la figure 7.11 qui
rsume les diverses approximations envisages et montre bien la position cl
de la loi de Gauss dans la modlisation de lalatoire, justifiant le terme souvent utilis de statistique gaussienne.

238

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 239 Mercredi, 24. novembre 2010 10:33 10

La suite de ce chapitre (et notamment les lois du khi-deux, de Student,


et de Fisher-Snedecor) relativisera lgrement cette apparence. On ne doit
pas conclure tort quun phnomne est gaussien en raison des multiples
approximations. Nous avons dj vu par exemple que la loi binomiale
(n ; p) o n = 100 et p = 0,05 peut tre approxime par une loi de Poisson de paramtre 5, et non pas par une loi de Gauss. Le dernier paragraphe
de ce chapitre montrera plusieurs distributions de probabilit correspondant des situations types non gaussiennes. Lune delles, la loi de
Pareto, dfinit un contexte probabiliste (univers partien) diffrent de celui
de la loi de Gauss.
On fera enfin particulirement attention ne pas donner le sens commun
du mot normal pour une population distribue selon une loi de ce type,
cette interprtation tant le plus souvent admise en mme temps que la gnralisation abusive cite ci-dessus.

Figure 7.11 Synthse des approximations par la loi de Gauss

Dunod. La photocopie non autorise est un dlit.

F. Correction de continuit
Une difficult se pose lors de lapproximation dune loi discrte (binomiale
ou Poisson par exemple) par la loi normale qui est continue. En effet, les
probabilits sont concentres en des points pour la loi discrte, alors que la
loi normale affecte la probabilit 0 tout point. Si on a une loi (100 ; 0,4),
comment calculer P(X = 50) partir de la loi normale ?
Lapproximation normale est ici totalement justifie (cest mme un des
meilleurs cas !). Cette probabilit P(X = 50) a une valeur exacte, difficile
calculer (dpassement de capacit), gale 0,0103 ; la loi binomiale, la loi
continue, lui affecte une valeur nulle !
On pallie cette difficult par une correction dite de continuit , de la
faon suivante.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

239

P211-282-9782100549412.fm Page 240 Mercredi, 24. novembre 2010 10:33 10

Si X est une variable discrte quon approche par une loi normale

(m ; ), place la valeur k dans un intervalle symtrique et de largeur unit,

et on pose :

k + 0,5 m
k 0,5 m
P ( X = k ) = P ( k 0,5 < X < k + 0,5 ) FU -------------------------- FU --------------------------

loi

Ainsi par exemple, dans le cas de la loi


(40 ; 4,9)

(100 ; 0,4), approxime par la

P(X = 50) FU (+ 2,14) FU (+ 1,94) = 0,01


alors que la valeur exacte calcule par la formule des probabilits binomiales
est 0,0103
La formule prsente pour ce calcul nest utiliser que si le calcul par la
loi exacte est trop dlicat. Enfin, on doit noter que ce mode de calcul na de
sens que pour obtenir des probabilits de loi discrte par des calculs approchs utilisant la loi normale.

III. Les lois drives de la loi normale


A. La loi du khi-deux
Si on dispose de n v.a. {Xi, i = 1, 2, n} indpendantes et de mme loi de
Gauss (m ; ), alors la variable alatoire appele moyenne empirique
n

i=1

X n = ------------- suit une loi


n

(m ; -----)

n
et caractrise la moyenne des Xi . Cette moyenne empirique permet de justifier plus encore lutilisation de la loi de Gauss.
Dans le mme contexte de gaussiennes indpendantes et de mme loi, la
v.a. Q dfinie par
n

(X

m )2

i=1
Q = -----------------------------2

240

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 241 Mercredi, 24. novembre 2010 10:33 10

joue aussi un rle essentiel. Pour des ralisations { xi , i = 1, 2, , n} de ces


variables Xi, la variable alatoire Q prend la valeur
n

( x m)

( xi m )2

n s n2
n ----------------------------i=1
i=1
----
---------------------------=
=
----------n
2
2
2
dans laquelle on reconnat la variance s n2 de la srie des ralisations. Au facn
teur multiplicatif prs -----2 , la variable Q va dcrire les ralisations de la

variance des observations.


Ce rle de caractristique de la variance des observations est historiquement1 celui qui a conduit son tude dtaille. Cette v.a.
Q peut aussi
scrire :
n

(X

m )2

X i m
- =
Q = ----------------------------- ---------------
2

i = 1
i=1

cest--dire comme somme de n carrs de v.a. gaussiennes centres rduites


indpendantes. Cest cette distribution quon tudie sous le nom de loi dukhideux n degrs de libert , note 2 (n). Elle apparat comme troitement lie
ltude de la variance. Dans ce paragraphe, nous prsentons seulement la
distribution du khi-deux, ses proprits essentielles, la pratique des calculs,
et sa place fondamentale dans lensemble des mthodes statistiques.
Dfinition

Dunod. La photocopie non autorise est un dlit.

Si X est une v.a. distribue selon une loi (m ; ), alors la loi de la
Xm 2
v.a. -------------- est dite loi du khi-deux 1 degr de libert , note 2 ( 1 )

Proprit

La densit de probabilit dune loi 2(1) est donne par :


1 x/2 1/2
----------e x
si x > 0
2

si x 0
0
1. Par le mathmaticien, probabiliste et dmographe franais I. J. Bienaym (1796-1878) entre
1838 et 1852.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

241

P211-282-9782100549412.fm Page 242 Mercredi, 24. novembre 2010 10:33 10

En effet, si Q suit une loi 2 ( 1 ), on peut crire Q = U2 o U est une v.a.


normale centre rduite. On crit la fonction de rpartition de Q comme suit :
FQ ( x ) = P ( U 2 < x ) = P ( U < x ) =

+ x

----------e
2

t 2 /2 dt

x
+ x

1 t 2 /2
----------e
=
dt
2

----------e
2

t 2 /2 dt

La drive de cette dernire expression par rapport x donne la densit


cherche :
1
1
1
1
fQ ( x ) = ----------e x/2 ---------- + ----------e x/2 ---------2 x
2
2
2 x
1
1
= -------------e x/2 = ---------- x 1/2 e x/2
2
2x
Bien entendu cette dernire expression est valable si x > 0. Compte tenu
du fait que Q est un carr, lvnement Q < x est impossible si x 0, ce qui
implique fQ (x) = 0 si x 0
Nous avons vu au chapitre 6 comment obtenir la loi dune somme de deux
v.a. discrtes indpendantes. Dans le contexte des v.a. continues, on admettra
le rsultat suivant.
Thorme
Si X et Y sont deux v.a. absolument continues indpendantes, de
densits respectives fX (x) et gY (y), alors la densit de probabilit de la
somme Z = X + Y est donne par :
hZ ( z ) =

fX ( x ) g Y ( z x )dx =

Y ( y)

fX ( z y )dy

Cette expression qui lie les densits fX (x) et gY (y) des v.a. X et Y est appele
produit de convolution de fX et gY
Appliquons ce rsultat la somme des v.a. X et Y indpendantes et suivant
chacune une loi 2 ( 1 ) :
1 x/2 1/2
----------e x
fX ( x ) = 2

242

INTRODUCTION LA MTHODE STATISTIQUE

si

x>0

si

x0

P211-282-9782100549412.fm Page 243 Mercredi, 24. novembre 2010 10:33 10

1 y/2 1/2
----------e y
si y > 0
gY ( y ) = 2

si y 0
0
Ces rsultats permettent dobtenir la densit de la somme Z de deux v.a.
distribues selon des lois :
z
1
h Z ( z ) = ------ x 1/2 e x/2 ( z x ) 1/2 e ( z x )/2 dx
2

1/2
1
= ------e z/2 x ( z x ) dx

1/2
1
= ------e z/2 t ( 1 t ) dt

La dernire intgrale a t obtenue avec le changement de variable


x = z t, et le calcul usuel donne la valeur . La premire intgration se fait
entre 0 et z puisque fX (x) = 0 si x < 0 et gY (z x) = 0, si z x < 0, soit si x > z.
La densit de la somme Z est donne par :

Dunod. La photocopie non autorise est un dlit.

1
--- e z/2
hZ ( z ) = 2
0

si

z>0

si

z0

Cette dernire expression nest autre que la fonction densit de la loi


exponentielle de paramtres = 0 et = 2.
En tenant compte du fait que (1) = 1 et que z0 = 1, on peut crire la densit de Z pour z > 0 sous la forme 1 :
1
-----------------z 1 e z/2 pour = 1
2( )
Cette formule :
1
------------------ x 1 e x/2
f ( x ) = 2( )
0

si

x>0

si

x0

1. Il est particulirement utile de se servir dans ce chapitre, de la fonction gamma, dfinie en


tout point

x > 0 par ( x ) =

et ! ( n ) = ( n 1 )

t
0

x 1 e t dt

1
avec --- =
2

x , ( x ) = ( x 1 ) ( x 1 )

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

243

P211-282-9782100549412.fm Page 244 Mercredi, 24. novembre 2010 10:33 10

reprsente dune part, lorsque = 1/2, la densit de la loi 2 ( 1 ), et dautre


part, lorsque = 1, la densit dune somme de deux lois 2 ( 1 )
On peut montrer plus gnralement pour toute valeur de que cette formule donne la loi dune somme de 2 v.a. distribues selon des lois 2 ( 1 )
Ceci explique que, par extension, on appellera 2 ( n ) la loi suivie par la
somme de n carrs de variables alatoires gaussiennes centres rduites indpendantes. La densit de cette loi 2 ( n ), dite loi du khi-deux n degrs de
libert (ddl en abrg), est donne par la formule ci-dessus avec = n/2
Pour une v.a. X suivant une loi 2 ( 1 ), il est trs ais dobtenir les deux premiers moments, puisque X = U2 o U est une v.a. gaussienne centre rduite :
E(X) = E(U2) = var(U) + E(U)2 = 1
De mme, on peut crire :
var(X) = E(X2) E(X)2 = E(U4) 1 = 3 1 = 2
2( n )
Ces rsultats se gnralisent tout de suite au cas dune loi
puisquune telle distribution est la somme de n v.a. i.i.d. de loi 2 ( 1 ). Par
consquent, pour une v.a. Y de loi 2 ( n ), on a :
E(Y) = n et var(Y) = 2n
Cette loi est une loi asymtrique, qui concide avec la loi exponentielle
pour = 1, cest--dire pour 2 ddl.
On peut calculer les caractristiques de forme :
8
12
--- et 2 = -----n
n
montrant bien lasymtrie, mais aussi la tendance ( cf. infra) vers une loi
symtrique (la loi normale) lorsque le nombre de degrs de libert augmente.
De faon tout fait vidente, ces deux coefficients tendent vers la valeur 0
quils prennent pour une loi de Gauss.
2 ( n ) pour quelques
La figure 7.12 donne la forme des distributions
valeurs de n.
1 =

1,2
1 ddl
1,0
0,8
0,6
0,4

2 ddl
4 ddl

0,2

8 ddl

0
0

12

Figure 7.12 Densits de quelques lois de khi-deux ( 1, 2, 4 et 8 ddl)

244

INTRODUCTION LA MTHODE STATISTIQUE

15

P211-282-9782100549412.fm Page 245 Mercredi, 24. novembre 2010 10:33 10

On remarque sur cette figure que, pour 1 ddl, la densit se comporte en


1/ x au voisinage de x = 0, et quelle dcrot exponentiellement vers 0. Pour
2 ddl, il sagit de la densit de la loi exponentielle de paramtres
=0
et = 2. En dehors de ces deux cas particuliers, toutes les courbes partent de
lorigine (dautant moins rapidement que le nombre de ddl est lev), elles
prsentent un maximum et dcroissent lentement vers 0. Il faut noter que plus
le nombre de ddl est lev, plus la dissymtrie est attnue. La loi du 2 ( n )
tant la loi dune somme de n v.a. i.i.d. (de loi 2 ( 1 ) commune), le rsultat
voqu au II.D, indiquant que la loi dune somme de v.a. i.i.d. peut tre
approxime par une loi de Gauss, montre bien que la loi du khi-deux n ddl
tend se comporter comme une loi de Gauss lorsque n devient grand.
Cette relation entre la loi du khi-deux et la loi normale est traduite numriquement par la formule de Wilson-Hilferty :
x 1/3
2 9n
P ( 2 ( n ) < x ) FU --- 1 + ----- ------
n
9n 2

reliant la fonction de rpartition de la loi 2 ( n ) celle de la loi de Gauss


centre rduite qui est tabule. Cette formule est une excellente approximation
ds lors que le nombre n de ddl nest pas trop petit (en pratique ds que n > 10).
Une autre possibilit de calculs approchs pour la fonction de rpartition
de la loi 2 ( n ) est donne par la formule de Fisher :
P ( 2 ( n ) < x ) FU ( 2x 2n 1 )

Dunod. La photocopie non autorise est un dlit.

plus simple, mais donnant une moins bonne approximation. On ne lutilise


que pour n > 30
Enfin la loi du khi-deux 2 n ddl prsente une relation trs intressante
pour les calculs avec la loi de Poisson. Si X suit une loi 2 ( 2n ), et si Y suit
une loi de Poisson de paramtre x, alors :
P ( X > 2x ) = P ( Y > n 1 )
La figure 7.13 met bien en vidence lallure dissymtrique de la courbe gnrale (cest--dire pour n > 2), tant que le nombre de ddl nest pas trop lev.
Pour les calculs relatifs la loi du khi-deux on dispose essentiellement de
la table de fractiles (annexe IV). Cette table est double entre. Dans la
colonne de gauche, on recherche la ligne correspondant aux degrs de libert
de la loi tudie et dans la ligne suprieure, on recherche la probabilit
cumule qui dfinira le fractile, not 2 ( 2n ) . Donnons quelques exemples :
2
0,5
( 5 ) = 4,351

2
0,95
( 10 ) = 18,307

2
0,01
( 8 ) = 1,64

2
0,99
( 6 ) = 16,812

2
0,5
( 30 ) = 29,336

2
0,95
( 40 ) = 55,76

2
0,01
( 40 ) = 22,16

2
0,99
( 30 ) = 50,892

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

245

P211-282-9782100549412.fm Page 246 Mercredi, 24. novembre 2010 10:33 10

0,20
0,18
0,16
0,14
0,12
0,10

4 ddl
8 ddl

0,08
0,06
0,04
0,02
0
0

10 11 12 13 14 15

Figure 7.13 Dissymtrie de la loi du khi-deux

La formule classique P(a < X < b) = F(b) F(a) permet de dterminer


des probabilits dintervalles condition de disposer dune table des fractiles assez dtaille. Dans le cas contraire, on peut recourir des interpolations linaires. Cependant, il vaut mieux viter autant que possible cette
dernire mthode et privilgier par exemple la formule de Wilson-Hilferty.
Donnons-en un exemple. Soit X une v.a. distribue selon une loi de khideux 25 ddl, et soit calculer
P(14 < X < 39) = P(X < 39) P(X < 14)
Aucun des deux seuils ne se trouvant dans la table des fractiles, utilisons la
formule de Wilson-Hilferty :

1/3

2 - 225
P ( 2 ( 25 ) < 14 ) F 14
1 + -------------------- = FU ( 1,770 )

25

2
225

1/3

2 - 225
P ( 2 ( 25 ) < 39 ) FU 39
------ 1 + ---------------- = FU ( 1,789 )

25
2
225

On obtient 0,925 comme valeur approximative par lecture de la table de


la loi de Gauss.
Mentionnons pour finir, une proprit qui dcoule (comme dans le cas de
la loi binomiale) directement de la dfinition concrte (somme de carrs de
gaussiennes centres rduites indpendantes) de la loi du khi-deux.
Si X et Y sont deux v.a. indpendantes distribues selon des lois de khideux respectivement n1 et n2 ddl, alors la v.a. Z = X + Y est distribue
selon une loi 2 ( n 1 + n 2 )

246

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 247 Mercredi, 24. novembre 2010 10:33 10

B. La loi de Student

Dfinition

Si U et Y sont deux v.a. indpendantes suivant respectivement une loi


2 ( ), on dit que le quotient
U
U
-------- = ------Y
Y
--
suit une loi de Student 1 degrs de libert (ddl). On la note T

(0 ; 1) et une loi

On peut montrer que la densit de la v.a. T est donne par :


+1
------------
+1

2 -----------2
1
t
2

f Tv ( t ) = ------- ------------------------- 1 + --
---
2
Il sagit donc dune densit symtrique par rapport laxe des ordonnes.
On en dduit que T est une v.a. centre :

Dunod. La photocopie non autorise est un dlit.

E(T ) = 0
Le calcul de la variance, ici gale E ( T v2 ), donne pour > 2 :

var ( T ) = ----------2
Lorsque = 1 ou = 2, la loi de Student nadmet pas de variance finie.
La loi de Student 1 ddl est assez particulire. En effet, elle correspond au
quotient de deux gaussiennes centres rduites indpendantes puisque le dnominateur est la racine carre dune loi 2 ( 1 ), cest--dire la racine du carr dune
gaussienne centre rduite. Cette loi T1 porte aussi le nom de loi de Cauchy.
1
1
Sa densit scrit : --- -------------2 . Elle est reprsente sur la figure 7.14, en
1+t
comparaison avec la loi de Gauss centre rduite, par rapport laquelle elle
prsente des queues de distributions trs paisses.

1. Student tait le pseudonyme choisi par le statisticien William Sealy Gosset (1876-1937). Il
fut lun des premiers statisticiens du monde de lentreprise, consacrant sa carrire lindustrie
agro-alimentaire (brasseries) au sein de laquelle il a toujours t reconnu la fois comme
industriel et comme scientifique. Trs associ aussi au monde universitaire, il a largement
contribu au dveloppement scientifique de cette priode.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

247

P211-282-9782100549412.fm Page 248 Mercredi, 24. novembre 2010 10:33 10

Cauchy

(0 ; 1)

3,5

2,5

1,5

0,5

0,5

1,5

2,5

3,5

Figure 7.14 Loi de Cauchy et loi de Gauss centre rduite

Cela est encore plus vident si on compare la loi de Cauchy la loi de


Gauss centre qui possde le mme maximum, soit 0,3183, ce qui correspond
un cart-type gal 1,2533. Dans cette comparaison, reprsente figure
7.15, on voit que la probabilit quune v.a. de Cauchy dpasse la valeur 1 est
gale 0,25 (1 est ainsi le troisime quartile, et par symtrie 1 est le premier
quartile de la loi de Cauchy), alors que la probabilit quune v.a. de Gauss
(0 ; 1,2533) dpasse la valeur 1 est gale 0,213. De mme, la probabilit
quune v.a. de Cauchy dpasse la valeur 2 est gale 0,1476, alors que pour
la v.a. (0 ; 1,2533), cette probabilit est gale 0,055
Cette loi de Student 1 ddl, ou loi de Cauchy, prsente la particularit de
navoir aucun moment fini autre que son esprance mathmatique (qui est nulle).
On retiendra que cette situation nest pas du seul domaine de la thorie, mais
quelle correspond au rapport de deux gaussiennes centres rduites indpendantes.

Cauchy

(0 ; 1,2533)

3,5

2,5

1,5

0,5

Figure 7.15 Loi de Cauchy et loi

248

0,5

1,5

2,5

3,5

(0 ; 1,2533) : comparaison des aplatissements

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 249 Mercredi, 24. novembre 2010 10:33 10

Dans le cas gnral de la loi de Student


ddl, nous avons vu que la
moyenne est nulle, que la variance est suprieure 1 et se rapproche de cette
valeur au fur et mesure que augmente. On a reprsent sur la figure 7.16, les
densits des lois de Student 1, 2, 5 et 15 ddl ainsi que la densit de la loi de
Gauss centre rduite. Il apparat clairement sur cette figure que la loi de Student
devient trs proche de la loi (0 ; 1) lorsque son nombre de ddl augmente. En
pratique, cette approximation est de bonne qualit ds lors que > 40
0,4
1 ddl
2 ddl
5 ddl
25 ddl
0,2

Gauss

Figure 7.16 Convergence de la loi de Student vers la loi de Gauss centre rduite

Sur cette figure, on constatera aussi la relation existant entre les fractiles
t() et u de mme ordre a respectivement pour la loi de Student Tk et pour
la loi (0 ; 1) :

Dunod. La photocopie non autorise est un dlit.

t ( ) < u < 0

t ( ) > u > 0

si
si

< 0,5
> 0,5

De mme, on remarquera que la symtrie de la loi de Student lie les fractiles t() et t1() par la relation : t1() = t()
Le coefficient dasymtrie 1 est bien entendu nul puisque la densit tant
une fonction paire, tous les moments impairs sont nuls. Le calcul du coefficient daplatissement 2 est long, et nous admettrons le rsultat :
6
2 = ------------ valable si > 4
4
Lensemble de ces deux rsultats montre bien laffinit de la loi de Student avec la loi de Laplace-Gauss, mais aussi la limite de cette similitude. En
effet, on retrouve la symtrie de la loi et lallure en cloche de la densit,
mais cest laplatissement aux extrmits qui fait la diffrence (et nous
lavons explicit pour la loi de Cauchy). Cependant, la valeur du coefficient

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

249

P211-282-9782100549412.fm Page 250 Mercredi, 24. novembre 2010 10:33 10

daplatissement de Fisher montre que cette diffrence sattnue au fur et


mesure que le nombre de ddl augmente.
Les calculs relatifs la loi de Student utilisent la table des
fractiles
(Annexe IV). Cette table se lit en recherchant :
i) dans la 1re colonne, la ligne correspondant aux ddl de la loi considre ;
ii) dans la 1 re ligne, la colonne correspondant lordre du fractile ;
et le fractile t() se lit lintersection de la ligne et de la colonne dtermins.
Ces fractiles sont donns pour des valeurs de suprieures 0,5. Si < 0,5
on utilise la symtrie de la loi de Student et la formule t() = t1 ()

 Exemples

le fractile dordre 0,9 dune loi de Student 5 ddl est gal 1,476
le fractile dordre 0,3 dune loi de Student 10 ddl est gal 0,542
le fractile dordre 0,975 dune loi de Student 15 ddl est gal 2,131
le fractile dordre 0,975 dune loi de Student 30 ddl est gal 2,042
le fractile dordre 0,025 dune loi de Student 100 ddl est gal 1,984

Dans les deux derniers cas, les fractiles correspondant de la loi de Gauss
centre rduite sont gaux 1,96 et 1,96. On retrouve bien que lapproximation de la loi de Student par la loi de Gauss est dautant plus valable lorsque le nombre de ddl est lev (en particulier sil dpasse 40).
Comme pour la loi de Gauss et la loi du khi-deux, on dispose de formules
approches, pour la fonction de rpartition ainsi que pour les fractiles, utilises notamment pour les calculs rpts sur ordinateur.
Pour les fractiles, on utilisera lapproximation dite de Fisher et Cornish :
1
1
4
2
t ( ) u + ----- u ( u 2 + 1 ) + -----------u
( 5u + 16u + 3 )
2
96
4
1
6
4
2
+ --------------u
( 3u + 19u + 17u 15 )
384 3
qui donne de bons rsultats mme pour de faibles ddl. Ds que
pourra utiliser la formule beaucoup plus simple :
u
t ( ) u + ------ ( 1 + u 2 )
4

> 30, on

Pour la fonction de rpartition dans le cas gnral, cest--dire pour > 2,


les formules sont fastidieuses crire. Elles nont dintrt que pour des programmes de calculs et de simulation. Dans lannexe II, nous indiquons les
formules valables pour 1 ddl (lerreur commise dans lapproximation par ces
formules nexcde pas 0,001).

250

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 251 Mercredi, 24. novembre 2010 10:33 10

On notera que pour 2 ddl, la fonction de densit sintgre sans difficults


et quon a la formule exacte pour la fonction de rpartition :
t
P ( 0 < T 2 < t ) = -------------------- valable pour toute valeur de t > 0
2 2 + t2
La loi de Student est utilise principalement pour lestimation et les tests.
Dans ce qui suit, on justifie brivement ce rle.
Au paragraphe III.A, nous avons envisag les quantits alatoires Xn et
Q dans le contexte de n v.a. Xi (i = 1, 2, , n) de loi (m ; ). Ces deux v.a.

suivent respectivement des lois (m ; ------- ) et 2 ( n ) . Nous pouvons crire :


n
n

n
n
1
Q = --- ( X i m ) 2 -----2 = -----2 V 2

ni = 1

1
V 2 = --- ( X i m ) 2
ni = 1

la variable alatoire V2 prenant la valeur correspondant aux observations {xi},


et pouvant tre calcule quand on connat la moyenne m.
De nombreuses situations ne correspondent pas ce cas. Il faut souvent
utiliser la v.a. :
n

1
S n2 1 = ------------ X i Xn

n 1i = 1

pour reprsenter la variance, partir de sries obtenues par chantillonnage,


et remplacer la v.a. Q par :
n

X X
n
i
( n 1 ) S n2 1
i=1
Q = -------------------------------- = --------------------------------2

2
Pour cette v.a. Q , on peut crire :

Dunod. La photocopie non autorise est un dlit.

X X
n
i
i=1
Q = -------------------------------- =
2

X i Xn
----------------- =

i = 1
n

i=1

2
i

X i Xn
Y = ---------------

Ces v.a. Yi sont gaussiennes, mais ne sont pas indpendantes puisque lune
dentre elles sexprime en fonction des autres :
n

i=1

X X =
n
i

nXn = 0 . On ne peut donc pas dire que leur somme,

i=1

cest--dire Q , est distribue selon une loi 2 ( n ) . On montre quelle est en fait
distribue selon une loi 2 ( n 1 ) , et quelle est indpendante de Xn

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

251

P211-282-9782100549412.fm Page 252 Mercredi, 24. novembre 2010 10:33 10

Considrons maintenant la variable alatoire :


Xn m
---------------- n

Xn m
- n
Tn 1 = ----------------------------- = --------------Sn 1
Q
-----------n1
Daprs la dfinition donne en tte de ce paragraphe, Tn1 suit une loi de
Student ( n 1) ddl. Cest la v.a. qui est utilise en lieu et place de
Xn m
- n lorsquon cherche tudier la moyenne dune rpartition
U = --------------
gaussienne dont la variance nest pas connue au dpart.
Toutefois, nous avons vu que lorsque le nombre de ddl augmente, la loi
de Student peut tre approxime par la loi de Gauss (sur la figure 7.16, on
voit que pour 25 ddl, les deux densits sont dj voisines). On retiendra que
le modle de la loi de Student sapplique ltude de la moyenne dune
loi de Gauss dont la variance nest pas connue, lorsquon ne dispose que
dun petit chantillon.

C. La loi de Fisher-Snedecor
Dfinition

Si X et Y sont deux v.a. indpendantes distribues selon des lois de khideux respectivement 1 et 2 ddl, la v.a. :
X

1 2 X

F = --------------------- = ----- --- Y


1 Y
2

est dite suivre une loi de Fisher 1 et 2 degrs de libert. On la note


F(1, 2)

252

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 253 Mercredi, 24. novembre 2010 10:33 10

On fera trs attention dans la pratique de cette distribution lordre des


degrs de libert. La loi de Fisher-Snedecor 1 1 et 2 ddl nest pas la mme
que la loi de Fisher-Snedecor 2 et 1 ddl.
En effet, on peut crire :
X
Y 1
P ( F ( 1 , 2 ) < c ) = P -----2 ---- < c = P -----1 ---- > ---
1 Y

2 X c
1
= 1 P F ( 2 , 1 ) < ---

c
Si cette probabilit est gale , alors c nest autre que le fractile f(1, 2).
Par consquent, 1/c correspond au fractile f1-(2, 1). On obtient ainsi la relation trs utile, notamment dans la lecture des tables :
1
f 1 ( 2 , 1 ) = -----------------------f ( 1 , 2 )
On peut montrer, par un calcul dintgrales assez long, que la densit de
la loi de Fisher-Snedecor F(1, 2) est donne par la formule :
(v 2) 1
11 /2 22 /2 ( ( 1 + 2 ) 2 )
x 1
------------------------------------------------------------ ------------------------------------------gF ( x )
( 1 /2 ) ( 2 /2 )
( 2 + 1 x ) ( 1 + 2 ) 2

si

x>0

si

x<0

expression dans laquelle () reprsente la fonction eulrienne gamma


( III.A).
Lorsque 1 = 1, la densit, comportant un terme en

Dunod. La photocopie non autorise est un dlit.

1
x 1/2 ( 2 + 1 x ) ( 2 + 1 ) 2 = -----------------------------------------x ( 2 + 1 x ) 2 + 1
admet laxe des ordonnes comme asymptote.
Lorsque 1 = 2, la densit dcrot rgulirement.
En dehors de ces cas, comme on le voit sur la figure 7.17, la densit de la
loi de Fisher-Snedecor prsente un maximum aprs une croissance dautant
plus rapide que les degrs de libert du numrateur sont peu levs, puis une
dcroissance lente. Cest une densit trs dissymtrique.
1. Ltude de cette loi en tant que rapport de deux lois de khi-deux rapportes leurs degrs
de libert est due au statisticien anglais Ronald Aymler Fisher (1890-1962), tandis que les
dveloppements numriques, et notamment ltablissement des tables ont t raliss par le
statisticien amricain George Waddel Snedecor (1881-1974).

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

253

P211-282-9782100549412.fm Page 254 Mercredi, 24. novembre 2010 10:33 10

1,2
(10; 4)
(10; 10)
0,8

(10; 50)

0,4

0
0

0,5

1,5

2,5

3,5

4,5

Figure 7.17 Densits de lois de Fisher pour 1 = 10 et quelques valeurs de 2

On remarquera que la loi de Fisher-Snedecor o 1 = 1 se ramne la loi


de Student. En effet, le numrateur de la dfinition tant le carr dune gaussienne centre rduite, il sensuit quune telle loi F(1, 2) est le carr dune
v.a. distribue selon une loi de Student 2 ddl.
On peut dduire une relation entre les fractiles de la loi F(1, 2) et ceux
de la loi T(2), puisque :
1 = P F ( 1, 2 ) < f1 ( 1, 2 ) = P T 2 ( 2 ) < f1 ( 1, 2 )

soit encore :
1 = P f 1 ( 1, 2 ) < T ( 2 ) < + f 1 ( 1, 2 )

= 2P T ( 2 ) < + f 1 ( 1, 2 ) 1

Ceci revient crire :


P T ( 2 ) < + f 1 ( 1, 2 ) = 1 2

et on obtient la relation entre fractiles :


f 1 ( 1, 2 ) = t 1 2 ( 2 )
qui est une traduction numrique de la proprit 1 ci-dessous.
Proprit 1

Si X est une v.a. distribue selon une loi de Fisher 1 et 2 ddl, alors
X est le carr dune v.a distribue selon une loi de Student 2 ddl.

254

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 255 Mercredi, 24. novembre 2010 10:33 10

Le calcul des caractristiques de la loi de Fisher-Snedecor montre que :


2
- , lesprance de cette loi ne dpend pas de 1, et
i) E F ( 1, 2 ) = ------------

2 2
nest dfinie que pour 2 > 2
2 22 ( 1 + 2 2 )
ii) var F ( 1, 2 ) = --------------------------------------------- , la variance de cette loi nest

1 ( 2 2 ) 2 ( 2 4 )
dfinie que pour 2 > 4
On notera une relation, trs utile au niveau des calculs, entre la loi de FisherSnedecor dont les degrs de libert sont pairs et la loi binomiale (du type de
celle qui est mentionne au III.A entre la loi de Poisson et la loi du khi-deux).
Proprit 2

Si X est une v.a. distribue selon une loi de Fisher-Snedecor


F(2(n r 1), 2r), et Y une v.a. distribue selon une loi binomiale (n ; p),
on a la relation :
1p
n
P X > ------------ -------------------- = P ( Y r )

p
n r 1

Dunod. La photocopie non autorise est un dlit.

Enfin, toujours pour la pratique au niveau des calculs, la formule suivante


est une approximation correcte des fractiles de la loi de Fisher-Snedecor lorsque les degrs de libert sont tous les deux suffisamment grands (au moins
gaux 50) :
1
1
f ( 1, 2 ) --- ( 21 11 ) + u --- ( 11 + 21 )
2
2
o u dsigne le fractile dordre de la loi de Gauss centre rduite.
La loi de Fisher-Snedecor joue un rle essentiel dans tous les problmes
poss par ltude de la variance. Elle est le support des mthodes danalyse
de la variance et danalyse discriminante.
Les trois lois que nous avons prsentes sous cet aspect de lois drives
de la loi normale correspondent toujours des variables alatoires relies
des variances dchantillonnage dans des populations supposes gaussiennes.
Ce ne sont donc pas des distributions quon peut identifier par une dmarche
concrte. Elles sont aussi souvent utilises en tant que lois approches, correspondant des rsultats asymptotiques.
Elles sont toutes trois caractrises par un ou deux paramtres appels
degrs de libert . Cette notion se justifie mathmatiquement (gomtriquement) pour la loi du khi-deux, et se dduit pour les deux autres distributions
de leur construction partir de lois du khi-deux.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

255

P211-282-9782100549412.fm Page 256 Mercredi, 24. novembre 2010 10:33 10

On caractrise la complexit dune structure par le nombre de ses paramtres indpendants qui la dfinissent (nombre de degrs de libert).
Nous avons vu quune v.a. du khi-deux n degrs de libert est la somme
de n v.a., carrs de v.a. gaussiennes centres rduites indpendantes, et nous
avons voqu que la non-indpendance des v.a. dont on additionne les carrs
diminue les degrs de libert de la loi du khi-deux correspondante. On peut
ainsi regarder lensemble des v.a. gaussiennes de dpart comme engendrant
linairement un ensemble (espace) dont la dimension est alors le nombre de ces
v.a. linairement indpendantes. Chaque relation linaire qui relie certaines de
ces variables alatoires diminue dune unit la dimension de lensemble considr, cest--dire lensemble sur lequel les lments statistiques sont dfinis.

IV. Quelques autres modles continus courants


A. La loi log-normale
Soit une variable alatoire continue X prenant des valeurs suprieures un
nombre donn x0, la densit fX(x) tant nulle si x x0. Si la variable
Z = ln(X x0) est distribue selon une loi de Gauss (m ; ), on dit que X
est distribue selon une loi log-normale note (m, , x0) :
Z = ln ( X x 0 )

(m ; )

Z = U + m avec U

(0 ; 1)

1
ln ( X x 0 ) = U + m U = --- ( ln ( X x 0 ) m )

Pour obtenir la densit de probabilit de X, on dtermine dabord sa fonction de rpartition :


P ( X x ) = P ( X x0 x x0 )
= P [ ln ( X x 0 ) m ln ( x x 0 ) m ]
ln ( x x 0 ) m
= P U --------------------------------

car le logarithme est une fonction croissante. Par consquent :


A

P( X x) =

256

----------e
2

x 2 /2 dx

ln ( x x 0 ) m
pour A = --------------------------------

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 257 Mercredi, 24. novembre 2010 10:33 10

et en drivant par rapport x, on obtient la densit dune loi log-normale :


1
1
A -2 --1- ----------------f X ( x ) = ---------- exp ----

x
x0 )
(

2
2
1 ln ( x x 0 ) 2
1
-
= --------------------------------- exp --- ----------------------

2 ( x x 0 )
2

La loi log-normale dpend de 3 paramtres, m, et x0 . Les deux premiers sont les moments de la loi normale associe, tandis que le dernier
est une caractristique de position puisque cest la valeur minimale de cet
ala.
On peut montrer que lesprance mathmatique et la variance de X sont
donnes par :
1
E ( X ) = x 0 + exp m + --- 2

2
var ( X ) = e 2m e 2 ( e 2 1 )
Dterminons maintenant la mdiane Me :
ln ( Me x 0 ) m
=0
F ( Me ) = 0,5 A = --------------------------------------

Me = x 0 + e m

Plus gnralement, le fractile dordre dune loi log-normale


:

(m, , x0), not x , sobtient de la faon suivante

P ( X x ) = P ln ( X x 0 ) ln ( x x 0 ) = P U + m ln ( x x 0 )

Dunod. La photocopie non autorise est un dlit.

ln ( x x 0 ) m
- =
= P U -----------------------------------

ln ( x x 0 ) m
- x = x 0 + e m + u
u = -----------------------------------
Le mode Mo de la distribution log-normale, correspondant au maximum
de la densit, est :
Mo = x 0 + exp ( m 2 )
Puisque 2 > 0 , on a exp ( 2 ) < 1 et exp ( 2 2 ) > 1 , ce qui implique
que le mode Mo, la mdiane Me et lesprance mathmatique E(X) vrifient :
Mo < Me < E(X)
La figure 7.18 donne lallure de la densit pour quelques valeurs de m et
de , avec x 0 = 0

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

257

P211-282-9782100549412.fm Page 258 Mercredi, 24. novembre 2010 10:33 10

4
m=0
= 0,1

3,5
3
2,5

m = 0,5
= 0,1

2
1,5

m=1
= 0,1

m = 0,5
= 0,2

m=0
= 0,2

m=1
= 0,2

1
0,5
0

0,5

1,5

2,5

3,5

Figure 7.18 Influence des paramtres m (0 / 0,5 / 1) et (0,1 / 0,2)


sur la densit de la loi log-normale

Lexpression du coefficient dasymtrie 1 = ( e 2 + 2 ) e 2 1 montre


que lasymtrie dpend de (cf. figure 7.19).
En particulier, lorsque devient trs petit, on obtient des distributions
log-normales ressemblant fortement des distributions normales, tout en ne
prenant que des valeurs strictement positives.
1,6
1,4
= 0,1

1,2
1
0,8

0,4

= 0,2

= 0,3

0,6
= 0,8

= 0,5

0,2

0,5

1,5

Figure 7.19 Asymtrie de la loi log-normale

258

2,5

3,5

(0, 1, ) en fonction de

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 259 Mercredi, 24. novembre 2010 10:33 10

Cette dernire proprit fait de la loi log-normale un modle trs intressant


pour de nombreux phnomnes valeurs positives, et pour lesquels la loi de
Gauss donnerait des probabilits non nulles des domaines de valeurs ngatives. Par consquent, lorsquune distribution gaussienne (respectant donc les
caractristiques de symtrie et daplatissement) apparat adapte la reprsentation dun phnomne alatoire qui, toutefois, ne prend que des valeurs positives, on recherchera une loi log-normale dont les paramtres seront adapts.
Dans ce contexte, on trouve notamment des rpartitions de poids, de taille
La dure des communications tlphoniques est trs souvent un bon
exemple de modlisation par la loi log-normale. Dans tous les cas, lorsque
lhypothse de rpartition log-normale est adopte, il suffit de prendre le
logarithme de toutes les observations pour se ramener un contexte de loi
normale, et dappliquer alors toutes les proprits vues au II.
Les distributions de revenus sont souvent modlises par la loi log-normale en raison de leur asymtrie, de leurs valeurs toujours bornes gauche,
et de leffet attnuateur de la transformation logarithmique.

 Exemple

Dunod. La photocopie non autorise est un dlit.

Illustrons ce propos en ajustant les distributions des salaires Ensemble


en 2000 (chapitre 1, tableau 1.5) par une loi log-normale.
Si X suit une loi log-normale (m , , x0),
alors U = ( ln ( ( X x 0 ) m ) ) suit une loi normale centre rduite.
Dans ce cas, les points de coordonnes { ui , ln(xi x0)} sont aligns, ui
tant le fractile dordre i/10 de la loi (0 ; 1) si xi est le ie dcile
observ, et x0 le salaire minimum (gal 6 200 en 2000).
Le rsultat de lajustement est prsent graphiquement ( cf. figure 7.20).
Les 9 points tant proches de lalignement sur le graphique,
lajustement par une loi log-normale peut tre retenu.

Figure 7.20 Distribution des salaires Ensemble en 2000 ajuste par une loi log-normale

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

259

P211-282-9782100549412.fm Page 260 Mercredi, 24. novembre 2010 10:33 10

B. La loi de Pareto
Dfinition

On dit que la v.a. continue X est distribue selon une loi de Pareto de
paramtres et x0 > 0 si sa densit est donne par :
x 0 + 1
---- ---f X ( x ) = x0 x

si

x x0

si

x < x0

On notera dabord que cette fonction fX(x) ne dfinit une densit que si > 0
5

=5

2,5
=2
=1
0
0

Figure 7.21 Densits de lois de Pareto, pour x 0 = 1, et plusieurs valeurs de

La fonction de rpartition de X (cf. figure 7.22) est donne par un calcul


lmentaire. Elle est, bien entendu, nulle pour x < x0, et si x x0, on a :
FX ( x ) =

x0

x 0 + 1
---
---dt = ---- x 0 + 1
x 0 t
x 0

On crira donc :

x
1 ----0
f X( x) =
x

260

x0

x 0
dt - = 1 ----------- x
t + 1

si

x x0

si

x < x0

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 261 Mercredi, 24. novembre 2010 10:33 10

La probabilit dune valeur suprieure un seuil fix


x
{x > x0 > 0}, est gale ----0
x

x, tel que

1,0
=5
0,8

=2
=1

0,6
0,4
0,2
0
0

Figure 7.22 Fonctions de rpartition de lois de Pareto pour x0 = 1 et plusieurs valeurs de

Pareto1 a introduit sa loi pour dcrire des units conomiques par des caractres de taille (revenu, chiffre daffaires, budget dinvestissement). Pour de
telles grandeurs, on postule le plus souvent que le nombre dindividus dont le
C
caractre tudi dpasse un seuil x est donn par N x = ----- o C et sont des
x
constantes. Lapplication de la loi de Pareto aux distributions de revenus est
une des plus usuelles, le paramtre tant en gnral voisin de 2
Le calcul des moments est simple. On a dabord :
E(X ) =

Dunod. La photocopie non autorise est un dlit.

x0

+1
x
x ---- ----0
dx = x 0
x 0 x

dx

----x

x0

x
= -----------01

mais ce rsultat nest valable (convergence de lintgrale) que si > 1 Remarquons quune v.a. distribue selon la loi de Pareto ne prend que des valeurs
positives ( x0 > 0), ce qui implique que son esprance mathmatique est positive. Un rsultat correspondant < 1, soit ( 1) < 0, serait absurde.
Plus gnralement, on a :
E(Xk) =

x0

+1
x
x k ---- ----0
dx = x 0
x 0 x

x0

x 0k
dx ---------------=
----------k
x + 1 k

1. La loi tudie dans ce paragraphe porte le nom de lconomiste italo-suisse Wilfrid Pareto
(1848-1923). Cest lui quon doit lhypothse, quil a suppose universelle , de la dcroissance en x de la proportion des individus dont le revenu dpasse la valeur x.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

261

P211-282-9782100549412.fm Page 262 Mercredi, 24. novembre 2010 10:33 10

mais ce calcul na de sens que si lintgrale est convergente, cest--dire si


( k + 1) > 1, soit si > k. Le moment dordre k nest donc dfini que lorsque
> k. En particulier, la variance nest dfinie que si > 2. Son calcul est simple :
x 02
x 02
2 x 02
var ( X ) = E ( X 2 ) ( E ( X ) ) 2 = ----------=
------------------------------------- ------------------ 2 ( 1 )2
( 2 )( 1 )2
Les lois conditionnelles drives dune loi de Pareto ont la proprit
essentielle dtre encore des lois de Pareto. Si X suit une loi de Pareto de
paramtres et x0, et si x1 x0
( x0 x1 ) ( x0 x )
P ( x1 X x )
- = ---------------------------------------------= 1 ( x1 x )
P ( X x X x 1 ) = -------------------------------( x0 x1 )
1 P ( X < x1 )
ce qui montre bien que la v.a.
( X X x 1 ) suit une loi de Pareto de
paramtres et x1
On a ainsi ramen l origine de la distribution en x1 , sans rien changer
sa forme. On notera aussi quon a :
x
E ( X X x 1 ) = -----------11

x
Lcriture de la fonction de rpartition pour x x0, F ( x ) = 1 ----0 permet
x
de voir que :
ln ( 1 F ( x ) ) = ln ( x 0 ) ln ( x )
Les points de coordonnes { ln ( x ) ; ln ( 1 F ( x ) ) } sont donc situs sur une
droite de pente , coupant laxe vertical en un point dordonne ln(x0)
Rciproquement, si les points de coordonnes
{ ln ( x ) ; ln ( 1 F ( x ) ) }
pour une distribution de fonction cumulative F sont situs sur une mme
droite de pente , cette distribution correspond une loi de Pareto puisque
si ln ( 1 F ( x ) ) = ln ( x ) + K , on a :
1 F ( x ) = x e K = ( A x )

avec A = e K

Cette reprsentation graphique fournit une mthode trs simple (et efficace) pour apprcier si une distribution observe, soit (xi , i = 1, 2, , n) peut
tre reprsente par un modle de Pareto, en traant le nuage des points de
coordonnes ,{ ln ( x i ) ; ln ( 1 F ( x i ) ) } o F(xi) est la valeur de la fonction
cumulative en xi (chapitre 1). Lutilisation dchelles logarithmiques sur les
deux axes est trs apprciable. Elle est trs courante sur les logiciels.
On peut ainsi valider lhypothse de reprsentation par une loi de Pareto,
mais aussi identifier les paramtres puisque la constante est la valeur abso-

262

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 263 Mercredi, 24. novembre 2010 10:33 10

lue de la pente de la droite (elle peut tre calcule par la mthode des moindres carrs, chapitre 3).
Il faut remarquer que dans cette reprsentation graphique, on trouve en
ordonne les valeurs (sur une chelle logarithmique) de { 1 F ( x ) } , cest-dire de la proportion rsiduelle au-del de la valeur x. Ceci nous reporte
lintroduction de cette loi par Pareto, et lutilisation trs frquente des
chelles logarithmiques dans ltude des variables de type taille.

 Exemple

Dunod. La photocopie non autorise est un dlit.

Lexemple suivant illustre une modlisation par une loi de Pareto du


chiffre daffaire des 25 premiers groupes franais de lindustrie et des
services en 2001. Les donnes sont extraites des
Tableaux de
lconomie Franaise 2003-2004.

Tableau 2.1 Tableau 7.1

Les points { ln ( x i ) ; ln ( 1 F i ) } sont peu prs aligns (cf. figure 7.23).


Le calcul de la droite des m oindres carrs donne pour estimation des
paramtres du modle de Pareto = 1,646 et x0 = 16 774.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

263

P211-282-9782100549412.fm Page 264 Mercredi, 24. novembre 2010 10:33 10

y = - 1,646x + 16,014
r2 = 0,9793

ln(xi)

ln(1 Fi)
Figure 7.23 Srie des valeurs des 25 premiers chiffres daffaires franais
ajuste par une loi de Pareto

Quantile observe

Un diagramme quantile-quantile obtenu partir de la loi de Pareto associe ces paramtres montre lui aussi que le modle nest pas inadapt, mais
que lajustement nest pas parfait en raison la premire valeur particulirement leve.

Quantile thorique
Figure 7.24 Diagramme Quantile-Quantile (unit : milliards deuros)
Loi de Pareto de paramtres = 1,646 et x0 = 16 774

264

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 265 Mercredi, 24. novembre 2010 10:33 10

Pour terminer, on notera que la moyenne dune loi de Pareto de paramtres


et x0 est gale x0/( 1), et que sa mdiane est gale x0 21/
Pour lexemple, on peut comparer la moyenne observe gale 33 169
millions deuros la moyenne du modle thorique gale 42 740 millions
deuros, et la mdiane observe gale 25 353 millions deuros la mdiane
du modle thorique gale 25 558 millions deuros.
Les paramtres du modle de Pareto ont t valus laide de toutes les
observations avec une premire valeur particulirement leve. Ceci explique
la survaluation non ngligeable de la moyenne par le modle.
Dautre part, on notera que les mdianes (thorique et observe), plus
petites que les moyennes correspondantes, indiquent une distribution dissymtrique, tale vers la droite (chapitre 1).

C. La loi de Weibull
Dfinition

Une v.a. continue X suit une loi de Weibull de paramtres a, b > 0 et


c > 0, si sa densit est donne par :
x a c
c x a c 1 ----------

--- ----------e b
f ( x) = b b

si

x>a

si

xa

Dunod. La photocopie non autorise est un dlit.

X a suit
Si X suit une loi de Weibull de paramtres a, b et c, alors Y = -----------b
une loi de Weibull de paramtres 0, 1 et c. En effet :
Xa
P ( Y < y ) = P ------------- < y = P ( X < a + by ) =
b

a + by

x a

c x a c 1 ------------- ----------e b dx

b b

et la densit de Y est gale la drive de cette dernire expression. Pour


a + by > a, soit si y > 0 :
a + by a

c a + by a c 1 ----------------------b
= cy ( c 1 ) e y c et
f ( y ) = b --- ------------------------ e

b
b

f ( y ) = 0 si ( y < 0 )
On appelle loi de Weibull standard de paramtre c, note W(c), la loi de
Xa
Y = ------------- lorsque X suit une loi de Weibull de paramtres a, b et c. On
b

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

265

P211-282-9782100549412.fm Page 266 Mercredi, 24. novembre 2010 10:33 10

remarque que pour c = 1, la loi de Weibull standard correspond la loi exponentielle. La figure 7.25 reprsente les densits de la loi de Weibull standard
pour les valeurs c = 1, 2, 3 et 5. On voit que cette densit est asymtrique, et
prsente un maximum si c > 1 pour :
c 1 1/c
x = -----------
c
2,0
W(5)

1,5
W(1)

1,0

W(3)

W(2)
0,5
0

Figure 7.25 Densits de la loi de Weibull standard

Lorsque c > 1, le mode de la distribution de Weibull standard se rapproche de


1 lorsque c tend vers linfini. Dans le cas gnral de la loi de Weibull de paramtres a, b et c, le mode converge rapidement vers ( a + b) lorsque c augmente.
Par contre si 0 < c < 1, le mode est en 0, car la densit est dcroissante.
La fonction de rpartition de la loi de Weibull standard est donne par :
x

F(x) = ct c 1 e t c dt
0

soit en posant u =

tc

: F( x) =

xc

u du

= [ e u ] 0x = 1 e x c si x > 0

et naturellement F(x) = 0 si x 0
Dans le cas gnral, posant X = a + bY, o Y suit une loi de Weibull standard, on a :
x a

----------

xa
P ( X < x ) = P ( a + bY < x ) = P Y < ----------- = 1 e b

et P(X < x) = 0 si x a
Ceci nous montre que la mdiane est le point w0,5 tel que :
w 0,5 = b ( ln 2 ) 1 c + a

266

INTRODUCTION LA MTHODE STATISTIQUE

si x > a

P211-282-9782100549412.fm Page 267 Mercredi, 24. novembre 2010 10:33 10

Le calcul de la moyenne de la loi de Weibull standard donne :


E(Y ) =

cx c e x c dx =

1/c e t dt

1
= 1 + ---

obtenu en posant t = xc dans la premire intgrale, et en exprimant la seconde


intgrale laide de la fonction gamma ( III.A).
De mme, on peut calculer E(Y2) :
E(Y 2) =

cx c + 1 e x c dx =

2/c e t dt

2
= 1 + ---

ce qui permet donc dcrire la variance :


2
var ( Y ) = 1 + 2--- 1 + 1---

c
c

Lexpression des moments dans le cas gnral de la loi de Weibull de


paramtres a, b et c provient de la relation X = a + bY :
E ( X ) = a + b 1 + 1---

c
var ( X ) =

b2


2
1
1 + --- 1 + ---
c
c

La dissymtrie de la loi standard de Weibull, observe sur la figure 7.26,


varie avec la valeur du paramtre c. La moyenne tend vers 1 au fur et
mesure que c augmente, tandis que la variance dcrot. Les coefficients
dasymtrie et daplatissement de Fisher montrent que pour c peu prs gal
3,6 on obtient une courbe presque symtrique ( 1 0), mais dont laplatissement est lgrement moindre que celui de la loi de Gauss ( 2 < 0).

Dunod. La photocopie non autorise est un dlit.

1,6
W(3)
W(3,6)
(0,9; 0,278)

1,2

0,8

0,4

0
0

Figure 7.26 Lois de Weibull standard et loi de Gauss

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

267

P211-282-9782100549412.fm Page 268 Mercredi, 24. novembre 2010 10:33 10

Il sensuit ( cf. figure 7.26) que pour des valeurs de c proches de 3,6, la
distribution standard de Weibull et la loi de Gauss ont des formes assez proches. On notera que pour cette valeur c = 3,6, la moyenne de la loi standard
de Weibull est gale 0,9011 et son cart-type 0,278
Il est intressant de noter que pour une loi de Weibull standard de paramtre c, lexpression de la fonction de rpartition permet dcrire :
ln ( 1 F W ( y ) ) = y c
ln { ln ( 1 F W ( y ) ) } = c ln ( y )

soit encore :

ce qui montre quon peut, comme pour la loi de Pareto, mais avec une chelle
log-log sur laxe vertical, valuer graphiquement si une distribution
observe peut tre reprsente par une loi de Weibull standard.
Lintrt particulier de la loi de Weibull rside dans la proprit suivante.
Proprit
Si Y suit une loi de Weibull standard W(c), alors Yc suit une loi exponentielle de paramtre 1
c

En effet, soit Z = Y . Si z < 0, on aura P(Z < z) = 0 et si z > 0, on peut crire :


P ( Z < z ) = P ( Y c < z ) = P ( Y < z 1/c ) =

z 1/c

ct

c 1 e t c dt

et la densit, nulle pour z < 0, sobtenant par drivation pour z > 0, est bien
gale ez
La loi de Weibull 1 doit ainsi senvisager comme une gnralisation du
modle exponentiel, tout particulirement dans les contextes o ltude porte
sur le temps coul jusqu la ralisation dun certain vnement.

D. La loi logistique
Dfinition
Une v.a. X continue suit une loi logistique si sa fonction densit est donne par :
x -
exp ----------
f ( x ) = ---------------------------------------------------2 avec > 0
x
1 + exp ----------

1. Nomme ainsi en raison des travaux du statisticien sudois Waloddi Weibull qui en a montr
lintrt (entre 1939 et 1954) pour une trs large gamme dapplications, industrielles notamment.

268

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 269 Mercredi, 24. novembre 2010 10:33 10

Un calcul trs simple montre alors que la fonction de rpartition est donne par :
x 1
F ( x ) = 1 + exp ----------

X , on obtient la forme rduite de la distribution
Si on pose Y = ------------
ey logistique, dfinie par la densit ---------------------, et pour laquelle la fonction de
( 1 + ey )2
1
- . La densit de Y est symtrique puisque :
rpartition est --------------1 + ey

1 y
1 y
y
e
e
e y ( e y ) 2- = -------------------ey e
---------------------=
------------------------------=
------------------------------------=
-------------------2
( 1 + ey )2
( 1 + e y )2
(e y + 1) y 2 ( e y + 1 ) 2
1 + 1 ey
e

Ceci conduit constater que la variable Y est centre, E(Y) = 0, et que


E(X) = . Le paramtre de la dfinition de la distribution logistique est
donc gal sa moyenne. Le calcul de la variance donne le rsultat 1 :
2 , ce qui donne :
2 -2
var ( Y ) = ---var ( X ) = ---------3
3

Dunod. La photocopie non autorise est un dlit.

La courbe reprsentative de la densit est encore une courbe en cloche,


en raison dune part, de la symtrie et dautre part, de lexistence dune
asymptote horizontale, dun maximum et de deux points dinflexion. La
comparaison de cette densit avec celle de la loi normale est justifie si lon
choisit des paramtres qui assurent lgalit des moyennes et lgalit des
variances. Compte tenu de ce qui prcde, il faut choisir la loi logistique
de paramtres :
= 0

et

3
= ------- 0,5513

On observe alors ( cf. figure 7.27) que les deux densits sont assez proches. En raison de la symtrie, le coefficient dasymtrie 1 est nul, et la
comparaison entre le coefficient daplatissement 2, gal 0 pour la loi de
Gauss centre rduite et 1,2 pour la loi logistique, traduit bien la limite de
leur ressemblance.
1
1. Le calcul passe par le dveloppement en srie de ----------------- et lutilisation des fonctions eul1
+
ey
riennes.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

269

P211-282-9782100549412.fm Page 270 Mercredi, 24. novembre 2010 10:33 10

0,6
Logistique (0; 1)
Normale (0; 1)
Logistique (0; 0,5513)

Figure 7.27 Densits compares de lois logistiques et de la loi normale centre rduite

Deux relations concernant la loi logistique standard ( = 0 et = 1) sont


particulirement utiles :
f ( y) = F ( y) (1 F ( y))
F( y)
y = ln --------------------
1 F( y)
Elles font ressortir lintrt de la loi logistique dans les situations binaires.
Cette loi est particulirement utile pour modliser des systmes o la rponse
(alatoire) une intervention est du type tout ou rien (ou encore positive
ou ngative). Pour ces situations, on suppose souvent que la proportion de
rponses positives suit une loi logistique et on parle alors danalyse de type
logit . On choisit de prfrence la loi logistique dans ces problmes, mais
certains modlisent par la loi de Gauss et on parle alors danalyse de type
probit . Mais linterprtation mcaniste nest alors pas aussi fine que
celle dcoulant de la loi logistique.
La fonction dfinissant la fonction de rpartition de la loi logistique standard est utilise intensivement pour reprsenter les phnomnes de croissance (entre deux limites) avec le temps. Dans ce contexte, elle est obtenue
en partant dune quation diffrentielle traduisant la proportionnalit en tout
point entre dune part le taux de croissance, et dautre part le produit des
diffrences avec les valeurs extrmes, soit :
dF
------- = c ( F ( x ) l ) ( L F ( x ) )
dx

270

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 271 Mercredi, 24. novembre 2010 10:33 10

Dunod. La photocopie non autorise est un dlit.

V. Bilan
Les modles prsents dans ce chapitre et dans le prcdent sont ceux qui
sont le plus souvent utiliss dans ltude de situations alatoires concrtes. On
noubliera pas cependant que dautres modles prsentent un intrt certain
pour la modlisation. Ils ne peuvent tre prsents ici, mais on se doit de citer :
la loi binomiale ngative ;
la loi log-normale, la loi de Wald, les lois gamma et bta ;
les lois de khi-deux, de Student et de Fisher-Snedecor dcentres.
Dautre part, nous navons envisag que les lois de variables
alatoires
n
valeurs relles. Les distributions de v.a. valeurs dans  nont pas t abordes. Leur utilisation est cependant frquente.
Lensemble de ce chapitre montre lintrt particulier de la loi de Gauss.
Approximation de lois discrtes ou de lois continues, mais aussi loi approche
des moyennes dchantillonnage, la distribution gaussienne est au centre de
ldifice statistique ds quon cherche modliser des situations alatoires.
Ses proprits (symtrie, stabilit aprs transformation linaire) et son utilisation particulirement simple pour les calculs expliquent le recours trs
frquent cette loi. Cependant, on ne doit pas se laisser abuser, et nous avons
vu que plusieurs problmes spcifiques conduisent dautres lois, soit par
construction (cas des lois du khi-deux, de Student, de Fisher-Snedecor), soit
par ajustement (lois de Pareto, exponentielle, logistique, de Weibull).
Le sens de lhypothse de normalit merge de cette position centrale de la
loi de Gauss, comme aussi de son apparence. La loi de Gauss est celle qui
simpose lorsque le phnomne quon tudie ne prsente pas de dterminant
prdominant. En ce sens, la distribution normale correspond une rpartition
sans caractristique ou individualisation particulire. Elle serait donc presque le
modle utiliser si aucun autre ne simposait. Dailleurs, cest historiquement
ainsi quelle a merg pour reprsenter de faon universelle les phnomnes
au sens de la moyenne1 (cest--dire observs comme moyennes arithmtiques).
On se gardera bien de vouloir tout prix poser une hypothse de normalit
dans une attitude descriptive. Rservant la loi de Gauss pour des phnomnes
agrgeant rellement de multiples causes indpendantes les unes des autres
sans cause prdominante, on recherchera toujours le modle (moins passepartout, mais donc plus savoureux et surtout plus riche) dcrivant vraiment au mieux les observations. La controverse entre univers gaussien et univers partien en est une illustration.
1. Dabord par Laplace la fin du 18e sicle, puis par Gauss en 1809, et enfin par Galton en 1889.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

271

P211-282-9782100549412.fm Page 272 Mercredi, 24. novembre 2010 10:33 10

On noubliera pas :
1. Pour la loi de Gauss
La symtrie par rapport la moyenne.
La pratique des calculs par centrage et rduction
Xm
-  ( 0 ;1 )
X  ( m ; ) U = ------------
Son intrt comme modle approch (limite centrale, lois binomiale
et de Poisson).
Une somme de gaussiennes indpendantes est une gaussienne.
2. Pour les lois drives de la loi de Gauss
X 1 , X 2 , , X v gaussiennes centres rduites
1

Y 1 , Y 2 , , Y v gaussiennes centres rduites


2
toutes indpendantes
Z1 =

i=1

X 2i 2 ( 1 )

khi-deux 1 degrs de libert


loi dissymtrique
de moyenne 1 et de variance 2 1

Z 2=

j=1

Y 2j 2 ( 2 )

khi-deux 2 degrs de libert


loi dissymtrique
de moyenne 2 et de variance 2 2

U (0 ; 1)
U et Z1 indpendantes
U
T = ---------- est une v.a. symtrique,
1
Z
-----1centre :
1

Z
Z 1 / 1
F ( 1, 2 ) = ------------- = ----2- -----11 Z 2
Z 2 / 2

loi de Student 1 degrs de libert

est une v.a. dissymtrique :


loi de Fisher-Snedecor
1 et 2 degrs de libert

( 1 = 1 ) F ( 1 , 2 ) = T 22

3. La loi de Pareto de paramtres x0 et peut dcrire des grandeurs au


moins gales x0 et pour lesquelles le nombre dobservations qui dpassent un seuil x est proportionnel x . Son moment dordre k nexiste que
pour k < . Cest une loi dissymtrique.
4. La loi de Weibull standard de paramtre c est une loi dissymtrique
souvent utilise pour dcrire le temps coul jusqu la ralisation dun
vnement donn (dcs, faillite, panne, reprise dactivit). Elle gnralise la loi exponentielle.

272

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 273 Mercredi, 24. novembre 2010 10:33 10

Testez-vous (les rponses sont donnes page 287)


1. Une variable alatoire de Bernoulli :
a) a une loi de probabilit ne dpendant que dun seul paramtre
b) a une esprance gale son cart-type
c) a une variance maximum lorsque son paramtre est gal 0,5
d) est une variable indicatrice
2. Si X suit une loi binomiale (n ; p) :
a) X est la somme de n v.a. de Bernoulli de mme esprance mathmatique
b) X est la somme de n v.a. de Bernoulli indpendantes
c) lcart-type de X est gal np(1 p)
d) Y = X + 1 suit une loi binomiale (n ; p)
3. Soit X une variable alatoire binomiale (n ; p) et Y = n X :
a) pour toute valeur entire k comprise entre 0 et n, P(X = k) = P(Y = n k)
b) Y suit une loi binomiale (n ; 1 p)
c) X et Y ont mme esprance mathmatique
d) X et Y ont mme variance
4. Si X suit une loi de Poisson de paramtre 10 :
a) var(X) = 10
b) P(X = 10) = P(X = 9)
c) Y = 2X + 1 suit une loi de Poisson de paramtre 21
d) la fonction de rpartition de X est une fonction continue

Dunod. La photocopie non autorise est un dlit.

5. Si X suit une loi gomtrique de paramtre p :


a) on peut aussi dire que X suit une loi de Pascal
b) X est une somme de v.a. de Bernoulli indpendantes de paramtre p
c) lesprance de X dpend du nombre de tirages
d) E(X) > var(X)
6. Si X est distribue selon une loi (n ; p) :
a) si n = 10 et p = 0,1, alors P(X = 4) = P(X = 5)
b) si n = 60 et p = 0,05, alors P(X 3) = 0,5768
c) si n = 4 et p = 0,01, alors P(X = 0) 0,96
d) si n = 50 et p = 0,08, alors P(3 < X 10) = 0,573
7. Pour une population distribue selon une loi de Gauss (1 ; 1) :
a) la mdiane est gale 1
b) la moyenne est gale 0
c) le quart des individus est caractris par une valeur suprieure 1
d) la moiti des individus est caractrise par une valeur infrieure 0

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

273

P211-282-9782100549412.fm Page 274 Mercredi, 24. novembre 2010 10:33 10

8. Pour une population distribue selon une loi (0 ; 1), le pourcentage dindividus qui sont caractriss par une valeur comprise entre 1,96 et + 1,96 est gal :
a) 75%
b) 90%
c) 95%
d) 99%
9. Si X suit une loi de Gauss (2 ; 5) :
a) P ( X = 2 ) = FU ( 0 ) = 1/3 2
b) P(X < 1) = P(X > + 3) = 0,4207
c) P( 3 < X < + 3) = 0,4206
d) P(1 < X < 3) = 0,1586
10. Si X suit une loi de Gauss (m ; ) :
a) P(X > m) = 0,5
b) sa moyenne est gale sa mdiane
c) Fx(m + x) = Fx(m x)
d) le graphe de la densit est symtrique par rapport la droite dquation x = 0
11. Si X est une variable alatoire (1 ; 1) et Y une variable alatoire
(1000 ; 0,01) et si X et Y sont indpendantes :
a) E(X + Y) = 11
b) var(X + Y) = 10,9
c) Y suit approximativement une loi de Poisson de paramtre 10
d) le coefficient de corrlation linaire entre X et Y est gal + 1
12. Si une population est reprsente par une variable alatoire X de loi (m ; ) :
a) 25% des individus scartent de la moyenne de plus dun cart-type
b) 50 % des individus sont au-dessus de la moyenne
c) peu prs 5 % des individus scartent de la moyenne de plus de 2 fois lcart-type
d) Fx(m + x) = 1 Fx(m x)
13. Si X est une variable alatoire (1 ; 1) et Y une variable alatoire
(100 ; 0,5) et si X et Y sont indpendantes :
a) E(X + Y) = 51
b) X suit approximativement une loi de Poisson de paramtre 50
c) X + Y suit approximativement une loi de Gauss
d) Z = 2X + 3 suit une loi de Gauss
14. Soit X une variable alatoire ( 3 ; 1) :
a) X est une variable alatoire rduite
b) X + 3 est une variable alatoire centre rduite
c) P(X + 3 > 0) = P(X + 3 < 0)
d) E(X2) = 1

274

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 275 Mercredi, 24. novembre 2010 10:33 10

15. Si X suit une loi exponentielle de paramtres = 0 et = 2


a) la fonction de rpartition de X est une fonction continue
b) lesprance de X est gale sa variance
c) la fonction de densit de X est une fonction qui admet un axe de symtrie
d) X ne prend que des valeurs suprieures 2
16. Soit Y une somme de n variables alatoires indpendantes X1, X2, Xn :
a) si les Xi sont des v.a. binomiales, alors Y suit une loi binomiale
b) si les Xi suivent des lois de Gauss, alors Y suit une loi de Gauss
c) si les Xi suivent des lois exponentielles, alors Y suit une loi exponentielle
d) si les Xi suivent des lois de Pareto, alors Y suit une loi de Pareto
17. Si la demande hebdomadaire dun produit dans un magasin suit une loi binomiale (30 ; 0,45), alors si on suppose les demandes hebdomadaires indpendantes entre elles, la demande annuelle de ce mme produit (1 an = 52 semaines) :
a) suit une loi binomiale (1560 ; 0,45)
b) suit approximativement une loi de Gauss (702 ; 19,65)
c) est une somme de v.a. de Bernoulli indpendantes
d) ne peut pas tre gale 1 600

Dunod. La photocopie non autorise est un dlit.

18. Si la demande quotidienne dun produit dans un magasin suit une loi binomiale (40 ; 0,05), alors si on suppose les demandes quotidiennes indpendantes
entre elles, la demande de ce mme produit pour 25 jours de fonctionnement de
ce magasin suit :
a) peu prs une loi de Poisson (50)
b) peu prs une loi normale (50 ; 6,9)
c) une loi binomiale (40 ; 0,2)
d) une loi de Poisson (0,2)

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

275

P211-282-9782100549412.fm Page 276 Mercredi, 24. novembre 2010 10:33 10

Exercices (corrigs page 324)


Exercice 7.1
Le prix X dun certain article est suppos distribu selon une loi de Gauss de paramtres m = 45 et = 4
1. Calculez P(X < 39), P(X 48) et P(35 < X < 48)
2. Calculez P ( X m )
3. Calculez P ( 41 X 49 X 39 )
Exercice 7.2
Les gains mensuels en euros dun reprsentant sont supposs suivre une loi normale.
Il a pu constater, sur un grand nombre de mois, la rpartition suivante de ses gains :
Gain > 3 000 : 4,46 %
2 400 < Gain 3 000 : 93,26%
Gain 2 400 : 2,28%
1. Calculez la moyenne et lcart-type de la loi normale envisage.
2. Si on suppose les gains du reprsentant indpendants dun mois lautre, quelle
est la loi de probabilit de la variable alatoire gale au gain du reprsentant pendant 3 mois ?
3. Quelle est la probabilit que le reprsentant gagne plus de 8 700 en 3 mois ?
Exercice 7.3
Une usine fabrique des imprimantes laser dont la dure de vie X (exprime en millions de pages) est une variable alatoire normale (2 ; 0,3).
1. Calculez la probabilit p que la dure de vie dune imprimante tire au hasard dans
la production soit suprieure 2,5 millions de pages. Dans la suite de lexercice,
on arrondira cette probabilit p pour ne conserver que 2 chiffres aprs la virgule.
2. On teste 60 imprimantes tires au hasard dans la production. Dterminez, en la
justifiant, la loi de la variable Y gale au nombre dimprimantes dont la dure de
vie est suprieure 2,5 millions de pages. Donnez, en la justifiant, une loi approche de Y.
3. Calculez la probabilit que parmi les 60 imprimantes testes :
exactement 10 % des imprimantes aient une dure de vie suprieure
2,5 millions de pages,
au moins 5 % des imprimantes aient une dure de vie suprieure 2,5 millions de
pages.
Exercice 7.4
Un groupe de presse dcide de lancer un nouveau quotidien. Une enqute permet de
conclure que, pendant les 30 jours conscutifs la date du lancement, la demande
journalire (exprime en milliers dexemplaires) est une v.a. X dont la loi de probabilit peut tre considre comme une loi normale de paramtres m = 100 et = 25.
1. Calculez la probabilit davoir pendant la priode considre :
une demande journalire comprise entre 75 et 125 ;
une demande journalire de plus de 150.

276

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 277 Mercredi, 24. novembre 2010 10:33 10

2. Calculez les valeurs n1 et n2 telles que :


la demande journalire soit suprieure n1, 9 jours sur 10 ;
la demande journalire soit infrieure n2, 4 jours sur 10.
3. Dterminez un intervalle symtrique autour de m ayant 90 % de chances de
contenir la demande journalire.

Dunod. La photocopie non autorise est un dlit.

Exercice 7.5
Un vigneron commercialise des vins de qualit diffrentes quil rpartit en deux
classes : la classe des vins courants dits du terroir , la classe des vins de qualit,
appels grand cru , et vendus 6 la bouteille. Malgr le soin apport lembouteillage, il subsiste des erreurs dtiquetage, et on admet quun acheteur de vin
grand cru aura une probabilit p = 0,12 davoir en fait une bouteille de vin ordinaire.
1. Un restaurateur achte 200 bouteilles grand cru au vigneron. Soit Y la v.a.
gale au nombre de bouteilles de vin courant parmi les 200 bouteilles achetes.
Dterminez la loi de probabilit de la v.a. Y, ainsi que son esprance et sa variance.
Donnez, en la justifiant, une approximation de la loi de Y.
2. Calculez : P(Y > 20) et P(Y < 30 Y > 20).
3. Au fur et mesure de la consommation des 200 bouteilles, le restaurateur a pu dtecter chacune des bouteilles de type courant. Il dcide alors de ne payer que les bouteilles de qualit effectivement livres et de refuser tout paiement pour les
bouteilles de vin ordinaire.
Calculez, dans cette hypothse, la probabilit dun bnfice nanmoins positif pour
le vigneron sachant que chaque bouteille de vin courant lui revient 1,5
et que
chaque bouteille de vin de qualit lui revient 3,5 .
Exercice 7.6
Lors la naissance de jumeaux, on note la probabilit quil sagisse de vrais jumeaux
et on fait les deux hypothses suivantes :
i) deux vrais jumeaux sont toujours de mme sexe, et la probabilit quils soient des
garons est gale 1/2 ;
ii) deux faux jumeaux ont des sexes indpendants et chacun des deux enfants est un
garon avec une probabilit gale 1/2.
Soit A, B et C les vnements suivants relatifs la naissance de deux jumeaux :
A = { 2 garons }
B = { 2 filles }
C = { 1 garon et une fille }
1. Calculez en fonction de les probabilits des vnements A, B et C.
2. Soit Y la variable alatoire gale au nombre de fois o on a eu un garon et une
fille sur 1 000 naissances de jumeaux.
Donnez en fonction de , et en la justifiant, la loi de probabilit de la variable
alatoire Y.
Donnez lesprance et la variance de Y en fonction de .
3. On suppose = 0,35 ; par quelle loi peut-on approximer la loi de Y ? (justifiez
votre rponse).
Dterminez les probabilits des vnements { Y > 300} et {310 Y 350 Y > 300}.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

277

P211-282-9782100549412.fm Page 278 Mercredi, 24. novembre 2010 10:33 10

Exercice 7.7
Aprs avoir fait remplir un long questionnaire portant sur laudience de la presse
magazine 200 individus, un institut de sondage a tabli la distribution suivante pour
la dure dinterview (en minutes) concernant ces 200 individus :
Dure
(min)

< 25

Effectif

18

[25 ; 30[ [30 ; 35[ [35 ; 40[ [40 ; 45[ [45 ; 50[
32

36

40

30

24

50
20

1. Calculez la mdiane de cette distribution.


2. On ajuste cette distribution par une loi normale (37 ; 10). Reprsentez le diagramme quantile-quantile. Quel jugement permet-il de porter sur la qualit de
ladquation de la distribution observe ce modle thorique ?
3. On suppose pour la suite de ce problme que la dure X dune interview suit une
loi normale (37 ; 10).
3.1. Soient X1, X2, , Xn les variables alatoires associes aux dures de n interviews, on suppose les v.a. Xi indpendantes et identiquement distribues X.
1 n
Que reprsente la variable alatoire X n = --- X i ? Donnez, en la justifiant,
ni = 1
sa loi en fonction de n.
3.2. Calculez la probabilit que la dure moyenne de 6
35 minutes.

interviews nexcde pas

3.3. Pour quelles valeurs de n, la dure moyenne de n interviews nexcde pas


45 minutes avec une probabilit au moins gale 0,99 ?
Exercice 7.8
Durant une anne, on a observ que 70 % des actions enregistres sur le march boursier de Londres ont augment de valeur, tandis que 30 % sont restes stationnaires ou
ont baiss.
1. Au dbut de lanne, un service de conseils financiers a choisi 10 actions pour les
placer dans la rubrique des actions spcialement recommandes .
1.1. Pour un non-initi qui considrait ces 10 actions choisies alatoirement (au
hasard et avec remise), donnez, en la justifiant, la loi de probabilit du nombre dactions la hausse.
1.2. Calculez les probabilits des vnements suivants :
accroissement de valeur pour au moins 8 actions ;
accroissement de valeur pour moins de 4 actions.
2. On considre maintenant que le service de conseils financiers a choisi 100 actions.
Toujours pour un non-initi qui considrait ces 100 actions choisies alatoirement
(au hasard et avec remise), calculez, en justifiant le recours une loi de probabilit
approche, les probabilits des vnements suivants :
accroissement de valeur pour au moins 80 % des actions ;
accroissement de valeur pour moins de 40 % des actions.
Daprs examen de juin 2002, GEA 1 re anne Paris IX-Dauphine

278

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 279 Mercredi, 24. novembre 2010 10:33 10

Exercice 7.9
Un appareil lectronique est soumis des impulsions spares par des intervalles de
temps variables, indpendants les uns des autres. On suppose que la dure Y (exprime en secondes) sparant deux impulsions successives est une v.a. dfinie ainsi :
Y = 2 + X
o est un paramtre strictement positif et X une v.a. exponentielle de paramtre 1.
1. Dterminez en fonction de :
E(Y) et var(Y) ;
la fonction de rpartition de la variable alatoire Y.
2. On suppose dans cette question le paramtre gal 5.
2.1. Calculez P(Y < 2) et P(2 Y 5).
2.2. Afin dtudier si la loi thorique retenue pour Y reprsente bien le phnomne
tudi, on a mesur de faon indpendante 10 dures sparant 11 impulsions
successives et on a obtenu les rsultats suivants en secondes :
2,3 3,5 3,9 4,7 5,1 6,8 7,9 9,6 13,1 15,5
Tracez le diagramme quantile-quantile pour juger la qualit de lajustement
de cette distribution observe par la loi retenue. Conclusion.
Exercice 7.10
Afin de mieux connatre sa clientle, le grant du cinma Paradiso fait procder un
sondage. Il obtient pour un chantillon alatoire de taille 100 la rpartition par ge
suivante :
ge

< 15 ans [15 ; 20[ [20 ; 25[ [25 ; 30[ [30 ; 35[ [35 ; 40[ [40 ; 50[

Effectif

13

22

28

15

10

50 ans

1. Calculez la moyenne et lcart-type de cette distribution ; on supposera lge minimum gal 10 ans et lge maximum gal 70 ans.
2. Calculez la mdiane de cette distribution.

Dunod. La photocopie non autorise est un dlit.

3. On suppose que la distribution de lge des clients du cinma Paradiso suit une loi
normale de paramtres m = 28 ans et = 9,5 ans.
3.1. Quel est le pourcentage thorique des clients qui ont entre 18 et 35 ans ?
Calculez le pourcentage observ, partir de lchantillon de taille 100, pour
la mme classe dge.
3.2. Calculez lge thorique A tel que 75 % des clients ait un ge suprieur A.
Calculez, partir de lchantillon, lge A tel que 75 % des individus de
lchantillon ait un ge suprieur A. Comment sappelle cette valeur A ?
4. Tracez le diagramme quantile-quantile pour juger la qualit de lajustement de la
distribution observe par une loi normale de paramtres m = 28 ans et = 9,5 ans.
Lhypothse prcdente vous semble-t-elle justifie ?
Exercice 7.11
On considre que la dure du temps dattente T (mesur en minutes) du bus que doit
prendre Valrie pour se rendre lUniversit, est distribue selon une loi exponen-

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

279

P211-282-9782100549412.fm Page 280 Mercredi, 24. novembre 2010 10:33 10

tielle de moyenne 5 mn, cest--dire que la variable alatoire


probabilit suivante :
1 t/5
--- e
fT (T ) = 5
0

si

T admet la densit de

t0

sinon

1. Quelle est la fonction de rpartition de la variable alatoire T ?


2. Quelle est la probabilit que le temps dattente T dpasse 8 minutes ? Dans la suite
de lexercice, on arrondira cette probabilit sa premire dcimale.
3. Valrie utilise le mtro avec un seul ticket si elle attend le bus plus de 8
mn. Il
faut deux tickets pour le bus, mais Valrie a une nette prfrence pour le bus quelle
utilise si le temps dattente ne dpasse pas 8 mn. Soit Y, le nombre de trajets allers
effectus en bus en n jours.
3.1. Donnez, en la justifiant, la loi de Y.
3.2. Calculez son esprance et sa variance.
4. Soit Z, la variable alatoire gale au nombre de tickets utiliss par Valrie pour
ses trajets allers en n jours.
4.1. Dterminez la loi de Z.
4.2. Calculez son esprance et sa variance.
Daprs examen de septembre 2002, GEA 1 re anne Paris IX-Dauphine
Exercice 7.12
Le tableau ci-dessous donne les dix meilleurs rsultats nets des grandes entreprises
franaises en 2001 (Source
: Tableaux de lconomie Franaise 2003-2004,
INSEE) :
Socit

Rsultats nets (millions d)

TotalFinaElf
Suez
PSA Peugeot Citron
Sanofi-Synthlabo
Aventis
LOral
Carrefour
Saint Gobain
Renault
Gaz de France

7 658 = x10
2 087 = x9
1 691 = x8
1 585 = x7
1 505 = x6
1 291 = x5
1 266 = x4
1 134 = x3
953 = x2
891 = x1

Soit Fi la proportion dentreprises dont les rsultats nets X sont infrieurs xi.
1. Peut-on considrer les 10 points de coordonnes {{ln( xi), ln(l Fi)}, i = 1 10}
approximativement aligns ? (On calculera le coefficient de corrlation linaire et
les coefficients de la droite des moindres des carrs).
Reprsentez graphiquement le nuage de ces 10
moindres carrs.

280

points, ainsi que la droite des

INTRODUCTION LA MTHODE STATISTIQUE

P211-282-9782100549412.fm Page 281 Mercredi, 24. novembre 2010 10:33 10

2. En dduire que lon peut ajuster la distribution de


X par une loi de Pareto de
paramtres et x0 quon valuera laide des rsultats prcdents.
Exercice 7.13 (suite de lexercice 3.9)
On choisit le modle quadratique puisque la part de variation de Y non explique par
ce modle est plus faible quavec le modle linaire.
On envisage un ajustement de la distribution des rsidus du modle quadratique par
une loi de Gauss de paramtres m = 0 et = 22.
1. Calculez la srie des 12 rsidus de ce modle, et rangez-les par ordre croissant.
2. Reprsentez le diagramme Quantile Quantile.
Quel jugement permet-il de porter sur la qualit de ladquation de cette distribution par la loi de Gauss envisage ?
Daprs examen de juin 2006, DUGEAD 1re anne Paris Dauphine

Exercice 7.14
Une socit de fabrication de boissons dcide de lancer une nouvelle boisson faible
teneur en sucre. Les tudes effectues montrent que la teneur X dune bouteille dun
litre de cette boisson suit une loi normale de moyenne 70 g et dcart-type 25 g.
1. Calculez la probabilit que la teneur en sucre dune bouteille dun litre diffre de
la teneur moyenne dau plus 10 g.
2. On choisit au hasard 25 bouteilles. Soient X1, X2, ... , X25 les variables alatoires
associes. On les suppose indpendantes et identiquement distribues X.
1
Que reprsente la variable alatoire X = ----25

25

? Donnez sa loi (justifier).

i=1

Calculez la probabilit que la teneur moyenne en sucre des 25 bouteilles diffre


de la moyenne m = 70 g dau plus 10 g.
3. La socit dcide de modifier lgrement la fois la composition et le procd de
fabrication. La variable X suit maintenant une loi normale de moyenne
m et
dcart-type avec m et inconnus. Les essais conduisent aux observations
suivantes :

Dunod. La photocopie non autorise est un dlit.

Teneur xi
Fi

40

50

60

70

80

90

100

0,11

0,23

0,40

0,60

0,77

0,89

10,96

Dterminez les fractiles ui dfinis par FU(ui) = Fi o FU dsigne la fonction de


rpartition de la loi normale centre rduite.
Reprsentez le nuage des points ( ui, xi).
En dduire une valuation de chacun des nouveaux paramtres m et en utilisant
la mthode des moindres carrs.

LES PRINCIPAUX MODLES STATISTIQUES CONTINUS

281

P211-282-9782100549412.fm Page 282 Mercredi, 24. novembre 2010 10:33 10

Exercice 7.15
On donne la srie statistique ordonne des niveaux de vente d'une revue hebdomadaire dans 100 points de distribution pour une semaine donne :
32

40

53

54

59

65

66

72

75

80

84

85

89

93

95

95

95

101

104

105

105

105

105

106

107

107

108

110

111

111

112

113

113

114

114

115

116

119

119

122

122

122

123

124

124

124

124

126

127

127

127

127

127

129

129

130

130

130

130

130

131

132

132

135

135

138

138

140

141

141

142

143

143

143

144

146

147

150

152

152

153

156

156

158

158

158

158

158

159

160

160

162

166

166

168

170

176

192

195

196

La moyenne de cette srie d'observations est gale 124,6 et l'cart-type 32


1. Dterminez les trois quartiles de cette distribution. Proposez trois indicateurs de
tendance centrale, deux indicateurs de dispersion, et donnez leurs valeurs.
2. On note X la variable alatoire suivant une loi (125 ; 30)
2.1 Calculez la probabilit que la v.a. X appartienne l'intervalle centr en sa
moyenne et de longueur gale :
a) 2 fois l'cart-type
b) 4 fois l'cart-type
2.2 Dterminez les dciles de la distribution de la v.a. X, c'est--dire les valeurs xi
(1 i 9) telles que :
P(X < xi) = i/10
3. Classez la distribution observe en 10 classes dtermines par les dciles xi calculs prcdemment (question 2.2).
4. Comparez laide dun diagramme les frquences cumules observes avec les
frquences cumules thoriques (probabilits cumules en pourcentage) pour
apprcier la qualit de l'ajustement de la distribution observe par la loi (125 ; 30).
Conclusion.
Daprs examen de septembre 2009, DEGEAD 1 re anne Paris Dauphine

282

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 283 Mercredi, 24. novembre 2010 10:57 10

Rponses aux

questionnaires
Testez-vous
Chapitre 1
1. Bonnes rponses : b) et c)
Trois quartiles sparent lintervalle de variation [min( X), max( X)] en quatre intervalles
contenant chacun le quart de leffectif, donc 75 % des observations sont suprieures au
1er quartile.
2. Bonnes rponses : a), b) et d)
La bote de distribution contient 50 % des observations et la mdiane, gale la moyenne,
est le milieu de lintervalle interquartile.

Dunod. La photocopie non autorise est un dlit.

3. Bonnes rponses : c) et d)
On ne peut utiliser dans ce cas que des caractristiques indpendantes des units.
4. Bonnes rponses : a) et b)
La mdiane de la srie des carts absolus la moyenne est une mesure de la dispersion ;
les quartiles Q1 et Q3 sont des indicateurs de position, mais non de tendance centrale.
5. Bonnes rponses : c) et d)
Pour calculer la note moyenne et lcart-type des deux classes runies, il faut utiliser des
formules avec des pondrations ( III.B.1 pour la proprit 4 de la moyenne et III.C.4
pour la proprit 4 de la variance).
Lcart absolu moyen la mdiane est le plus petit cart absolu moyen ( III.C.3), dautre
part, lcart-type est toujours suprieur lcart absolu moyen la moyenne arithmtique
( III.C.4), donc, lcart absolu moyen des notes la mdiane est au plus gal 4 pour
la classe 1.
6. Bonnes rponses : a) et d)
7. Bonne rponse : c)
Se rfrer la moyenne gomtrique ( III.B.2).

RPONSES AUX QUESTIONNAIRES TESTEZ-VOUS

283

P283-334-9782100549412.fm Page 284 Mercredi, 24. novembre 2010 10:57 10

8. Bonnes rponses : b) et c)
9. Bonnes rponses : a) et c)

Chapitre 2
1. Bonne rponse : b)
Lindice des prix actuellement calcul par lINSEE est un indice-chane de Laspeyres.
2. Bonne rponse : c)
Un indice de Paasche est souvent un indice des quantits, mais il peut aussi tre un indice
des prix ( II.A).
Lindice de Paasche est souvent infrieur lindice de Laspeyres, mais les pondrations
de ces deux indices ntant pas les mmes, il est possible que cette proprit ne soit pas
vrifie ( II.C).
3. Bonnes rponses : a), b) et c)
Un indice des dpenses ou du cot de la vie sert mesurer lvolution du niveau des
dpenses de consommation entre deux priodes distinctes.
Sagissant des sommes dbourser par un mnage compte tenu des prix, mais aussi des
quantits achetes, cest un indice de valeur qui est donc rversible et transitif.
4. Bonnes rponses : a), b) et d)
Le taux annuel moyen de variation peut tre dtermin graphiquement en utilisant une
reprsentation graphique avec une ordonne logarithmique ( IV.A).
5. Bonnes rponses : c) et d)
Le taux de croissance pour priode 1999-2001 est gal :
1,029 1,038 1,021 1 9 %

Chapitre 3
1. Bonnes rponses : a) et d)
2. Bonnes rponses : a), b) et c)
On a deux variables lies par une relation linaire inverse, leur coefficient de corrlation
linaire est gal 1 et les pentes des deux droites des moindres sont ngatives.

284

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 285 Mercredi, 24. novembre 2010 10:57 10

3. Bonnes rponses : a) et b)
Le nuage de points est form de 2 points, et par 2 points, on peut faire passer une droite,
la reprsentation graphique nous montre que la droite est de pente positive,
on a donc
r=+1
4. Bonne rponse : c)
Cette question a pour objectif de sensibiliser lattention qui doit tre ncessairement
porte la signification des variables ( II.E).
5. Bonnes rponses : b), c) et d)
On a un tableau de profils en colonne.
6. Bonnes rponses : a), b) et d)
La moyenne x est une moyenne pondre des moyennes conditionnelles ( I.C) ; en ce qui
concerne les moyennes conditionnelles, elles sobtiennent partir du tableau de con tingence, ou partir du tableau des profils en lignes pour les moyennes conditionnelles de
Y X fix et du tableau des profils en colonnes pour les moyennes conditionnelles de X
Y fix.
7. Bonnes rponses : a), b) et d)
Si a = 20 et b = 5, il y a indpendance puisque les profils en colonnes sont identiques
(r = 0).
Si a = 0 et b = 0, alors on a seulement deux observations diffrentes sur deux variables
et dans ce cas, r = 1 puisque le nuage de points est rduit deux points (ici r = 1).
Si a = 0 et b = 10, il ny a ni indpendance, ni liaison linaire, donc r 1 et r 0 (en
fait r = 0,5).
Si a = 10 et b = 10, il y a indpendance puisque les profils en lignes sont identiques.
8. Bonne rponse : d)
Lorsquon connat les marges, il suffit de connatre ( k 1) ( l 1) effectifs du tableau
de contingencedu fait des liaisons entre les effectifs marginaux et les effectifs du tableau ;
le nombre ( k 1) ( l 1) est appele nombre de degrs de libert .

Dunod. La photocopie non autorise est un dlit.

9. Bonnes rponses : a), c) et d)


26 % des malades ont pris un somnifre et ont bien dormi.
10. Bonnes rponses : a) et d)
On a un tableau de profils en colonnes. Si les deux variables nominales taient indpendantes, les deux profils-colonnes seraient identiques.
Les pourcentages de deux lignes ne saditionnent pas. Pour calculer le pourcentage total
des salaris (hommes et femmes runis), il faut utiliser les effectifs (total des emplois).
On obtient pour les non-salaris :
(13,4 13 670 + 7,3 12 243)/(13 670 + 12 243) = 10,5 %
Et pour les salaris :
(86,6 13 670 + 92,7 12 243)/(13 670 + 12 243) = 89,5 %

RPONSES AUX QUESTIONNAIRES TESTEZ-VOUS

285

P283-334-9782100549412.fm Page 286 Mercredi, 24. novembre 2010 10:57 10

Chapitre 4
1. Bonnes rponses : a), c) et d)
Il y a ( T p + 1) moyennes mobiles centres de longueur impaire p et ( T p ) moyennes
mobiles centres de longueur paire p.
2. Bonne rponse : b) et d)
Si le facteur saisonnier est proportionnel la tendance, on choisit le modle multiplicatif,
et dans ce cas, la courbe joignant les maxima est peu prs parallle celle qui joint les
minima sur un graphique ordonne logarithmique ( II).
Des maxima distants de 5 dates peuvent indiquer une composante saisonnire de priode
5, mais cette seule information nest pas suffisante pour choisir le modle adapt.
3. Bonnes rponses : a) et b)
La moyenne mobile centre de longueur
p rend constante les sries priodiques de
priode p et de priode sous-multiple de p.
La moyenne mobile centre de longueur 2 p liminent la composante saisonnire de
priode p puisque la somme des coefficients saisonniers sur une priode est nulle.
La somme de p termes successifs divise par p donne une valuation de la tendance pour
la date correspondant celle du terme du milieu des p termes.
On peut calculer (T p) moyennes mobiles centres de longueur p si p est pair, et (T p + 1)
moyennes mobiles centres de longueur p si p est impair, on a donc toujours au moins ( T p)
moyennes mobiles centres.
4. Bonnes rponses : c) et d)
Le lissage exponentiel simple ne peut senvisager que pour une chronique sans saisonnalit et sans volution tendancielle ; la prvision tient dautant plus compte des valeurs
rcentes de la srie que la constante de lissage est leve.

Chapitre 5
1. Bonnes rponses : a) et d)
2. Bonnes rponses : a) et b)
3. Bonne rponse : c)
4. Bonnes rponses : b) et d)
Car P(AB) = P(A) + P(B) P(AB) et A et B tant indpendants, P(AB) = P(A) P(B)

286

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 287 Mercredi, 24. novembre 2010 10:57 10

5. Bonnes rponses : c) et d)
Soit A lvnement le livre est touch par au moins un des chasseurs , alors
P(A) = 1 P ( A )
6. Bonnes rponses : c) et d)
7. Bonnes rponses : a), b) et d)
8. Bonnes rponses : b) et c)
9. Bonnes rponses : a) et d)
Seule la loi de probabilit dune variable alatoire continue est dfinie par une fonction
de densit.
10. Bonnes rponses : b) et c)
11. Bonne rponse : a)
La rponse d) est vraie si a est positif.
12. Bonnes rponses : a), b) et d)
13. Bonnes rponses : a) et c)
14. Bonnes rponses : a) et c)
15. Bonnes rponses : a), b) et c)
Puisque P { ( X = x i ) ( Y = y i ) } = P ( X = x i Y = y i ) P ( Y = y i )
on peut calculer la loi jointe ;
P( X = 1) = P( X = 1 Y = 1) P(Y = 1) + P( X = 1 Y = 2) P(Y = 2)
+ P ( X = 1 Y = 3 ) P ( Y = 3 ) = 0,2

Dunod. La photocopie non autorise est un dlit.

16. Bonnes rponses : a), b) et c)


17. Bonne rponse : a)
Pour spcifier la loi jointe, il faut connatre en sus des k lois conditionnelles { Y X = xi}
la loi marginale de X, ou en sus des l lois conditionnelles {X Y = yj} la loi marginale de Y.

Chapitres 6 et 7
1. Bonnes rponses : a), c) et d)
2. Bonnes rponses : a) et b)
3. Bonnes rponses : a), b) et d)

RPONSES AUX QUESTIONNAIRES TESTEZ-VOUS

287

P283-334-9782100549412.fm Page 288 Mercredi, 24. novembre 2010 10:57 10

4. Bonnes rponses : a) et b)
5. Bonnes rponses : a) et b)
6. Bonnes rponses : b), c) et d)
La loi (60 ; 0,05) peut tre approche par une loi (3)
P(X 3) = 1 P(X 2) = 0,5768
si n = 4 et p = 0,01 : P(X = 0) = (0,99) 4 0,96
si n = 50 et p = 0,08 : P(3 < X 10) = P(X 10) P(X 3) = 0,573
7. Bonne rponse : a)
8. Bonne rponse : c)
9. Bonnes rponses : b), c) et d)
P(X = 2) = 0, car pour une variable alatoire continue, la probabilit dun point est nulle.
10. Bonnes rponses : a) et b)
11. Bonnes rponses : a), b) et c)
Les v.a. X et Y tant indpendantes, leur coeficient de corrlation linaire est nul.
12. Bonnes rponses : b), c), et d)
13. Bonnes rponses : a), c) et d)
On peut approcher la loi de Y par une loi de Gauss, X et Y tant indpendantes, la v.a.
(X + Y) suit approximativement une loi de Gauss puisque la somme de deux variables
alatoires gaussiennes indpendantes est gaussienne .
14. Bonnes rponses : a), b) et c)
E(X2) = var(X) + (E(X))2 = 10
15. Bonne rponse : a)
Pour une v.a. exponentielle, lesprance est gale lcart-type et ses valeurs possibles
sont suprieures , donc 0.
16. Bonne rponse : b)
Une somme de variables alatoires binomiales indpendantes suit une loi binomiale si
tous les paramtres pi sont gaux.
17. Bonnes rponses : a), b), c) et d)
18. Bonnes rponses : a) et b)
La demande du produit pour 25 jours de fonctionnement suit une loi (1 000 ; 0,05), et on
est dans les conditions dapproximation par la loi normale et aussi par la loi de Poisson.

288

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 289 Mercredi, 24. novembre 2010 10:57 10

Corrigs

des exercices*
Chapitre 1
Exercice 1.1

Dunod. La photocopie non autorise est un dlit.

1. Population : forme des 5 sous-populations (non disjointes) de lensemble des familles


en France en 1968, 1975, 1982, 1990 et 1999 .
Unit statistique : une famille parmi cet ensemble de familles .
Caractre tudi : nombre denfants de 0 18 ans en milliers, caractre quantitatif discret.
2. Le nombre total de familles, le nombre de familles sans enfant, le nombre de familles
avec 1 enfant, le nombre de familles avec 2 enfants augmentent au cours de la priode
1968-1999, tandis que le nombre de familles de 4 enfants et le nombre de familles de
5 enfants ou plus diminuent. Le nombre total denfants augmente de 1968 1975, et
diminue ensuite.
3. Pour tracer les diagrammes en btons, il est prfrable dutiliser les distributions de
frquences (en %).
Familles avec enfants
1 enfant
2 enfants
3 enfants
4 enfants
5 enfants ou plus
Total frquences
Nombre total denfants
Moyenne
cart-type

1968
6 760
40,3
30,4
15,7
7,1
6,5
100
14 569
2,16
1,88

1975
7 340
42,4
32,3
14,8
5,8
4,7
100
14 826
2,02
1,58

1982
7 610
43,4
35,9
14,2
4,1
2,4
100
14 294
1,88
1,14

1990
7 491
43,8
36,8
14,2
3,5
1,8
100
13 748
1,84
1,01

1999
7 418
44,7
37,4
13,6
3,1
1,2
100
13 308
1,79
0,89

Mode de chaque distribution : 1 enfant


Le nombre de familles nombreuses diminuant, la dispersion autour de la valeur moyenne
diminue.
* Les onglets renvoient au chapitre du cours correspondant.

CORRIGS DES EXERCICES

289

P283-334-9782100549412.fm Page 290 Mercredi, 24. novembre 2010 10:57 10

Diagrammes en btons juxtaposs

Exercice 1.2

1. Population : forme de 7 sous-populations associes chacune une anne (2000


2006) ; lensemble des jours dune anne constitue la population de lanne.
Unit statistique : une journe dune anne .
Caractre tudi : niveau de lindice de la qualit de lair, caractre qualitatif, mais
aussi ordinal (les modalits du caractre sont ordonnes).
2. Diagramme en btons de la distribution 2006 : mode = niveau 3 .

290

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 291 Mercredi, 24. novembre 2010 10:57 10

3.
Anne

2000

2001

2002

2003

2004

2005

2006

2000-2006

Niveau moyen

3,6

3,7

3,7

4,1

3,6

3,6

3,7

3,7

Le niveau moyen a t particulirement lev en 2003.


Exercice 1.3

1. x G = 9,75

sG = 3,945

x P = 11,1

sP = 3,727

25 10
MeP = 10 + 2 ------------------ = 11,2
25
Pour une distribution symtrique, la moyenne est gale la mdiane.

MeG = 10

2. x = 0,3 x G + 0,7 x P = 10,695 10,7


3. Tous les indicateurs sont multiplis par 10
Exercice 1.4

1. Population : le personnel ouvrier dun secteur industriel.


Unit statistique : un homme ou une femme de ce personnel.
Caractre tudi : le salaire annuel net en euros, variable statistique continue.
2.
a) On peut en fait proposer 4 indicateurs de tendance centrale :
x H = 15 400

Me = 14 800

(Q1 + Q3)/2 = 15 205

(D1 + D9)/2 = 15 585

b) On peut en fait proposer 3 indicateurs de dispersion :

Dunod. La photocopie non autorise est un dlit.

sH = 3 620

(Q3 Q1) = 4 910

(D9 D1) = 9 270

c) On peut en fait proposer 3 indicateurs de dispersion relative :


sH / x H 0,235

(Q3 Q1) / Me 0,332

(D9 D1) / Me 0,626

3.
11 82 + 13 34 + 15 12 + 18 n4 = 12 (128 + n4)
1 524
1 536
n4 = 2 N = 130
4. sF 1 509

sF / x F 0,125

180 x H + 130 x F
- 13 974
5. x = --------------------------------------------310

CORRIGS DES EXERCICES

291

P283-334-9782100549412.fm Page 292 Mercredi, 24. novembre 2010 10:57 10

Exercice 1.5

Appelons x le cot total de la main duvre :


1
cot total
x
cot horaire moyen = --------------------------------------------------- = --------------------------- = --------------------- 8, 51
0,7 0,3
nombre total dheures
0,7x 0,3x
------- + ---------------- + ---------8
10
8
10
moyenne harmonique pondre
Exercice 1.6

1.
B1 :

10

( 1,12 ) ( 1,08 ) ( 1,06 ) = 1,0798 1,08

taux de croissance moyen = 8 %


B2 :

10

( 1,1 ) ( 1,08 ) ( 1,07 ) =

10

2,2 = 1,0819 1,082

taux de croissance moyen = 8,2 %


2. La banque B1 est la moins performante. Soit x son taux durant la 3 e priode. On peut
calculer x pour que le taux moyen de croissance gale celui de la banque B2 :
(1,12)2 (1,08)4 (1 + x)4 = 2,2

x 6,5 %

Exercice 1.7

1. Population : les 30 premiers groupes franais de lindustrie et des services selon leur
CAHT en 2001.
Unit statistique : un groupe parmi les 30 premiers groupes franais de lindustrie et
des services selon leur CAHT en 2001.
Caractres tudis : deux caractres quantitatifs, le CAHT en millions d et leffectif.
2. CA : n = 30
x = 30 000 millions d
Effectif :

n = 30

y 134 448
3.1.

292

sX = 19 729 millions d

sY 87 248

n = 30 P(Me) = 15,5 Me = 23 197 millions d


P(Q) = 8 Q1 = 16 667 millions d et Q3 = 37 200 millions d

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 293 Mercredi, 24. novembre 2010 10:57 10

3.2. et 3.3. Graphiques SPSS


Frequency Stem & Leaf
6,00
1 . 334444
4,00
1 . 5677
6,00
2 . 000123
4,00
2 . 5567
1,00
3. 0
2,00
3 . 67
3,00
4 . 023
,00
4.
1,00
5. 1
1,00
5. 7
2,00 Extremes (> = 69 486)
Stem width :
10 000
Each leaf :
1 case(s)

4. Le diagramme branche et feuille ne peut senvisager que pour des distributions de


population de taille peu leve, contrairement lhistogramme o lhypothse dquirpartition lintrieur des classes nest raliste quavec un effectif suffisant dans chaque classe. Cette reprsentation permet de plus de ne pas perdre linformation valeur
par valeur et aussi dtiqueter ventuellement les observations.
La bote de distribution met en vidence une valeur loigne (Carrefour) et une valeur
extrme (TotalFinaElf). Cette distribution asymtrique tale vers les valeurs leves
sera modlise par la loi de Pareto au chapitre 7, IV.B.

Dunod. La photocopie non autorise est un dlit.

5.1. La srie tant ordonne selon le CA, il faut maintenant lordonner selon leffectif
n = 30
P(Me) = 15,5 Me = 120 510
P(Q) = 8 Q1 = 82 892 et Q3 = 173 329
5.2. et 5.3. Graphiques SPSS
La bote de distribution met en vidence trois valeurs loignes
: Carrefour,
Vivendi Universal et La Poste.
Frequency Stem & Leaf
5,00
0 . 02234
5,00
0 . 57899
11,00
1 . 00111222234
4,00
1 . 6789
2,00
2 . 02
3,00 Extremes (> = 313854)
Stem width :
100 000
Each leaf :
1 case(s)

CORRIGS DES EXERCICES

293

P283-334-9782100549412.fm Page 294 Mercredi, 24. novembre 2010 1:12 13

Exercice 1.8

1. Population : ensemble des mnages en France en 1999 .


Unit statistique : un mnage en France en 1999 .
Caractre tudi : le revenu annuel en euros, hors revenus du patrimoine quantitatif
continu.
1
2. x = ----10

10

x 25 255
i

i=1

3. Les moyennes ntant pas gales aux centres des classes, lhypothse dquirpartition nest pas justifie.
4. Indicateurs de tendance centrale : x 25 255 , Me = D5 = 20 631, (D9 + D1)/2 = 26 973
Indicateur de dispersion : D9 D1 = 39 338
Indicateur de dispersion relative : ( D9 D1)D5 1,9
5. Distribution asymtrique tale vers les valeurs leves, car la mdiane est infrieure
la moyenne (et on a aussi Me < ( D9 + D1)/2). Les distributions de revenus (ou de
salaires) sont toujours asymtriques et tales vers les valeurs leves.
6. Indicateur de disparit des revenus : D9/D1 = 6,4
les 10 % les mieux lotis peroivent plus de 6 fois plus que les 10 % les moins bien
lotis.
7. 16 % des revenus sont perus par les 4 diximes des mnages aux revenus les plus
faibles.
8. Courbe de concentration ou courbe de Lorenz
Fi (%)

10

20

30

40

50

60

70

80

90

100

Ri (%)

12

15

10

16

23

32

43

56

72

100

100
90
80
70
60
50
40
30
20
10
0
0

294

10

20

30

40

50

60

INTRODUCTION LA MTHODE STATISTIQUE

70

80

90 100

P283-334-9782100549412.fm Page 295 Mercredi, 24. novembre 2010 10:57 10

Lindice de Gini mesure ici la concentration des revenus des mnages. Il est gal au
double de laire comprise entre la courbe de concentration et la bissectrice.
Cet indice est compris entre 0 et 1.
La valeur minimum 0 correspond au cas o la courbe est confondue avec la bissectrice et au cas de lquirpartition : tous les individus ont une part gale du revenu.
La courbe sloigne de la bissectrice lorsque lingalit saccrot.
A contrario, si un seul mnage dtient la totalit du revenu, tous les autres ayant un
revenu nul, lindice de Gini vaut 1. Dans cette situation, la courbe est confondue avec
les cts du carr : axe des abscisses et segment vertical reliant le point {100 ; 0} au
point {100 ; 100}.
Exercice 1.9

1. Population : les exploitations agricoles de France mtropolitaine en 1979, 1988, 2000


et 2005
Unit statistique : une exploitation agricole de France mtropolitaine en 1979, 1988,
2000 et 2005
Caractre tudi : la taille de la SAU, variable statistique continue
2. Soit c1, c2 et c3 les taux annuels moyens de variation au cours de chacune des
3 priodes :
017
(1 + c1)9 = 1------------ = (0,80522) 9 c1 2,4 %
1 263
664 = (0,65290) 12 c 3,5 %
(1 + c2)12 = -----------2
1 017
(1 + c3)3 = 545
--------- = (0,96127) 5 c3 3,9 %
664
Le taux annuel moyen de variation c de 1979 2005 est une moyenne gomtrique
pondre des 3 taux c1, c2 et c3 : 1 + c =

Dunod. La photocopie non autorise est un dlit.

1+ c=

26

26

( 1 + c1 ) ( 1 + c2 )

12

( 1 + c3 )

545
------------- 0,96819 c 3,2 %
1 263

3.
1979

1988

2000

2005

SAU moyenne

23

28

142

50

SAU moyenne des exploitations de 50 ha ou plus

88

90

106

112

Le nombre des exploitations agricoles diminue, la taille moyenne des SAU augmente,
ainsi que la taille moyenne des exploitations de 50 ha ou plus.
4. Le centre de la dernire classe tant par hypothse la SAU moyenne des exploitations
de 200 ha ou plus est gale en 2005 280 (= 4 762/17). On value ainsi la SAU maximum approximativement 360 ha.

CORRIGS DES EXERCICES

295

P283-334-9782100549412.fm Page 296 Mercredi, 24. novembre 2010 10:57 10

Lhistogramme comporte 6 classes : 6 rectangles de hauteur fi /ai.


Taille de SAU

[0, 5[

[5, 20[

[20, 50[

[50, 100[

[100, 200[

[200, 360[

fi

24,2

19,1

20,0

20,7

12,8

3,1

fi /ai

4,844

1,272

0,667

0,415

0,128

0,019

fi /ai

Pour construire un histogramme classes ingales, se reporter la page


EXCELENSE du n 34 de la revue
Modulad, Raliser un histogramme
(www.modulad.fr).
Courbe de concentration

296

pi (%)

24,2

43,3

63,3

84,0

96,9

100

qi (%)

1,0

5,2

18,7

48,1

82,7

100

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 297 Mercredi, 24. novembre 2010 10:57 10

Chapitre 2

Exercice 2.1

1. IA

(p) = 112,5

04/00

IB04/00 (p) = 140

IC04/00 (p) = 100

2. La moyenne arithmtique des indices lmentaires pondre par la part des dpenses
engages par lentreprise pour chacune des matires premires en 2000, est lindice
de Laspeyres des prix en 2004, base 2000.
Dpense 2000 = 8 000 + 2 000 + 3 000 = 13 000
8 000
2 000
3 000
L04/00(p) = ---------------- 112,5 + ---------------- 140 + ---------------- 100 113,8
13 000
13 000
13 000
3. IA

(q) = 60 IB04/00(q) = 100 IC04/00(q) = 160


8 000
2 000
3 000
L04/00(q) = ---------------- 60 + ---------------- 100 + ---------------- 160 89,2
13 000
13 000
13 000
04/00

4. Dpense 2004 = 5 400 + 2 800 + 4 800 = 13 000

I04/00 (v) = 100

5. Taux de variation des prix :


13,8 %
Taux de variation des quantits :
10,8 %
Taux de variation des dpenses :
0%
La non-variation de la dpense totale sexplique par une compensation entre les volutions des prix et des quantits consommes : diminution de la quantit de matire
premire A dont le prix a augment, stagnation de la quantit de matire premire B
dont le prix a augment, et augmentation de la quantit de matire premire C dont
le prix a stagn.
Exercice 2.2

1. Soit c le taux annuel moyen de variation pendant entre 1980 et 2000 :

Dunod. La photocopie non autorise est un dlit.

(1 + c)

20

9
20
168
= 1,5 --------- ( 1 + 0,06 ) = 3,275 = ( 1,061 )
130

2. CA2000 = CA1980 (0,95) 20 3,275 = CA1980 1,174

c = 6,1 %

I2000/1980(CA) = 117,4

Exercice 2.3

Soit c1 le taux trimestriel moyen de croissance entre le 31 dcembre 1998 et le 30 septembre 2009 :
(1 + c1)43 = 1,4145 (1,0081)43 taux trimestriel moyen de croissance = 0,81 %
Soit c2 le taux annuel moyen de croissance entre le 31 dcembre 1998 et le 30 septembre
2008 :
(1 + c2)10 = 1,3908 = (1,0335) 10 taux annuel moyen de croissance = 3,35 %
Exercice 2.4

1. Indice de valeur de la production des Produits vgtaux 2008/2007 = 99,7

CORRIGS DES EXERCICES

297

P283-334-9782100549412.fm Page 298 Mercredi, 24. novembre 2010 10:57 10

Indice de valeur de la production des Olagineux, protagineux 2008/2007 = 103,2


Indice de valeur de la production des Vins 2008/2007 = 97,9
2. volution 2008/2007 des prix la production des Produits vgtaux
= 99,7/103,6 1 0,038 = 3,8 %
volution 2008/2007 des prix la production des Olagineux, protagineux
= 103,2/104,8 1 0,015 = 1,5 %
3. volution 2008/2007 du volume de la production des Vins
= 97,9/103,7 1 0,056 = 5,6 %
4. La diminution en valeur de la production de Produits vgtaux entre 2007 et 2008
est due une diminution des prix qui na pas t totalement compense par laugmentation du volume de la production.
Laugmentation en valeur de la production des Olagineux, protagineux entre 2007
et 2008 est due laugmentation du volume de la production qui a plus que compens la
diminution des prix.
La diminution en valeur de la production de Vins entre 2007 et 2008 est due une
diminution du volume de la production qui na pas t totalement compense par laugmentation des prix.
Exercice 2.5

1. La variation relative de la consommation mdicale entre 1970 et 2000 peut s'crire


sous forme d'indice, elle est alors gale au rapport (multipli par 100) de la consommation en 2000 par la consommation en 1970 : (123,545/6,494)100-1 902,4
2.
Anne

Indice 1970 = 100

Anne

Indice 1970 = 100

Anne

Indice 1970 = 100

1970

100

1971

115,7

1981

545,1

1991

1 346,2

1972

131,9

1982

633,6

1992

1 439,4

1973

151,4

1983

721,4

1993

1 519,2

1974

178,4

1984

800,7

1994

1 568,5

1975

222,5

1985

878,4

1995

1 636,2

1976

258,9

1986

950,2

1996

1 682,2

1977

289,7

1987

997,4

1997

1 710,1

1978

347,2

1988

1 084,7

1998

1 735,8

1979

401,6

1989

1 176,1

1999

1 803,0

1980

465,3

1990

1 261,3

2000

1 902,4

298

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 299 Mercredi, 24. novembre 2010 10:57 10

3. et 4.
Indice de la consommation mdicale totale
base 100 en 1970

1970

1980

1990

Indice de la consommation mdicale totale


base 100 en 1970

1970

2000

Figure 1 Ordonne logarithme

1980

1990

2000

Figure 2 Ordonne arithmtique

Pendant la priode 1970-1982, les points sont quasi aligns, le taux annuel de croissance
c de l'indice est donc quasi constant et gal la pente de la droite joignant les deux points
extrmes (cf. figure 1) :
(1 + c)

12

= 6,336

c =

12

6,336 1

c = 16,6 %

Entre 1982 et 2000, lvolution nest plus exponentielle, mais quasi-linaire avec une
augmentation annuelle moyenne de lindice gale la pente de la droite joignant les deux
points extrmes (cf. figure 2) :
a = ( ( CM 2000 CM 1982 ) CM 1970 ) 100 18 = ( 1902,4 633,6 ) 18 70,5 %
Lindice de la consommation mdicale est pass dune volution exponentielle avec
un taux annuel moyen de croissance de 16,6 % une volution quasi-linaire avec une
augmentation annuelle moyenne gale 70,5 %.
5. Tenir compte de la variation des prix permet de passer dun
indice de valeur un
indice de volume et d'valuer le taux annuel moyen de croissance du volume de la
consommation entre 1970 et 1982 en s'affranchissant de l'illusion montaire :

Dunod. La photocopie non autorise est un dlit.

IndiceCM 82 70 100 3,187 = 198,8

c =

12

1,988 1 = 5,9 %

Entre 1982 et 2000, lvolution nest plus exponentielle, mais linaire et on peut calculer laugmentation annuelle moyenne de lindice de volume :
a' =

1 CM 2000 CM1982

100 CM1970
18 5,584
I82 / 70

1 Indice CM 00 / 70 Indice CM 82 / 70

I82 / 70
18
5,584

1 1902, 4 633, 6

18 5, 584 3,187

(340, 7 198,8 ) 18 7, 9 %

CORRIGS DES EXERCICES

299

P283-334-9782100549412.fm Page 300 Mercredi, 24. novembre 2010 10:57 10

6. En dflatant, on est pass, sur la priode 1970-1982, dun taux annuel moyen de croissance de 16,6 % pour lindice de valeur un taux annuel moyen de croissance de
5,9 % pour lindice de volume, et sur la priode 1982-2000, dune augmentation
annuelle moyenne de 70,5 % pour lindice de valeur une augmentation annuelle
moyenne de 7,9 % pour lindice de volume.

Chapitre 3
Exercice 3.1

1. Population : 30 000 assurs pour le risque vhicules moteur .


Caractres tudis : puissance fiscale, variable statistique discrte,
Caractres tudis : kilomtrage parcouru la dernire anne, variable statistique continue.
2. Distribution marginale de Y
Y milliers de km

< 10

[10 ; 20[

[20 ; 30[

[30 ; 40[

40

fj

14 %

17 %

20 %

33 %

16 %

Daprs lnonc : 1 re classe [2 ; 10 [ dernire classe [40 ; 50[


sY = 12 648 km
y = 27 140 km
50 31
Me = 20 + 10 ------------------ = 29,5 milliers de km = 29 500 km
20
3. La distribution du kilomtrage parcouru par les possesseurs dune voiture dune puissance fiscale dau plus 6 CV est une distribution conditionnelle :
Y X 6
Frquence
(%)

< 10

[10 ; 20[

[20 ; 30[

[30 ; 40[

40
0

41,4

35,0

14,3

9,3

11,6
---------- 100
28

9,8
------- 100
28

4,0
------- 100
28

2,6
------- 100
28

y /X 6 = 14 564 km

sY/X 6 = 9 211 km

Exercice 3.2

1. Population : les 100 salaries femmes et les 140 salaris homme dune entreprise.
Unit statistique : un homme ou une femme parmi les 240 salaris.
Caractres tudis : le salaire mensuel en euros, variable statistique continue,
Caractres tudis : lanciennet exprime en annes, variable statistique continue.
2. Parmi les 50 femmes ayant moins de 8 ans danciennet, 44 gagnent moins de 2200 :
44 100 / 50 = 88 %

300

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 301 Mercredi, 24. novembre 2010 10:57 10

3. Femmes : x 1 = 2 000
Hommes : x 2 = 2 508

s1 548
s2 697,50

n1 x1 + n2 x2
- 2 296
Ensemble : x = -----------------------------------n1 + n2
sY 6,7

4. Moyenne et cart-type de lanciennet des femmes (en annes) : y = 9,8

Dunod. La photocopie non autorise est un dlit.

5. Graphe des frquences cumules : ligne brise qui joint les points ( yi , Fi)
yi

12

20

28

Fi (%)

20

50

70

90

100

6.
Y X 1 800

[0 ; 4[

[4 ; 8[

[8 ; 12[

[12 ; 20[

[20 ; 28[

Frquence
(%)

13,3
(8/60)

33,3
(20/60)

16,7
(10/60)

20
(12/60)

16,7
(10/60)

s
6,7
7. a = r ----Y- = 0,45 --------- 0,0055
s1
548

b = y a x = 9,8 0,0055 2000 1,2

Point dintersection : ( x , y ) = (2 000 ; 9,8)

CORRIGS DES EXERCICES

301

P283-334-9782100549412.fm Page 302 Mercredi, 24. novembre 2010 10:57 10

Exercice 3.3

1. Indice PIB en 1991 = Indice 1990 (1 + variation 1991/100) = 102,6 (1 + 1/100) = 103,6

r = 0,992 1

liaison approximativement linaire

2. et 3.
a = 1,09

b = 11,40 (rsultat obtenir avec une calculatrice ou avec Excel)

Calcul du coefficient de corrlation linaire et des coefficients de la droite des moindres carrs avec Excel :
r = COEFFICIENT.CORRELATION(D2:D22;E2:E22)
a = INDEX(DROITEREG(E2:E22;D2:D22);1)
b = INDEX(DROITEREG(E2:E22;D2:D22);2)
La part de variation de Y explique par la relation linaire est gale r2, soit 98 %.
X = variation en volume du PIB
Y = variation en volume de la consommation prive
r2(X,Y) 0,563 = (0,75) 2

302

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 303 Mercredi, 24. novembre 2010 10:57 10

Pour obtenir et tracer avec Excel la droite des moindres carrs qui ajuste le nuage de
points :
Onglet Graphique , Ajouter une courbe de tendance , type Linaire , option
Afficher lquation sur le graphique , et Afficher le coefficient de dtermination
(R2) sur le graphique
4. Les variables indice de volume du PIB et indice de volume de la consommation prive
sont lies linairement au temps :
r2 (indice PIB, temps) 0,974
2
r (indice Consommation, temps) 0,964
La liaison linaire entre ces deux indices est due leur liaison linaire avec une mme
3e variable qui est le temps.
Ltude des variations relatives permet dliminer la tendance. On dit alors quon a
stationnaris les sries.
Exercice 3.4

Dunod. La photocopie non autorise est un dlit.

1. 810 / 1 000 = 81 %
2. 440 / 810 = 54,3 %
3.

Pas du tout
satisfait

Plutt pas
satisfait

Plutt
satisfait

Trs
satisfait

Total

> 2 ans danciennet

10

50

245

195

500

2 ans danciennet

40

90

205

165

500

Profils en ligne en pourcentage :


> 2 ans danciennet

10

49

39

100

2 ans danciennet

18

41

33

100

CORRIGS DES EXERCICES

303

P283-334-9782100549412.fm Page 304 Mercredi, 24. novembre 2010 10:57 10

4.
Pas du tout ou plutt satisfait

Plutt ou trs satisfait

> 2 ans danciennet

60

440

2 ans danciennet

130

370

500 810
5. n 12 = ---------------------- = 405
1 000
Exercice 3.5

1. r = 0,928
(utilisation dune calculatrice)
a = 0,018
b = 3,513
2. y = 0,018 x + 3,513
Les deux droites des moindres carrs ont des pentes de mme signe.
3. Recette globale = 1 000 x y 18 x2 + 3 513 x
R
------ = 18 2x + 3 513
x

R
------ = 0 pour xc = 96,3 tonnes
x

La recette globale est une fonction croissante de x entre [0 , xc] et dcroissante pour
x > xc
la valeur critique que les producteurs ont intrt ne pas dpasser est la valeur :
xc = 96,3 tonnes
Exercice 3.6

1. Population : les n mnages (hors tudiants) interrogs pour lenqute logement 1996
de lINSEE.
Unit statistique : un mnage parmi les n mnages interrogs.
Caractres : niveau de vie en F/uc/mois (quantitatif continu), type socio-conomique
(qualitatif).
2. Profils en ligne et profils en colonne, ou distributions conditionnelles selon le niveau
de vie et selon le type socio-conomique.
Profils en colonne
Niveau de vie
(en F/uc/mois)

Infrieur
du 1er dcile
du 3e quartile
au 1er dcile au 3e quartile
au 9e dcile
< 3 700
[3 700 ; 9 933[ [9 933 ; 13 900[

Type socio-conomique
Communes agricoles
Communes
et quartiers ouvriers
Communes et quartiers des
classes moyennes tertiaires
Communes et quartiers
techniques trs qualifis
Quartiers hupps
Ensemble

304

Au moins
gal au
9e dcile
13 900

Ensemble

22
41

13
41

7
31

5
22

12
37

28

34

39

32

34

11

13

12

28

100

100

100

100

100

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 305 Mercredi, 24. novembre 2010 10:57 10

Profils en ligne
Niveau de vie
(en F/uc/mois)
Type socio-conomique

Au moins
Infrieur
du 1er dcile
du 3e quartile
gal
Ensemble
au 1er dcile au 3e quartile
au 9e dcile
au 9e dcile
< 3 700
[3 700 ; 9 933[ [9 933 ; 13 900[
13 900

Communes agricoles
Communes et quartiers
ouvriers
Communes et quartiers des
classes moyennes tertiaires
Communes et quartiers
techniques trs qualifis
Quartiers hupps

18
11

70
71

8
12

4
6

100
100

65

17

100

51

25

19

100

44

20

30

100

Ensemble

10

65

15

10

100

3. Quartiers hupps : Me = 9 933 F/uc/mois


4. On peut proposer comme indicateur de disparit : D9/D1 3,76
Nombre sans dimension qui indique que le 9 e dcile est 3,76 fois plus lev que le
1er dcile.
5. ((11 + 12) . 0,15 + (13 + 28) . 0,10)/0,25 = 30,2 %
0,05 0,07n + 0,06 0,09n
6. ---------------------------------------------------------------- = 0,0556 = 5,56 %
0,16n
0,51 0,07n + 0,44 0,09n
---------------------------------------------------------------- = 47,06 %
0,16n

Dunod. La photocopie non autorise est un dlit.

0,25 0,07n + 0,20 0,09n


---------------------------------------------------------------- = 22,19 %
0,16n
0,19 0,07n + 0,30 0,09n
---------------------------------------------------------------- = 25,19 %
0,16n

Niveau de vie
(F/uc/mois)

< 3 700

Frquence (%)

5,56

[3 700 ; 9 933[ [9 933 ; 13 900[


47,06

22,19

13 900

Total

25,19

100

CORRIGS DES EXERCICES

305

P283-334-9782100549412.fm Page 306 Mercredi, 24. novembre 2010 10:57 10

Exercice 3.7

1.
n i

ni

yi

12
28
39
54
41
22
4

7,17
9,00
10,00
11,37
12,58
14,36
16,50

nj

xj

j=1

[5 ; 7[
[7 ; 9[
[9 ; 11[
[11 ; 13[
[13 ; 15[
[15 ; 17[
[17 ; 19]

10
32
59
46
36
14
3

6,80
9,30
10,80
12,26
13,90
15,14
17,33

y
Scintra
Scinter
SCtot

27,67
60,00
120,00
206,60
161,95
69,10
11,00

n j

i=1

[5 ; 7[
[7 ; 9[
[9 ; 11[
[11 ; 13[
[13 ; 15[
[15 ; 17[
[17 ; 19]

( y ij y i )

( x ji x j )

17,60
108,90
312,95
156,87
127,55
29,70
2,67

= 11,2
= 656,32
= 782,6
= 1438,92

782,6
2X/Y = --------------------- = 0,5843
1 438,92
2

x
Scintra
Scinter
SCtot

= 11,65
= 756,24
= 921,24
= 1677,48

921,24
2
X/Y
= --------------------- = 0,549
1 677,48
2. La courbe de rgression de Y en x est une ligne brise qui joint les points ( xi, ),y i
tant le centre de la ie classe de X.

306

INTRODUCTION LA MTHODE STATISTIQUE

xi

P283-334-9782100549412.fm Page 307 Mercredi, 24. novembre 2010 10:57 10

3. Les variables X et Y tant quantitatives, on peut mesurer leur liaison laide du coefficient de corrlation linaire : r2 = 0,542 = (0,736) 2
2
On retrouve : 0 r2 min(X/Y
; 2X/Y ) max(2X/YX; 2X/Y ) 1
Exercice 3.8

1.
Eau minrale

XC

YC

Arcens
Arvie
Badoit
Beckerich
Chteauneuf
Eau de Perrier
Faustine
La Salvetat
Perrier
Puits St-Georges
Pyrnes
Quzac
San Pellegrino
St-Diry
St-Jean
St-Pierre
St-Yorre
Vernet
Vernire
Vichy-Clestins
Wattwiller

2
1
2
1
3
1
3
1
1
1
1
3
1
1
2
2
3
2
1
3
2

3
4
2
1
4
1
2
1
1
3
1
2
1
3
2
3
4
2
2
4
1

2. Distribution conjointe

Dunod. La photocopie non autorise est un dlit.

YC
1

1
2
3

6
1
0

1
3
2

2
2
0

1
0
3

10
6
5

Total

21

XC

CORRIGS DES EXERCICES

307

P283-334-9782100549412.fm Page 308 Mercredi, 24. novembre 2010 10:57 10

Tableau des profils en ligne


YC
1

60

10

20

10

100

16,7

50

33,3

100

10

40

10

60

100

Profil
moyen

33,3

28,6

19,1

19

100

XC

3. Les profils en ligne ntant pas identiques, les deux variables ne sont pas indpendantes.
4. Distribution conditionnelle de XC sachant {Y > 300 mg/l} :
XC

Effectif

C1X

C2X

C3X

Exercice 3.9

1. Taux trimestriel moyen : (1 + c)11 = 339/117 2,90 = (1,10) 11 c 10 %


2.
b = 98,50
2.1. = 16,52
2.2. r = 0,90
Part de variation de Y non explique par le modle = 1 r2 = 1 0,81 = 19 %
3.

308

t2

Nombre de contrats souscrits

111
114
119
116
125
136
149
164
181
100
121
144

117
178
149
189
145
173
170
223
223
281
285
339

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 309 Mercredi, 24. novembre 2010 10:57 10

b = 135,45
3.1. = 1,3
3.2. r = 0,94
Part de variation de Y non explique par le modle = 1 r2 = 1 0,88 = 12 %
4. Le modle quadratique est prfrable au modle linaire puisque le coefficient de corrlation linaire est plus lev pour ce modle. On peut aussi dire que la part de variation de Y non explique est plus faible avec ce modle.

Chapitre 4
Exercice 4.1

1 et 2.

4
La moyenne mobile lisse la srie chronologique, et permet dvaluer la tendance.
Exercice 4.2

Dunod. La photocopie non autorise est un dlit.

1.

CORRIGS DES EXERCICES

309

P283-334-9782100549412.fm Page 310 Mercredi, 24. novembre 2010 10:57 10

La srie xt est priodique de priode 4.


Toutes les suites de moyennes mobiles sont aussi priodiques de priode 4.
La suite des moyennes mobiles de longueur 4 est constitue de termes constants gaux
la moyenne des termes sur une priode.
2. La moyenne mobile tranforme une srie aligne en elle-mme, donc la srie
yt = 10 2t est transforme en elle-mme, et la suite des moyennes mobiles de longueur 4 de la srie zt est gale : 10 2 t + 2 = 12 2t (t = 3 10).
Exercice 4.3

1. Le schma additif est adapt puisque les lignes brises qui joignent dune part, les
maxima (distants de 6 dates), et dautre part, les minima (distants de 6 dates) sont
peu prs parallles.
2. 6. La priode du mouvement saisonnier tant gale 6, on value la tendance par la
suite des moyennes mobiles de longueur 6.

310

xt

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

13,3
15,1
14,8
16,3
14,8
14,2
13,8
14,2
14,1
17,0
15,2
14,8
14,4
16,0
16,2
18,5
16,2
15,3
15,4
16,8
17,4
19,9
17,9
17,4

25
26
27

17,2
18,5
18,6

M6 (t) xt M6 (t)

14,8
14,7
14,6
14,6
14,7
14,8
14,9
15,1
15,4
15,7
15,9
16,0
16,2
16,3
16,5
16,7
17,0
17,3

1,6
0,0
0,5
0,8
-0,5
0,7
2,1
0,1
0,6
1,3
0,1
0,1
2,3
0,1
1,2
1,3
0,2
0,1

st

s*t

CVS

2,0
0,0
0,8
1,2
0,2
0,2
2,0
0,0
0,8
1,2
0,2
0,2
2,0
0,0
0,8
1,2
0,2
0,2

1,1
0,2
0,1
2,0
0,1
0,7
1,1
0,2
0,1
2,0
0,1
0,7
1,1
0,2
0,1
2,0
0,1
0,7
1,1
0,2
0,1
2,0
0,1
0,7

14,4
15,3
14,9
14,3
14,7
14,9
14,9
14,4
14,2
14,9
15,2
15,5
15,5
16,1
16,3
16,4
16,1
16,0
16,5
16,9
17,5
17,9
17,8
18,1

Tendance Prvision

1,1
0,2
0,1

INTRODUCTION LA MTHODE STATISTIQUE

Erreur
de prvision

14,0
14,1
14,3
14,5
14,6
14,8
14,9
15,1
15,3
15,4
15,6
15,7
15,9
16,1
16,2
16,4
16,5
16,7
16,9
17,0
17,2
17,3
17,5
17,7
17,8
18,0
18,1

16,7
17,8
18,0

0,5
0,7
0,6

P283-334-9782100549412.fm Page 311 Mercredi, 24. novembre 2010 1:16 13

22
Prvision
20

18

Droite des moindres carrs

16

M 6 (t )

14

12
Jv-Fv 2002

Jv-Fv 2003

Jv-Fv 2004

Jv-Fv 2005

Jv-Fv 2006

Coefficients de la droite des moindres carrs ajustant la srie CVS :


= 0,16
b = 13,82

y t = 0,16 t + 13,82
x 25 = y 25 1,1 = 16,7

x 26 = y 26 0,2 = 17,8

x 27 = y 27 0,1 = 18

Les erreurs de prvision tant toujours positives, lerreur absolue moyenne est
gale lerreur moyenne de prvision : = (0,5 + 0,7 + 0,6)/3 = 0,6
Pour tracer avec Excel la droite des moindres carrs qui ajuste la srie CVS : onglet
Graphique , Ajouter une courbe de tendance , type Linaire . On peut utiliser
ensuite longlet Options pour Afficher l'quation sur le graphique et pour
Afficher le coefficient de dtermination (R 2) sur le graphique .
Exercice 4.4

1. Sur la reprsentation graphique, on remarque une composante saisonnire de priode 4.

Dunod. La photocopie non autorise est un dlit.

2. 6.

CORRIGS DES EXERCICES

311

P283-334-9782100549412.fm Page 312 Mercredi, 24. novembre 2010 10:57 10

Calcul des coefficients de la droite des moindres carrs avec Excel


a = Index(Droitereg(F2:F13;A2:A13);1) = 21,6
b = Index(Droitereg(F2:F13;A2:A13);2) = 3 270,8
y t = 21,6 t + 3 270,8
x 13 = (21,6 13 + 3 271) 1,062 = 3 771
x 14 = (21,6 14 + 3 271) 0,979 = 3 499

Exercice 4.5

1.

312

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 313 Mercredi, 24. novembre 2010 1:17 13

Jusquau 6 e mois inclus : x t = 0,6 x t + 0,4 x t 1


partir du 7 e mois : x t = 0,3 x t + 0,7 x t 1
2. Une constante de lissage leve jusquau 6 e mois inclus permet un taux de rponse
plus rapide au changement de niveau du dbut de la chronique.
3. Erreur moyenne = 0,56
Erreur absolue moyenne = 1,48
Erreur quadratique moyenne = 3,09
4. Sous lhypothse dune srie sans tendance, la demande est suppose constante. Les
prvisions de la demande pour les mois 16, 17 et 18 sont gales 41,4 units.
Exercice 4.6

1. Cette chronique a une composante saisonnire de priode 4 et une tendance approximativement constante sur la priode 2002-2005. Les deux schmas de composition
peuvent tre envisags. Nous choisissons le schma additif.
2. Pour une chronique avec une composante saisonnire de priode 4, la moyenne
mobile de longueur 4 limine la saisonnalit et permet dvaluer la tendance.
140

130

M4 (t)
120

110

Dunod. La photocopie non autorise est un dlit.

100

90

80
1er trimestre 2003

1er trimestre 2005

CORRIGS DES EXERCICES

313

P283-334-9782100549412.fm Page 314 Mercredi, 24. novembre 2010 1:18 13

3. 5.
LES ( = 0,3) Prvision Erreur

xt

M4 (t)

xt M4 (t)

st

CVS

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

94,2
105,3
103,5
127,5
98,3
103,8
115,7
125,5
100,9
110,7
106,6
126,3
98,7
109,8
110,8
129,4

108,12
108,44
109,78
111,06
111,14
112,34
112,07
111,03
110,30
108,78
107,71
107,46

4,65
19,03
11,48
7,30
4,56
13,16
11,17
0,30
3,70
17,52
13,48
2,20

12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57

106,3
108,5
104,7
110,9
110,3
107,0
117,0
108,9
112,9
114,0
107,9
109,7
110,8
113,0
112,1
112,8

17
18

100,8
110,8

106,3
107,0
106,3
107,7
108,5
108,0
110,7
110,2
111,0
111,9
110,7
110,4
110,5
111,3
111,5
111,5
111,5

199,9
108,6

0,9
2,2

La srie CVS pouvant tre considre sans tendance, on peut utiliser le lissage exponentiel simple.
Aprs avoir resaisonnalis les prvisions obtenues avec le LES, on obtient les prvisions de lindice trimestriel pour les deux premiers trimestres 2006 quon peut comparer aux observations.
On obtient :
Erreur moyenne de prvision = Erreur absolue moyenne de prvision = 1,55

140
130
CVS
120
110
100

LES

90
Prvision
80
1

314

10

11

INTRODUCTION LA MTHODE STATISTIQUE

12

13

14

15

16

17

18

P283-334-9782100549412.fm Page 315 Mercredi, 24. novembre 2010 10:57 10

Chapitre 5
Exercice 5.1

a) 75/120 = 0,625
b) 50/120 0,417
c) 45/120 = 0,375
d) 100/120 0,833
Exercice 5.2

A = tre all en Espagne


P(A) = 0,6
P(B) = 0,45
P( A B ) = 0,25
P( A =
B)

P( A B )

B = Avoir pris lavion

1 P(
=A B)

= 1 (P(A) + P(B) P( A B )) = 0,2


Exercice 5.3

1. A = Lire Notre Campus B = Lire la Vie tudiante


P(A) = 23 522/32 564 0,722
P(B) = 18 859/32 564 0,579
P( A B ) = 11 422/32 564 0,351
a) P( A B )

P( A =
B)

b) P( A B )

P(A) = P( A B )) 0,371

1 P(
=A B)

1 (P(A)
=
+ P(B) P( A B )) 0,05

2. a) 0,052 = 0,0025
b) 0,351 0,05 0,018

Dunod. La photocopie non autorise est un dlit.

Exercice 5.4

n = 2 : 4 vnements lmentaires { P,P}, {P,F}, {F,P}, {F,F}


P(A) = 3/4 P(B) = 1/2
P( A B ) = 1/2 P(A) P(B)
A et B non indpendants
n = 3 : 8 vnements lmentaires
{P,P,P}, {P,P,F}, {P,F,P}, {P,F,F}, {F,P,P}, {F,P,F}, {F,F,P}, {F,F,F}
P(A) = 1/2 P(B) = 3/4
P( A B ) = 3/8 = P(A) P(B)
A et B indpendants
et si on continue, on peut montrer que A et B ne sont indpendants que pour n = 3
Exercice 5.5

1. Il y a 2 5 familles diffrentes de 5 enfants et 5 familles de 5 enfants avec 3 filles et


3
2 garons. Par hypothse toutes les familles sont quiprobables :

CORRIGS DES EXERCICES

315

P283-334-9782100549412.fm Page 316 Mercredi, 24. novembre 2010 10:57 10

5
nombre de cas favorables 3
10
P(trois filles et deux garons) = ------------------------------------------------------------- = -------- = ------ = 0,3125
5
nombre de cas possibles
32
2
2. Toutes les familles ne sont plus quiprobables. On a une probabilit gale
(0,48)3 (0,52) 2 davoir une famille de 5 enfants avec 3 filles et 2 garons, et toutes
les familles tant incompatibles, on a :

P(trois filles et deux garons) = 5 (0,48) 3 (0,52) 2 = 0,299


3

Exercice 5.6

1. E(X) = 5/3 = 1,667 X = 0,943 (utiliser les fonctions statistiques dune calculatrice)
E((X)) = 600 E(X) 800 = 200 (X) = 600 X = 565,68
Signification de lesprance du profit : sur un trs grand nombre de jours, la moyenne
du profit sera voisine de 200 .
2. Loi de probabilit du profit :
valeur de X

valeur de

800

200

400

1 000

Probabilit

1/6

1/6

1/2

1/6

Fonction de rpartition du profit : fonction en escalier, continue droite, les points de


discontinuit correspondant aux valeurs possibles du profit.
z
F(z) = P( z)

< 800 [ 800 , 200[


0

1/6

[ 200, 400[

[400, 1 000[

1 000

2/6

5/6

F(z)
1
0,8
0,6
0,4
0,2
0
1 000 800 600 400 200

z
0

200

400

600

800

1 000 1 200 1 400

Exercice 5.7

1. E(B) = 0 0,6 + 500 0,25 + 1 500 0,1 + 2 500 0,05 = 400


Pour esprer un bnfice moyen de 50 par assur, le montant de la cotisation
doit tre fix 450

316

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 317 Mercredi, 24. novembre 2010 10:57 10

2. Le montant encaiss de la part de deux assurs est gal 900 .


Il faut quau plus un seul des deux assurs ait un sinistre, et le rglement de ce
sinistre ne peut pas dpasser 500
La probabilit demande est gale : 0,62 + 2 0,6 0,25 = 0,66
Exercice 5.8

1. E(X) = 1,1

var(X) = 0,69

12

Xi

E(Y ) =

2. Y =

i=1

12

valeurs possibles de Y : {0, 1, 2, , 24}

E ( X i ) = 12 1,1 = 13,2

i=1
12

var ( Y ) =

(utiliser les fonctions statistiques dune calculatrice)

i=1

var ( X i ) = 12 0,69 = 8,28

P(Y = 0) = P

12

i=1

{ X i = 0 } =

car les Xi sont indpendantes

car les v.a. Xi sont indpendantes

12

P( X i = 0)

= 0,3

12

= 5,3 10

i=1

3.1.
3

1
0,1
0,12

0
0,6
2 0,6 0,1

0
0,3
2 0,3 0,1 + 0,62

0
0
2 0,6 0,3

0
0
0,32

0,01

Dunod. La photocopie non autorise est un dlit.

3.2.

0,12

0,42

0,36

0
1
2

Z
X

0,09

P(Z = 0) = P({(Z = 0) (X = 0)} {(Z = 0) (X = 1)} {(Z = 0) (X = 2)})


= 1 0,3 + 0,1 0,3 + 0,01 0,4 = 0,334
P(Z = 1) = 0,6 0,3 + 0,12 0,4 = 0,228
P(Z = 2) = 0,3 0,3 + 0,42 0,4 = 0,258
P(Z = 3) = 0,36 0,4 = 0,144
P(Z = 4) = 0,09 0,4 = 0,036
E(Z) = 1,32 var(Z) 1,39
(utilisation dune calculatrice)

Exercice 5.9

Appelons D lvnement :
{une pellicule tire au hasard dans la production est dfectueuse}
P(D) = P({D et machine A} {D et machine B} {D et machine C})

CORRIGS DES EXERCICES

317

P283-334-9782100549412.fm Page 318 Mercredi, 24. novembre 2010 10:57 10

Les 3 vnements tant incompatibles :


P(D) = P(D A) + P(D B) + P(D C) = 0,2 0,06 + 0,5 0,05 + 0,3 0,03 = 0,046
P( A D ) P( D
= A) P(A)
P(D) = 0,261
P( A D ) P( D
= A) P(A)
P(D) = 0,94 0,2/0,954 = 0,197
Exercice 5.10

1.
Y

Loi de Y

0
1

1/4
1/5

a
b

1/8
1/10

15/40 + a
12/40 + b

Loi de X

18/40

a+b

9/40

27/40 + a + b

13
a + b = -----40

18 15
------ ------ + a = 1-- 4
40 40

10 15 13
a = ------ ------ = -----18 40 72

13
b = ------ a
90

2.
X

15
------ + a = 40
------ = 5--40
72
9

12
4
40
------ + b = ------ = --40
9
90

Puisque X et Y sont indpendantes, les lois conditionnelles de X pour les diffrentes


valeurs de Y sont identiques la loi marginale de X.
3.
Y

Loi de Y

0
1

1/4
1/5

1/5
1/8

1/8
1/10

23/40
17/40

Loi de X

18/40

13/40

9/40

17
18
9
u
1
E(X) = -----E(Y) = ------ u + -----E(X Y) = --- + -----40
40
40
5
10
Si = 0, alors cov( X, Y) = 0 :
u
1
17
18
9
E(X Y) = --- + ------ = E(X) E(Y) = ------ ------ u + ----5 10
40 40
40

318

17 18
17 9
2u ---------------- u = ------------- 1
160
160

u = 0,5

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 319 Mercredi, 24. novembre 2010 10:57 10

Exercice 5.11

1.
Y

Loi de X

0
1

p
1/3 p

1/2 p
1/6 + p

1/2
1/2

Loi de Y

1/3

2/3

Toutes les probabilits devant tre comprises entre 0 et 1, on doit avoir :


0p1
p 1/2
0 p 1/3
p 1/3
p 5/6

2. E(X) = 1/2 E(Y) = 4/3 E(X Y) = 2 ( p + 1/6)


cov(X, Y) = 2 ( p + 1/6) 2/3 = 2 p 1/3
E(X2) = 1/2

E(Y2) = 8/3

var(X) = 1/4

var(Y) = 8/9

2p 1 3
p1
(X, Y) = ---------------------- = 6--------------1 2 2
2
--- ---------2
3

Chapitre 6
Dunod. La photocopie non autorise est un dlit.

Exercice 6.1

1. Au ie individu (i = 1 10), on associe une variable de Bernoulli :


1 si ie individu gaucher p = 0,1
Xi =
0 sinon q = 0,9

Soit Y, le nombre de gauchers parmi les 10 individus :


Y est une somme de 10 v.a. indpendantes de Bernoulli de mme paramtre p = 0,1

Y=

10

i=1

X i (10 ; 0,1)

On utilise les tables de la loi Binomiale pour calculer les probabilits :


P(Y 1) = 1 P(Y = 0) = 1 0,3486 = 0,6514 P(Y 3) = 0,9872
2. Pour que chacun des 10 membres du personnel trouve une paire de ciseaux sa convenance, il faut que le nombre de gauchers soit au plus gal 3 et au moins gal 1 :
P(1 Y 3) = P(Y 3) P(Y < 1) = P(Y 3) P(Y = 0) = 0,9872 0,3486 = 0,6386

CORRIGS DES EXERCICES

319

P283-334-9782100549412.fm Page 320 Mercredi, 24. novembre 2010 10:57 10

3.
Y

10

10

10

10

En utilisant la table dune loi binomiale de paramtres 10 et 0,1, on dduit la loi de Z :


Z

10

0,0001

0,0015

0,3599

0,6385

Les probabilits associes aux valeurs 3, 4, 5 et 6 sont ngligeables.


Exercice 6.2

1. Au ie assur (i = 1 10 000), on associe une variable de Bernoulli :


1 si ie assur a un accident de ce type
p = 1/5 000
Xi =
0 sinon q = 1 p

Soit Y, le nombre daccidents par an parmi les 10 000 assurs.


On suppose les Xi indpendantes, Y est alors une somme de 10 000 v.a. indpendantes
de Bernoulli de mme paramtre p = 1/5 000 :
Y=

10 000

i=1

X i (10 000 ; 1/5 000)

P(Y 3) = 0,8571

n > 50

et

p < 0,1

(2)

(lecture de table)

Exercice 6.3

1. la ime machine (i = 1,2), on associe :


1 si ime machine disponible
Xi =
0 sinon

p = 0,9

Le nombre Y de machines disponibles un jour quelconque est une somme de 2 v.a.


indpendantes de Bernoulli de mme paramtre p = 0,9 Y (2 ; 0,9)
Valeurs de Y

Probabilit

0,01

0,18

0,81

2.1.
Z
Y

Valeurs de N

320

0
1
2

0
0
0

0
1
1

0
1
2

0
1
2

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 321 Mercredi, 24. novembre 2010 10:57 10

2.2.
Valeurs de N

Probabilit

0,109

0,324

0,567

P(N = 2) = P({Y = 2 Z = 2} {Y = 2 Z = 3} )
= P({Y = 2 Z = 2} ) + P({Y = 2 Z = 3 )
= P(Y = 2) ( P(Z = 2) + P(Z = 3)) = 0,81 0,7 = 0,567
P'(N = 1) = 0,18 (0,2 + 0,4 + 0,3) + 0,81 0,2 = 0,324
P'(N = 0) = 1 0,324 0,567 = 0, 109
E(N) = 1,458 Marge brute moyenne = 29,16
3. Y dsigne maintenant le nombre de machines tombant en panne au cours de la 1re anne.
1 si ie machine en panne au cours de la 1 re anne p = 0,05
Xi =
0 sinon
(i = 1, , 60)

Hypothse : les 60 v.a. de Bernoulli sont indpendantes


Y est une somme de 60 v.a. indpendantes de Bernoulli de mme paramtre p = 0,05
Y=

60

i=1

X i (60 ; 0,05)

n > 50

et

p < 0,1

(3)

i) On a en moyenne 3 pannes puisque E(Y) = 3. En cas de machines non garanties, le


cot moyen est donc gal : 3 200 = 600 .
Le discount tant de 1 200 , on choisit le discount.
ii) La remise est infrieure au cot de rparation si plus de 6 machines tombent en
panne :
P(Y > 6) = 1 P(Y 6) = 1 0,9665 = 0,0335 > 1 %
on choisit la garantie pour chaque machine.

Dunod. La photocopie non autorise est un dlit.

Exercice 6.4

1. chaque essai, on peut associer une v.a. de Bernoulli de paramtre 0,95. Le nombre
dessais Y ncessaires pour se connecter 5 fois suit une loi de Pascal de paramtres
K = 5 et p = 0,95. Appliquons les rsultats du cours :
5
K ( 1 p -) = 0,277
E(Y) = K
var(Y) = ---------------------------- = --------- = 5,26
2
p
0,95
p
2. Pour avoir {Y = 5}, il faut stre connect les 5 fois avec succs :
P(Y = 5) = (0,95)5 0,774
La v.a. Y peut prendre toutes les valeurs entires au moins gales 5 :
P(Y > 6) = 1 P(Y = 5) P(Y = 6) = 1 0,774 5 (0,95) 5 0,05 = 0,0325
Exercice 6.5

1. Lorsque Xt = x, le nombre de demandes satisfaites Yt peut prendre toutes les valeurs


entires de 0 x, et chaque demande est satisfaite avec une probabilit (1 ).
{ Y t X t x} =
(x ; 1 )

CORRIGS DES EXERCICES

321

P283-334-9782100549412.fm Page 322 Mercredi, 24. novembre 2010 10:57 10

2. P(Yt = k) = P({Yt = k} {Xt k}) =

xk

= e

P (Yt = k Xt = x) P(Xt = x)

) x ( 1 ) k x k e (---------= e
k
x!

xk

xk

x
k x k ()
x! ---------------------- (1 )
----------k! ( x k )!
x!

xk

x
e
1 k
1 - 1---------- - k
----------------------
( ) = --------- ------------
k!
k! ( x k )!

k
e - ----------1 - k
-------
( )

k!

x0

k
1
----------------- ( )
( x k )!

xk
x
k

( ( 1 ) )
(----------------- ) = e -------------------------------- e
x!
k!

( 1 ) ( ( 1 ) ) k
--------------------------------
k!

= e

Yt ((1 ) )

3. = 10 et = 0,2 Yt (8) P(Yt < 8) = 0,4530


P(3 < Yt 10) = P(Yt 10) P(Yt 3) = 0,8159 0,0424 = 0,7735
Exercice 6.6

1. la ie minute (i = 1 30), on associe :


1 si vente ie minute p = 0,01
Xi =
0 sinon q = 0,99

Soit Y, le nombre dunits vendues en 30 min.


Y est une somme de 30 v.a. indpendantes de Bernoulli de mme paramtre p = 0,01
Y=

30

i=1

X i (30 ; 0,01) P(Y 3) = 1 P(Y 2) = 1 0,9967 = 0,0033

2. Le magasin est ouvert 7 h 30 par jour, donc 450 min par jour.
Z = nombre dunits vendues par jour =

450

i=1

Z (450 ; 0,01)
3.

n > 50

et

p < 0,1

X i (450 ; 0,01)

E(Z) = 4,5

(4,5)

P(Z > 8) = 1 P(Z 8) = 1 0,9597 = 0,0403

Exercice 6.7

1. X (5) P(X 2) = 0,1247


P({X 2} {X 6}) = 0,1247 + 1 0,6160 = 0,5087
P(2 X 6)
P( X 6) P( X < 2)
0,7622 0,0404
P X 6 X 2 = ------------------------------- = -------------------------------------------------- = -------------------------------------- = 0,7522
P( X 2)
1 P( X < 2)
1 0,0404

2. Y = X1 + X2 (10), car Y est somme de deux v.a. de Poisson indpendantes


P(Y = 10) = 0,5831 0,4580 = 0,1251

322

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 323 Mercredi, 24. novembre 2010 10:57 10

3. P(X 3) = P({X 3 = 6} {X 3 = 8} = P({X 3 = 6} + P({X 3 = 8})


= P({X 3 = 6} P( = 6) + P(X 3 = 8) P( = 8) = 0,938 2 / 3 + 0,9862 / 3 0,954
Exercice 6.8

1.

1 si i e autobus en panne
Xi =
0 sinon
q = 0,9975

p = 0,0025

Y est somme de 1 000 v.a. de Bernoulli de mme paramtre p = 0,0025 quon suppose indpendantes.
Y =

1 000

 (1 000 ; 0,0025)

 (1 000 ; 0,0025)  (2,5)

E (Y) = 2,5

var (Y) 2,5

i=1

2. Y =

1 000

i=1

n > 50 p < 0.1


P (3 < Y < 7) = P (Y 6) P (Y 3) = 0,9858 0,7576 = 0,2282
3. P (Y 8) = 0,9989 La capacit du service de maintenance doit au moins
gale 8 autobus pour que la probabilit que toutes les pannes soient traites dans la
journe, soit au moins gale 0,998.
4. P (Y > 6) = 1 P (Y 6) = 1 0,9858 = 0,0142
5. Z =

365

 (365 ; 0,0142)  (5,183)

i=1

n > 50 p < 0.1


P (Z = 0) = e 5,183 0,0056
Exercice 6.9

Dunod. La photocopie non autorise est un dlit.

1. X1  (3) X2  (2)
X1 et X2 indpendantes Y = X1 + X2  (5)
2. P (Y = 8) = 0,0653
P ( { X 1 = 5 } { x2 = 3 } )
3. P ( X 1 = 5 Y = 8 ) = --------------------------------------------------------------P (Y = 8)
P ({ X1 = 5} { X2 = 3})
0,1008 0,1804
= ------------------------------------------------------------- = ------------------------------------ = 0,2785
P (Y = 8)

0,0653

Exercice 6.10

1. x = 0,61

Var (X) = 0,6079

2. Variable discrte :
les valeurs possibles sont les nombres entiers positifs ou nuls ;
la moyenne est peu diffrente de la variance.

CORRIGS DES EXERCICES

323

P283-334-9782100549412.fm Page 324 Mercredi, 24. novembre 2010 1:19 13

On a une variable discrte valeurs positives ou nulles avec une moyenne quasi-gale
la variance. On peut envisager une loi de Poisson  (0,61). La comparaison des
diagrammes en btons des distributions observe et thorique montre une excellente
adquation.
Nombre de dcs xk

5 u

Total
o +

Cumul des annes nk

109

65

22

200

Probabilit  (0,61)

0,5434

0,3314

0,1011

0,0206

0,0031

0,0004

108,7

66,3

20,2

4,1

0,6

0,1

200

Nombre thorique

n*

120
Observ

100

Thorique

80

60

40

20

0
1

5 ou +

Chapitre 7
Exercice 7.1

1. X (45 ; 4)
P(X < 39) = FU((39 45)/4) = FU ( 1,5) = 1 FU (1,5) = 1 0,9332 = 0,0668
P(X 48) = 1 P(X < 48) = 1 FU (0,75) = 1 0,7734 = 0,2266
P(39 < X < 48) = P(X 48) P(X 39) = 0,7734 0,0668 = 0,7066
2. P( X m ) = P(m X m + ) = FU (1) FU( 1) = 2 FU (1) 1 = 0,6826
(en fait, rsultat de cours : II.C)
3. Puisque m = 45 et = 4, on a : {41 X 49} {m X m + }
P(41 X 49 X 39) = P({41 X 49} {X 39})/P(X 39)
= P(41 X 49)/P(X 39)
= 0,6826 / 0,9332 = 0,7315

324

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 325 Mercredi, 24. novembre 2010 10:57 10

Exercice 7.2

1. P(X 2 400) = FU ((2 400 m)/) = 0,0228 (2 400 m)/ = 2


P(X > 3 000) = 0,0446 P(X 3 000) = 0,9554 (3 000 m)/ = 1,7
On rsout un systme de 2 quations 2 inconnues : m 2 724 162
X (2 724 ; 162)
2. Soit Xi le gain du ie mois, par hypothse, les Xi sont iid X (iid pour indpendants
et identiquement distribus ).
La v.a. Y gale au gain pendant trois mois est une somme de 3 v.a. normales indpendantes et par consquent, suit une loi normale :
Y=

i=1

X i (3m ; 3), soit : (8 172 ; 280,6)

3. P(Y > 8 700) = 1 FU (528/280,6) = 1 FU (1,88) = 1 0,9699 = 0,301


Exercice 7.3

1. p = P(X > 2,5) = 1 P(X 2,5) = 1 FU (1,67) = 1 0,9525 = 0,0475 0,05


2. la ie imprimante tire, on associe une v.a. de Bernoulli Xi de paramtre 0,05 :
1 si dure de vie > 2,5 millions de pages
Xi =
0 sinon

Y est une somme de 60 v.a. indpendantes de Bernoulli de mme paramtre p


(les Xi sont considres indpendantes puisque les imprimantes ont t tires
au
hasard dans une production suppose suffisamment importante pour avoir un taux de
sondage n/N infrieur 10 %)

Y=

60

Dunod. La photocopie non autorise est un dlit.

i=1

X i (60 ; 0,05)

n > 50, p < 0,1

(3)

3. En utilisant les tables de la loi de Poisson, on obtient :


P(Y = 6) = 0,9665 0,9161 = 0,0504
P(Y 3) = 1 P(Y 2) = 1 0,4232 = 0,5768
Exercice 7.4

1. P(75 X 125) = FU (1) FU ( 1) = 0,6826


en fait : P(75 X 125) = P( X m )
P(X > 150) = 1 FU (2) = 1 0,9772 = 0,0228
en fait : P(X > 150) = P(X > 2)
n 1 100
n 1 100
- = 0,1 ------------------- = 1,2816 n1 68
2. P(X > n1) = 0,9 FU ------------------ 25
25
n 2 100
n 2 100
- = 0,4 ------------------- = 0,2533 n2 94
P(X < n2) = 0,4 FU ------------------ 25
25

CORRIGS DES EXERCICES

325

P283-334-9782100549412.fm Page 326 Mercredi, 24. novembre 2010 10:57 10

3. On cherche a tel que : P( X m < a) = 0,9

Xm a
P ----------------- < --- = 0,9

a
FU --- = 0,95

a
2FU --- 1 = 0,9

a
--- = 1,645

[m a ; m + a] = [58,87 ; 141,13]

a = 41,125

Exercice 7.5

1. Soit Xi la variable alatoire de Bernoulli associe la ie bouteille grand cru achete :


1 si ie bouteille vin courant p = 0,12
Xi =
i = 1, , 200
0 q = 0,88

Le nombre Y de bouteilles de vin courant parmi les 200 bouteilles achetes est gal
la somme des 200 variables de Bernoulli Xi : Y =

200

i=1

Xi

Les 200 bouteilles tant supposes tires au hasard dans lensemble des bouteilles
grand cru avec un taux de sondage infrieur 10 %, la v.a. Y suit une loi binomiale
B(200 ; 0,12).
E(Y) = np = 24

var(Y) = npq = 21,12

Puisque npq = 21,12 > 18, la loi de Y peut tre approche par la loi normale (24 ; 4,6).
2. Comme on approxime une loi discrte par la loi normale, on fait la correction de
continuit :
P(Y > 20) = 1 P(Y 20) = 1 FU {(20 + 0,5 24)/4,6} = 1 FU ( 0,76) = 0,7764
P ( 20 < Y < 30 )
( Y < 30 ) P ( Y 20 )
P(Y < 30 Y > 20) = ------------------------------------- = P
-------------------------------------------------------P ( Y > 20 )
0,7764
FU ( 1,2 ) FU ( 0,76 )
0,2236
P(Y<30 Y>20) = --------------------------------------------------- = 0,8849
--------------------------------------- = 0,8517
0,7764
0,7764
3. Les bouteilles de type courant, en nombre Y, occasionnent une perte unitaire de 1,5 .
Les bouteilles rellement grand cru , en nombre (200 Y), crent un bnfice unitaire de 2,50 (= 6 3,5). Donc, au total :
Bnfice = 2,5 (200 Y) 1,5Y = 500 4Y P(Bnfice > 0) = P(Y < 125) 1
Exercice 7.6

1. Sachant que la probabilit dune runion de 2 vnements incompatibles est gale


la somme des probabilits de ces vnements, on a :
P(A) = P({vrais jumeaux et 2 garons} {faux jumeaux et 2 garons})
= P(vrais jumeaux et 2 garons) + P(faux jumeaux et 2 garons)
P(A) = P(2 G vrais jumeaux) P(vrais jumeaux) + P(2 G faux jumeaux) P(faux jumeaux)
P(A) = /2 + (1 )/4 = ( + 1)/4 = P(B)
P(C) = P({faux jumeaux} {1 garon et 1 fille})
= P(1 garon et 1 fille faux jumeaux) P(faux jumeaux) = (1 )/2

326

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 327 Mercredi, 24. novembre 2010 10:57 10

2. la ie naissance, on associe :
1 si ie naissance avec 1 G et 1 F
Xi =
0 sinon

p = (1 )/2

Y est une somme de 1 000 v.a. indpendantes de Bernoulli de mme paramtre p

Y=

1 000

i=1

X i (1 000 ; (1 )/2)

E(Y) = 500 (1 )
3. Si = 0,35 :

var(Y) = 250 (1 2)

Y (1 000 ; 0,325)

npq >18

(325 ; 14,8)

300 325
P(Y > 300) = 1 P(Y 300)  1 FU ------------------------ = FU (1,69) 0,9545
14,8
P(310 Y 350) = P(Y 350) P(Y < 310)
= FU (1,69) FU ( 1,01) = 0,9545 (1 0,8438) = 0,7983
P(310 Y 350 Y > 300) = P({310 Y 350} {Y > 300})/P(Y > 300)
= 0,7983/0,9545 0,836

Exercice 7.7

1. Pour une variable statistique continue, on calcule une valeur approche de la mdiane
100 86
par interpolation linaire : Me [35 ; 40[ Me = 35 + 5 --------------------- = 36,75
40

Dunod. La photocopie non autorise est un dlit.

2.

7
CORRIGS DES EXERCICES

327

P283-334-9782100549412.fm Page 328 Mercredi, 24. novembre 2010 10:57 10

La loi normale (37 ; 10) est adapte puisque le nuage des points (x *i , xi) est approximativement align le long de la premire bissectrice.
3.1.

X n reprsente la dure moyenne des n interviews


n

i=1

X i (n m, n )

puisque les v.a. Xi sont iid X

(iid pour indpendantes et identiquement distribues )


10
X n  37 ; -------

3.2. P( X 6 35) = FU ( 0,2 6 ) = FU ( 0,49) = 1 0,6879 = 0,3121


3.3. P( X n 45) = FU (8 n /10) 0,99

n (2,3263/0,8) = 8,46

0,8 n 2,3263
n9

Exercice 7.8

1.1. Soit Y le nombre dactions en hausse parmi les 10 actions


1 si ie action en hausee p = 0,7
Xi =
0 sinon q = 0,3

Y est somme de 10 v.a. de Bernoulli indpendantes de mme paramtre p = 0,7

Y=

10

i=1

X i (10 ; 0,7)

1.2. P(Y 8) = P(Z 2) = 0,3828


2. Y =

100

i=1

X i (100 ; 0,7)

Z = 10 Y (10 ; 0,3)
P(Y < 4) = P(Z > 6) = 1 0,9894 = 0,0106

npq = 21 > 18

(70 ;

21 )

80 0,5 70
P(Y 80) = 1 P(Y < 80) = 1 FU ------------------------------- = 1 FU (2,07) = 1 0,9808 = 0,192

21
40 0,5 70
P(Y < 40) = FU ------------------------------- = FU ( 6,65) 0

21
Exercice 7.9

1. X suit une loi exponentielle de paramtre 1 : E(X) = 1 et var(X) = 1 (cf. cours)


E(Y) = 2 + E(X) = 2 + var(Y) = 2 var(X) = 2
y2
FY(y) = P(Y y) = P X ----------- =

1 e (y 2)/

si y 2

si y < 2

La v.a. Y suit en fait une loi exponentielle de paramtres et = 2.

328

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 329 Mercredi, 24. novembre 2010 10:57 10

2.1. P(Y < 2) = FY(2) = 0


P(2 Y 5) = FY(5) FY(2) = 1 e 3/5 0,45
2.2. yi* = 2 5 ln(1 Fi)

La loi exponentielle de paramtres = 5 et = 2 est adapte puisque le nuage des


points (yi*, yi) est approximativement align le long de la premire bissectrice.
Exercice 7.10

Dunod. La photocopie non autorise est un dlit.

1. x = 28,1

sX = 9,375

50 39
2. Me = 25 + 5 ------------------ = 26,96
28
35 28
18 28
3.1. P(18 < X < 35) = FU ------------------ FU ------------------
9,5
9,5
= FU (0,74) FU ( 1,05) = 0,7704 1 + 0,8531 = 62,35 %
partir de lchantillon : 2 0,13/5 + 0,22 + 0,28 + 0,15 = 70,2 %
3.2. P(X > A) = 0,75

P(X A) = 0,25

A 28
--------------- = u25 % = 0,675
9,5

A = 28 9,5 0,675 = 28 6,4125 21,6


25 17
A' = Q1 = 20 + 5 ------------------ = 21,82
22

A' est le premier quartile

CORRIGS DES EXERCICES

329

P283-334-9782100549412.fm Page 330 Mercredi, 24. novembre 2010 10:57 10

4.

Lensemble nest pas trop loign de la bissectrice


il ny a pas lieu de remettre lajustement en cause.
Exercice 7.11

0
si t < 0

t
1. FT(t) =
f ( u )du = 1 u 5
u 5 t
t5
du = [ e
] = 1e
--5- e
0

0
t

si t 0

2. P(T > 8) = 1 FT(8) = e 8/5 = e 1,6 0,202


3.1.

Xi =

si temps dattente 8 min

sinon

i=1

X i (n ; 0,8)

3.2. E(Y) = 0,8 n

q 0,2

Y est une somme de n v.a. indpendantes de Bernoulli de mme paramtre


p = 0,8

Y=

330

p 0,8

var(Y) = 0,16 n

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 331 Mercredi, 24. novembre 2010 10:57 10

4.1.
Y

Z=Y+n

n+k

2n

Probabilit

0,2n

4.2. E(Z) = E(Y + n) = 1,8 n

n 0,8n 0,2n k
k

0,8n

var(Z) = var(Y + n) = var(Y) = 0,16 n

Exercice 7.12

1.

Dunod. La photocopie non autorise est un dlit.

Calcul du coefficient de corrlation linaire et des coefficients de la droite des moindres carrs avec Excel :
r = Coefficient corrlation (C2:C11;E2:E1)
= Index(Droitereg(E2:E11; C2:C11);1)
b = Index(Droitereg(E2:E11; C2:C11);2)
r = 0,94 r tant voisin de 1, on peut considrer les 10 points approximativement aligns : ln(1 Fi) 1,128 ln( xi) + 7,518
Pour tracer avec Excel la droite des moindres carrs : onglet Graphique , Ajouter
une courbe de tendance , type Linaire . On peut utiliser ensuite longlet Options
pour Afficher lquation sur le graphique et pour Afficher le coefficient de dtermination (R 2) sur le graphique .
2. La fonction de rpartition dune loi de Pareto est fonction de 2 paramtres et x0 :
x
FX(x) = 1 ----0-
x

x
1 FX(x) = ----0-
x

ln(1 FX(x)) = (ln(x0) ln(x))

Les points {ln(xi) ; ln(l Fi)} tant quasi-aligns (r = 0,94), lajustement de la distribution par une loi de Pareto est justifi, et on peut valuer ses paramtres :
= 1,128 ln(x0) 6,667 x0 = e6,667 786

CORRIGS DES EXERCICES

331

P283-334-9782100549412.fm Page 332 Mercredi, 24. novembre 2010 10:57 10

Exercice 7.13
2

1. y t = 1,3 t + 135,5
t2
1
4
9
16
25
36
49
64
81
100
121
144

Nombre de contrats
souscrits
117
178
149
189
145
173
170
223
223
281
285
339

y t

et

136,8
140,7
147,2
156,3
168,0
182,3
199,3
218,8
240,9
265,7
293,0
323,0

19,8
37,3
1,8
32,7
23,0
9,3
29,3
4,2
17,9
15,3
8,0
16,0

Rsidus
croissants
29,3
23,0
19,8
17,9
9,3
8,0
1,8
4,2
15,3
16,0
32,7
37,3

2.

Les points tant peu loigns de la bissectrice, on ne rejette pas lajustement par la loi
normale  (0 ; 22).
Exercice 7.14

1. P ( X m < 10 ) = P ( 10 < X m < 10 ) = F U ( 10 25 ) F U ( 10 25 )


= ( 2F U ( 0,4 ) 1 ) = 2 0,6554 1 = 0,3108
2. X 25 = teneur moyenne en sucre des 25 bouteilles

332

INTRODUCTION LA MTHODE STATISTIQUE

P283-334-9782100549412.fm Page 333 Mercredi, 24. novembre 2010 10:57 10

25

 (1 750 ; 125)

puisque les Xi sont iid X de distribution (70 ; 25)

i=1

(iid pour indpendantes et identiquement distribues )

E ( X 25 ) = E ( X )

var ( X 25 ) = var ( X ) 25 = 25

(cf. loi de la v.a. appele moyenne empirique, chapitre 7, III.A).


P ( X m < 10 ) = P ( X m < 2 X ) = 0,9544

X 25  (70 ; 5)

Les points (ui , xi) tant aligns, on a : x i = au i + b


Les ui tant les fractiles dune loi normale centre-rduite, on a : u i = x i m
Les paramtres de la droite des moindres carrs sont donc des valuations de la
moyenne et de lcart-type : m* 65 g
et
* 20 g
Exercice 7.15

1. Profondeur (Me) = 50,5


Profondeur (Q) = 25,5

Me = 127

Q1 = 107

Q3 = (144 + 146)/2 = 145

Dunod. La photocopie non autorise est un dlit.

Trois indicateurs de tendance centrale :


Moyenne = 124,6

Me = 127

(Q1 + Q3)/2 = 126

Deux indicateurs de dispersion :


sX = 32

EIQ = 38

2.1 P(m X m + ) = FU(1) FU( 1) = 0,6826


P(m 2 X m + 2) = FU(2) FU( 2) = 0,9544
2.2

x 1 125
- = 0,1 x 1 125 = 30 1,2816 x 1 = 86,552
P ( X < x 1 ) = 0,1 F U ------------------ 30

CORRIGS DES EXERCICES

333

P283-334-9782100549412.fm Page 334 Mercredi, 24. novembre 2010 10:57 10

FU(ui)

0,1

0,2

0,3

0,4

0,5

ui

1,2816

0,8416

0,5244

0,2533

xi = 30ui + 125

86,6

99,8

109,3

117,4

125,0

FU(ui)

0,6

0,7

0,8

0,9

ui

2,2533

0,5244

0,8416

1,2816

xi = 30ui + 125

192,6

140,7

150,2

163,4

3.
Valeur

< x1

[x1 ; x2[

[x2 ; x3[

[x3 ; x4[

[x4 ; x5[

Effectif

12

10

10

10

Valeur

[x5 ; x6[

[x6 ; x7[

[x7 ; x8[

[x8 ; x9[

x9

Effectif

16

10

14

4.

On a construit un diagramme Probabilit-Probabilit qui permet de comparer les probabilits cumules thoriques aux frquences cumules.
Les points sont quasi aligns sur la bissectrice, les pourcentages cumuls thoriques et
observs sont trs proches, lajustement de la distribution observe par la loi normale
 (125 ; 30) est retenu.

334

INTRODUCTION LA MTHODE STATISTIQUE

P335-360-9782100549412.fm Page 335 Mercredi, 24. novembre 2010 11:13 11

Annexes
I. Formulaire lmentaire de combinatoire
II. Principaux modles de probabilits :
mthodes de calculs

III. Introduction la simulation


des lois de probabilit

IV. Tables

Dunod. La photocopie non autorise est un dlit.

I.

Formulaire lmentaire de combinatoire

Sous le nom de combinatoire, on regroupe ici les rsultats essentiels de


dnombrement sur les ensembles.

A. Ensemble des parties dun ensemble


Soit  un ensemble de N lments. Lensemble
comporte 2 N lments.

() des parties de ,

B. Arrangements avec rptition


On sintresse un ensemble  de N lments, dans lequel on slectionne k
individus, chacun pouvant tre choisi plusieurs fois (tirages avec rptition).

ANNEXES

335

P335-360-9782100549412.fm Page 336 Mercredi, 24. novembre 2010 11:13 11

Le nombre de slections possibles de k individus de


(ou encore darrangements avec rptition) est de :

, par un tel procd

Nk
En effet, pour le premier individu on a N choix possibles. Chacun de ces
choix est associ nimporte lequel des N choix possibles pour le second. On
continue ainsi jusquau choix du dernier ( N possibilits galement).
Cest par exemple le cas, pour le nombre de rsultats possibles pour une
suite de N preuves identiques ayant chacune les mmes k rsultats lmentaires possibles.

C. Permutations
Soit  un ensemble de N lments, on appelle permutation sur  une suite
de N lments de . Ceci revient dire que lon a dispos N objets de 
dans un ordre dtermin. Il faut remarquer que dans cette dfinition gnrale,
les objets peuvent ne pas tre distincts. Pour cette raison, on introduit la
notion de permutation sans rptition, dans laquelle les lments de  sont
distincts. Cette dernire dfinition revient donc dire quune permutation
(sans rptition) de  est un rangement particulier de ses lments.
Pour un ensemble  N lments il existe N (N 1) ( N 2) 2 1
permutations sans rptitions distinctes. Ce rsultat est simple montrer par
rcurrence. La valeur ainsi obtenue est appele factorielle N, et elle est note
N!
Plus gnralement, si N1, N2, Nk sont les nombres de rsultats distincts
qui peuvent tre obtenus sur k preuves successives, alors le nombre de rsultats distincts possibles lissue de la srie des k preuves est donn par :
N1 N2 Nk
On peut montrer aisment quil existe NN permutations avec rptitions
de N lments.
Dans ce qui suit on ne parlera que de permutation sans rptition.

D. Arrangements sans rptition


On se place donc encore dans le cas dun ensemble  N lments distincts. Le
nombre de choix possibles ordonns de k objets de  est appel nombre darrangements sans rptition de k objets parmi N, et est dsign par A Nk . On a :
N!
A Nk = -------------------- = N ( N 1 ) ( N 2 ) ( N k + 1 )
( N k )!

336

INTRODUCTION LA MTHODE STATISTIQUE

P335-360-9782100549412.fm Page 337 Mercredi, 24. novembre 2010 11:13 11

En effet, aprs avoir choisi le premier lment ( N choix possibles), il ne


reste plus que (N 1) choix possibles pour le second. Chaque choix du premier
peut tre associ nimporte lequel des choix du second, et on aN(N 1) choix
possibles pour les 2 premiers lments slectionns. En poursuivant le raisonnement, on obtient le rsultat annonc.
Soit ainsi une tombola dote de 4 prix, pour laquelle 20 billets ont t
mis et tous vendus. Le nombre de rsultats posssibles correspond alors au
nombre de choix possible de 4 individus (les 4 gagnants) parmi 20 (les 20
possesseurs de billets), et lordre des gagnants est ici important puisque les
prix sont distincts et de valeurs en gnral trs diffrentes. On a
20!
4
= -------- = 17 18 19 20 = 116 280
A 20
16!
situations diffrentes observables lissue du tirage de la tombola.

Dunod. La photocopie non autorise est un dlit.

E. Combinaisons sans rptition


Dans le cas prcdent, lordre dans lequel se trouvent les k individus slectionns dans lensemble  est important, et il convenait de distinguer deux
slections dans lesquelles les individus tirs seraient les mmes mais ne
seraient pas affects aux mmes positions (ou rangs de tirage).
Nous considrons souvent aussi des cas o cet ordre na pas de signification prcise. Pour un ensemble  de N lments dans lequel on slectionne
k individus sans rptition sans tenir compte de lordre, on dsigne alors le
nombre de choix possibles par N , quon appelle nombre de combinaisons
k
de N individus pris k k.
On sait que tous les choix rsultant aux mmes
k individus donneront
donc une seule combinaison de k lments pris parmi les N de . Tous ces
choix sont les permutations des k lments, et il en existe k !
Il en rsulte que le nombre de combinaisons

N est gal au nombre


k

darrangements A Nk divis par k ! :


A Nk
N!
N = ------ = ------------------------ k
k!
k! ( N k )!
Dans lexemple prcdent de la tombola 20 billets vendus et 4 prix, si
les prix taient identiques, on parlerait de
20! - = 4 845
20 = ---------------- 4
4! 16!

ANNEXES

337

P335-360-9782100549412.fm Page 338 Mercredi, 24. novembre 2010 11:13 11

rsultats possibles lissue du tirage (soit 4 ! = 24 fois moins que si les prix
sont diffrents).
Mentionnons quelques formules trs utilises relatives ce nombre de
combinaisons :
N = 1
0

N = N
1

N = N
k
N k

ainsi que :

N = N 1 + N 1
k
k k 1
dont lapplication trs connue est le triangle de Pascal qui est un tableau
triangulaire dont chaque ligne correspond une valeur de
N et chaque
colonne une valeur de k (k = 0, 1, 2, ... , N). Sa construction se dduit de la
formule ci-dessus. Ainsi pour les 8 premires lignes :
1
1
1
1
1
1
1
1

2
3
4
5
6
7

1
=1
=2
=3
=4
=5
=6

+1
+13=
+16=
+ 1 10 =
+ 1 15 =
+ 1 21 =

1
1 +2
3+3
6+4
10 + 5
15 + 6

4=
10 =
20 =
35 =

1
1+3
1
4+6
5= 1+4
1
10 + 10 15 = 5 + 10 6 = 1 + 5
20 + 15 35 = 15 + 20 21 = 6 + 15

1
7=1+6

en se rappelant que les extrmes de chaque ligne sont toujours gaux 1.


Citons aussi la formule bien connue du binme de Newton :
(a + b)N =

k a

Nk

k=1

dont un cas particulier est :


2N =

Nk

k=1

obtenu en prenant a = 1 et b = 1.
Enfin, on citera une formule de rcurrence permettant de calculer les nombres de combinaisons par quelques pas de programme :
Nk+1 N
N = ---------------------
k 1
k
k
On retrouve son application lannexe II.

338

INTRODUCTION LA MTHODE STATISTIQUE

P335-360-9782100549412.fm Page 339 Mercredi, 24. novembre 2010 11:13 11

F. Coefficients multinomiaux
Le nombre total de diffrents partages dun ensemble N lments en k sousensembles disjoints, contenant respectivements n1, n2, , nk lments est
donn par le coefficient multinomial :
N!
--------------------------------------------n1 ! n2 ! nk !
Cest une gnralisation du nombre de combinaisons, N , o lon par k
tageait lensemble  N lments en deux sous-ensembles, lun de k lments et lautre des ( N k) lments restants.

II. Principaux modles de probabilits :


mthodes de calculs

A. Loi binomiale
Dunod. La photocopie non autorise est un dlit.

La formule donnant les probabilits individuelles dune loi (n, p) permet


de construire une procdure itrative. En effet, si X suit une telle loi :
P( X = k + 1 ) = n pk + 1( 1 p )n k 1
k + 1
n!
= --------------------------------------------- p k + 1 ( 1 p ) n k 1
( k + 1 ) ( n k 1 )!
( 1 p )n k
n! ( n k )
= ----------------------------------------- p k p ------------------------(1 p)
k! ( k + 1 ) ( n k )!
(n k) p
n!
= ------------------------ p k ( 1 p ) n k ---------------------------------(k + 1)(1 p)
k! ( n k )!
(n k) p
= ----------------- ----------------- P ( X = k )
(k + 1) (1 p)

ANNEXES

339

P335-360-9782100549412.fm Page 340 Mercredi, 24. novembre 2010 11:13 11

On crira donc trs facilement, partir de la valeur P(X = 0) = (1 p)n,


toutes les probabilits individuelles dune loi binomiale, en multipliant la
prcdente par
(n k) p
---------------------------------(k + 1)(1 p)
Partant dune somme gale
P(X = 0), on obtiendra les probabilits
cumules en ajoutant chaque fois la nouvelle probabilit individuelle la
somme de ltape prcdente.

B. Loi de Poisson
Ici encore, la formule des probabilits individuelles permet dcrire une formule de calcul itratif (formule dj prsente et utilise au chapitre 6, III).
Si Y suit une loi (m), on a la formule :
m
P ( Y = k + 1 ) = ----------------- P ( Y = k )
(k + 1)
qui permet de programmer le calcul des probabilits individuelles, partant de
P(Y = 0) = e m. La programmation du calcul des probabilits cumules se
fait comme pour celles de la loi binomiale, en additionnant la nouvelle probabilit individuelle la somme de ltape prcdente, aprs avoir dbut la
somme par P(Y = 0).

C. Loi de Gauss centre rduite


Le calcul de valeurs de la fonction de rpartition peut seffectuer laide de
formules approches. Les plus utiles sont les formules de Hastings. Simples
programmer, elles permettent dobtenir la valeur de la fonction cumulative
en un point u > 0. Pour la valeur de FU(u) en un point u < 0, on se sert de
lgalit FU(u) = 1 FU(u). Nous donnons deux formules. La seconde est
plus simple, mais un peu moins prcise que la premire.
u2

a)

1 ----F U ( u ) 1 ( a 1 z + a 2 z 2 + a 3 z 3 ) ----------e 2 dans laquelle :


2
a 1 = 0,4361836

a 2 = 0,1201676

1
z = ------------------------------1 + 0,33267u
Lerreur commise est au plus gale 0,00001.

340

INTRODUCTION LA MTHODE STATISTIQUE

a 3 = 0,9372980

P335-360-9782100549412.fm Page 341 Mercredi, 24. novembre 2010 11:13 11

b)
1
F U ( u ) 1 --- ( 1 + 0,196854u + 0,115194u 2 + 0,000344u 3 + 0,019527u 4 ) 4
2
Lerreur commise est au plus gale 0,00025.

D. Loi du khi-deux
On utilise la formule, vue au chapitre 7, III.A, de Wilson-Hilferty :
13

x
2 9n
P ( 2 ( n ) < x ) F U --- 1 + ------ ------
n
9n 2

la dtermination de la valeur de la fonction de rpartition de la loi de


Gauss centre rduite se faisant par lune des formules donnes ci-dessus.

E. Loi de Student
On a vu au chapitre 7, III.B, que la loi de Student 2 ddl possde une fonction
de rpartition simple permettant des calculs exacts. Dans le cas gnral, on
utilise deux formules dapproximation ; lune pour la fonction de rpartition,
lautre pour les fractiles. La premire formule est due Fisher et scrit, pour
t > 0 (pour t < 0, on utilise la symtrie) :

Dunod. La photocopie non autorise est un dlit.

t2

1
1
1 e ---2- 1--- ( 2 + 1 ) 1--- ----P ( T v < t ) = F U ( t ) ---------t t
+ - t ( 3 t 6 7 t 4 5 t 2 3 ) ----2

v
4
v 96
2
1
1
+ --------- t ( t 10 11t 8 + 14t 6 + 6t 4 3t 2 15 ) ----3
384
v
Lerreur commise est au plus gale 0,000005. Cest donc une excellente
approximation.
Dans le cas particulier de la loi de Student 1 ddl, on peut utiliser la formule suivante qui donne un rsultat entach dune erreur au plus gale
0,001, mais qui ne ncessite pas de calcul de fonction de rpartition de la loi
normale.

ANNEXES

341

P335-360-9782100549412.fm Page 342 Mercredi, 24. novembre 2010 11:13 11

P ( 0 < T 1 < t ) --1- t t---3 + t---5 t---7


si 0 t 0,5

3 5 7

2 1
1
1
1 1 1
P ( 0 < T 1 < t ) --- + --- --- ( t 1 ) 2 --- ( t 1 ) + ------ ( t 1 ) 3 ------ ( t 1 ) 5
4
40
2
12
4

si 0,5 t 1

1- + -----1- -----1- si t 1,5


P ( 0 < T 1 < t ) 1--- + --1- 1--- -----
2 t 3t 3 5t 5 7t 7
La formule suivante permet une approximation des fractiles de la loi de
Student partir de ceux de la loi de Gauss centre rduite. Elle est due
Fisher et Cornish :
6
4
2
4
2
2
1
1
1
1 1
1
t ( v ) u + --u ( u + 1 ) -- + -----u ( 5u + 16u + 3 ) ----- + --------u ( 3u + 19u + 17u 15 ) ----v 96
4
v3
v 2 384

F. Loi de Fisher-Snedecor
Pour cette loi, on peut utiliser la formule suivante, due G.W. Cochran, et
qui donne les fractiles dune loi F(1, 2) en fonction des fractiles de la loi
normale centre rduite :
12
2
1
f ( v 1 , v 2 ) d 1 + --- ( u 2 1 ) +u c 1 c---- ( u 2 + 3 )

3
6

o et

1 1 1
d = --- --- ---2 v 2 v 1

1 1 1
c = --- ---+ ---2 v 1 v 2

Cette formule est en fait drive de la formule de Wilson-Hilferty pour


chaque loi de khi-deux au numrateur et au dnominateur de la loi de FisherSnedecor. On ne connait pas prcisment de borne suprieure de lerreur
commise avec cette approximation, mme si on peut considrer que cette
approximation est de bonne qualit.

342

INTRODUCTION LA MTHODE STATISTIQUE

P335-360-9782100549412.fm Page 343 Mercredi, 24. novembre 2010 11:13 11

III.

Introduction la simulation
des lois de probabilit

A. La place des mthodes de simulation

Dunod. La photocopie non autorise est un dlit.

Les activits conomiques sont tributaires de contraintes et dinfluences complexes, sources de variation importantes sur la ou les grandeurs tudies.
Dans certains cas, on peut obtenir une solution analytique au fonctionnement
dun systme complexe, mais le plus souvent il est ncessaire de recourir
ltude de scnarii sous la forme dune analyse de sensibilit, ou mieux
encore la simulation lorsque la partie alatoire peut tre dcrite par des distributions de probabilits. Ainsi, dans une modlisation de flux, la prise en
compte des interactions de toutes sortes gnre des modles mathmatiques
dlicats, de mme que pour ltablissement de valeurs ( pricing), les calculs
sont bass sur des modles alatoires dont la rsolution complte nest pas
toujours ncessaire et/ou possible.
Toutes les mthodes scientifiques de gestion ont bnfici de lexplosion
des ressources de calcul des ordinateurs, qui ont donn loccasion dune large
diffusion des mthodes dites
intensives comme la simulation. Les
tableurs actuels sont tous munis dun gnrateur de nombres
pseudoalatoires de qualit suffisante pour la plupart des besoins courants. Avec
la mise disposition dune bibliothque de fonctions (mathmatiques, statistiques, logiques, etc.), les mthodes de simulation sont devenues un ensemble
doutils daide la dcision trs largement accessible et rpandu. Quelques
bibliothques de programmes (comme le logiciel R) organises autour dun
langage trs simple compltent les instruments de base.

B.

Les principes de la simulation sur tableur

Simuler est une faon dimiter. Simuler le comportement dun systme complexe consiste en reconstituer fictivement des ralisations. On parle de
simulation alatoire lorsque celles-ci sont obtenues laide de ralisations
fictives de variables alatoires de distributions connues.
Pour toute simulation, on part de ralisations artificielles de la distribution uniforme continue sur lintervalle
]0 ; 1[ qui sont fabriques
(simules) au travers de la fonction ALEA(). Lappel de cette fonction dans
K cellules dune feuille de tableur permet dobtenir { x i , i = 1,,K } , K ralisations indpendantes de la distribution uniforme continue sur ]0 ; 1[

ANNEXES

343

P335-360-9782100549412.fm Page 344 Mercredi, 24. novembre 2010 11:13 11

Pour obtenir des valeurs simules de la distribution de Bernoulli de paramtre p on utilise la fonction logique :
SI ALEA() < p
en affectant la valeur 1 comme rsultat lorsque la condition est ralise, et la
valeur 0 sinon.
En effet, la probabilit davoir un rsultat de loi uniforme continue sur
]0 ; 1[ infrieur p est gale p (chapitre 7, I.A).

C.

Simulation de lois discrtes

On peut obtenir une ralisation simule dune loi binomiale


 (n ; p) en
simulant n ralisations de lois de Bernoulli de paramtre p comme on vient
de voir, et en faisant la somme des rsultats puisquune variable binomiale
 (n ; p) est une somme de n variables de Bernoulli indpendantes et de
mme paramtre p. On peut aussi simuler une distribution gomtrique (p)
en simulant des ralisations de lois de Bernoulli de paramtre
p jusqu
lobtention de la premire valeur 1
La simulation de valeurs issues dune distribution de Poisson demande
une assez bonne pratique de lutilisation dun tableur (avec macros). Elle peut
aussi tre obtenue partir des proprits de certains modles simples de files
dattente1 ; la mthode est voque propos de la simulation de la loi exponentielle dans le paragraphe suivant.

D. Simulations de lois continues


Pour obtenir des ralisations simules dune distribution continue lorsque sa
fonction de rpartition est inversible on utilise le rsultat donn la fin du
paragraphe sur la distribution uniforme (chapitre 7, I.A) : si X est une variable alatoire continue dont la fonction de rpartition F est bijective (donc
inversible), alors la variable alatoire Y = F(X) a une distribution uniforme
continue sur ]0 ; 1[
En effet, X peut sobtenir par X = F 1 (Y) o Y est uniforme continue sur
]0 ; 1[, donc pouvant tre obtenue par lappel la fonction ALEA().
Lexemple de la distribution exponentielle est lun des plus utiliss. La
fonction de rpartition de la distribution exponentielle de paramtres et
est donne par :
0
y = F(x) =
1 exp ( ( x ) )
Pour x on a x = ln(1 y)
1. Cf. par exemple louvrage de Dodge et Melfi en bibliographie.

344

INTRODUCTION LA MTHODE STATISTIQUE

si x <
si x

P335-360-9782100549412.fm Page 345 Mercredi, 24. novembre 2010 11:13 11

Dunod. La photocopie non autorise est un dlit.

Pour toute valeur de y, nombre pseudo-alatoire gnr par la fonction


ALEA(), on obtient ainsi une valeur x dune loi exponentielle par un calcul
lmentaire.
La simulation de valeurs issues de distributions exponentielles permet de
simuler des systmes de files dattente gnrs par laccs alatoire dutilisateurs une ressource partage (un guichet par exemple) o les intervalles
entre deux arrives successives sont distribus selon une loi exponentielle et
o les temps dutilisation de la ressource sont aussi distribus selon une loi
exponentielle (files notes M/M/C) 1. Ltude de ces files dattente (ici M/M/1)
permet de montrer que le nombre darrives par intervalle de temps fixe est
alatoire et distribu selon une loi de Poisson. On retrouve donc ici une possibilit de simuler des valeurs issues dune loi de Poisson partir de la simulation dune file dattente reposant sur des lois exponentielles.
Pour obtenir des ralisations simules dune distribution continue avec
une fonction de rpartition non inversible, on doit recourir des mthodes
plus labores, telles que la mthode dacceptation-rejet. Elles ne sont pas
prsentes ici, mais nous donnerons simplement deux mthodes trs utilises
pour simuler des valeurs de lois de Gauss.
Mthode 1 : faire la somme de 12 valeurs simules de loi uniforme continue sur ]0 ; 1[ obtenues avec la fonction ALEA(). Par application du thorme central limite (chapitre 7, II.E), la distribution de la somme de 12
variables uniformes continues sur ]0 ; 1[ peut tre approxime par une loi de
Gauss (6 ; 1), et on obtient une loi de Gauss centre rduite en retranchant
6 au rsultat de cette somme de 12 valeurs de loi uniforme (il est conseill
de montrer ce rsultat en exercice).
Mthode 2 (Box et Mller) : simuler deux valeurs indpendantes x1 et x2 de
loi uniforme continue sur ]0 ; 1[ avec la fonction ALEA(). On obtient ensuite
deux valeurs indpendantes de loi de Gauss centre rduite en calculant :
u1 =

2 ln x 1 cos ( 2x 2 )

u2 =

2 ln x 1 sin ( 2x 2 )

Pour obtenir une valeur simule y dune loi de Gauss  (m ; ), il suffit


davoir une valeur simule u dune loi de Gauss centre rduite (par une des
mthodes prcdentes par exemple) et calculer y = u + m
Les liens tablis entre les diffrentes distributions continues montrent par
exemple encore que pour obtenir une valeur simule dune distribution du khideux 2 degrs de liberts, il suffit de se donner deux valeurs simules indpendantes de loi de Gauss centre rduite et de faire la somme de leurs carrs.
Or, en appliquant la mthode de Box et Mller en partant des valeurs x1 et x2
1. La lettre M fait rfrence au caractre sans mmoire ( memoryless) de cette distribution.

ANNEXES

345

P335-360-9782100549412.fm Page 346 Mercredi, 24. novembre 2010 11:13 11

issues dune loi uniforme continue sur ]0 ; 1[, on obtient deux valeurs indpen2
2
dantes u1 et u2 dune loi de Gauss centre rduite telles que u 1 + u 2 = 2 ln x 1
La fonction ALEA() gnre donc une valeur dune distribution du khideux 2 degrs de libert en calculant 2ln(ALEA())
Le lecteur peut trouver ensuite comment simuler facilement des valeurs
dune loi de khi-deux nombre pair de degrs de libert.

E.

Quelques exemples et applications

1) Simulation dune loi binomiale


La simulation de la loi binomiale est illustre partir du nombre de filles
dans des classes de CP (ayant toutes 25 lves), en supposant que la rpartition des enfants la naissance est de 48 % de filles et de 52 % de garons
(estimations dmographiques classiques).
Dans ce cadre nous avons simul ( cf. tableau 1) 12 classes de 25 lves
avec le tableur Excel.
Tableau 1 Simulation dune loi  (25 ; 0,48)

Colonne A : valeurs de la fonction ALEA()


Colonne B : simulation de valeurs de loi de Bernoulli de paramtre 0,48
par la fonction SI(A1 < 0,48 ; 1 ; 0) dans la cellule B1, puis tire vers le bas
sur 25 lignes (croix en bas droite de la cellule).

346

INTRODUCTION LA MTHODE STATISTIQUE

P335-360-9782100549412.fm Page 347 Mercredi, 24. novembre 2010 11:13 11

Colonnes C et D, E et F, G et H, I et J, K et L, M et N, O et P, Q et R, S
et T, U et V, W et X remplies de manire similaire aux colonnes A et B.
Les colonnes B, D, F, H, J, L, N, P, R, T, V et X contiennent chacune une
suite de 25 valeurs (0 ou 1) ralisations de naissances simules, et modlisent
chacune une classe de CP de 25 enfants dont on obtient le nombre de filles
en faisant la somme de la colonne.
Ce nombre de filles est en thorie la somme de 25 alas de Bernoulli
indpendants de mme paramtre 0,48 ; il est distribu selon une loi binomiale  (25 ; 0,48)
La moyenne thorique (25 0,48 =12) et la variance thorique (25 0,48
0,52 = 6,24) sont compares la moyenne et la variance des valeurs simules (lignes 30 et 31 du tableau1).
Il est aussi possible de simuler presque instantanment un jeu de pile ou
face rpt 5 000, 10 000 ou mme 100 000 fois pour une pice pipe ou pour
une pice non pipe, et dobserver la convergence des frquences de pile vers
la probabilit thorique impose dans la simulation, ce qui illustre la loi des
grands nombres.

Dunod. La photocopie non autorise est un dlit.

2) Simulation dune loi exponentielle


Le second exemple est celui des lois exponentielles. Dans les systmes file
dattente, une ressource en quantit disponible limite (guichet, serveur informatique, imprimante, etc.) est soumise des demandes qui peuvent excder
ses capacits de rponse instantanes. Cest bien entendu ce que chacun a
dj vcu et observ la caisse dun magasin, dans une station-service, aux
guichets dun service public, par exemple.
Le modle simple de file dattente une seule ressource en partage est
celui o les demandes (ou arrives) sont alatoires, indpendantes, et arrivent
spares par des intervalles de temps distribus selon une loi exponentielle,
les temps de service (rponses aux demandes) tant eux aussi distribus selon
une loi exponentielle.
Ces deux variables alatoires (temps sparant deux demandes successives,
temps de service) ont t simules laide des nombres pseudo-alatoires
dExcel ; quelques calculs expliqus ci-dessous permettent de construire arrives et dparts (par libration de la ressource), ainsi que les temps dattente
et le nombre de demandes en attente (longueur de la file).
Lexemple choisi ( cf. tableau 2), avec la minute pour unit de temps, est
celui o les temps sparant les arrives sont rpartis selon une loi exponentielle de paramtre 1, et les temps de service sont rpartis selon une loi exponentielle de paramtre 4/3. Autrement dit il y a en moyenne une demande par
minute, et le temps de service moyen est de 0,75 minute, soit 45 secondes.

ANNEXES

347

P335-360-9782100549412.fm Page 348 Mercredi, 24. novembre 2010 11:13 11

Ce modle de file dattente est not M/M/1 (chaque M caractrisant la distribution exponentielle memoryless), des dlais inter-arrives puis des temps
de service).
Tableau 2 Simulation dune file dattente de type M/M/1 pour 30 arrives

Colonne D : numro dordre de la demande (du client) qui arrive.


Colonne E : temps sparant deux arrives successives simules laide de
la fonction :
= LN(1-ALEA())
Colonne : F dates relles darrives des demandes (des clients).
Dans la premire cellule de la colonne (F3), on place la valeur contenue
en E3
Dans la seconde cellule (F4), on additionne la date darrive du prcdent
au temps coul jusqu larrive du suivant : F4 = F3 + E4
Puis on ritre sur la suite de la colonne en tirant la cellule F4 vers le bas
(croix en bas droite de la cellule).
Colonne H : dures des services simuls laide de la fonction :
= (4/3)*LN(1-ALEA())

348

INTRODUCTION LA MTHODE STATISTIQUE

Dunod. La photocopie non autorise est un dlit.

P335-360-9782100549412.fm Page 349 Mercredi, 24. novembre 2010 11:13 11

Colonne G : date de dbut du service du client, qui est :


sa date darrive si le guichet est libre ce moment ;
ou bien gale la date o le guichet est libr par le client en cours de
service
G3 = F3, puis G4 = MAX(F4 ;I3)
et le reste de la colonne par progression selon les valeurs de la colonne I.
Colonne I : date de libration du guichet (fin de service au client en cours).
Cest la somme de la date de dbut de service et de la dure de service du
client considr
I3 = G3 + H3 et le reste de la colonne par progression
Colonne J : temps dattente gal la date de dbut de service diminue de
la date darrive
J3 = G3 F3 et le reste de la colonne par progression
Colonne K : longueur de la file dattente lorsquun client arrive, qui est
gale au numro dordre de ce client diminu du numro dordre du client
qui sera servi :
si le client qui arrive est servi tout de suite, cette longueur est nulle ;
si le client qui est en cours de service est le prcdent, la file sera de
longueur 1, etc.
K5 = D5 EQUIV(F5;$G$3:G5;1)
Cette procdure par simulation permet de comprendre linfluence des
paramtres des lois exponentielles des temps entre demandes et des temps de
service.
En gardant constant le premier, on peut voir que laugmentation du second
(qui signifie que le temps de service moyen est diminu donc que le guichet
se libre plus vite) entrane des attentes moins longues et une file moins fournie, alors que sa diminution (qui implique que le temps de service moyen est
augment) allonge le temps dattente moyen et la longueur de la file. Ces
rsultats peuvent tre dmontrs rigoureusement pour la file M/M/1, mais le
recours la simulation est parfois ncessaire pour valuer le temps dattente
moyen, la longueur moyenne de la file, et comprendre le mcanisme et les
consquences dun systme impliquant une (ou plusieurs) file(s) dattente.

3) Simulation dune loi de Gauss


Nous avons dj indiqu au D de cette annexe ( cf. mthode 1) que le thorme central limite (chapitre 7, II.E) justifiait lutilisation de la somme de
12 valeurs de la fonction ALEA() laquelle on retranche 6 pour obtenir une
valeur simule de loi de Gauss centre rduite.
Lexemple du tableau 3 porte sur 100 valeurs simules (dont nous montrons les 25 premires) et illustre la qualit de cette mthode de simulation
laide dun diagramme Quantile-Quantile.
Pour obtenir les quantiles thoriques, les valeurs simules ont t tries
par ordre croissant, et dans la colonne situe gauche on a port le numro

ANNEXES

349

P335-360-9782100549412.fm Page 350 Mercredi, 24. novembre 2010 11:13 11

dordre de ce rangement (de 1 100) ; lobservation portant le numro i est


donc le quantile observ dordre i/100
La colonne de droite donne le quantile thorique de ce mme ordre par
application de la fonction :
= LOI.NORMALE.STANDARD.INVERSE(Di/100)
Tableau 3 Simulation dune loi de Gauss centre rduite et calcul des quantiles thorique

Pour la dernire valeur, on ne calcule pas LOI.NORMALE.STANDARD.INVERSE(1) qui nest pas dfini, mais on choisit une valeur arbitraire proche de 1, comme 0,995 ou 0,999

Figure 1 Diagramme Quantile-Quantile obtenu pour les 100 valeurs

350

INTRODUCTION LA MTHODE STATISTIQUE

P335-360-9782100549412.fm Page 351 Mercredi, 24. novembre 2010 11:13 11

Le diagramme Quantile-Quantile obtenu sur pour 100 valeurs ( cf. figure 1)


justifie parfaitement lutilisation de cette mthode de simulation pour obtenir
des valeurs dune loi de Gauss centre rduite. Les valeurs peuvent servir
ensuite pour toute situation concrte o un phnomne alatoire est gouvern
par une loi de Gauss.
En effet, avec des valeurs simules ui dune loi de Gauss centre rduite,
on obtient des valeurs simules yi dune loi de Gauss quelconque  (m ; )
en calculant yi = ui + m
Il en est de mme pour la simulation dune loi log-normale en partant
dune loi de Gauss.

IV. Tables

Dunod. La photocopie non autorise est un dlit.

lexception de la table des fractiles de la loi du khi-deux, les tables suivantes sont extraites de l Aide-mmoire statistique (CISIACERESTA, 1999).

ANNEXES

351

P335-360-9782100549412.fm Page 352 Mercredi, 24. novembre 2010 11:13 11

( nk)

352

INTRODUCTION LA MTHODE STATISTIQUE

Dunod. La photocopie non autorise est un dlit.

P335-360-9782100549412.fm Page 353 Mercredi, 24. novembre 2010 11:13 11

ANNEXES

353

P335-360-9782100549412.fm Page 354 Mercredi, 24. novembre 2010 11:13 11

354

INTRODUCTION LA MTHODE STATISTIQUE

Dunod. La photocopie non autorise est un dlit.

P335-360-9782100549412.fm Page 355 Mercredi, 24. novembre 2010 11:13 11

ANNEXES

355

P335-360-9782100549412.fm Page 356 Mercredi, 24. novembre 2010 11:13 11

Cette table donne les valeurs absolues des fractiles, up de la loi normale
rduite tels que :
F (up) =

up

u2

1 ----2----------e
du = P
2

Pour P < 0,5 (colonne de gauche et ligne suprieure) les fractiles up sont
ngatifs.
Pour P > 0,5 (colonne de droite et ligne infrieure) les fractiles up sont
positifs.

356

INTRODUCTION LA MTHODE STATISTIQUE

Dunod. La photocopie non autorise est un dlit.

P335-360-9782100549412.fm Page 357 Mercredi, 24. novembre 2010 11:13 11

ANNEXES

357

P335-360-9782100549412.fm Page 358 Mercredi, 24. novembre 2010 11:13 11

Cette table donne pour u 6 0, la valeur P = F(u) de la fonction de rpartition de la loi normale rduite telle que :
u

x2

1 ----P = F ( u ) = ----------e 2 dx
2

Pour u < 0 : P = F(u) = 1 F( u)

358

INTRODUCTION LA MTHODE STATISTIQUE

P335-360-9782100549412.fm Page 359 Mercredi, 24. novembre 2010 11:13 11

Dunod. La photocopie non autorise est un dlit.

Cette table donne les valeurs des fractiles tP(v) de la loi de Student pour
P 0,60
Pour les valeurs P 0,40, on a tP(v) = t 1 P (v)

ANNEXES

359

P335-360-9782100549412.fm Page 360 Mercredi, 24. novembre 2010 11:13 11

360

INTRODUCTION LA MTHODE STATISTIQUE

P361-362-9782100549412.fm Page 361 Jeudi, 18. novembre 2010 12:17 12

Bibliographie
Ouvrages de base
ESCOFIER B., PAGES J., Initiation aux traitements statistiques, Mthodes, mthodologie, Presses universitaires de Rennes, 1997.
GIARD V., Statistique applique la gestion , 8 e d., conomica, 2003.
GRAIS B., Statistique descriptive , coll. co sup , 3 e d., Dunod, 2004.
GRAIS B., Mthodes statistiques , coll. co sup , 4 e d., Dunod, 2006.
MORINEAU A., C HATELIN Y.-M. et al. , Lanalyse statistique des donnes :
apprendre, comprendre et raliser avec Excel , Ellipses, 2005.

Ouvrages gnraux
DODGE Y., Statistique, Dictionnaire encyclopdique , Springer
DROESBEKE J.-J., T ASSI P., Histoire de la statistique , Que

Verlag, 2004.
sais-je n 2527,

2e d., PUF, 1997.


INSEE, Pour comprendre lindice des prix , Insee-Mthodes, n 81-82, 1998.

Ouvrages dapprofondissement

Dunod. La photocopie non autorise est un dlit.

ANTOINE Ch., Les Moyennes, coll. Que sais-je ? , n 3383, PUF, 1998.
DODGE Y., MELFI G., Premiers pas en simulation , Springer Verlag, 2008.
SAPORTA G., Probabilits, analyse des donnes et statistique, 2e d., ditions Technip,
2006.
TENENHAUS M., Statistique, mthodes pour dcrire, expliquer et prvoir , 2e d.,
Dunod, 2007.

Sites Internet
Cours de statistique en ligne : www.agro-montpellier.fr/cnam-fr/statnet/
Module et mthodes de traitement : www.modulad.fr, onglet ExcelEnse

Logiciels
Excel 2007 , Microsoft.
PASW Statistics (2010), nouveau nom de SPSS version 18 pour Windows,
Mac OS ; SPSS, Chicago, Illinois, 2004.
JMP (2009) version 8pour Mac OS, pour Windows ou pour Linux, produit par
SAS, SAS Institute Inc., Cary, NC, USA, 2004.
R version 2.11.1 (2010). Logiciel libre multi plates-formes (CNU General Public
Licence), The R Foundation, www.r-project.org

BIBLIOGRAPHIE

361

P361-362-9782100549412.fm Page 362 Jeudi, 18. novembre 2010 12:17 12

P363-374-9782100549412.fm Page 363 Vendredi, 26. novembre 2010 2:56 14

Lexique anglais/franais
A
Arithmetic mean Moyenne
arithmtique
B
Bernoulli trial preuve de Bernoulli
Binomial distribution Loi binomiale
Box plot Bote de distribution, bote
moustache, bote pattes
Box-and-whisker plot Bote de
distribution, bote moustaches,
bote pattes

Dunod. La photocopie non autorise est un dlit.

C
Categorical variable Variable
qualitative, variable nominale
Centered random variable Variable
alatoire centre
Central limit theorem Thorme
central-limite
Coefficient of kurtosis Coefficient
daplatissement
Coefficient of skewness Coefficient
dasymtrie
Coefficient of variation Coefficient
de variation
Composite index number Indice
synthtique
Conditional frequency Frquence
conditionnelle
Correlation coefficient Coefficient de
corrlation

Concentration index Indice de


concentration
Conditional distribution Distribution
conditionnelle
Conditional probability Probabilit
conditionnelle
Contingency table Tableau de
contingence
Continuous random variable
Variable alatoire continue
Convergence in distribution
Convergence en loi
Convergence in second-order mean
Convergence en moyenne
quadratique
Convergence in probability
Convergence en probabilit
Correlation ratio Rapport de
corrlation
Covariance Covariance
Cumulative function Fonction
cumulative
Cumulative frequency Effectif
cumul
Cumulative frequency curve Courbe
cumulative
Cumulative distribution function
Fonction de rpartition
D
Decile Dcile
Degree of freedom Degr de libert
Depth Profondeur
Discrete random variable Variable
alatoire discrte
Dummy variable Variable indicatrice

LEXIQUE ANGLAIS/FRANAIS

363

P363-374-9782100549412.fm Page 364 Mercredi, 24. novembre 2010 11:19 11

Equally probable quiprobabilit


Equiprobability quiprobabilit
Exhaustive sampling Tirage exhaustif
Expected value Esprance
mathmatique
Exponential smoothing Lissage
exponentiel

Law of large numbers Loi des grands


nombres
Least-squares regression line Droite
des moindres carrs
Line chart Diagramme en btons

Marginal distribution Distribution


marginale
Median Mdiane
Mean Moyenne
Mean absolute error of prediction
Erreur absolue moyenne de prvision
Mean deviation cart absolu moyen
Mean square error of prediction
Erreur quadratique moyenne de
prvision
Measure of location Indicateur de
position
Measure of shape Indicateur de
forme
Measure of skewness Indicateur
dasymtrie
Measure of variability Indicateur de
dispersion
Modality Modalit
Mode Mode
Moving average Moyenne mobile
Moving median Mdiane mobile

Forecasting Prvision
Frequency Effectif
Frequency distribution Distribution
observe
Frequency table Tableau de
frquence
G
Gaussian distribution Loi de Gauss
Geometric distribution Loi
gomtrique
Geometric mean Moyenne
gomtrique
H
Harmonic mean Moyenne
harmonique
Histogram Histogramme
I
Independence Indpendance
Index number Indice lmentaire
Individual Individu
Interquartile range Intervalle
interquartile

364

N
Normal distribution Loi normale
O
Observation Observation
Outlier Valeur loigne, valeur
extrme

INTRODUCTION LA MTHODE STATISTIQUE

P363-374-9782100549412.fm Page 365 Mercredi, 24. novembre 2010 11:19 11

Pair of random variables Couple de


variables alatoires
Percentile Centile
Pie chart Diagramme circulaire
Population Population
Probability Probabilit
Probability density function Fonction
de densit de probabilit
Probability distribution Loi de
probabilit

Sample chantillon
Sample space Ensemble fondamental
Sampling without replacement Tirage
exhaustif
Scatter plot Graphique de dispersion
Seasonal component Composante
saisonnire
Seasonally adjusted data Donnes
corriges des variations saisonnires
Skewness Asymtrie
Standard deviation cart-type
Standard normal distribution Loi
normale centre rduite
Standardized normal distribution Loi
normale centre rduite
Standardized random variable
Variable alatoire centre-rduite
Statistical unit Unit statistique
Stem and leaf diagram Diagramme
branche et feuille

Q
Quantile Quantile, fractile
Quantile-Quantile plot Diagramme
Quantile-Quantile
Quartile Quartile
Quantitative variable Variable
quantitative

Dunod. La photocopie non autorise est un dlit.

R
Random component Composante
alatoire
Random experiment Exprience
alatoire
Random variable Variable alatoire
Range tendue
Regression curve Courbe de
rgression
Relative frequency Frquence
Response category Modalit

Time series Chronique, srie


chronologique
Trend Tendance long terme
U
Uniform distribution Loi uniforme
V
Variance Variance

LEXIQUE ANGLAIS/FRANAIS

365

P363-374-9782100549412.fm Page 366 Mercredi, 24. novembre 2010 11:19 11

P363-374-9782100549412.fm Page 367 Mercredi, 24. novembre 2010 11:19 11

Lexique franais/anglais
A
Asymtrie Skewness
B
Bote de distribution Box plot, boxand-whisker plot
Bote moustaches Box plot, boxand-whisker plot
Bote pattes Box plot, box-andwhisker plot

Dunod. La photocopie non autorise est un dlit.

C
Centile Percentile
Chronique Time series
Coefficient daplatissement
Coefficient of kurtosis
Coefficient dasymtrie Coefficient
of skewness
Coefficient de corrlation
Correlation coefficient
Coefficient de variation Coefficient
of variation
Composante saisonnire Seasonal
component
Composante alatoire Random
component
Convergence en loi Convergence in
distribution
Convergence en moyenne quadratique
Convergence in second-order
mean
Convergence en probabilit
Convergence in probability

Couple de variables alatoires Pair of


random variables
Courbe cumulative Cumulative
frequency curve
Courbe de rgression Regression
curve
Covariance Covariance
D
Dcile Decile
Degr de libert Degree of freedom
Diagramme branche et feuille
Stem and leaf diagram
Diagramme circulaire Pie chart
Diagramme en btons Line chart
Diagramme Quantile-Quantile
Quantile-Quantile plot
Distribution conditionnelle
Conditional distribution
Distribution marginale Marginal
distribution
Distribution observe Frequency
distribution
Droite des moindres carrs Leastsquares regression line
E
cart absolu moyen Mean deviation
cart-type Standard deviation
chantillon Sample
Effectif Frequency
Effectif cumul Cumulative
frequency
Ensemble fondamental Sample space

LEXIQUE FRANAIS/ANGLAIS

367

P363-374-9782100549412.fm Page 368 Mercredi, 24. novembre 2010 11:19 11

preuve de Bernoulli Bernoulli trial


quiprobabilit Equiprobability,
equally probable
Erreur absolue moyenne de prvision
Mean absolute error of prediction
Erreur quadratique moyenne de
prvision Mean square error of
prediction
Esprance mathmatique Expected
value
tendue Range
Exprience alatoire Random
experiment

Indicateur de forme Measure of


shape
Indicateur de position Measure of
location
Indice de concentration
Concentration Index
Indice lmentaire Index number
Indice synthtique Composite index
number
Individu Individual, observation
Intervalle interquartile Interquartile
range
L

F
Fonction cumulative Cumulative
function
Fonction de densit de probabilit
Probability density function
Fonction de rpartition Cumulative
distribution function
Fractile Quantile
Frquence Relative frequency
Frquence conditionnelle
Conditional frequency
G
Graphique de dispersion Scatter plot

Lissage exponentiel Exponential


smoothing
Loi binomiale Binomial distribution
Loi de Gauss Gaussian distribution
Loi de probabilit Probability
distribution
Loi des grands nombres Law of large
numbers
Loi gomtrique Geometric
distribution
Loi normale Normal distribution
Loi normale centre rduite
Standardized normal distribution,
standard normal distribution
Loi uniforme Uniform distribution
M

H
Histogramme Histogram
I
Indpendance Independence
Indicateur dasymtrie Measure of
skewness
Indicateur de dispersion Measure of
variability

368

Mdiane Median
Mdiane mobile Moving median
Modalit Modality, response
category
Mode Mode
Moyenne Mean
Moyenne arithmtique Arithmetic
mean
Moyenne gomtrique Geometric
mean

INTRODUCTION LA MTHODE STATISTIQUE

P363-374-9782100549412.fm Page 369 Mercredi, 24. novembre 2010 11:19 11

Moyenne harmonique Harmonic


mean
Moyenne mobile Moving average
P
Population Population
Prvision Forecasting
Probabilit Probability
Probabilit conditionnelle
Conditional probability
Profondeur Depth
Q
Quantile Quantile
Quartile Quartile
R
Rapport de corrlation Correlation
ratio
S

Dunod. La photocopie non autorise est un dlit.

Srie chronologique Time series


Srie corrige des variations
saisonnires Seasonally adjusted
series
T
Tableau de contingence Contingency
table

Tableau de frquence Frequency


table
Tendance long terme Trend
Thorme central-limite Central limit
theorem
Tirage exhaustif Exhaustive
sampling, sampling without
replacement
U
Unit statistique Statistical unit
V
Valeur loigne Outlier
Valeur extrme Outlier
Variable alatoire Random variable
Variable alatoire centre Centered
random variable
Variable alatoire centre-rduite
Standardized random variable
Variable alatoire continue
Continuous random variable
Variable alatoire discrte Discrete
random variable
Variable indicatrice Dummy variable
Variable nominale Categorical
variable
Variable quantitative Quantitative
variable
Variable qualitative Categorical
variable
Variance Variance

LEXIQUE FRANAIS/ANGLAIS

369

P363-374-9782100549412.fm Page 370 Mercredi, 24. novembre 2010 11:19 11

P363-374-9782100549412.fm Page 371 Mercredi, 24. novembre 2010 11:19 11

Index
A
Algbre de Boole 134
Analyse 270
Approximation 203, 236, 239
Arrangement avec rptition 335
Arrangement sans rptition 336
Asymtrie 27
B
Bayes 139
Binme de Newton 338
Bote moustaches 33
Bote de dispersion 33
Bote de distribution 33, 34
Bote--pattes 33
Box-plot 33

Dunod. La photocopie non autorise est un dlit.

C
Chronique 103
Chronologique 103
Circularit 48
Coefficient daplatissement 28, 164
Coefficient dassociation 91
Coefficient dasymtrie 28, 164
Coefficient de corrlation linaire 74,
162
Coefficient de variation 29
Coefficient multinomial 339
Coefficient saisonnier 113, 114
Combinaison sans rptition 337
Concentration 30
Condition de Yule 13

Convergence 166
en loi 166
en moyenne quadratique 168
en probabilit 167
faible 166
Couple de variables alatoires 151
Courbe cumulative 9
Courbe de concentration 30
Courbe de Lorenz 30
Courbe de rgression 89
Covariance 73, 162
D
Dcile 22
Dflater 56
Degr de libert 255
Densit de probabilit 147
Diagramme branche et feuille 12
Diagramme en camembert 3
Diagramme en btons 5
Diagramme quantile-quantile 233
Dispersion relative 29
Distribution conditionnelle 69
Distribution conjointe 67, 152
Distribution marginale 69
Distribution statistique 7
Droite des moindres carrs 75
E
cart absolu moyen 24
cart-type 24, 160
cart-type conditionnel 70

INDEX

371

P363-374-9782100549412.fm Page 372 Mercredi, 24. novembre 2010 11:19 11

chantillon 1, 185
chelle logarithmique 59
Effectif 4
Effectif cumul 8
Ensemble fondamental 133
quiprobabilit 134
Erreur absolue moyenne de prvision
123
Erreur quadratique moyenne de
prvision 123
Espace probabilis 135
Esprance conditionnelle 158
Esprance mathmatique 156
tendue 23
tendue interquartile 23
vnement 133
vnement certain 133
vnement impossible 133
vnement indpendant 138
Exprience alatoire 132
Exprience dterministe 132

Indpendance statistique 71
Indicateur de dispersion 23, 165
Indicateur de forme 165
Indicateur de tendance centrale 14,
156, 165
Indice de concentration 32
Indice de Fisher 54
Indice de Gini 32
Indice de Laspeyres 51
Indice de Paasche 52
Indice des prix 58
Indice lmentaire 47
Indice synthtique 49
Indice-chane 57
Individu 1
Ingalit de Bienaym-Tchbychev
167
Interquartile relatif 29
Intervalle modal 18
Irrgularit 104

F
Facteur dexhaustivit 192
Fonction cumulative 9
Fonction de rpartition 9, 144, 151, 154
Fonction de variable alatoire 149
Fonction gnratrice des moments 163
Formule 341
Formule de Hastings 340
Formule de Wilson-Hilferty 245
Fractile 165
Frquence 4
Frquence conditionnelle 69
Frquence cumule 8
H
Histogramme 6
I
Incompatibilit 133
Indpendance 153

372

K
Kolmogorov 135

L
Lissage exponentiel double 125
Logit 270
Loi binomiale 185
Loi binomiale en proportion 188
Loi conditionnelle 152
Loi dErlang 218
Loi de Bernoulli 182
Loi de Cauchy 247
Loi de Fisher-Snedecor 252
Loi de Pareto 260
Loi de Pascal 193
Loi de Poisson 199
Loi de probabilit dune variable
alatoire continue 146
Loi de probabilit dune variable
alatoire discrte 144

INTRODUCTION LA MTHODE STATISTIQUE

P363-374-9782100549412.fm Page 373 Mercredi, 24. novembre 2010 11:19 11

Loi de Student 247


Loi de Weibull 218
Loi du khi-deux 240
Loi exponentielle 214
Loi faible des grands nombres 170
Loi forte des grands nombres 170
Loi gomtrique 193
Loi hypergomtrique 192
Loi logistique 268
Loi log-normale 256
Loi marginale 152
Loi normale centre rduite 219
Loi normale ou loi de Laplace-Gauss
219
Loi uniforme continue 211
Loi uniforme discrte 183

P
Paradoxe de Bertrand 141
Paradoxe de St Petersbourg 141
Permutation 336
Perturbation 104
Population 1
Probabilit 135
Probabilit a posteriori 140
Probabilit a priori 140
Probabilit conditionnelle 136, 152
Probit 270
Profil en colonne 71
Profil en ligne 71
Profondeur 10

Dunod. La photocopie non autorise est un dlit.

M
Mdiane 19, 165
Mdiane mobile 115
Mesure 91
khi-deux 91
Mesure de probabilit 135
Mthode de lissage exponentiel 120
Modalit 2
Mode 17, 156
Modle 179
Modle continu 180
Modle discret 180
Modle empirique 180
Modle thorique 180
Moment 163
Moment centr 27, 163
Moment factoriel 163
Mouvement saisonnier 104
Moyenne 156
Moyenne arithmtique 14
Moyenne conditionnelle 70
Moyenne empirique 237
Moyenne gomtrique 16
Moyenne harmonique 17
Moyenne mobile 109

Quantile 21, 165


Quartile 21
R
Rapport de corrlation 87
Rgle de Laplace 134
Rversibilit 48
S
-algbre 134
Schma binomial 186
Schma de Bernoulli 181
Srie corrige des variations
saisonnires 113, 114
Simulation 343
dune loi binomiale 346
dune loi de Gauss 349
dune loi exponentielle 347
Slutsky-Yule 111
Somme des Carrs Explique 79
Somme des Carrs Interclasse 87
Somme des Carrs Intraclasse 87
Somme des Carrs Rsiduelle 77

INDEX

373

P363-374-9782100549412.fm Page 374 Mercredi, 24. novembre 2010 11:19 11

Somme des Carrs Totale 77, 87


T
Tableau de contingence 68
Tableau des profils en colonne 71
Tableau des profils en ligne 71
Tendance long terme 103
Thorme central-limite 236
Thorme des probabilits totales 136
Tirage exhaustif 191
Transitivit 48
Trend 103
Triangle de Pascal 338
Tukey 3, 10

Valeur loigne 34, 36


Valeur extrme 34
Variable 2
qualitative 2
quantitative 2
Variable alatoire 142
Variable alatoire centre 158
Variable alatoire indicatrice 182
Variable alatoire rduite 162
Variable gnrique 185
Variable parente 185
Variable statistique continue 6
Variable statistique discrte 4
Variance 24, 160

U
Unit statistique 2

374

W
Wilson-Hilferty 341

INTRODUCTION LA MTHODE STATISTIQUE