Anda di halaman 1dari 172

sume du Cours de Statistique Re Descriptive

Yves Till e 15 d ecembre 2010

Objectif et moyens
Objectifs du cours
Apprendre les principales techniques de statistique descriptive univari ee et bivari ee. Etre capable de mettre en oeuvre ces techniques de mani` ere appropri ee dans un contexte donn e. Etre capable dutiliser les commandes de base du Language R. Pouvoir appliquer les techniques de statistiques descriptives au moyen du language R. R ef erences Dodge Y.(2003), Premiers pas en statistique, Springer. ements de statistique, Editions de lUniversit Droesbeke J.-J. (1997), El e libre de Bruxelles/Ellipses.

Moyens
2 heures de cours par semaine. 2 heures de TP par semaine, r epartis en TP th eoriques et applications en Language R.

Le language R
Shareware : gratuit et install e en 10 minutes. Open source (on sait ce qui est r eellement calcul e). D evelopp e par la communaut e des chercheurs, contient enorm ement de fonctionnalit es. Possibilit e de programmer. D esavantage : pas tr` es convivial. Manuel : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf

Table des mati` eres


1 Variables, donn ees statistiques, tableaux, eectifs 1.1 D enitions fondamentales . . . . . . . . . . . . . . . . 1.1.1 La science statistique . . . . . . . . . . . . . . 1.1.2 Mesure et variable . . . . . . . . . . . . . . . . 1.1.3 Typologie des variables . . . . . . . . . . . . . 1.1.4 S erie statistique . . . . . . . . . . . . . . . . . . 1.2 Variable qualitative nominale . . . . . . . . . . . . . . 1.2.1 Eectifs, fr equences et tableau statistique . . . 1.2.2 Diagramme en secteurs et diagramme en barres 1.3 Variable qualitative ordinale . . . . . . . . . . . . . . . 1.3.1 Le tableau statistique . . . . . . . . . . . . . . 1.3.2 Diagramme en secteurs . . . . . . . . . . . . . 1.3.3 Diagramme en barres des eectifs . . . . . . . . 1.3.4 Diagramme en barres des eectifs cumul es . . . 1.4 Variable quantitative discr` ete . . . . . . . . . . . . . . 1.4.1 Le tableau statistique . . . . . . . . . . . . . . 1.4.2 Diagramme en b atonnets des eectifs . . . . . 1.4.3 Fonction de r epartition . . . . . . . . . . . . . 1.5 Variable quantitative continue . . . . . . . . . . . . . . 1.5.1 Le tableau statistique . . . . . . . . . . . . . . 1.5.2 Histogramme . . . . . . . . . . . . . . . . . . . 1.5.3 La fonction de r epartition . . . . . . . . . . . . 2 Statistique descriptive univari ee 2.1 Param` etres de position . . . . . . 2.1.1 Le mode . . . . . . . . . . 2.1.2 La moyenne . . . . . . . . 2.1.3 Remarques sur le signe de 2.1.4 Moyenne g eom etrique . . 2.1.5 Moyenne harmonique . . 2.1.6 Moyenne pond er ee . . . . 2.1.7 La m ediane . . . . . . . . 2.1.8 Quantiles . . . . . . . . . 2.2 Param` etres de dispersion . . . . 5 9 9 9 9 9 10 11 11 12 13 13 15 15 16 17 17 18 19 19 19 21 23 27 27 27 27 29 31 31 32 33 35 37

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . sommation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

` TABLE DES MATIERES 2.2.1 L etendue . . . . . . . . . . . . . . . . . . . 2.2.2 La distance interquartile . . . . . . . . . . . 2.2.3 La variance . . . . . . . . . . . . . . . . . . 2.2.4 L ecart-type . . . . . . . . . . . . . . . . . . 2.2.5 L ecart moyen absolu . . . . . . . . . . . . . 2.2.6 L ecart m edian absolu . . . . . . . . . . . . Moments . . . . . . . . . . . . . . . . . . . . . . . Param` etres de forme . . . . . . . . . . . . . . . . . 2.4.1 Coecient dasym etrie de Fisher (skewness) 2.4.2 Coecient dasym etrie de Yule . . . . . . . 2.4.3 Coecient dasym etrie de Pearson . . . . . Param` etre daplatissement (kurtosis) . . . . . . . . Changement dorigine et dunit e . . . . . . . . . . Moyennes et variances dans des groupes . . . . . . Diagramme en tiges et feuilles . . . . . . . . . . . . La bo te ` a moustaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 37 38 40 40 40 41 41 41 41 42 42 44 45 46 53 53 53 53 55 55 56 57 60 61 62 64 64 64 65 66 67 77 77 77 78 78 78 80 80 81 81 82

2.3 2.4

2.5 2.6 2.7 2.8 2.9

3 Statistique descriptive bivari ee 3.1 S erie statistique bivari ee . . . . . . . . . . . . . . . 3.2 Deux variables quantitatives . . . . . . . . . . . . . 3.2.1 Repr esentation graphique de deux variables 3.2.2 Analyse des variables . . . . . . . . . . . . . 3.2.3 Covariance . . . . . . . . . . . . . . . . . . 3.2.4 Corr elation . . . . . . . . . . . . . . . . . . 3.2.5 Droite de r egression . . . . . . . . . . . . . 3.2.6 R esidus et valeurs ajust ees . . . . . . . . . 3.2.7 Sommes de carr es et variances . . . . . . . 3.2.8 D ecomposition de la variance . . . . . . . . 3.3 Deux variables qualitatives . . . . . . . . . . . . . 3.3.1 Donn ees observ ees . . . . . . . . . . . . . . 3.3.2 Tableau de contingence . . . . . . . . . . . 3.3.3 Tableau des fr equences . . . . . . . . . . . . 3.3.4 Prols lignes et prols colonnes . . . . . . . 3.3.5 Eectifs th eoriques et khi-carr e . . . . . . . 4 Th eorie des indices, mesures din egalit e 4.1 Nombres indices . . . . . . . . . . . . . 4.2 D enition . . . . . . . . . . . . . . . . . 4.2.1 Propri et es des indices . . . . . . 4.2.2 Indices synth etiques . . . . . . . 4.2.3 Indice de Laspeyres . . . . . . . 4.2.4 Indice de Paasche . . . . . . . . . 4.2.5 Lindice de Fisher . . . . . . . . 4.2.6 Lindice de Sidgwick . . . . . . . 4.2.7 Indices cha nes . . . . . . . . . . 4.3 Mesures de lin egalit e . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

` TABLE DES MATIERES 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 4.3.6 4.3.7 Introduction . . . . . . . . . Courbe de Lorenz . . . . . . Indice de Gini . . . . . . . . . Indice de Hoover . . . . . . . Quintile et Decile share ratio Indice de pauvret e . . . . . . Indices selon les pays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7 82 82 84 84 84 85 85 87 87 87 87 88 89 89 92 93 94 94 94 95 95 95 96 96 97 97 97 98 102 103 103 105 108 108 110 110 111 112 113 113 114 116 116 117 117

5 Calcul des probabilit es et variables al eatoires 5.1 Probabilit es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . enement . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Ev 5.1.2 Op erations sur les ev enements . . . . . . . . . . . . . . 5.1.3 Relations entre les ev enements . . . . . . . . . . . . . . 5.1.4 Ensemble des parties dun ensemble et syst` eme complet 5.1.5 Axiomatique des Probabilit es . . . . . . . . . . . . . . . 5.1.6 Probabilit es conditionnelles et ind ependance . . . . . . 5.1.7 Th eor` eme des probabilit es totales et th eor` eme de Bayes 5.2 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Permutations (sans r ep etition) . . . . . . . . . . . . . . 5.2.3 Permutations avec r ep etition . . . . . . . . . . . . . . . 5.2.4 Arrangements (sans r ep etition) . . . . . . . . . . . . . . 5.2.5 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Variables al eatoires . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 D enition . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Variables al eatoires discr` etes . . . . . . . . . . . . . . . . . . . . 5.4.1 D enition, esp erance et variance . . . . . . . . . . . . . 5.4.2 Variable indicatrice ou bernoullienne . . . . . . . . . . . 5.4.3 Variable binomiale . . . . . . . . . . . . . . . . . . . . . 5.4.4 Variable de Poisson . . . . . . . . . . . . . . . . . . . . 5.5 Variable al eatoire continue . . . . . . . . . . . . . . . . . . . . . 5.5.1 D enition, esp erance et variance . . . . . . . . . . . . . 5.5.2 Variable uniforme . . . . . . . . . . . . . . . . . . . . . 5.5.3 Variable normale . . . . . . . . . . . . . . . . . . . . . . 5.5.4 Variable normale centr ee r eduite . . . . . . . . . . . . . 5.5.5 Distribution exponentielle . . . . . . . . . . . . . . . . . 5.6 Distribution bivari ee . . . . . . . . . . . . . . . . . . . . . . . . 5.6.1 Cas continu . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.2 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.4 Ind ependance de deux variables al eatoires . . . . . . . . 5.7 Propri et es des esp erances et des variances . . . . . . . . . . . . 5.8 Autres variables al eatoires . . . . . . . . . . . . . . . . . . . . . 5.8.1 Variable khi-carr ee . . . . . . . . . . . . . . . . . . . . . 5.8.2 Variable de Student . . . . . . . . . . . . . . . . . . . . 5.8.3 Variable de Fisher . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8 5.8.4

` TABLE DES MATIERES Loi normale bivari ee . . . . . . . . . . . . . . . . . . . . . 118

6 S eries temporelles, ltres, moyennes mobiles et d esaisonnalisation127 6.1 D enitions g en erales et exemples . . . . . . . . . . . . . . . . . . 127 6.1.1 D enitions . . . . . . . . . . . . . . . . . . . . . . . . . . 127 6.1.2 Traitement des s eries temporelles . . . . . . . . . . . . . . 128 6.1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.2 Description de la tendance . . . . . . . . . . . . . . . . . . . . . . 133 6.2.1 Les principaux mod` eles . . . . . . . . . . . . . . . . . . . 133 6.2.2 Tendance lin eaire . . . . . . . . . . . . . . . . . . . . . . . 134 6.2.3 Tendance quadratique . . . . . . . . . . . . . . . . . . . . 134 6.2.4 Tendance polynomiale dordre q . . . . . . . . . . . . . . 134 6.2.5 Tendance logistique . . . . . . . . . . . . . . . . . . . . . 134 6.3 Op erateurs de d ecalage et de di erence . . . . . . . . . . . . . . . 136 6.3.1 Op erateurs de d ecalage . . . . . . . . . . . . . . . . . . . 136 6.3.2 Op erateur di erence . . . . . . . . . . . . . . . . . . . . . 136 6.3.3 Di erence saisonni` ere . . . . . . . . . . . . . . . . . . . . 138 6.4 Filtres lin eaires et moyennes mobiles . . . . . . . . . . . . . . . . 140 6.4.1 Filtres lin eaires . . . . . . . . . . . . . . . . . . . . . . . . 140 6.4.2 Moyennes mobiles : d enition . . . . . . . . . . . . . . . . 140 6.4.3 Moyenne mobile et composante saisonni` ere . . . . . . . . 141 6.5 Moyennes mobiles particuli` eres . . . . . . . . . . . . . . . . . . . 143 6.5.1 Moyenne mobile de Van Hann . . . . . . . . . . . . . . . . 143 6.5.2 Moyenne mobile de Spencer . . . . . . . . . . . . . . . . . 143 6.5.3 Moyenne mobile de Henderson . . . . . . . . . . . . . . . 144 6.5.4 M edianes mobiles . . . . . . . . . . . . . . . . . . . . . . . 145 6.6 D esaisonnalisation . . . . . . . . . . . . . . . . . . . . . . . . . . 145 6.6.1 M ethode additive . . . . . . . . . . . . . . . . . . . . . . . 145 6.6.2 M ethode multiplicative . . . . . . . . . . . . . . . . . . . 145 6.7 Lissage exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 147 6.7.1 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . 147 6.7.2 Lissage exponentiel double . . . . . . . . . . . . . . . . . . 150 7 Tables statistiques 157

Chapitre 1

Variables, donn ees statistiques, tableaux, eectifs


1.1
1.1.1

D enitions fondamentales
La science statistique

M ethode scientique du traitement des donn ees quantitatives. Etymologiquement : science de l etat. La statistique sapplique ` a la plupart des disciplines : agronomie, biologie, d emographie, economie, sociologie, linguistique, psychologie, . . .

1.1.2

Mesure et variable

On sint eresse ` a des unit es statistiques ou unit es dobservation : par exemple des individus, des entreprises, des m enages. En sciences humaines, on sint eresse dans la plupart des cas ` a un nombre ni dunit es. Sur ces unit es, on mesure un caract` ere ou une variable, le chire daaires de lentreprise, le revenu du m enage, l age de la personne, la cat egorie socioprofessionnelle dune personne. On suppose que la variable prend toujours une seule valeur sur chaque unit e. Les variables sont d esign ees par simplicit e par une lettre (X, Y, Z ). Les valeurs possibles de la variable, sont appel ees modalit es. Lensemble des valeurs possibles ou des modalit es est appel e le domaine de la variable.

1.1.3

Typologie des variables

Variable qualitative : La variable est dite qualitative quand les modalit es 9

10CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS sont des cat egories. Variable qualitative nominale : La variable est dite qualitative nominale quand les modalit es ne peuvent pas etre ordonn ees. Variable qualitative ordinale : La variable est dite qualitative ordinale quand les modalit es peuvent etre ordonn ees. Le fait de pouvoir ou non ordonner les modalit es est parfois discutable. Par exemple : dans les cat egories socioprofessionnelles, on admet dordonner les modalit es : ouvriers, employ es, cadres. Si on ajoute les modalit es sans profession, enseignant, artisan, lordre devient beaucoup plus discutable. Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont num eriques. Variable quantitative discr` ete : Une variable est dite discr` ete, si lensemble des valeurs possibles est d enombrable. Variable quantitative continue : Une variable est dite continue, si lensemble des valeurs possibles est continu. Remarque 1.1 Ces d enitions sont ` a relativiser, l age est th eoriquement une variable quantitative continue, mais en pratique, l age est mesur e dans le meilleur des cas au jour pr` es. Toute mesure est limit ee en pr ecision !

Exemple 1.1 Les modalit es de la variable sexe sont masculin (cod e M) et f eminin (cod e F). Le domaine de la variable est {M, F }.

Exemple 1.2 Les modalit es de la variable nombre denfants par famille sont 0,1,2,3,4,5,. . .Cest une variable quantitative discr` ete.

1.1.4

S erie statistique

On appelle s erie statistique la suite des valeurs prises par une variable X sur les unit es dobservation. Le nombre dunit es dobservation est not e n. Les valeurs de la variable X sont not ees x1 , . . . , xi , . . . , xn . Exemple 1.3 On sint eresse ` a la variable etat-civil not ee X et ` a la s erie statistique des valeurs prises par X sur 20 personnes. La codication est C: M: V: D: c elibataire, mari e(e), veuf(ve), divorc ee.

1.2. VARIABLE QUALITATIVE NOMINALE

11

Le domaine de la variable X est {C, M, V, D}. Consid erons la s erie statistique suivante : M M D C C M C C C M C M V M V D C C C M Ici, n = 20, x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.

1.2
1.2.1

Variable qualitative nominale


Eectifs, fr equences et tableau statistique

Une variable qualitative nominale a des valeurs distinctes qui ne peuvent pas etre ordonn ees. On note J le nombre de valeurs distinctes ou modalit es. Les valeurs distinctes sont not ees x1 , . . . , xj , . . . , xJ . On appelle eectif dune modalit e ou dune valeur distincte, le nombre de fois que cette modalit e (ou valeur distincte) appara t. On note nj leectif de la modalit e xj . La fr equence dune modalit e est leectif divis e par le nombre dunit es dobservation. fj = nj , j = 1, . . . , J. n

Exemple 1.4 Avec la s erie de lexemple pr ec edent, on obtient le tableau statistique : xj C M V D nj 9 7 2 2 n = 20 fj 0.45 0.35 0.10 0.10 1

12CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS En langage R

>X=c(Mari e(e),Mari e(e),Divorc e(e),C elibataire,C elibataire,Mari e(e),C eli C elibataire,C elibataire,Mari e(e),C elibataire,Mari e(e),Veuf(ve),Mar Veuf(ve),Divorc e(e),C elibataire,C elibataire,C elibataire,Mari e(e)) > T1=table(X) > V1=c(T1) > data.frame(Eff=V1,Freq=V1/sum(V1)) Eff Freq C elibataire 9 0.45 Divorc e(e) 2 0.10 Mari e(e) 7 0.35 Veuf(ve) 2 0.10

1.2.2

Diagramme en secteurs et diagramme en barres

Le tableau statistique dune variable qualitative nominale peut etre repr esent e par deux types de graphique. Les eectifs sont repr esent es par un diagramme en barres et les fr equences par un diagramme en secteurs (ou camembert ou piechart en anglais) (voir Figures 1.1 et 1.2).
Clibataire

Divorc(e) Veuf(ve)

Mari(e)

Figure 1.1 Diagramme en secteurs des fr equences

En langage R > pie(T1,radius=1.0)

1.3. VARIABLE QUALITATIVE ORDINALE


10

13

Clibataire

Divorc(e)

Mari(e)

Veuf(ve)

Figure 1.2 Diagramme en barres des eectifs En langage R >m=max(V1) >barplot(T1, ylim=c(0,m+1))

1.3
1.3.1

Variable qualitative ordinale


Le tableau statistique

Les valeurs distinctes dune variable ordinale peuvent etre ordonn ees, ce quon ecrit x1 x2 xj 1 xj xJ 1 xJ . La notation x1 x2 se lit x1 pr ec` ede x2 . Si la variable est ordinale, on peut calculer les eectifs cumul es : Nj =
j k=1

nk , j = 1, . . . , J.

On a N1 = n1 et NJ = n. On peut egalement calculer les fr equences cumul ees Fj = Nj = fk , j = 1, . . . , J. n


j k=1

Exemple 1.5 On interroge 50 personnes sur leur dernier dipl ome obtenu (variable Y ). La codication a et e faite selon le Tableau 1.1. On a obtenu la s erie

14CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS

Table 1.1 Codication de la variable Y Dernier dipl ome obtenu Sans dipl ome Primaire Secondaire Sup erieur non-universitaire Universitaire xj Sd P Se Su U

Table 1.2 S erie statistique de la variable Y Sd Se Su Sd Se Su Sd Se Su Sd Se Su P Se U P Se U P Se U P Se U P Se U P Se U P Se U P Se U P Su U P Su U P Su U Se Su U Se Su

Table 1.3 Tableau statistique complet xj Sd P Se Su U nj 4 11 14 9 12 50 Nj 4 15 29 38 50 fj 0.08 0.22 0.28 0.18 0.24 1.00 Fj 0.08 0.30 0.58 0.76 1.00

statistique pr esent ee dans le tableau 1.2. Finalement, on obtient le tableau statistique complet pr esent e dans le Tableau 1.3. En langage R > YY=c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P", "Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se", "Su","Su","Su","Su","Su","Su","Su","Su","Su", "U","U","U","U","U","U","U","U","U","U","U","U") YF=factor(YY,levels=c("Sd","P","Se","Su","U")) T2=table(YF) V2=c(T2) > data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2))) Eff EffCum Freq FreqCum Sd 4 4 0.08 0.08

1.3. VARIABLE QUALITATIVE ORDINALE P Se Su U 11 14 9 12 15 29 38 50 0.22 0.28 0.18 0.24 0.30 0.58 0.76 1.00

15

1.3.2

Diagramme en secteurs

Les fr equences dune variable qualitative ordinale sont repr esent ees au moyen dun diagramme en secteurs (voir Figure 1.3).
P

Se Sd

U Su

Figure 1.3 Diagramme en secteurs des fr equences En langage R > pie(T2,radius=1)

1.3.3

Diagramme en barres des eectifs

Les eectifs dune variable qualitative ordinale sont repr esent es au moyen dun diagramme en barres (voir Figure 1.4). En langage R > barplot(T2)

16CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS


14 0 2 4 6 8 10 12

Sd

Se

Su

Figure 1.4 Diagramme en barres des eectifs

1.3.4

Diagramme en barres des eectifs cumul es

Les eectifs cumul es dune variable qualitative ordinale sont repr esent es au moyen dun diagramme en barres (voir Figure 1.5).
50 0 10 20 30 40

Sd

Se

Su

Figure 1.5 Diagramme en barres des eectifs cumul es

` 1.4. VARIABLE QUANTITATIVE DISCRETE En langage R > T3=cumsum(T2) > barplot(T3)

17

1.4
1.4.1

Variable quantitative discr` ete


Le tableau statistique

Une variable discr` ete a un domaine d enombrable. Exemple 1.6 Un quartier est compos e de 50 m enages, et la variable Z repr esente le nombre de personnes par m enage. Les valeurs de la variable sont 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 3 3 4 5 2 3 3 4 6 2 3 3 4 6 2 3 3 4 6 2 3 3 4 8 2 3 4 5 8

Comme pour les variables qualitatives ordinales, on peut calculer les eectifs, ` nouveau, on peut les eectifs cumul es, les fr equences, les fr equences cumul ees. A construire le tableau statistique : xj 1 2 3 4 5 6 8 nj 5 9 15 10 6 3 2 50 Nj 5 14 29 39 45 48 50 fj 0.10 0.18 0.30 0.20 0.12 0.06 0.04 1.0 Fj 0.10 0.28 0.58 0.78 0.90 0.96 1.00

En langage R > + > > > Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4, 4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8) T4=table(Z) T4c=c(T4) data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),FreqCum=cumsum(T4c/sum(T4c))) Eff EffCum Freq FreqCum

18CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS 1 2 3 4 5 6 8 5 9 15 10 6 3 2 5 14 29 39 45 48 50 0.10 0.18 0.30 0.20 0.12 0.06 0.04 0.10 0.28 0.58 0.78 0.90 0.96 1.00

1.4.2

Diagramme en b atonnets des eectifs

Quand la variable est discr` ete, les eectifs sont repr esent es par des b atonnets (voir Figure 1.6).

0 1

10

15

Figure 1.6 Diagramme en b atonnets des eectifs pour une variable quantitative discr` ete

En langage R > plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)

1.5. VARIABLE QUANTITATIVE CONTINUE

19

1.4.3

Fonction de r epartition

Les fr equences cumul ees sont repr esent ees au moyen de la fonction de r epartition. Cette fonction, pr esent ee en Figure 1.7,est d enie de R dans [0, 1] et vaut : x < x1 0 Fj xj x < xj +1 F (x) = 1 xJ x.

0.0 0

0.2

0.4

0.6

0.8

1.0

Figure 1.7 Fonction de r epartition dune variable quantitative discr` ete En langage R > plot(ecdf(Z),xlab="",ylab="",main="",frame=0)

1.5
1.5.1

Variable quantitative continue


Le tableau statistique

Une variable quantitative continue peut prendre une innit e de valeurs possibles. Le domaine de la variable est alors R ou un intervalle de R. En pratique, une mesure est limit ee en pr ecision. La taille peut etre mesur ee en centim` etres, voire en millim` etres. On peut alors traiter les variables continues comme des variables discr` etes. Cependant, pour faire des repr esentations graphiques et

20CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS construire le tableau statistique, il faut proc eder ` a des regroupements en classes. + Le tableau regroup e en classe est souvent appel e distribution group ee. Si [c j ; cj [ designe la classe j , on note, de mani` ere g en erale : c erieure de la classe j , j la borne inf + cj la borne sup erieure de la classe j , cj = (c+ + c ) / 2 le centre de la classe j , j j + aj = cj cj lamplitude de la classe j , nj leectif de la classe j , Nj leectif cumul e de la classe j , fj la fr equence de la classe j , Fj la fr equence cumul ee de la classe j .

La r epartition en classes des donn ees n ecessite de d enir a priori le nombre de classes J et donc lamplitude de chaque classe. En r` egle g en erale, on choisit au moins cinq classes de m eme amplitude. Cependant, il existent des formules qui nous permettent d etablir le nombre de classes et lintervalle de classe (lamplitude) pour une s erie statistique de n observations. La r` egle de Sturge : J = 1 + (3.3 log10 (n)). La r` egle de Yule : J = 2.5 4 n. Lintervalle de classe est obtenue ensuite de la mani` ere suivante : longueur de lintervalle = (xmax xmin )/J , o` u xmax (resp. xmin ) d esigne la plus grande (resp. la plus petite) valeur observ ee.

Remarque 1.2 Il faut arrondir le nombre de classe J ` a lentier le plus proche. Par commodit e, on peut aussi arrondir la valeur obtenue de lintervalle de classe. A partir de la plus petite valeur observ ee, on obtient les bornes de classes en additionnant successivement lintervalle de classe (lamplitude).

Exemple 1.7 On mesure la taille en centimetres de 50 el` eves dune classe : 152 154 156 157 159 161 162 164 168 170 152 154 156 157 159 160 162 164 168 171 152 154 156 157 160 160 163 165 168 171 153 155 156 158 160 161 164 166 169 171 153 155 156 158 160 162 164 167 169 171

1.5. VARIABLE QUANTITATIVE CONTINUE

21

On a les classes de tailles d enies pr eablement comme il suit : [151, 5; 155, 5[ [155, 5; 159, 5[ [159, 5; 163, 5[ [163, 5; 167, 5[ [167, 5; 171, 5[ On construit le tableau statistique.
+ [c j , cj ] [151, 5; 155, 5[ [155, 5; 159, 5[ [159, 5; 163, 5[ [163, 5; 167, 5[ [167, 5; 171, 5[

nj 10 12 11 7 10 50

Nj 10 22 33 40 50

fj 0.20 0.24 0.22 0.14 0.20 1.00

Fj 0.20 0.44 0.66 0.80 1.00

En langage R > S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156, + 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162, + 162,162,163,164,164,164,164,165,166,167,168,168,168,169,169, + 170,171,171,171,171) > T5=table(cut(S, breaks=c(151,155,159,163,167,171))) > T5c=c(T5) > data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c))) Eff EffCum Freq FreqCum (151,155] 10 10 0.20 0.20 (155,159] 12 22 0.24 0.44 (159,163] 11 33 0.22 0.66 (163,167] 7 40 0.14 0.80 (167,171] 10 50 0.20 1.00

1.5.2

Histogramme

Lhistogramme consiste ` a repr esenter les eectifs (resp. les fr equences) des classes par des rectangles contigus dont la surface (et non la hauteur) repr esente leectif (resp. la fr equence). Pour un histogramme des eectifs, la hauteur du rectangle correspondant ` a la classe j est donc donn ee par : hj = On appelle hj la densit e deectif. nj aj

22CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS Laire de lhistogramme est egale ` a leectif total n, puisque laire de chaque rectangle est egale ` a leectif de la classe j : aj hj = nj . Pour un histogramme des fr equences on a dj = fj aj

On appelle dj la densit e de fr equence. Laire de lhistogramme est egale ` a 1, puisque laire de chaque rectangle est egale ` a la fr equence de la classe j : aj dj = fj . Figure 1.8 repr esente lhistogramme des fr equences de lexemple pr ecedent :
0.06 0.00 151.5 0.02 0.04

155.5

159.5

163.5

167.5

171.5

Figure 1.8 Histogramme des fr equences

En langage R > hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), freq=FALSE, xlab="",ylab="",main="",xaxt = "n") > axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

Si les deux derni` eres classes sont agr eg ees, comme dans la Figure 1.9, la surface du dernier rectangle est egale ` a la surface des deux derniers rectangles de lhistogramme de la Figure 1.8. En langage R > hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5), xlab="",ylab="",main="",xaxt = "n") > axis(1, c(151.5,155.5,159.5,163.5,171.5))

1.5. VARIABLE QUANTITATIVE CONTINUE


0.06

23

0.00 151.5

0.02

0.04

155.5

159.5

163.5

171.5

Figure 1.9 Histogramme des fr equences avec les deux derni` eres classes agr eg ees Remarque 1.3 Dans le cas de classes de m eme amplitude certains auteurs et logiciels repr esentent lhistogramme avec les eectifs (resp. les fr equences) report es en ordonn ee, laire de chaque rectangle etant proportionnelle ` a leectif (resp. la fr equence) de la classe.

1.5.3

La fonction de r epartition

La fonction de r epartition F (x) est une fonction de R dans [0, 1], qui est d enie par x < c 1 0 fj Fj 1 + c+ c (x cj ) c x < c+ F (x) = j j j j 1 c+ x J

24CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS

Figure 1.10 Fonction de r epartition dune distribution group ee


0.0 0.2 0.4 0.6 0.8 1.0

151.5

155.5

159.5

163.5

167.5

171.5

1.5. VARIABLE QUANTITATIVE CONTINUE En langage R > > > > y=c(0,0,cumsum(T5c/sum(T5c)),1) x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175) plot(x,y,type="b",xlab="",ylab="",xaxt = "n") axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

25

26CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS

Chapitre 2

Statistique descriptive univari ee


2.1
2.1.1

Param` etres de position


Le mode

Le mode est la valeur distincte correspondant ` a leectif le plus elev e ; il est not e xM . Si on reprend la variable Etat civil , dont le tableau statistique est le suivant : xj nj fj C 9 0.45 M 7 0.35 V 2 0.10 D 2 0.10 n = 20 1 le mode est C : c elibataire. Remarque 2.1 Le mode peut etre calcul e pour tous les types de variable, quantitative et qualitative. Le mode nest pas n ecessairement unique. Quand une variable continue est d ecoup ee en classes, on peut d enir une classe modale (classe correspondant ` a leectif le plus elev e).

2.1.2

La moyenne

La moyenne ne peut etre d enie que sur une variable quantitative. 27

28

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

La moyenne est la somme des valeurs observ ees divis ee par leur nombre, elle est not ee x : x1 + x2 + + xi + + xn 1 xi . x = = n n i=1
n

La moyenne peut etre calcul ee ` a partir des valeurs distinctes et des eectifs x = 1 n j xj . n j =1
J

Exemple 2.1 Les nombres denfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La moyenne est x = 0+0+1+1+1+2+3+4 12 = = 1.5. 8 8

On peut aussi faire les calculs avec les valeurs distinctes et les eectifs. On consid` ere le tableau : xj nj 0 2 1 3 2 1 3 1 4 1 8

x =

20+31+12+13+14 8 3+2+3+4 = 8 = 1.5.

Remarque 2.2 La moyenne nest pas n ecessairement une valeur possible. En langage R E=c(0,0,1,1,1,2,3,4) n=length(E) xb=sum(E)/n xb xb=mean(E) xb

` 2.1. PARAMETRES DE POSITION

29

2.1.3

Remarques sur le signe de sommation


n i=1

D enition 2.1

xi = x1 + x2 + + xn .

1. En statistique les xi sont souvent les valeurs observ ees. n n 2. Lindice est muet : xi = xj .
i=1 j =1

3. Quand il ny a pas de confusion possible, on peut ecrire Exemple 2.2 1.


4 i=1

xi .

xi = x1 + x2 + x3 + x4 .

2.

5 i=3

xi2 = x32 + x42 + x52 .

3.

3 i=1

i = 1 + 2 + 3 = 6.

4. On peut utiliser plusieurs sommations embo t ees, mais il faut bien distinguer les indices :
3 2 i=1 j =1

xij

= x11 + x12 + x21 + x22 + x31 + x32

(i = 1) (i = 2) (i = 3)

5. On peut exclure une valeur de lindice.


5
i=1 i=3

xi = x1 + x2 + x4 + x5 .

Propri et e 2.1 1. Somme dune constante


n i=1

a = a + a + + a = na
n

(a constante).

fois

30 Exemple

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

5 i=1

3 = 3 + 3 + 3 + 3 + 3 = 5 3 = 15.

2. Mise en evidence
n i=1

axi = a

n i=1

xi

(a constante).

Exemple
3 i=1

2 i = 2(1 + 2 + 3) = 2 6 = 12.

3. Somme des n premiers entiers


n i=1

i = 1 + 2 + 3 + + n =

n(n + 1) . 2

4. Distribution
n i=1

(xi + yi ) =

n i=1

xi +

n i=1

yi .

5. Distribution
n i=1

(xi yi ) =

n i=1

xi

n i=1

yi .

Exemple (avec x =
n i=1

1 xi ) n i=1
n n i=1

(xi x ) =

xi

n i=1

x =n

1 xi n x = nx nx = 0. n i=1
n

6. Somme de carr es
n i=1

(xi yi )2 =

n i=1

2 (x2 i 2xi yi + yi ) =

n i=1

x2 i 2

n i=1

xi y i +

n i=1

2 yi .

Cest une application de la formule (a b)2 = a2 2ab + b2 .

` 2.1. PARAMETRES DE POSITION

31

2.1.4

Moyenne g eom etrique

Si xi 0, on appelle moyenne g eom etrique la quantit e ( n )1/n 1/n xi = (x1 x2 xn ) . G=


i=1

On peut ecrire la moyenne g eom etrique comme lexponentielle de la moyenne arithm etique des logarithmes des valeurs observ ees ( n )1/n n n 1 1 G = exp log G = exp log xi = exp xi = exp log log xi . n n i=1 i=1 i=1 La moyenne g eom etrique sutilise, par exemple, quand on veut calculer la moyenne de taux dint er et. Exemple 2.3 Supposons que les taux dint er et pour 4 ann ees cons ecutives soient respectivement de 5, 10, 15, et 10%. Que va-t-on obtenir apr` es 4 ans si je place 100 francs ? Apr` es 1 an on a, 100 1.05 = 105 Fr. Apr` es 2 ans on a, 100 1.05 1.1 = 115.5 Fr. Apr` es 3 ans on a, 100 1.05 1.1 1.15 = 132.825 Fr. Apr` es 4 ans on a, 100 1.05 1.1 1.15 1.1 = 146.1075 Fr. Si on calcule la moyenne arithm etique des taux on obtient 1.05 + 1.10 + 1.15 + 1.10 = 1.10. 4 Si on calcule la moyenne g eom etrique des taux, on obtient x = G = (1.05 1.10 1.15 1.10)
1 /4

= 1.099431377.

Le bon taux moyen est bien G et non x , car si on applique 4 fois le taux moyen G aux 100 francs, on obtient 100 Fr G4 = 100 1.0994313774 = 146.1075 Fr.

2.1.5

Moyenne harmonique

Si xi 0, on appelle moyenne harmonique la quantit e n H = n . i=1 1/xi Il est judicieux dappliquer la moyenne harmonique sur des vitesses. Exemple 2.4 Un cycliste parcourt 4 etapes de 100km. Les vitesses respectives pour ces etapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a et e sa vitesse moyenne ?

32

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE Un raisonnement simple nous dit quil a parcouru la premi` ere etape en 10h, la deuxi` eme en 3h20 la troisi` eme en 2h30 et la quatri` eme en 5h. Il a donc parcouru le total des 400km en 10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h, sa vitesse moyenne est donc Moy = 400 = 19.2 km/h. 20.8333

Si on calcule la moyenne arithm etique des vitesses, on obtient x = 10 + 30 + 40 + 20 = 25 km/h. 4

Si on calcule la moyenne harmonique des vitesses, on obtient H=


1 10

1 30

4 +

1 40

1 20

= 19.2 km/h.

La moyenne harmonique est donc la mani` ere appropri ee de calculer la vitesse moyenne.

Remarque 2.3 Il est possible de montrer que la moyenne harmonique est toujours inf erieure ou egale ` a la moyenne g eom etrique qui est toujours inf erieure ou egale ` a la moyenne arithm etique HGx .

2.1.6

Moyenne pond er ee

Dans certains cas, on naccorde pas le m eme poids ` a toutes les observations. Par exemple, si on calcule la moyenne des notes pour un programme d etude, on peut pond erer les notes de l etudiant par le nombre de cr edits ou par le nombre dheures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associ es ` a chaque observation, alors la moyenne pond er ee par wi est d enie par : n i=1 wi xi x w = . n i=1 wi Exemple 2.5 Supposons que les notes soient pond er ees par le nombre de cr edits, et que les notes de l etudiant soient les suivantes :

` 2.1. PARAMETRES DE POSITION Note Cr edits 5 6 4 3 3 4 6 3 5 4

33

La moyenne pond er ee des notes par les cr edits est alors x w = 65+34+43+36+45 30 + 12 + 12 + 18 + 20 92 = = = 4.6. 6+3+4+3+4 20 20

2.1.7

La m ediane

La m ediane, not ee x1/2 , est une valeur centrale de la s erie statistique obtenue de la mani` ere suivante : On trie la s erie statistique par ordre croissant des valeurs observ ees. Avec la s erie observ ee : 3 2 1 0 0 1 2, on obtient : 0 0 1 1 2 2 3. La m ediane x1/2 est la valeur qui se trouve au milieu de la s erie ordonn ee : 0 0 1 1 2 2 3.

On note alors x1/2 = 1. Nous allons examiner une mani` ere simple de calculer la m ediane. Deux cas doivent etre distingu es. Si n est impair, il ny a pas de probl` eme (ici avec n = 7), alors x1/2 = 1 : 0 0 1 1 2 2 3.

La Figure 2.1 montre la fonction de r epartition de la s erie. La m ediane peut etre d enie comme linverse de la fonction de r epartition pour la valeur 1/2 : x1/2 = F 1 (0.5). En langage R x=c(0 , 0 , 1 , 1 , 2 , 2 , 3) median(x) plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n") axis(2, c(0.0,0.25,0.50,0.75,1.00)) arrows(-1,0.5,1,0.50,length=0.14,col="blue") arrows(1,0.50,1,0,length=0.14,col="blue")

34

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

Figure 2.1 M ediane quand n est impair


1.00 0.00 1 0.50

Si n est pair, deux valeurs se trouvent au milieu de la s erie (ici avec n = 8) 0 0 1 1 2 2 3 4

La m ediane est alors la moyenne de ces deux valeurs : x1/2 = 1+2 = 1.5. 2

La Figure 2.2 montre la fonction de r epartition de la s erie de taille paire. La m ediane peut toujours etre d enie comme linverse de la fonction de r epartition pour la valeur 1/2 : x1/2 = F 1 (0.5). Cependant, la fonction de r epartition est discontinue par palier. Linverse de la r epartition correspond exactement ` a un palier. Figure 2.2 M ediane quand n est pair
1.00 0.00 1 0.50

En langage R

` 2.1. PARAMETRES DE POSITION x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4) median(x) plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n") axis(2, c(0.0,0.25,0.50,0.75,1.00)) arrows(-1,0.5,1,0.50,length=0.14,col="blue") arrows(1.5,0.50,1.5,0,,length=0.14,col="blue") En g en eral on note x(1) , . . . , x(i) , . . . , x(n)

35

la s erie ordonn ee par ordre croissant. On appelle cette s erie ordonn ee la statistique dordre. Cette notation, tr` es usuelle en statistique, permet de d enir la m ediane de mani` ere tr` es synth etique. Si n est impair x1/2 = x( n+1 )
2

Si n est pair x 1 /2 =

} 1{ x( n ) + x( n +1) . 2 2 2

Remarque 2.4 La m ediane peut etre calcul ee sur des variables quantitatives et sur des variables qualitatives ordinales.

2.1.8

Quantiles

La notion de quantile dordre p (o` u 0 < p < 1) g en eralise la m ediane. Formellement un quantile est donn e par linverse de la fonction de r epartition : xp = F 1 (p). Si la fonction de r epartition etait continue et strictement croissante, la d enition du quantile serait sans equivoque. La fonction de r epartition est cependant discontinue et par palier. Quand la fonction de r epartition est par palier, il existe au moins 9 mani` eres di erentes de d enir les quantiles selon que lon fasse ou non une interpolation de la fonction de r epartition. Nous pr esentons une de ces m ethodes, mais il ne faut pas s etonner de voir les valeurs des quantiles di erer l eg` erement dun logiciel statistique ` a lautre. Si np est un nombre entier, alors xp = } 1{ x(np) + x(np+1) . 2

Si np nest pas un nombre entier, alors xp = x(np) , o` u np repr esente le plus petit nombre entier sup erieur ou egal ` a np.

36

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

Remarque 2.5 La m ediane est le quantile dordre p = 1/2. On utilise souvent x 1 /4 le premier quartile, x 3 /4 le troisi` eme quartile, x1/10 le premier d ecile , x 1 /5 le premier quintile, x 4 /5 le quatri` eme quintile, x9/10 le neuvi` eme d ecile, x0.05 le cinqui` eme percentile , x0.95 le nonante-cinqui` eme percentile. Si F (x) est la fonction de r epartition, alors F (xp ) p.

Exemple 2.6 Soit la s erie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34 contenant 12 observations (n = 12). Le premier quartile : Comme np = 0.25 12 = 3 est un nombre entier, on a x(3) + x(4) 15 + 16 x 1 /4 = = = 15.5. 2 2 La m ediane : Comme np = 0.5 12 = 6 est un nombre entier, on a x1/2 = } 1{ x(6) + x(7) = (19 + 22)/2 = 20.5. 2

Le troisi` eme quartile : Comme np = 0.75 12 = 9 est un nombre entier, on a x(9) + x(10) 25 + 27 x 3 /4 = = = 26. 2 2

En langage R x=c(12,13,15,16,18,19,22,24,25,27,28,34) quantile(x,type=2)

Exemple 2.7 Soit la s erie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27 contenant 10 observations (n = 10). Le premier quartile : Comme np = 0.25 10 = 2.5 nest pas un nombre entier, on a x1/4 = x(2.5) = x(3) = 15.

` 2.2. PARAMETRES DE DISPERSION La m ediane : Comme np = 0.5 10 = 5 est un nombre entier, on a x 1 /2 = } 1{ x(5) + x(6) = (18 + 19)/2 = 18.5. 2

37

Le troisi` eme quartile : Comme np = 0.75 10 = 7.5 nest pas un nombre entier, on a x3/4 = x(7.5) = x(8) = 24.

En langage R x=c(12,13,15,16,18,19,22,24,25,27) quantile(x,type=2)

2.2
2.2.1

Param` etres de dispersion


L etendue

L etendue est simplement la di erence entre la plus grande et la plus petite valeur observ ee. E = x(n) x(1) .

2.2.2

La distance interquartile

La distance interquartile est la di erence entre le troisi` eme et le premier quartile : IQ = x3/4 x1/4 .

2.2.3

La variance

La variance est la somme des carr es des ecarts ` a la moyenne divis ee par le nombre dobservations : n 1 s2 = (xi x )2 . x n i=1 Th eor` eme 2.1 La variance peut aussi s ecrire s2 x = 1 2 x x 2 . n i=1 i
n

(2.1)

38

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

D emonstration s2 x = = = 1 2 1 (xi x )2 = (x 2xi x +x 2 ) n i=1 n i=1 i


n n

1 1 2 1 2 1 1 2 xi 2 xi x + x = xi 2 x xi + x 2 n i=1 n i=1 n i=1 n i=1 n i=1


n n n n n

1 2 1 2 xi 2 xx +x 2 = x x 2 . n i=1 n i=1 i
n n

2 La variance peut egalement etre d enie ` a partir des eectifs et des valeurs distinctes : J 1 s2 = nj (xj x )2 . x n j =1 La variance peut aussi s ecrire s2 x = 1 n j x2 2 . j x n j =1
J

Quand on veut estimer une variance dune variable X ` a partir dun echantillon (une partie de la population s electionn ee au hasard) de taille n, on utilise la variance corrig ee divis ee par n 1.
2 Sx =

1 n (xi x )2 = s2 . x n 1 i=1 n1
n

2 et non s2 La plupart des logiciels statistiques calculent Sx x.

2.2.4

L ecart-type

L ecart-type est la racine carr ee de la variance : sx = s2 x. Quand on veut estimer l ecart-type dune variable X partir dun echantillon de taille n, utilise la variance corrig ee pour d enir l ecart type n 2 Sx = Sx = sx . n1 La plupart des logiciels statistiques calculent Sx et non sx . Exemple 2.8 Soit la s erie statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a x = 2+3+4+4+5+6+7+9 = 5, 8

` 2.2. PARAMETRES DE DISPERSION s2 x 1 (xi x )2 n i=1


n

39

= =

] 1[ (2 5)2 + (3 5)2 + (4 5)2 + (4 5)2 + (5 5)2 + (6 5)2 + (7 5)2 + (9 5)2 8 1 = [9 + 4 + 1 + 1 + 0 + 1 + 4 + 16] 8 36 = 8 = 4.5.

On peut egalement utiliser la formule (2.1) de la variance, ce qui n ecessite moins de calcul (surtout quand la moyenne nest pas un nombre entier). s2 x = = 1 2 2 x x n i=1 i
n

1 2 (2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) 52 8 1 = (4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) 25 8 236 = 25 8 = 29.5 25 = 4.5.

En langage R > x=c(2,3,4,4,5,6,7,9) > n=length(x) > s2=sum((x-mean(x))^2)/n > s2 [1] 4.5 > S2=s2*n/(n-1) > S2 [1] 5.142857 > S2=var(x) > S2 [1] 5.142857 > s=sqrt(s2) > s [1] 2.121320 > S=sqrt(S2) > S [1] 2.267787 > S=sd(x)

40

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

> S [1] 2.267787 > E=max(x)-min(x) > E [1] 7

2.2.5

L ecart moyen absolu

L ecart moyen absolu est la somme des valeurs absolues des ecarts ` a la moyenne divis ee par le nombre dobservations : emoy 1 = |xi x | . n i=1
n

2.2.6

L ecart m edian absolu

L ecart m edian absolu est la somme des valeurs absolues des ecarts ` a la m ediane divis ee par le nombre dobservations : emed = 1 xi x1/2 . n i=1
n

2.3

Moments
1 r x . n i=1 i
n

D enition 2.2 On appelle moment ` a lorigine dordre r N le param` etre m r =

D enition 2.3 On appelle moment centr e dordre r N le param` etre mr = 1 (xi x )r . n i=1
n

Les moments g en eralisent la plupart des param` etres. On a en particulier m , 1 =x m1 = 0 , 1 2 m x = s2 2 , 2 = x+x n i i m2 = s2 x. Nous verrons plus loin que des moments dordres sup erieurs (r=3,4) sont utilis es pour mesurer la sym etrie et laplatissement.

` 2.4. PARAMETRES DE FORME

41

2.4
2.4.1

Param` etres de forme


Coecient dasym etrie de Fisher (skewness)
1 (xi x )3 . n i=1
n

Le moment centr e dordre trois est d eni par m3 =

Il peut prendre des valeurs positives, n egatives ou nulles. Lasym etrie se mesure au moyen du coecient dasym etrie de Fisher g1 = o` u s3 ecart-type. x est le cube de l m3 , s3 x

2.4.2

Coecient dasym etrie de Yule

Le coecient dasym etrie de Yule est bas e sur les positions des 3 quartiles (1er quartile, m ediane et troisi` eme quartile), et est normalis e par la distance interquartile : x3/4 + x1/4 2x1/2 AY = . x3/4 x1/4

2.4.3

Coecient dasym etrie de Pearson

Le coecient dasym etrie de Pearson est bas e sur une comparaison de la moyenne et du mode, et est standardis e par l ecart-type : AP = x xM . sx

Tous les coecients dasym etrie ont les m emes propri et es, ils sont nuls si la distribution est sym etrique, n egatifs si la distribution est allong ee ` a gauche (left asymmetry), et positifs si la distribution est allong ee ` a droite (right asymmetry) comme montr e dans la Figure 2.3.

Figure 2.3 Asym etrie dune distribution

42

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

Remarque 2.6 Certaines variables sont toujours tr` es asym etriques ` a droite, comme les revenus, les tailles des entreprises, ou des communes. Une m ethode simple pour rendre une variable sym etrique consiste alors ` a prendre le logarithme de cette variable.

2.5

Param` etre daplatissement (kurtosis)


2 = m4 , s4 x

Laplatissement est mesur e par le coecient daplatissement de Pearson

ou le coecient daplatissement de Fisher g2 = 2 3 = m4 3, s4 x

o` u m4 est le moment centr e dordre 4, et s4 e de la variance. x est le carr Une courbe m esokurtique si g2 0. Une courbe leptokurtique si g2 > 0. Elle est plus pointue et poss` ede des queues plus longues. Une courbe platykurtique si g2 < 0. Elle est plus arrondie et poss` ede des queues plus courtes. Dans la Figure 2.4, on pr esente un exemple de deux distributions de m eme moyenne et de m eme variance. La distribution plus pointue est leptokurtique, lautre est m esokurtique. La distribution leptokurtique a une queue plus epaisse.
0.6 0.5 0.0125 0.4 0.3 0.2 0.1 -4 -2 2 4 0.01 0.0075 0.005 0.0025 2.6 2.8 3.2 3.4 3.6 3.8 4 0.0175 0.015

Figure 2.4 Distributions m esokurtique et leptokurtique

2.6

Changement dorigine et dunit e

D enition 2.4 On appelle changement dorigine lop eration consistant ` a ajouter (ou soustraire) la m eme quantit eaR` a toutes les observations yi = a + xi , i = 1, . . . , n

2.6. CHANGEMENT DORIGINE ET DUNITE

43

D enition 2.5 On appelle changement dunit e lop eration consistant ` a multiplier (ou diviser) par la m eme quantit e b R toutes les observations yi = bxi , i = 1, . . . , n. D enition 2.6 On appelle changement dorigine et dunit e lop eration consistant ` a multiplier toutes les observations par la m eme quantit e b R puis ` a ajouter la m eme quantit eaR` a toutes les observations : yi = a + bxi , i = 1, . . . , n. Th eor` eme 2.2 Si on eectue un changement dorigine et dunit e sur une variable X , alors sa moyenne est aect ee du m eme changement dorigine et dunit e. D emonstration Si yi = a + bxi , alors y = 1 1 (a + bxi ) = a + b xi = a + bx . n i=1 n i=1
n n

2 Th eor` eme 2.3 Si on eectue un changement dorigine et dunit e sur une variable X , alors sa variance est aect ee par le carr e du changement dunit e et pas par le changement dorigine. D emonstration Si yi = a + bxi , alors s2 y = 1 1 1 2 2 (yi y )2 = (a + bxi a bx ) = b2 (xi x ) = b2 s2 x. n i=1 n i=1 n i=1
n n n

2 Remarque 2.7 1. Les param` etres de position sont tous aect es par un changement dorigine et dunit e. 2. Les param` etres de dispersion sont tous aect es par un changement dunit e mais pas par un changement dorigine. 3. Les param` etres de forme et daplatissement ne sont aect es ni par un changement dunit e ni par un changement dorigine.

44

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

2.7

Moyennes et variances dans des groupes

Supposons que les n observations soient r eparties dans deux groupes GA et GB . Les nA premi` eres observations sont dans le groupe GA et les nB derni` eres observations sont dans le groupe GB , avec la relation nA + nB = n. On suppose que la s erie statistique contient dabord les unit es de GA puis les unit es de GB : x1 , x2 , . . . , xnA 1 , xnA , xnA +1 , xnA +2 , . . . , xn1 , xn . observations de
GA

observations de

GB

On d enit les moyennes des deux groupes : nA 1 la moyenne du premier groupe x A = xi , nA i=1 n 1 xi . la moyenne du deuxi` eme groupe x B = nB i=n +1 A La moyenne g en erale est une moyenne pond er ee par la taille des groupes des moyennes des deux groupes. En eet (n ) n A 1 1 x = xi + xi = (nA x A + nB x B ) . n i=1 n i=n +1
A

On peut egalement d enir les variances des deux groupes : nA 1 la variance du premier groupe s2 = (xi x A )2 , A nA i=1 n 1 la variance du deuxi` eme groupe s2 (xi x B )2 . B = nB i=n +1
A

Th eor` eme 2.4 (de Huygens) La variance totale, d enie par s2 x = 1 (xi x )2 , n i=1
n

se d ecompose de la mani` ere suivante : s2 x =


2 nA s2 A + nB sB n

nA ( xA x )2 + nB ( xB x )2 . n variance inter-groupes

variance intra-groupes D emonstration s2 x

[n ] n n A 1 1 2 2 2 = (xi x ) = (xi x ) + (xi x ) n i=1 n i=1 i=n +1


A

(2.2)

2.8. DIAGRAMME EN TIGES ET FEUILLES On note que


nA i=1

45

(xi x )2
nA i=1

= =

(xi x A + x A x )2 (xi x A )2 +
nA i=1

nA i=1

( xA x )2 + 2

nA i=1

(xi x A )( xA x )
=0

= nA s2 xA x )2 . A + nA ( On a evidemment la m eme relation dans le groupe GB :


n

(xi x )2 = nB s2 xB x )2 . B + nB (

i=nA +1

En revenant ` a lexpression (2.2), on obtient [n ] n A 1 2 2 2 sx = (xi x ) + (xi x ) n i=1 i=n +1 = = ] 1[ nA s2 xA x )2 + nB s2 xB x )2 A + nA ( B + nB ( n 2 nA ( xA x )2 + nB ( xB x )2 nA s2 A + nB sB + . n n 2


A

2.8

Diagramme en tiges et feuilles

Le diagramme en tiges et feuilles ou Stem and leaf diagram est une mani` ere rapide de pr esenter une variable quantitative. Par exemple, si lon a la s erie statistique ordonn ee suivante : 15, 15, 16, 17, 18, 20, 21, 22, 23, 23, 23, 24, 25, 25, 26, 26, 27, 28, 28, 29, 30, 30, 32, 34, 35, 36, 39, 40, 43, 44, la tige du diagramme sera les dizaines et les feuilles seront les unit es. On obtient le graphique suivant. The decimal point is 1 digit(s) to the right of the | 1 2 3 4 | | | | 55678 012333455667889 0024569 034

46

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

Ce diagramme permet davoir une vue synth etique de la distribution. Evidemment, les tiges peuvent etre d enies par les centaines, ou des millers, selon lordre de grandeur de la variable etudi ee. En langage R # # Diagramme en tige et feuilles # X=c(15,15,16,17,18,20,21,22,23,23,23,24,25,25,26,26, 27,28,28,29,30,30,32,34,35,36,39,40,43,44) stem(X,0.5)

2.9

La bo te ` a moustaches

La bo te ` a moustaches, ou diagramme en bo te, ou encore boxplot en anglais, est un diagramme simple qui permet de repr esenter la distribution dune variable. Ce diagramme est compos e de : Un rectangle qui s etend du premier au troisi` eme quartile. Le rectangle est divis e par une ligne correspondant ` a la m ediane. Ce rectangle est compl et e par deux segments de droites. Pour les dessiner, on calcule dabord les bornes b = x1/4 1.5IQ et b+ = x3/4 + 1.5IQ, o` u IQ est la distance interquartile. On identie ensuite la plus petite et la plus grande observation comprise entre ces bornes. Ces observations sont appel ees valeurs adjacentes. On trace les segments de droites reliant ces observations au rectangle. Les valeurs qui ne sont pas comprises entre les valeurs adjacentes, sont repr esent ees par des points et sont appel ees valeurs extr emes. Exemple 2.9 On utilise une base de donn ees de communes suisses de 2003 fournie par lOce f ed eral de la statistique (OFS) contenant un ensemble de variables concernant la population et lam enagement du territoire. Lobjectif est davoir un aper cu des supercies des communes du canton de Neuch atel. On sint eresse donc ` a la variable HApoly donnant la supercie en hectares des 62 communes neuch ateloises. La bo te ` a moustaches est pr esent ee en Figure 2.5. Lexamen du graphique indique directement une dissym etrie de la distribution, au sens o` u il y a beaucoup de petites communes et peu de grandes communes. Le graphique montre aussi que deux communes peuvent etre consid er ees communes des points extr emes, car elles ont plus de 3000 hectares. Il sagit de la Br evine (4182ha) et de la Chaux-de-Fonds (5566ha). En langage R

` MOUSTACHES 2.9. LA BO ITE A

47

1000

2000

3000

4000

5000

Figure 2.5 Bo tes ` a moustaches pour la variable supercie en hectares (HApoly) des communes du canton de Neuch atel # Etape 1: installation du package sampling # dans lequel se trouve la base de donn ees des communes belges # choisir "sampling" dans la liste utils:::menuInstallPkgs() # Etape 2: charge le package sampling # choisir "sampling" dans la liste local({pkg <- select.list(sort(.packages(all.available = TRUE))) + if(nchar(pkg)) library(pkg, character.only=TRUE)}) # Utilisation des donn ees data(swissmunicipalities) attach(swissmunicipalities) # boxplot de la s election des communes neuch^ ateloises # le num ero du canton est 24 boxplot(HApoly[CT==24],horizontal=TRUE) % selection des communes neuch^ ateloises de plus de 3000 HA data.frame(Nom=Nom[HApoly>3000 & CT==24],Superficie=HApoly[HApoly>3000 & CT==24])

Exemple 2.10 On utilise une base de donn ees belges fournie par lInstitut National (belge) de Statistique contenant des informations sur la population et les revenus des personnes physiques dans les communes. On sint eresse ` a la variable revenu moyen en euros par habitant en 2004 pour chaque commune (variable averageincome) et lon aimerait comparer les 9 provinces belges : Anvers, Brabant, Flandre occidentale, Flandre orientale, Hainaut, Li` ege, Limboug, Luxembourg, Namur. La Figure 2.6 contient les bo tes ` a moustaches de chaque province. Les communes ont et e tri ees selon les provinces belges. De ce graphique, on peut directement voir que la province du Brabant contient ` a la fois la commune la plus riche (Lasne) et la plus pauvre (Saint-Josse-ten-Noode). On voit egalement une dispersion plus importante dans la province du Brabant. En langage R

48

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

40000 35000 30000 25000 20000

Anv.

Brab.

Fl.occ.

Fl.or.

Hainaut

Lige

Limb.

Lux.

Namur

Figure 2.6 Bo tes ` a moustaches du revenu moyen des habitants des communes selon les provinces belges

# Utilisation des donn ees data(belgianmunicipalities) attach(belgianmunicipalities) # Construction dune liste avec les noms des provinces b=list( "Anv."=averageincome[Province==1], "Brab."=averageincome[Province==2], "Fl.occ."=averageincome[Province==3], "Fl.or."=averageincome[Province==4], "Hainaut"=averageincome[Province==5], "Li` ege"=averageincome[Province==6], "Limb."=averageincome[Province==7], "Lux."=averageincome[Province==8], "Namur"=averageincome[Province==9] ) boxplot(b)

` MOUSTACHES 2.9. LA BO ITE A

49

Exercices
Exercice 2.1 On p` ese les 50 el` eves dune classe et nous obtenons les r esultats r esum es dans le tableau suivant : 43 48 49 52 54 59 63 67 72 81 43 48 50 53 56 59 63 68 72 83 43 48 50 53 56 59 65 70 73 86 47 49 51 53 56 62 65 70 77 92 48 49 51 54 57 62 67 70 77 93

1. De quel type est la variable poids ? 2. Construisez le tableau statistique en adoptant les classes suivantes : [40 ;45] ]45 ;50] ]50 ;55] ]55 ;60] ]60 ;65] ]65 ;70] ]70 ;80] ]80 ;100] 3. Construisez lhistogramme des eectifs ainsi que la fonction de r epartition. Solution 1. La variable poids est de type quantitative continue. 2. + [c nj Nj fj Fj j , cj ] [40; 45] 3 3 0.06 0.06 ]45; 50] 10 13 0.20 0.26 ]50; 55] 8 21 0.16 0.42 ]55; 60] 7 28 0.14 0.56 ]60; 65] 6 34 0.12 0.68 ]65; 70] 6 40 0.12 0.80 ]70; 80] 5 45 0.10 0.90 ]80; 100] 5 50 0.10 1.00 50 1 3.

Exercice 2.2 Calculez tous les param` etres (de position, de dispersion et de forme) ` a partir du tableau de lexemple 1.7 sans prendre en compte les classes. Solution

50

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE M ediane : Comme n est pair, x 1 /2 = quantiles Premier quartile : x1/4 = x13 = 156 Deuxi` eme quartile : x3/4 = x38 = 165 Etendue : E = 171 152 = 19. Distance interquartile : IQ = x3/4 x1/4 = 165 156 = 9 Variance : s2 x = Ecart type : sx = Ecart moyen absolu : emoy = Ecart m edian absolu : emed 1 1 |xi x1/2 | = 242 = 4, 84. = n i=1 50
n

1 1 (x25 + x26 ) = (160 + 160) = 160. 2 2

1 1 (xi x )2 = 1668 = 33, 36. n i=1 50


n

s2 x = 5, 7758.

1 1 |xi x | = 245, 2 = 4, 904. n i=1 50


n

Moment centr e dordre trois : m3 = 1 1 (xi x )3 = 2743, 2 = 54, 864. n i=1 50


n

Exercice 2.3 1. Montrez que s2 x =

n n 1 (xi xj )2 . 2n2 i=1 j =1

` MOUSTACHES 2.9. LA BO ITE A 2. Montrez que sx Et

51

n1 . 2n

3. Montrez que, si xi > 0,

1 |xi x | 2 x. n i=1
n

Solution

1.

n n 1 (xi xj )2 2n2 i=1 j =1

n n 1 2 (x + x2 j 2xi xj ) 2n2 i=1 j =1 i n n n n n n 1 2 1 2 1 x + x 2xi xj 2n2 i=1 j =1 i 2n2 i=1 j =1 j 2n2 i=1 j =1

1 2 1 2 1 1 xi + x xi xj 2n i=1 2n j =1 j n i=1 n j =1
n n n n

= =

1 2 1 x xi x n i=1 i n i=1
n n

1 2 x x 2 n i=1 i
n

= s2 x.

52 2.

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

s2 x

n n 1 (xi xj )2 2n2 i=1 j =1 n n 1 (xi xj )2 2n2 i=1

= = = =

1 2n2

j =1,j =i n

(x(1) x(n) )2

i=1 j =1,j =i

n n 1 2 Et 2n2 i=1 j =1,j =i

1 2 n(n 1)Et 2n2 n1 2 E . 2n t sx E

Donc,

n1 . 2n

Chapitre 3

Statistique descriptive bivari ee


3.1 S erie statistique bivari ee

On sint eresse ` a deux variables x et y . Ces deux variables sont mesur ees sur les n unit es dobservation. Pour chaque unit e, on obtient donc deux mesures. La s erie statistique est alors une suite de n couples des valeurs prises par les deux variables sur chaque individu : (x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ). Chacune des deux variables peut etre, soit quantitative, soit qualitative. On examine deux cas. Les deux variables sont quantitatives. Les deux variables sont qualitatives.

3.2
3.2.1

Deux variables quantitatives


Repr esentation graphique de deux variables

Dans ce cas, chaque couple est compos e de deux valeurs num eriques. Un couple de nombres (entiers ou r eels) peut toujours etre repr esent e comme un point dans un plan (x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ). 53

54

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Exemple 3.1 On mesure le poids Y et la taille X de 20 individus. yi 60 61 64 67 68 69 70 70 72 73 xi yi 155 75 162 76 157 78 170 80 164 85 162 90 169 96 170 96 178 98 173 101 xi 180 175 173 175 179 175 180 185 189 187

poids

60 155

70

80

90

100

160

165

170 taille

175

180

185

190

Figure 3.1 Le nuage de points

En langage R

# nuage de points poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101) taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189 plot(taille,poids)

3.2. DEUX VARIABLES QUANTITATIVES

55

3.2.2

Analyse des variables

Les variables x et y peuvent etre analys ees s epar ement. On peut calculer tous les param` etres dont les moyennes et les variances : x = 1 xi , n i=1
n

s2 x = s2 y =

1 (xi x )2 , n i=1
n

y =

1 yi , n i=1
n

1 (yi y )2 . n i=1
n

Ces param` etres sont appel es param` etres marginaux : variances marginales, moyennes marginales, ecarts-types marginaux, quantiles marginaux, etc.. . .

3.2.3

Covariance
1 (xi x )(yi y ). = n i=1
n

La covariance est d enie sxy

Remarque 3.1 La covariance peut prendre des valeurs positives, n egatives ou nulles. Quand xi = yi , pour tout i = 1, . . . , n, la covariance est egale ` a la variance.

Th eor` eme 3.1 La covariance peut egalement s ecrire : 1 xi yi x y . n i=1


n

D emonstration sxy = = = = = 1 (xi x )(yi y ) n i=1


n

1 (xi yi yi x y xi + x y ) n i=1
n

1 1 1 1 xi yi yi x y xi + x y n i=1 n i=1 n i=1 n i=1


n n n n

1 xi yi x y x y +x y n i=1
n

1 xi yi x y . n i=1
n

56

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE 2

3.2.4

Corr elation

Le coecient de corr elation est la covariance divis ee par les deux ecart-types marginaux : sxy . rxy = sx sy Le coecient de d etermination est le carr e du coecient de corr elation :
2 rxy =

s2 xy . 2 s2 x sy

Remarque 3.2 Le coecient de corr elation mesure la d ependance lin eaire entre deux variables : 1 rxy 1, 2 1. 0 rxy Si le coecient de corr elation est positif, les points sont align es le long dune droite croissante. Si le coecient de corr elation est n egatif, les points sont align es le long dune droite d ecroissante. Si le coecient de corr elation est nul ou proche de z ero, il ny a pas de d ependance lin eaire. On peut cependant avoir une d ependance non-lin eaire avec un coecient de corr elation nul.
r=1 r=1 r=0

r>0

r<0

r=0

Figure 3.2 Exemples de nuages de points et coecients de corr elation

3.2. DEUX VARIABLES QUANTITATIVES

57

3.2.5

Droite de r egression

La droite de r egression est la droite qui ajuste au mieux un nuage de points au sens des moindres carr es. On consid` ere que la variable X est explicative et que la variable Y est d ependante. L equation dune droite est y = a + bx. Le probl` eme consiste ` a identier une droite qui ajuste bien le nuage de points. Si les coecients a et b etaient connus, on pourrait calculer les r esidus de la r egression d enis par : ei = yi a bxi . Le r esidu ei est lerreur que lon commet (voir Figure 3.3) en utilisant la droite de r egression pour pr edire yi ` a partir de xi . Les r esidus peuvent etre positifs ou n egatifs.
100 90

yi ei y* i

poids

60 155

70

80

160

165

170 taille

175

180

185

190

Figure 3.3 Le nuage de points, le r esidu

58 En langage R

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

# Graphique avec le r esidus plot(taille,poids) segments(158,a+b*158,190,a+b*190) segments(180,a+b*180,180,96,col="red") # text(178,90,expression(e)) text(178.7,89.5,"i") # arrows(180,a+b*180,156,a+b*180,col="blue",length=0.14) arrows(180,60,180,a+b*180,col="blue",length=0.14) arrows(180,96,156,96,col="blue",length=0.14) # text(154.8,86,expression(y)) text(155.5,85.5,"i") # text(154.8,97,expression(y)) text(155.5,97.8,"*") text(155.5,96.5,"i") Pour d eterminer la valeur des coecients a et b on utilise le principe des moindres carr es qui consiste ` a chercher la droite qui minimise la somme des carr es des r esidus : n n 2 M (a, b) = e2 (yi a bxi ) . i =
i=1 i=1

Th eor` eme 3.2 Les coecients a et b qui minimisent le crit` ere des moindres carr es sont donn es par : sxy et a = y bx . b= 2 sx D emonstration Le minimum M (a, b) en (a, b) sobtient en annulant les d eriv ees partielles par rapport ` a a et b. n M (a, b) = 2 (yi a bxi ) = 0 a i=1 n M (a, b) = 2 (yi a bxi ) xi = 0 b i=1 On obtient un syst` eme de deux equations ` a deux inconnues. En divisant les deux equations par 2n, on obtient : n 1 (yi a bxi ) = 0 n i=1 n 1 (yi a bxi ) xi = 0, n i=1

3.2. DEUX VARIABLES QUANTITATIVES ou encore n n n 1 1 1 y a b xi = 0 i n n i=1 n i=1 i=1 n n n 1 1 1 2 yi xi axi bx = 0, n i=1 n i=1 n i=1 i = a + bx y n n 1 1 2 y x a x bx = 0. i i n n i=1 i i=1 a=y bx . En rempla cant a par y bx dans la seconde equation, on a 1 2 1 xi yi ( y bx ) xb x n i=1 n i=1 i ) ( n n 1 1 2 = 2 xi yi x y b x x n i=1 n i=1 i
n n

59

ce qui s ecrit aussi

La premi` ere equation montre que la droite passe par le point ( x, y ). On obtient

= sxy bs2 x = 0, ce qui donne sxy bs2 x = 0. sxy . s2 x On a donc identi e les deux param` etres s xy b = 2 (la pente) sx sxy bx =y 2 x (la constante). a=y sx b= On devrait en outre v erier quil sagit bien dun minimum en montrant que la matrice des d eriv ees secondes est d enie positive. 2 La droite de r egression est donc sxy sxy y = a + bx = y 2 x + 2 x, sx sx ce qui peut s ecrire aussi yy = sxy (x x ). s2 x Donc

Remarque 3.3 La droite de r egression de y en x nest pas la m eme que la droite de r egression de x en y.

60

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Figure 3.4 La droite de r egression

poids

60 155

70

80

90

100

160

165

170 taille

175

180

185

190

3.2.6

R esidus et valeurs ajust ees


yi = a + bxi .

Les valeurs ajust ees sont obtenues au moyen de la droite de r egression :

Les valeurs ajust ees sont les pr edictions des yi r ealis ees au moyen de la variable x et de la droite de r egression de y en x. Remarque 3.4 La moyenne des valeurs ajust ees est egale ` a la moyenne des valeurs observ ees y . En eet, 1 1 1 yi = (a + bxi ) = a + b xi = a + bx . n i=1 n i=1 n i=1
n n n

Or, y = a + bx , car le point ( x, y ) appartient ` a la droite de r egression. Les r esidus sont les di erences entre les valeurs observ ees et les valeurs ajust ees de la variable d ependante.
ei = yi yi .

Les r esidus repr esentent la partie inexpliqu ee des yi par la droite de r egression. Remarque 3.5

3.2. DEUX VARIABLES QUANTITATIVES La moyenne des r esidus est nulle. En eet 1 1 ei = (yi yi )=y y = 0. n i=1 n i=1
n n

61

De plus,

n i=1

xi ei = 0.

La d emonstration est un peu plus dicile.

3.2.7

Sommes de carr es et variances


n i=1

D enition 3.1 On appelle somme des carr es totale la quantit e SCT OT = (yi y )2

La variance marginale peut alors etre d enie par s2 y = 1 SCT OT = (yi y )2 . n n i=1
n

D enition 3.2 On appelle somme des carr es de la r egression la quantit e SCREGR =


n i=1 (yi y )2 .

D enition 3.3 La variance de r egression est la variance des valeurs ajust ees. s2 y = 1 (y y )2 . n i=1 i
n

D enition 3.4 On appelle somme des carr es des r esidus (ou r esiduelle) la quantit e n SCRES = e2 i.
i=1

D enition 3.5 La variance r esiduelle est la variance des r esidus. s2 e = 1 2 SCRES = e . n n i=1 i
n

Note : Il nest pas n ecessaire de centrer les r esidus sur leurs moyennes pour calculer la variance, car la moyenne des r esidus est nulle.

62 Th eor` eme 3.3

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

SCT OT = SCREGR + SCRES . D emonstration SCT OT = = =


n i=1 n i=1 n i=1 2 (yi yi ) + n i=1 n i=1 (yi y )2 + 2 n i=1 (yi yi )(yi y ). (yi yi )(yi y ) (yi yi + yi y )2

(yi y )2

= SCRES + SCREGR + 2 Le troisi` eme terme est nul. En eet,


n i=1 y ) = )(yi (yi yi n i=1

(yi a bxi )(a + bxi y )

En rempla cant a par y bx , on obtient


n i=1 (yi yi )(yi y ) = n i=1 n

[yi y b(xi x ))] b(xi x ) [(yi y ) b(xi x )] b(xi x ) (yi y )(xi x ) b2


n i=1

= = = =

i=1 n i=1

(xi x )(xi x )

bnsxy b2 ns2 x

s2 sxy xy ns ns2 xy x 4 s2 s x x = 0. 2

3.2.8

D ecomposition de la variance

Th eor` eme 3.4 La variance de r egression peut egalement s ecrire


2 2 s2 y = sy r ,

o` u r2 est le coecient de d etermination.

3.2. DEUX VARIABLES QUANTITATIVES D emonstration s2 y = = = = 1 (y y )2 n i=1 i }2 n { 1 sxy y + 2 (xi x ) y n i=1 sx


n n s2 xy 1 (xi x )2 s4 x n i=1

63

s2 xy s2 x s2 xy = s2 y 2 2 sx sy
2 = s2 yr .

2 La variance r esiduelle est la variance des r esidus. s2 e = 1 2 e . n i=1 i


n

Th eor` eme 3.5 La variance r esiduelle peut egalement s ecrire


2 2 s2 e = sy (1 r ),

o` u r2 est le coecient de d etermination. D emonstration s2 e = = = = = = 1 2 e n i=1 i


n

1 2 (yi yi ) n i=1 }2 n { 1 sxy yi y 2 (xi x ) n i=1 sx


n n n n s2 1 sxy 1 xy 1 (yi y )2 + 4 (xi x )2 2 2 (xi x )(yi y ) n i=1 sx n i=1 sx n i=1

s2 s2 xy xy s2 + 2 y 2 s2 s x ) ( x 2 s xy . s2 y 1 2 2 sx sy 2

64

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Th eor` eme 3.6 La variance marginale est la somme de la variance de r egression et de la variance r esiduelle, 2 2 s2 y = sy + se . La d emonstration d ecoule directement des deux th eor` emes pr ec edents.

3.3
3.3.1

Deux variables qualitatives


Donn ees observ ees

Si les deux variables x et y sont qualitatives, alors les donn ees observ ees sont une suite de couples de variables (x1 , y1 ), . . . , (xi , yj ), . . . , (xn , yn ), chacune des deux variables prend comme valeurs des modalit es qualitatives. Les valeurs distinctes de x et y sont not ees respectivement x1 , . . . , xj , . . . , xJ et y1 , . . . , yk , . . . , yK .

3.3.2

Tableau de contingence

Les donn ees observ ees peuvent etre regroup ees sous la forme dun tableau de contingence y1 yk yK total x1 n11 n1k n1K n1. . . . . . . . . . . . . xj . . . nj 1 . . . njk . . . nJk n.k njK . . . nJK n.K nj. nJ. n

xJ nJ 1 total n.1

Les nj. et n.k sont appel es les eectifs marginaux. Dans ce tableau, nj. repr esente le nombre de fois que la modalit e xj appara t, n.k repr esente le nombre de fois que la modalit e yk appara t, njk repr esente le nombre de fois que les modalit es xj et yk apparaissent ensemble. On a les relations
J j =1 K k=1

njk = n.k , pour tout k = 1, . . . , K,

njk = nj. , pour tout j = 1, . . . , J,

3.3. DEUX VARIABLES QUALITATIVES et


J j =1

65

nj. =

K k=1

n.k =

J K j =1 k=1

njk = n

Exemple 3.2 On sint eresse ` a une eventuelle relation entre le sexe de 200 personnes et la couleur des yeux. Le Tableau 3.1 reprend le tableau de contingence. Table 3.1 Tableau des eectifs njk Bleu 10 20 30 Vert 50 60 110 Marron 20 40 60 Total 80 120 200

Homme Femme Total

3.3.3

Tableau des fr equences

Le tableau de fr equences sobtient en divisant tous les eectifs par la taille de l echantillon : njk fjk = , j = 1, . . . , J, k = 1, . . . , K n fj. = f.k = Le tableau des fr equences est y1 f11 . . . fj 1 . . . fJ 1 f.1 yk f1k . . . fjk . . . fJk f.k yK f1K . . . fjK . . . fJK f.K total f1. fj. fJ. 1 nj. , j = 1, . . . , J, n n.k , k = 1, . . . , K. n

x1 . . . xj . . . xJ total

Exemple 3.3 Le Tableau 3.2 reprend le tableau des fr equences.

66

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Table 3.2 Tableau des fr equences Bleu 0.05 0.10 0.15 Vert 0.25 0.30 0.55 Marron 0.10 0.20 0.30 Total 0.40 0.60 1.00

Homme Femme Total

3.3.4

Prols lignes et prols colonnes

Un tableau de contingence sinterpr` ete toujours en comparant des fr equences en lignes ou des fr equences en colonnes (appel es aussi prols lignes et prols colonnes). Les prols lignes sont d enis par fk
(j )

njk fjk = , k = 1, . . . , K, j = 1, . . . , J, nj. fj.

et les prols colonnes par fj


(k)

njk fjk = , j = 1, . . . , J, k = 1, . . . , K. n.k f.k

Exemple 3.4 Le Tableau 3.3 reprend le tableau des prols lignes, et le Tableau 3.4 reprend le tableau des prols colonnes. Table 3.3 Tableau des prols lignes Bleu 0.13 0.17 0.15 Vert 0.63 0.50 0.55 Marron 0.25 0.33 0.30 Total 1.00 1.00 1.00

Homme Femme Total

Table 3.4 Tableau des prols colonnes Bleu 0.33 0.67 1.00 Vert 0.45 0.55 1.00 Marron 0.33 0.67 1.00 Total 0.40 0.60 1.00

Homme Femme Total

3.3. DEUX VARIABLES QUALITATIVES

67

3.3.5

Eectifs th eoriques et khi-carr e

On cherche souvent une interaction entre des lignes et des colonnes, un lien entre les variables. Pour mettre en evidence ce lien, on construit un tableau deectifs th eoriques qui repr esente la situation o` u les variables ne sont pas li ees (ind ependance). Ces eectifs th eoriques sont construits de la mani` ere suivante : n jk = nj. n.k . n

Les eectifs observ es njk ont les m emes marges que les eectifs th eoriques n jk . Enn, les ecarts ` a lind ependance sont d enis par ejk = njk n jk . La d ependance du tableau se mesure au moyen du khi-carr e d eni par 2 obs =
K J 2 (njk n jk ) k=1 j =1

n jk

k=1

J K e2 jk . n j =1 jk

(3.1)

Le khi-carr e peut etre normalis e pour ne plus d ependre du nombre dobservations. On d enit le phi-deux par : 2 = 2 obs . n

Le 2 ne d epend plus du nombre dobservations. Il est possible de montrer que 2 min(J 1, K 1). Le V de Cramer est d enit par 2 2 obs V = = . min(J 1, K 1) n min(J 1, K 1) Le V de Cramer est compris entre 0 et 1. Il ne d epend ni de la taille de l echantillon ni de la taille du tableau. Si V 0, les deux variables sont ind ependantes. Si V = 1, il existe une relation fonctionnelle entre les variables, ce qui signie que chaque ligne et chaque colonne du tableau de contingence ne contiennent quun seul eectif di erent de 0 (il faut que le tableau ait le m eme nombre de lignes que de colonnes). Exemple 3.5 Le Tableau 3.5 reprend le tableau des eectifs th eoriques, le Tableau 3.6 reprend le tableau des ecarts ` a lind ependance. Enn, les e2 jk /njk sont pr esent es dans le tableau 3.7. Le khi-carr e observ e vaut 2 obs = 3.03. 2 Le phi-deux vaut = 0.01515. Comme le tableau a deux lignes min(J 1, K 1) = min(2 1, 3 1) = 1. Le V de Cramer est egal ` a 2 .

68

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE Table 3.5 Tableau des eectifs th eoriques n jk Bleu 12 18 30 Vert 44 66 110 Marron 24 36 60 Total 80 120 200

Homme Femme Total

Table 3.6 Tableau des ecarts ` a lind ependance ejk Bleu -2 2 0 Vert 6 -6 0 Marron -4 4 0 Total 0 0 0

Homme Femme Total

Table 3.7 Tableau des e2 jk /njk

Homme Femme Total

Bleu 0.33 0.22 0.56

Vert 0.82 0.55 1.36

Marron 0.67 0.44 1.11

Total 1.82 1.21 3.03

On a V = 0.123. La d ependance entre les deux variables est tr` es faible.

En langage R yeux= c(rep("bleu",times=10),rep("vert",times=50),rep("marron",times=20), rep("bleu",times=20),rep("vert",times=60),rep("marron",times=40)) sexe= c(rep("homme",times=80),rep("femme",times=120)) yeux=factor(yeux,levels=c("bleu","vert","marron")) sexe=factor(sexe,levels=c("homme","femme")) T=table(sexe,yeux) T plot(T,main="") summary(T)

Exemple 3.6 Le tableau suivant est extrait de Boudon (1979, p. 57). La variable X est le niveau dinstruction du ls par rapport au p` ere (plus elev e,

3.3. DEUX VARIABLES QUALITATIVES

69

egal, inf erieur), et la variable Y est le statut professionnel du ls par rapport au p` ere (plus elev e, egal, inf erieur).

Table 3.8 Tableau de contingence : eectifs njk Niveau dinstruction Statut professionnel du ls du ls par rapport par rapport au p` ere au p` ere Plus elev e Egal inf erieur total plus elev e 134 96 61 291 egal 23 33 24 80 inf erieur 7 16 22 45 total 164 145 107 416

Table 3.9 Tableau des fr equences fjk X \Y Plus elev e plus elev e 0.322 egal 0.055 inf erieur 0.017 total 0.394 Egal 0.231 0.079 0.038 0.349 inf erieur 0.147 0.058 0.053 0.257 total 0.700 0.192 0.108 1.000

Table 3.10 Tableau des prols lignes X \Y Plus elev e plus elev e 0.460 egal 0.288 inf erieur 0.156 total 0.394 Egal 0.330 0.413 0.356 0.349 inf erieur total 0.210 1 0.300 1 0.489 1 0.257 1

Table 3.11 Tableau des prols colonnes X \Y Plus elev e Egal plus elev e 0.817 0.662 egal 0.140 0.228 0.043 0.110 inf erieur total 1 1 inf erieur total 0.570 0.700 0.224 0.192 0.206 0.108 1 1

70

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE Table 3.12 Tableau des eectifs th eoriques n jk X \Y Plus elev e Egal plus elev e 114.72 101.43 egal 31.54 27.88 inf erieur 17.74 15.69 total 164 145 inf erieur total 74.85 291 20.58 80 11.57 45 107 416

Table 3.13 Tableau des ecarts ` a lind ependance ejk X \Y Plus elev e Egal inf erieur total plus elev e 19.28 5.43 13.85 0 egal 8.54 5.12 3.42 0 inf erieur 10.74 0.31 10.43 0 total 0 0 0 0

Table 3.14 Tableau des e2 jk /njk

Plus elev e Egal X \Y plus elev e 3.24 0.29 2.31 0.94 egal inf erieur 6.50 0.01 total 12.05 1.24

inf erieur total 2.56 6.09 0.57 3.82 9.39 15.90 12.52 2 obs = 25.81

On a donc 2 obs 2 V = 25.81 2 25.81 obs = = = 0.062 n 416 =

2 = min(J 1, K 1)

0.062 = 0.176. 2

Exercices
Exercice 3.1 La consommation de cr` emes glac ees par individus a et e mesur ee pendant 30 p eriodes. Lobjectif est d etermin e si la consommation d epend de la temp erature. Les donn ees sont dans le tableau 3.15. On sait en outre que

3.3. DEUX VARIABLES QUALITATIVES

71

Table 3.15 Consommation de cr` emes glac ees consommation y 386 374 393 425 406 344 327 288 269 256 temp erature x consommation y 41 286 56 298 63 329 68 318 69 381 65 381 61 470 47 443 32 386 24 342 temp erature x consommation y 28 319 26 307 32 284 40 326 55 309 63 359 72 376 72 416 67 437 60 548 temp erature x 44 40 32 27 28 33 41 52 64 71

n i= i n i= i

yi = 10783,

n i=i

xi = 1473,

2 yi = 4001293, n i=i

n i=i

x2 i = 80145,

xi yi = 553747,

1. Donnez les moyennes marginales, les variances marginales et la covariance entre les deux variables. 2. Donnez la droite de r egression, avec comme variable d ependante la consommation de glaces et comme variable explicative la temp erature. 3. Donnez la valeur ajust ee et le r esidu pour la premi` ere observation du tableau 3.15.

Solution y = 359.4333333, x = 49.1,


2 2 2 y = 4184.112222, x = 260.69, xy = 810.0566667, = 0.77562456, b = 3.107356119, a = 206.8621479, y1 = 334.2637488, e1 = 51.73625123,

72

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Exercice 3.2 Neuf etudiants emettent un avis p edagogique vis-` a-vis dun professeur selon une echelle dappr eciation de 1 ` a 20. On rel` eve par ailleurs la note obtenue par ces etudiants lann ee pr ec edente aupr` es du professeur. Etudiants 16 6 12 10 13 9

y = Avis x = R esultat

5 8

7 11

14 17

10 7

9 15

8 16

1. Repr esentez graphiquement les deux variables. 2. D eterminez le coecient de corr elation entre les variables X et Y. Ensuite, donnez une interpr etation de ce coecient. 3. D eterminez la droite de r egression Y en fonction de X. 4. Etablissez, sur base du mod` ele, lavis pour un etudiant ayant obtenu 12/20. 5. Calculez la variance r esiduelle et le coecient de d etermination.

Solution

18 6 16 14 12 10 8 6 4 2 0 0 5 10 q q q q q q q

15

20

3.3. DEUX VARIABLES QUALITATIVES yi xi 5 8 7 11 16 10 6 13 12 9 14 17 10 7 9 15 8 16 87 106 y = s2 y =


2 yi x2 xi yi i 25 64 40 49 121 77 256 100 160 36 169 78 144 81 108 196 289 238 100 49 70 81 225 135 64 256 128 951 1354 1034

73

87 = 9, 667 9

951 9, 6672 = 12, 22 9 106 = 11, 78 x = 9 1354 s2 11, 782 = 11, 73 x = 9 1034 9, 667 11, 78 = 1, 037 sxy = 9 1, 037 rxy = = 0.087 12, 22 11, 73 Ajustement lin eaire de y en x Dy | x : y y = Sxy (x x ) 2 Sx

Dy|x : y = 0.088x + 8, 625 Valeur ajust ee pour une cote de 12/20, (x=12) y = 0.088 12 + 8, 625 = 9, 686 Mesure de la qualit e du mod` ele : Variance r esiduelle s2 y |x
2 = s2 y (1 r )

= 12, 22(1 0.0872 ) = 12, 13 ` a comparer avec s2 y = 12, 22 Coecient de d etermination r2 = 0.0872 = 0.008 ce coecient repr esente la proportion de variance expliqu ee par le mod` ele (ici 0.8% faible).

74

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Exercice 3.3 Consid erons un echantillon de 10 fonctionnaires (ayant entre 40 et 50 ans) dun minist` ere. Soit X le nombre dann ees de service et Y le nombre de jours dabsence pour raison de maladie (au cours de lann ee pr ec edente) d etermin e pour chaque personne appartenant ` a cet echantillon. xi yi 2 14 3 13 16 17 8 12 13 10 20 8 24 20 7 7 5 2 11 8

1. Repr esentez le nuage de points. 2. Calculez le coecient de corr elation entre X et Y. 3. D eterminez l equation de la droite de r egression de Y en fonction de X. 4. D eterminez la qualit e de cet ajustement. 5. Etablissez, sur base de ce mod` ele, le nombre de jours dabsence pour un fonctionnaire ayant 22 ans de service. Solution 2) xi 2 14 16 8 13 20 24 7 5 11 somme 120 moyenne 12.00
n i=l n i=l n i=1 2 yi yi x2 i 3 4 9 13 196 169 17 256 289 12 64 144 10 169 100 8 400 64 20 576 400 7 49 49 2 25 4 8 121 64 100 1860 1292 10.00 186.00 129.20 n i=l n i=l 2 yi = 1292;

xi yi 6 182 272 96 130 160 480 49 10 88 1473 147.30

xi = 120;

yi = 100;

x2 i = 1860;

xi yi = 1473 y = 100/10 = 10;

x = 120/10 = 12;

2 2 2 s2 x = (1860/10) 12 = 42; sy = (1292/10) 10 = 29, 2

sxy = (1473/10) (10.12) = 27, 3

3.3. DEUX VARIABLES QUALITATIVES rxy = 3) Dxy y y = Dxy y 10 = Dxy 4) r2 = 60.8%; s2 e = s2 y (1 r ) = 29, 2 (1 0.608) = 11, 43
2

75

27, 3 = 0.78 42 29, 2 Sxy (x x ) 2 Sx

27, 3 (x 12) 42 y = 0.65x + 2, 2

2 s2 e = 11, 43 est beaucoup plus petit que Sy = 29, 2

5) y = 0.65 22 + 2, 2 = 16, 5 jours.

76

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Chapitre 4

Th eorie des indices, mesures din egalit e


4.1 4.2 Nombres indices D enition

Un indice est la valeur dune grandeur par rapport ` a une valeur de r ef erence. Prenons lexemple du tableau 4.1 contenant le prix (ctif) dun bien de consommation de 2000 ` a 2006. Le temps varie de 0, 1, 2, . . . , 6 et 0 est consid er e comme le temps de r ef erence par rapport auquel lindice est calcul e. Table 4.1 Tableau du prix dun ann ee 2000 2001 2002 2003 2004 2005 2006 bien de consommation de 2000 ` a 2006 t prix pt 0 2.00 1 2.30 2 2.40 3 2.80 4 3.00 5 3.50 6 4.00

Lindice simple est d eni par I (t/t ) = 100 pt , t, t = 0, 1, . . . , 6. pt

Le tableau 4.2 contient la matrice des indices de prix du bien. Par exemple de 2000 ` a 2006, le prix a doubl e, donc I (6/0) = 200. 77

78

CHAPITRE 4. THEORIE DES INDICES, MESURES DINEGALIT E

Table 4.2 Tableau de lindice simple du prix du tableau 4.1 t = 0 1 2 3 4 5 6 t=0 1 2 100.00 115.00 120.00 86.96 100.00 104.35 83.33 95.83 100.00 71.43 82.14 85.71 66.67 76.67 80.00 57.14 65.71 68.57 50.00 57.50 60.00 3 140.00 121.74 116.67 100.00 93.33 80.00 70.00 4 150.00 130.43 125.00 107.14 100.00 85.71 75.00 5 175.00 152.17 145.83 125.00 116.67 100.00 87.50 6 200.00 173.91 166.67 142.86 133.33 114.29 100.00

4.2.1

Propri et es des indices

Consid erons un indice quelconque I (t/0). On dit que cet indice poss` ede les propri et es de 1 r eversibilit e si I (t/0) = 1002 I (0 /t) , identit e si I (t/t) = 100, circularit e (ou transitivit e) si I (t/u) I (u/v ) = 100 I (t/v ). Il est facile de montrer que ces trois propri et es sont satisfaites pour un indice simple.

4.2.2

Indices synth etiques

Quand on veut calculer un indice ` a partir de plusieurs prix, le probl` eme devient sensiblement plus compliqu e. Un indice synth etique est une grandeur dun ensemble de biens par rapport ` a une ann ee de r ef erence. On ne peut pas construire un indice synth etique en additionnant simplement des indices simples. Il faut, en eet, tenir compte des quantit es achet ees. Pour calculer un indice de prix de n biens de consommation etiquet es de 1, 2, . . . , n, on utilise la notation suivante : pti repr esente le prix du bien de consommation i au temps t, qti repr esente la quantit e de biens i consomm ee au temps t. Consid erons par exemple le Tableau 4.3 qui contient 3 biens de consommation et pour lesquels ont conna t les prix et les quantit es achet ees. Il existe deux m ethodes fondamentales pour calculer les indices de prix, lindice de Paasche et lindice de Laspeyres.

4.2.3

Indice de Laspeyres
n i=1 q0i pti L(t/0) = 100 n . i=1 q0i p0i

Lindice de Laspeyres, est d eni par

On utilise pour le calculer, les quantit es q0i du temps de r ef erence.

4.2. DEFINITION

79

Table 4.3 Exemple : prix et quantit es de trois bien pendant 3 ans Temps Bien 1 Bien 2 Bien 3 0 Prix (p0i ) 100 60 160 1 Prix (p1i ) 150 50 140 2 Prix (p2i ) 200 40 140

Quantit es (q0i ) 14 10 4

Quantit es (q1i ) 10 12 5

Quantit es (q2i ) 8 14 5

Lindice de Laspeyres peut aussi etre pr esent e comme une moyenne pond er ee des indices simples. Soient lindice simple du bien i : Ii (t/0) = 100 pti , p0i

et le poids w0i correspondant ` a la recette totale du bien i au temps 0 w0i = p0i q0i . Lindice de Laspeyres peut alors etre d eni comme une moyenne des indices simples pond er es par les recettes au temps 0 : n n w0i Ii (t/0) i=1 p0i q0i 100 i=1 n n = L(t/0) = i=1 w0i i=1 p0i q0i
pti p0i

n i=1 q0i pti = 100 n . i=1 p0i q0i

Lindice de Laspeyres ne poss` ede ni la propri et e de circularit e ni de r eversibilit e. Lindice de Laspeyres est facile ` a calculer, car seules les quantit es q0i du temps de r ef erence sont n ecessaires pour le calculer. Exemple 4.1 Si on utilise les donn ees du tableau 4.3, les indices de Laspeyres sont les suivants n 14 150 + 10 50 + 4 140 =1 q0i p1i L(1/0) = 100 i = 100 = 119.6970, n 14 100 + 10 60 + 4 160 q p i=1 0i 0i n 14 200 + 10 40 + 4 140 =1 q0i p2i = 142.4242, L(2/0) = 100 i = 100 n 14 100 + 10 60 + 4 160 i=1 q0i p0i n 10 200 + 12 40 + 5 140 =1 q1i p2i L(2/1) = 100 i = 113.5714. = 100 n 10 150 + 12 50 + 5 140 i=1 q1i p1i

80

CHAPITRE 4. THEORIE DES INDICES, MESURES DINEGALIT E

4.2.4

Indice de Paasche
n i=1 qti pti P (t/0) = 100 n . i=1 qti p0i

Lindice de Paasche, est d eni par

On utilise, pour le calculer, les quantit es qti du temps par rapport auquel on veut calculer lindice. Lindice de Paasche peut aussi etre pr esent e comme une moyenne harmonique pond er ee des indices simples. Soient lindice simple du bien i : Ii (t/0) = 100 pti , p 0i

et le poids wti correspondant ` a la recette totale du bien i au temps t wti = pti qti . Lindice de Paasche peut alors etre d eni comme une moyenne harmonique des indices simples pond er es par les recettes au temps t : n n n wti pti qti i=1 qti pti i =1 i =1 = 100 n P (t/0) = n = n . p0i i=1 wti /Ii (t/0) i=1 pti qti 100pti i=1 qti p0i Lindice de Paasche ne poss` ede ni la propri et e de circularit e ni de r eversibilit e. Lindice de Paasche est plus dicile ` a calculer que lindice de Laspeyres, car on doit conna tre les quantit es pour chaque valeur de t. Exemple 4.2 Si on utilise les donn ees du tableau 4.3, les indices de Paasche sont les suivants n 10 150 + 12 50 + 5 140 i=1 q1i p1i P (1/0) = 100 n = 100 = 111.1111, 10 100 + 12 60 + 5 160 q p i=1 1i 0i n 8 200 + 14 40 + 5 140 =1 q2i p2i = 100 P (2/0) = 100 i = 117.2131, n 8 100 + 14 60 + 5 160 q p i=1 2i 0i n 8 200 + 14 40 + 5 140 =1 q2i p2i = 100 P (2/1) = 100 i = 110. n 8 150 + 14 50 + 5 140 q p i=1 2i 1i

4.2.5

Lindice de Fisher

Lindice de Laspeyres est en g en eral plus grand que lindice de Paasche, ce qui peut sexpliquer par le fait que lindice de Laspeyres est une moyenne arithm etique dindices el ementaires tandis que lindice de Paasche est une moyenne harmonique. Nous avons vu quune moyenne harmonique est toujours inf erieure

4.2. DEFINITION

81

ou egale ` a une moyenne arithm etique (voir la remarque de la page 32). Cependant ici, ce r esultat est approximatif, car on nutilise pas les m emes poids pour calculer lindice de Paasche (wti ) et de Laspeyres (w0i ). Fisher a propos e dutiliser un compromis entre lindice de Paasche et de Laspeyres en calculant simplement la moyenne g eom etrique de ces deux indices F (t/0) = L(t/0) P (t/0). Lavantage de lindice de Fisher est quil jouit de la propri et e de r eversibilit e. Exemple 4.3 Si on utilise toujours les donn ees du tableau 4.3, les indices de Fisher sont les suivants : F (1/0) = L(1/0) P (1/0) = 115.3242, F (2/0) = L(2/0) P (2/0) = 129.2052, F (2/1) = L(2/1) P (2/1) = 111.7715.

4.2.6

Lindice de Sidgwick

Lindice de Sidgwick est la moyenne arithm etique des indices de Paasche et de Laspeyres. L(t/0) + P (t/0) S (t/0) = . 2

4.2.7

Indices cha nes

Le d efaut principal des indices de Laspeyres, de Paasche, de Fisher et de Sidgwick est quil ne poss` edent pas la propri et e de circularit e. Un indice qui poss` ede cette propri et e est appel e indice cha ne. Pour construire un indice cha ne, avec lindice de Laspeyres, on peut faire un produit dindice de Laspeyres annuels. L(t/t 1) L(t 1/t 2) L(2/1) L(1/0) . 100 100 100 100 Pour calculer un tel indice, on doit evidemment conna tre les quantit es pour chaque valeur de t. Lindice suisse des prix ` a la consommation est un indice cha ne de Laspeyres. CL(t/0) = 100 Exemple 4.4 En utilisant encore les donn ees du tableau 4.3, les indices cha nes de Laspeyres sont les suivants : CL(1/0) = L(1/0) = 119.6970, CL(2/1) = L(2/1) = 113.5714, L(2/1) L(1/0) = 135.9416. CL(2/0) = 100

82

CHAPITRE 4. THEORIE DES INDICES, MESURES DINEGALIT E

4.3
4.3.1

Mesures de lin egalit e


Introduction

Des indicateurs particuliers ont et e d evelopp es pour mesurer les in egalit es des revenus ou les in egalit es de patrimoine. On consid` ere quune soci et e est parfaitement egalitaire si tous les individus re coivent le m eme revenu. La situation th eorique la plus in egalitaire est la situation o` u un individu per coit la totalit e des revenus, et les autre individus nont aucun revenu.

4.3.2

Courbe de Lorenz

Plusieurs indices din egalit e sont li es ` a la courbe de Lorenz. On note x1 , . . . , xi , . . . , xn les revenus des n individus de la population etudi ee. On note egalement x(1) , . . . , x(i) , . . . , x(n) , la statistique dordre, cest-` a-dire la s erie de revenus tri es par ordre croissant. Notons maintenant qi la proportion de revenus par rapport au revenu total quont gagn e les i individus ayant les plus bas revenus, ce qui s ecrit i
j =1 qi = n

x(j )

j =1 x(j )

avec q0 = 0 et qn = 1.

La courbe de Lorenz est la repr esentation graphique de la fonction qui ` a la part des individus les moins riches associe la part y du revenu total quils per coivent. Plus pr ecis ement, la courbe de Lorenz relie les points (i/n, qi ) pour i = 1, . . . , n. En abscisse, on a donc une proportion dindividus class es par ordre de revenu, et en ordonn ee la proportion du revenu total re cu par ces individus. Exemple 4.5 On utilise une enqu ete m enage sur le revenu dans une r egion des Philippines appel ee Ilocos. Cette enqu ete de 1997 sur le revenu des m enages a et e produite par lOce philippin de Statistique. La courbe de Lorenz est pr esent ee en Figure 4.1.

Remarque 4.1 Sur le graphique, on indique toujours la diagonale. La courbe de Lorenz est egale ` a la diagonale si tous les individus ont le m eme revenu. Plus l ecart entre la courbe de Lorenz et la diagonale est important, plus les revenus sont distribu es de mani` ere in egalitaire.

En langage R

4.3. MESURES DE LINEGALIT E

83

Figure 4.1 Courbe de Lorenz


1.0

0.8 proportion de revenu

0.6

0.4

0.2

0.0 0.0 0.2 0.4 0.6 0.8 1.0

proportion de menages

# # Courbe de Lorenz et indices din egalit e # # Etape 1 : on installe la package ineq utils:::menuInstallPkgs() # choisir ineq dans la liste # #Etape 2 : on charge le package ineq local({pkg <- select.list(sort(.packages(all.available = TRUE))) + if(nchar(pkg)) library(pkg, character.only=TRUE)}) # choisir ineq dans la liste # # Utilisation de la base de donn ees Ilocos # Enqu^ ete sur le revenu de lOffice de Statistique Philippin data(Ilocos) attach(Ilocos) # plot(Lc(income),xlab="proportion de menages", ylab="proportion de revenu",main="")

84

CHAPITRE 4. THEORIE DES INDICES, MESURES DINEGALIT E

4.3.3

Indice de Gini

Lindice de Gini, not e G est egal ` a deux fois la surface comprise entre la courbe de Lorenz et la diagonale. Il est possible de montrer que : n n 1 i=1 j =1 |xi xj | n(n1) G= . 2 x En utilisant la statistique dordre x(1) , . . . , x(i) , . . . , x(n) , lindice de Gini peut egalement s ecrire ] [ n 2 i=1 ix(i) 1 G= (n + 1) . n1 nx Lindice de Gini est compris entre 0 et 1. Sil est proche de 0, tous le revenus sont egaux. Sil est proche de 1, les revenus sont tr` es in egaux.

4.3.4

Indice de Hoover

Lindice d equir epartition de Hoover (ou Robin Hood index) est d eni comme la proportion de revenus quil faudrait prendre aux individus gagnant plus que la moyenne et redistribuer aux individus gagnant moins que la moyenne pour que tout le monde ait le m eme revenu. Il est formellement d enit par : n 1 |xi x | H = n i=1 . 2 x Cet indice est egalement compris entre 0 et 1. Il vaut 0 si tous les individus ont le m eme revenu. Cet indice est egalement li e ` a la courbe de Lorenz, car il est possible de montrer quil correspond ` a la plus grande distance verticale entre la courbe de Lorenz et la diagonale.

4.3.5

Quintile et Decile share ratio

On d enit dabord : S10 revenu moyen des individus ayant un revenu inf erieur au premier d ecile x1/10 , S20 revenu moyen des individus ayant un revenu inf erieur au premier quintile ou deuxi` eme d ecile x1/5 , S80 revenu moyen des individus ayant un revenu sup erieur au quatri` eme quintile ou huiti` eme d ecile x4/5 , S90 revenu moyen des individus ayant un revenu sup erieur au neuvi` eme d ecile x9/10 . Le quintile share ratio est d enit par QSR = S80 . S20

4.3. MESURES DE LINEGALIT E Le decile share ratio est d enit par DSR = S90 . S10

85

Ces quantit es sont toujours plus grandes que 1 et augmentent avec lin egalit e. Ces deux rapports sont facilement interpr etables, par exemple si le QSR = 5, cela signie que le revenu moyen de 20% des plus riches est 5 fois plus grand que le revenu moyen de 20% des plus pauvres.

4.3.6

Indice de pauvret e

Un indice simple de pauvret e consiste ` a calculer le pourcentage de la population gagnant moins que la moiti e de la m ediane.

4.3.7

Indices selon les pays

Le tableau 4.4 reprend pour tous les pays lindice de Gini et le rapport des 20% les plus riches sur les 20% les plus pauvres. (r ef erence : United Nations 2005 Development Programme Report, page 270).

Exercices
Exercice 4.1 Etudiez les propri et es (circularit e, r eversibilit e, identit e et transitivit e) de tous les indices de prix pr esent es.

86

CHAPITRE 4. THEORIE DES INDICES, MESURES DINEGALIT E

Table 4.4 Mesures de lin egalit e par pays


Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 61 65 92 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 Pays Denmark Japan Sweden Belgium Czech Republic Norway Slovakia Bosnia and Herzegovina Uzbekistan Finland Hungary Republic of Macedonia Albania Germany Slovenia Rwanda Croatia Ukraine Austria Ethiopia Romania Mongolia Belarus Netherlands Russia South Korea Bangladesh Lithuania Bulgaria Kazakhstan Spain India Tajikistan France Pakistan Canada Switzerland Sri Lanka Burundi Estonia Portugal United States Peru Malawi Mali Niger Nigeria Papua New Guinea Argentina Zambia El Salvador Mexico Honduras Panama Zimbabwe Chile Colombia Paraguay South Africa Brazil Guatemala Swaziland Central African Republic Sierra Leone Botswana Lesotho Namibia Indice de Gini 24.7 24.9 25 25 25.4 25.8 25.8 26.2 26.8 26.9 26.9 28.2 28.2 28.3 28.4 28.9 29 29 30 30 30.3 30.3 30.4 30.9 31 31.6 31.8 31.9 31.9 32.3 32.5 32.5 32.6 32.7 33 33.1 33.1 33.2 33.3 37.2 38.5 46.6 49.8 50.3 50.5 50.5 50.6 50.9 52.2 52.6 53.2 54.6 55 56.4 56.8 57.1 57.6 57.8 57.8 59.3 59.9 60.9 61.3 62.9 63 63.2 70.7 DSR 8.1 4.5 6.2 7.8 5.2 6.1 6.7 5.4 6.1 5.6 5.5 6.8 5.9 6.9 5.9 5.8 7.3 6.4 7.6 6.6 8.1 17.8 6.9 9.2 7.1 7.8 6.8 7.9 9.9 7.5 9 7.3 7.8 9.1 7.6 10.1 9.9 8.1 19.3 14.9 15 15.9 49.9 22.7 23.1 46 24.9 23.8 39.1 41.8 47.4 45 49.1 62.3 22 40.6 57.8 73.4 33.1 68 55.1 49.7 69.2 87.2 77.6 105 128.8 QSR 4.3 3.4 4 4.5 3.5 3.9 4 3.8 4 3.8 3.8 4.4 4.1 4.3 3.9 4 4.8 4.3 4.7 4.3 5.2 9.1 4.6 5.1 4.8 4.7 4.6 5.1 5.8 5.1 5.4 4.9 5.2 5.6 4.8 5.8 5.8 5.1 9.5 7.2 8 8.4 18.4 11.6 12.2 20.7 12.8 12.6 18.1 17.2 19.8 19.3 21.5 24.7 12 18.7 22.9 27.8 17.9 26.4 24.4 23.8 32.7 57.6 31.5 44.2 56.1 Ann ee de lenqu ete 1997 1993 2000 1996 1996 2000 1996 2001 2000 2000 2002 1998 2002 2000 1998 1983 2001 1999 1997 1999 2002 1998 2000 1999 2002 1998 2000 2000 2001 2003 1990 1999 2003 1995 1998 1998 1992 1999 1998 2000 1997 2000 2000 1997 1994 1995 1996 1996 2001 1998 2000 2000 1999 2000 1995 2000 1999 2002 2000 2001 2000 1994 1993 1989 1993 1995 1993

Chapitre 5

Calcul des probabilit es et variables al eatoires


5.1
5.1.1

Probabilit es
enement Ev

Une exp erience est dite al eatoire si on ne peut pas pr edire a priori son r esultat. On note un r esultat possible de cette exp erience al eatoire. Lensemble de tous les r esultats possibles est not e . Par exemple, si on jette deux pi` eces de monnaie, on peut obtenir les r esultats = {(P, P ), (F, P ), (P, F ), (F, F )} , avec F pour face et P pour pile. Un ev enement est une assertion logique sur une exp erience al eatoire comme avoir deux fois pile ou avoir au moins une fois pile. Formellement, un ev enement est un sous-ensemble de . L ev enement avoir deux fois pile est le sous ensemble {(P, P )}. L ev enement avoir au moins une fois pile est le sous ensemble {(P, P ), (F, P ), (P, F )}. Lensemble est appel e ev enement certain, et lensemble vide est appel e ev enement impossible.

5.1.2

Op erations sur les ev enements

Sur les ev enements, on peut appliquer les op erations habituelles de la th eorie des ensembles. Lunion L ev enement A B est r ealis e d` es que A ou B est r ealis e. Dans un lancer de d e, si l ev enement A est obtenir un nombre pair et l ev enement B obtenir un multiple de 3, l ev enement A B est l ev enement obtenir un nombre pair OU un multiple de 3, cest-` a-dire {2, 3, 4, 6}. 87

ET VARIABLES ALEATOIRES 88CHAPITRE 5. CALCUL DES PROBABILITES Lintersection L ev enement A B est r ealis e d` es que A et B sont r ealis es conjointement dans la m eme exp erience. Dans un lancer de d e, si l ev enement A est obtenir un nombre pair et l ev enement B obtenir un multiple de 3, l ev enement A B est l ev enement obtenir un nombre pair ET multiple de 3, cest-` a-dire {6}. La di erence L ev enement A\B est r ealis e quand A est r ealis e et que B ne lest pas. Le compl ementaire Le compl ementaire de l ev enement A est l ev enement \A. Le compl ementaire est not e A. Exemple 5.1 Lexp erience peut consister ` a jeter un d e, alors = {1, 2, 3, 4, 5, 6}, et un ev enement, not e A, est obtenir un nombre pair. On a alors A = {2, 4, 6} et A = {1, 3, 5}.

5.1.3

Relations entre les ev enements

enements mutuellement exclusifs Ev Si A B = on dit que A et B sont mutuellement exclusifs, ce qui signie que A et B ne peuvent pas se produire ensemble. Exemple 5.2 Si on jette un d e, l ev enement obtenir un nombre pair et l ev enement obtenir un nombre impair ne peuvent pas etre obtenus en m eme temps. Ils sont mutuellement exclusifs. Dautre part, si lon jette un d e, les ev enements A : obtenir un nombre pair nest pas mutuellement exclusif avec l ev enement B : obtenir un nombre inf erieur ou egal ` a 3. En eet, lintersection de A et B est non-vide et consiste en l ev enement obtenir 2.

Inclusion Si A est inclus dans B , on ecrit A B. On dit que A implique B . Exemple 5.3 Si on jette un d e, on consid` ere les ev enements A obtenir 2 et B obtenir un nombre pair. A = {2} et B = {2, 4, 6}.

5.1. PROBABILITES On dit que A implique B .

89

5.1.4

Ensemble des parties dun ensemble et syst` eme complet

On va associer ` a lensemble A de toutes les parties (ou sous-ensembles) de . Exemple 5.4 Si on jette une pi` ece de monnaie alors = {P, F }, et A = {, {F }, {P }, {F, P }} .

D enition 5.1 Les ev enements A1 , . . . , An forment un syst` eme complet d ev enements, si ils constituent une partition de , cest-` a-dire si tous n les couples Ai , Aj sont mutuellement exclusifs quand i = j , i=1 Ai = . Table 5.1 Syst` eme complet d ev enements

A1

1111111 0000000

1111111 0000000

An

5.1.5

Axiomatique des Probabilit es

D enition 5.2 Une probabilit e P (.) est une application de A dans [0, 1], telle que : Pr() = 1, Pour tout ensemble d enombrable d ev enements A1 , .., An mutuellement exclusifs (tels que Ai Aj = , pour tout i = j ), Pr (A1 A2 A3 An ) = Pr(A1 ) + Pr(A2 ) + Pr(A3 ) + + Pr(An ). A partir des axiomes, on peut d eduire les propri et es suivantes : Propri et e 5.1 Pr() = 0.

ET VARIABLES ALEATOIRES 90CHAPITRE 5. CALCUL DES PROBABILITES D emonstration Comme est dintersection vide avec , on a que Pr( ) = Pr() + Pr(). Donc, Pr() = 2Pr(), ce qui implique que Pr() = 0. Propri et e 5.2 Pr(A) = 1 Pr(A). D emonstration On sait que A A = et A A = . Ainsi, on a que Pr() = Pr(A A) = Pr(A) + Pr(A). Mais, par la d enition dune probabilit e, Pr() = 1. Donc, Pr(A) + Pr(A) = 1 On en d eduit que Pr(A) = 1 Pr(A). Propri et e 5.3 Pr(A) Pr(B ) si A B. D emonstration Comme A B , on a Mais on a que (B A ) A = . Ainsi, on a Pr(B ) = Pr(B A) + Pr(A). Or une probabilit e est ` a valeur dans [0,1], donc Pr(B A) 0. On a alors Pr(B ) Pr(A). 2 Propri et e 5.4 Pr(A B ) = Pr(A) + Pr(B ) Pr(A B ). D emonstration On a A B = A (B A), et A (B A ) = . 2 2

B = (B A) A.

5.1. PROBABILITES Donc Pr(A B ) = Pr(A) + Pr(B A). Il reste ` a montrer que Pr(B A) = Pr(B ) Pr(A B ) En eet, B = (B A) (B A) avec (B A) (B A) = Donc Pr(B ) = Pr(B A) + Pr(B A), ce qui donne Pr(B A) = Pr(B ) Pr(A B ). ( Propri et e 5.5 Pr
n

91

) Ai

2
n i=1

Pr(Ai )

i=1

D emonstration Notons respectivement B1 = A1 , B2 = (A2 \A1 ), B3 = (A3 \(A1 A2 )),

B4 = (A4 \(A1 A2 A3 )), . . . , Bn = (An \(A1 A2 A3 An1 )). Comme


n i=1

Ai =

n i=1

Bi ,

et que Bi Bj = pour tout j = i, alors (n ) n Pr Bi = Pr (Bi ) .


i=1 i=1

De plus, comme, pour tout i, Bi Ai , on a que Pr(Bi ) Pr(Ai ), ce qui donne nalenent ( n ) (n ) n n Pr Ai = Pr Bi = Pr (Bi ) Pr (Ai ) .
i=1 i=1 i=1 i=1

2 Propri et e 5.6 Si A1 , . . . , An forment un syst` eme complet d ev enements, alors


n i=1

Pr(B Ai ) = Pr(B ).

ET VARIABLES ALEATOIRES 92CHAPITRE 5. CALCUL DES PROBABILITES D emonstration Si A1 , . . . , An forment un syst` eme complet d ev enements, alors B=
n i=1

(B Ai ).

Mais on a, pour tout i, j tels que i = j (B Ai ) (B Aj ) = . Finalement, on a que ( Pr(B ) = Pr


n

) (B Ai ) =

n i=1

Pr(B Ai ). 2

i=1

5.1.6

Probabilit es conditionnelles et ind ependance


Pr(A B ) . Pr(B )

D enition 5.3 Soient deux ev enements A et B , si Pr(B ) > 0, alors Pr(A|B ) =

Exemple 5.5 Si on jette un d e, et que lon consid` ere les deux ev enements suivants : A l ev` enement avoir un nombre pair et B l ev` enement avoir un nombre sup erieur ou egal ` a 4. On a donc 1 Pr(A) = Pr({2, 4, 6}) = , 2 1 3 Pr(B ) = Pr({4, 5, 6}) = = , 6 2 2 1 Pr(A B ) = Pr({4, 6}) = = , 6 3 Pr(A B ) 1/3 2 Pr(A|B ) = = = . Pr(B ) 1/2 3

D enition 5.4 Deux ev enements A et B sont dits ind ependants si Pr(A|B ) = Pr(A). On peut montrer facilement que si A et B sont ind ependants, alors Pr(A B ) = Pr(A)Pr(B ).

5.1. PROBABILITES

93

5.1.7

Th eor` eme des probabilit es totales et th eor` eme de Bayes

Th eor` eme 5.1 (des probabilit es totales) Soit A1 , . . . , An un syst` eme complet d ev enements, alors n Pr(B ) = Pr(Ai )Pr(B |Ai ).
i=1

Table 5.2 Illustration du th eor` eme des probabilit es totales

A1

Ai

An

111111 000000
En eet,
n i=1

1111111 0000000
n i=1

Pr(Ai )Pr(B |Ai ) =

Pr(B Ai ).

Comme les ev enements Ai B sont mutuellement exclusifs,


n i=1

Pr(B Ai ) = Pr

n i=1

(B Ai ) = Pr(B ).

Th eor` eme 5.2 (de Bayes) Soit A1 , . . . , An un syst` eme complet d ev enements, alors Pr(Ai )Pr(B |Ai ) Pr(Ai |B ) = n . j =1 Pr(Aj )Pr(B |Aj ) En eet, par le th eor` eme des probabilit es totales, Pr(Ai )Pr(B |Ai ) Pr(B Ai ) n = = Pr(Ai |B ). Pr(B ) j =1 Pr(Aj )Pr(B |Aj ) Exemple 5.6 Supposons quune population dadultes soit compos ee de 30% de fumeurs (A1 ) et de 70% de non-fumeurs (A2 ). Notons B l ev enement mourir dun cancer du poumon. Supposons en outre que la probabilit e de mourir dun cancer du poumon est egale ` a Pr(B |A1 ) = 20% si lon est fumeur et de Pr(B |A2 ) = 1% si lon est non-fumeur. Le th eor` eme de Bayes permet de calculer

ET VARIABLES ALEATOIRES 94CHAPITRE 5. CALCUL DES PROBABILITES les probabilit es a priori, cest-` a-dire la probabilit e davoir et e fumeur si on est mort dun cancer du poumon. En eet, cette probabilit e est not ee Pr(A1 |B ) et peut etre calcul ee par Pr(A1 |B ) = Pr(A1 )Pr(B |A1 ) 0.3 0.2 0.06 = = 0.896. Pr(A1 )Pr(B |A1 ) + Pr(A2 )Pr(B |A2 ) 0.3 0.2 + 0.7 0.01 0.06 + 0.007

La probabilit e de ne pas avoir et e non-fumeur si on est mort dun cancer du poumon vaut quant ` a elle : Pr(A2 |B ) = 0.7 0.01 0.07 Pr(A2 )Pr(B |A2 ) = = 0.104. Pr(A1 )Pr(B |A1 ) + Pr(A2 )Pr(B |A2 ) 0.3 0.2 + 0.7 0.01 0.06 + 0.007

5.2
5.2.1

Analyse combinatoire
Introduction

Lanalyse combinatoire est l etude math ematique de la mani` ere de ranger des objets. Lanalyse combinatoire est un outil utilis e dans le calcul des probabilit es.

5.2.2

Permutations (sans r ep etition)

Une permutation sans r ep etition est un classement ordonn e de n objets distincts. Consid erons par exemple lensemble {1, 2, 3}. Il existe 6 mani` eres dordonner ces trois chires : {1, 2, 3}, {1, 3, 2}, {2, 1, 3}, {2, 3, 1}, {3, 1, 2}, {3, 2, 1}. Si on dispose de n objets, chacun des n objets peut etre plac e` a la premi` ere place. Il reste ensuite n 1 objets qui peuvent etre plac es ` a la deuxi` eme place, puis n 2 objets pour la troisi` eme place, et ainsi de suite. Le nombre de permutations possibles de n objets distincts vaut donc n (n 1) (n 2) 2 1 = n!. La notation n! se lit factorielle de n (voir tableau 5.3). Table 5.3 Factorielle des nombres de 1 ` a 10 n 0 1 2 3 n! 1 1 2 6 4 24 5 120 6 720 7 5040 8 40320 9 362880 10 3628800

5.2. ANALYSE COMBINATOIRE

95

5.2.3

Permutations avec r ep etition

On peut egalement se poser la question du nombre de mani` eres de ranger des objets qui ne sont pas tous distincts. Supposons que nous ayons 2 boules rouges (not ees R) et 3 boules blanches (not ees B ). Il existe 10 permutations possibles qui sont : {R, R, B, B, B }, {R, B, R, B, B }, {R, B, B, R, B }, {R, B, B, B, R}, {B, R, R, B, B }, {B, R, B, R, B }, {B, R, B, B, R}, {B, B, R, R, B }, {B, B, R, B, R}, {B, B, B, R, R}. Si lon dispose de n objets appartenant ` a deux groupes de tailles n1 et n2 , le nombre de permutations avec r ep etition est n! . n 1 !n 2 ! Par exemple si lon a 3 boules blanches et 2 boules rouges, on obtient n! 5! 120 = = = 10. n 1 !n 2 ! 2!3! 26 Si lon dispose de n objets appartenant ` a p groupes de tailles n1 , n2 , . . . , np , le nombre de permutations avec r ep etition est n! . n 1 !n 2 ! n p !

5.2.4

Arrangements (sans r ep etition)

Soit n objets distincts. On appelle un arrangement une mani` ere de s electionner k objets parmi les n et de les ranger dans des bo tes num erot ees de 1 ` a k. Dans la premi` ere bo te, on peut mettre chacun des n objets. Dans la seconde eme bo te, bo te, on peut mettre chacun des n 1 objets restants, dans la troisi` on peut mettre chacun des n 2 objets restants et ainsi de suite. Le nombre darrangements possibles est donc egal ` a: Ak n = n (n 1) (n 2) (n k + 1) = n! . (n k )!

5.2.5

Combinaisons

Soit n objets distincts. On appelle une combinaison une mani` ere de s electionner k objets parmi les n sans tenir compte de leur ordre. Le nombre de combinaisons est le nombre de sous-ensembles de taille k dans un ensemble de taille n. Soit lensemble {1, 2, 3, 4, 5}. Il existe 10 sous-ensembles de taille 3 qui sont : {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 3, 4}, {1, 3, 5}, {1, 4, 5}, {2, 3, 4}, {2, 3, 5}, {2, 4, 5}, {3, 4, 5}. De mani` ere g en erale, quel est le nombre de combinaisons de k objets parmi n ? Commen cons par calculer le nombre de mani` eres di erentes de s electionner

ET VARIABLES ALEATOIRES 96CHAPITRE 5. CALCUL DES PROBABILITES k objets parmi n en tenant compte de lordre : cest le nombre darrangements sans r ep etition Ak eres dordonner ces k el ements, si n . Comme il existe k ! mani` lon ne veut pas tenir compte de lordre on divise Ak par k !. Le nombre de n combinaisons de k objets parmi n vaut donc Ak n! n = . k! k !(n k )! Le nombre de combinaisons de k objets parmi n s ecrit parfois k Cn : (n) n! k = Cn = . k k !(n k )! (n)
k

et parfois

Par exemple, si on cherche ` a d eterminer le nombre de combinaisons de 3 objets parmi 5, on a ( ) 5 5! 120 3 = C5 = = = 10. 3 3!(5 3)! 62

5.3
5.3.1

Variables al eatoires
D enition

La notion de variable al eatoire formalise lassociation dune valeur au r esultat dune exp erience al eatoire. D enition 5.5 Une variable al eatoire X est une application de lensemble fondamental dans R.

Exemple 5.7 On consid` ere une exp erience al eatoire consistant ` a lancer deux pi` eces de monnaie. Lensemble des r esultats possibles est = {(F, F ), (F, P ), (P, F ), (P, P )}. Chacun des el ements de a une probabilit e 1/4. Une variable al eatoire va associer une valeur ` a chacun des el ements de . Consid erons la variable al eatoire repr esentant le nombre de Faces obtenus : e 1/4 0 avec une probabilit 1 avec une probabilit e 1/2 X= 2 avec une probabilit e 1/4. Cest une variable al eatoire discr` ete dont la distribution de probabilit es est pr esent ee en Figure 5.1.

` 5.4. VARIABLES ALEATOIRES DISCRETES


0.5

97

0.0 0

0.1

0.2

0.3

0.4

Figure 5.1 Distribution de faces obtenus.

5.4
5.4.1

Variables al eatoires discr` etes


D enition, esp erance et variance

Une variable al eatoire discr` ete prend uniquement des valeurs enti` eres (de Z). Une distribution de probabilit es pX (x) est une fonction qui associe ` a chaque valeur enti` ere une probabilit e. pX (x) = Pr(X = x), x Z. La fonction de r epartition est d enie par FX (x) = Pr(X x) =
z x

pX (z ).

Lesp erance math ematique dune variable al eatoire discr` ete est d enie de la mani` ere suivante : = E(X ) = xpX (x),
x Z

et sa variance

[ ] 2 2 = var(X ) = E {X E(X )} = pX (x)(x )2 = pX (x)x2 2 .


x Z x Z

On peut aussi calculer les moments et tous les autres param` etres.

5.4.2

Variable indicatrice ou bernoullienne

La variable indicatrice X de param` etre p [0, 1] a la distribution de probabilit es suivante : { 1 avec une probabilit ep X= 0 avec une probabilit e 1 p.

ET VARIABLES ALEATOIRES 98CHAPITRE 5. CALCUL DES PROBABILITES Lesp erance vaut = E(X ) = 0 (1 p) + 1 p = p, et la variance vaut 2 = var(X ) = E(X p)2 = (1 p)(0 p)2 + p(1 p)2 = p(1 p). Exemple 5.8 On tire au hasard une boule dans une urne contenant 18 boules rouges et 12 boules blanches. Si X vaut 1 si la boule est rouge et 0 sinon, alors X a une loi bernoullienne de param` etre p = 18/(18 + 12) = 0.6.

5.4.3

Variable binomiale

La variable al eatoire binomiale de param` etres n et p correspond ` a lexp erience suivante. On renouvelle n fois de mani` ere ind ependante une epreuve de Bernoulli de param` etre p, o` u p est la probabilit e de succ` es pour une exp erience el ementaire. Ensuite, on note X le nombre de succ` es obtenus. Le nombre de succ` es est une variable al eatoire prenant des valeurs enti` eres de 0 ` a n et ayant une distribution binomiale. Une variable X suit une loi binomiale de param` etre 0 < p < 1 et dexposant n, si (n) Pr(X = x) = px q nx , x = 0, 1, . . . , n 1, n, x o` u q = 1 p, et (n) n! = . x x!(n x)! De mani` ere synth etique, si X a une distribution binomiale, on note : X B (n, p). Rappel Cette variable est appel ee binomiale car sa distribution de probabilit es est un terme du d eveloppement du bin ome de Newton (p + q )n . (p + q )0 (p + q )1 (p + q )2 (p + q )3 (p + q )4 = 1 = p+q =1 = p2 + 2pq + q 2 = 1 = p3 + 3p2 q + 3pq 2 + q 3 = 1 = p4 + 4p3 q + 6p2 q 2 + 4pq 3 + q 4 = 1 . . . n ( ) n x nx = p q = 1. x x=0

(p + q )n

` 5.4. VARIABLES ALEATOIRES DISCRETES La somme de ces probabilit es vaut 1. En eet

99

n x=0

Pr(X = x) =

n ( ) n x=0

px q nx = (p + q )n = 1.

Lesp erance se calcule de la mani` ere suivante :

E(X ) = = =

n x=0 n x=0 n

xPr(X = x) x x (n) x (n) px q nx

px q nx (on peut enlever le terme x = 0) x x=1 ( ) n n1 = n px q nx x 1 x=1 ) n ( n1 = np px1 q (n1)(x1) x 1 x=1 ) n 1 ( n1 = np pz q (n1)z (en posant z = x 1) z z =0 = np(p + q )n1 = np.

Th eor` eme 5.3 La variance est donn ee par

var(X ) = npq.

D emonstration Pour calculer cette variance, nous allons dabbord calculer E[X (X 1)]. Ce

ET VARIABLES ALEATOIRES 100CHAPITRE 5. CALCUL DES PROBABILITES r esultat pr eliminaire nous permettra de d eterminer ensuite la variance. E[X (X 1)] = = =
n x=0 n x=0 n

x(x 1)Pr(X = x) x(x 1) x(x 1) (n) x (n) px q nx

px q nx (on peut enlever les termes x = 0 et x = 1) x x=2 ( ) n n2 = n(n 1) px q nx x 2 x=2 ) n ( n2 2 = n(n 1)p px2 q (n2)(x2) x 2 x=2 ) n 2 ( n2 2 = n(n 1)p pz q (n2)z (en posant z = x 2) z z =0 = n(n 1)p2 (p + q )n2 = n(n 1)p2 . Comme var(X ) = E(X 2 ) E2 (X ) et que E[X (X 1)] = E(X 2 ) E(X ), on obtient var(X ) = E[X (X 1)]+E(X )E2 (X ) = n(n1)p2 +np(np)2 = np(1p) = npq. 2

Exemple 5.9 On tire au hasard avec remise et de mani` ere ind ependante 5 boules dans une urne contenant 18 boules rouges et 12 boules blanches. Si X est le nombre de boules rouges obtenues, alors X a une loi binomiale de param` etre p = 18/(18 + 12) = 0.6, et dexposant n = 5. Donc, ( ) 5 0.6x 0.45x , x = 0, 1, . . . , 4, 5, x

Pr(X = x) =

` 5.4. VARIABLES ALEATOIRES DISCRETES ce qui donne Pr(X = 0) Pr(X = 1) Pr(X = 2) Pr(X = 3) Pr(X = 4) Pr(X = 5) = = = = = = 5! 0.60 0.450 0!(5 0)! 5! 0.61 0.451 1!(5 1)! 5! 0.62 0.452 2!(5 2)! 5! 0.63 0.453 3!(5 3)! 5! 0.64 0.454 4!(5 4)! 5! 0.65 0.455 5!(5 5)! = 1 0.45 = 0.01024 = 5 0.61 0.44 = 0.0768 = 10 0.62 0.43 = 0.2304 = 10 0.63 0.42 = 0.3456 = 5 0.64 0.41 = 0.2592 = 1 0.65 = 0.07776.

101

La distribution de probabilit es de la variable X est pr esent ee dans la Figure 5.2.

0.00 0

0.15

0.30

Figure 5.2 Distribution dune variable al eatoire binomiale avec n = 5 et p = 0.6.

Exemple 5.10 Supposons que, dans une population d electeurs, 60% des electeurs sappr etent ` a voter pour le candidat A et 40% pour le candidat B et que lon s electionne un echantillon al eatoire de 10 electeurs avec remise dans cette population. Soit X le nombre de personnes sappr etant ` a voter pour le candidat A dans l echantillon. La variable X a une distribution binomiale de param` etres n = 10 et p = 0.6 et donc ( Pr(X = x) = 10 x ) 0.6x (0.4)10x , x = 0, 1, . . . , n 1, n.

ET VARIABLES ALEATOIRES 102CHAPITRE 5. CALCUL DES PROBABILITES

5.4.4

Variable de Poisson

La variable X suit une loi de Poisson, ou loi des ev enements rares, de param` etre R+ si Pr(X = x) = e x , x = 0, 1, 2, 3, . . . . x!

On note alors X P (). La somme des probabilit es est bien egale ` a 1, en eet
x=0

Pr(X = x) =

e x x=0

x!

= e

x x=0

x!

= e e = 1.

Cette loi exprime la probabilit e de loccurence dun nombre d ev enements dans un laps de temps xe si ces ev enements se produisent avec un taux moyen connu () et ind ependamment du temps doccurrence du dernier ev enement. Lesp erance et la variance dune loi de Poisson sont egales au param` etre . En eet E(X ) = = = = = = =
x=0 x=0

xPr(X = x) x e x x!

x x x! x=1 x1 (x 1)! x=1 z z =0

e e

z!

en posant z = x 1

e e .

En outre, il est possible de montrer que var(X ) = . La distribution de probabilit es dune variable de Poisson P ( = 1) est pr esent ee dans la Figure 5.3. En langage R # # distributions de probabilit es discr` etes #

5.5. VARIABLE ALEATOIRE CONTINUE

103

0.0 0

0.2

Figure 5.3 Distribution dune variable de Poisson avec = 1. # nombre de faces obtenues en lan cant deux pi` eces plot(0:2,dbinom(0:2, 2,0.5),type = "h", lwd=3, ylim=c(0,0.5),xlab="",ylab="",xaxt = "n",frame = FALSE) axis(1, 0:2, 0:2, col.axis = "blue") # binomiale B(5,0.6) plot(dbinom(0:5, 5,0.6),type = "h", lwd=3,xlab="",ylab="",main="",frame=FALSE) # Poisson P(1) plot(dpois(0:7, 1),type = "h", lwd=3,xlab="",ylab="",main="",frame=FALSE)

5.5
5.5.1

Variable al eatoire continue


D enition, esp erance et variance

Une variable al eatoire continue prend des valeurs dans R ou dans un intervalle de R. La probabilit e quune variable al eatoire continue soit inf erieure ` a une valeur particuli` ere est donn ee par sa fonction de r epartition. Pr(X x) = F (x). La fonction de r epartition dune variable al eatoire continue est toujours : d erivable, positive : F (x) 0, pour tout x, croissante, limx F (x) = 1, limx F (x) = 0. On a Pr(a X b) = F (b) F (a).

ET VARIABLES ALEATOIRES 104CHAPITRE 5. CALCUL DES PROBABILITES La fonction de densit e dune variable al eatoire continue est la d eriv ee de la fonction de r epartition en un point f (x) = dF (x) . dx

Une fonction de densit e est toujours : positive : f (x) 0, pour tout x, daire egale ` a un : f (x)dx = 1. On a evidemment la relation : b F (b) = f (x)dx.

La probabilit e que la variable al eatoire soit inf erieure ` a une valeur quelconque vaut : a Pr(X a) = f (x)dx = F (a).

Dans la Figure 5.4, la probabilit e Pr[X a] est laire sous la densit e de ` a a.

Pr[X a] = F (a) 0 a +

Figure 5.4 Probabilit e que la variable al eatoire soit inf erieure ` aa La probabilit e que la variable al eatoire prenne une valeur comprise entre a et b vaut b Pr(a X b) = f (x)dx = F (b) F (a).
a

Si la variable al eatoire est continue, la probabilit e quelle prenne exactement une valeur quelconque est nulle : Pr(X = a) = 0. Lesp erance dune variable al eatoire continue est d enie par : = E(X ) = xf (x)dx,

et la variance 2 = var(X ) =

(x )2 f (x)dx.

5.5. VARIABLE ALEATOIRE CONTINUE

105

5.5.2

Variable uniforme

Une variable al eatoire X est dite uniforme dans un intervalle [a,b] (avec a < b), si sa r epartition est : 0 (x a)/(b a) F (x) = 1 Sa densit e est alors 0 1/(b a) f (x) = 0 De mani` ere synth etique, on ecrit : X U (a, b). Les logiciels g en` erent en g en eral des variables al eatoires uniformes dans [0,1]. Les Figures 5.5 et 5.6 repr esentent respectivement les fonctions de densit e et de r epartition dune variable uniforme. f (x)
1 ba

si x < a si a x b si x > b.

si x < a si a x b si x > b.

a b Figure 5.5 Fonction de densit e dune variable uniforme On peut calculer lesp erance et la variance : R esultat 5.1 = E(X ) = b+a 2

ET VARIABLES ALEATOIRES 106CHAPITRE 5. CALCUL DES PROBABILITES

6 " " " " " F (x) " "

" " " "

" " " " a

Figure 5.6 Fonction de r epartition dune variable uniforme

D emonstration = E(X ) b = xf (x)dx = = = = = =


a b

1 dx b a a b 1 xdx ba a [ 2 ]b x 1 ba 2 a ( 2 ) 1 b a2 ba 2 2 1 1 (b + a)(b a) ba2 a+b . 2 x 2

R esultat 5.2 2 = var(X ) = (b a)2 . 12

D emonstration De mani` ere g en erale, une variance peut toujours s ecrire comme un moment ` a

5.5. VARIABLE ALEATOIRE CONTINUE lorigine dordre 2 moins le carr e de la moyenne. En eet, 2 = var(X ) b = (x )2 f (x)dx = = = =
a a b a b a b a b

107

(x2 + 2 2x)f (x)dx x2 f (x)dx +


a b

2 f (x)dx 2
a

xf (x)dx

x2 f (x)dx + 2 22 x2 f (x)dx 2 .

On calcule ensuite un moment ` a lorigine dordre 2 : b b 1 x2 f (x)dx = x2 dx ba a a b 1 = x2 dx ba a [ 3 ]b x 1 = ba 3 a ( 3 ) 1 b a3 = ba 3 3 1 1 2 = (b + ab + a2 )(b a) ba3 b2 + ab + a2 = . 3 On obtient enn la variance par di erence : b 2 = x2 f (x)dx 2
a

= = = =

b2 + ab + a2 (a + b)2 3 4 4b2 + 4ab + 4a2 3a2 + 6ab + 3b2 12 12 b2 2ab + a2 12 (b a)2 . 12 2

ET VARIABLES ALEATOIRES 108CHAPITRE 5. CALCUL DES PROBABILITES

5.5.3

Variable normale

Une variable al eatoire X est dite normale si sa densit e vaut ( )2 1 1 x f,2 (x) = exp , 2 2

(5.1)

o` u R et R+ sont les param` etres de la distribution. Le param` etre est appel e la moyenne et le param` etre l ecart-type de la distribution.

Figure 5.7 Fonction de densit e dune variable normale De mani` ere synth etique, pour noter que X suit une loi normale (ou gaussienne, dapr` es Carl Friedrich Gauss) de moyenne et de variance 2 on ecrit : X N (, 2 ). La loi normale est une des principales distributions de probabilit e. Elle a de nombreuses applications en statistique. Sa fonction de densit e dessine une courbe dite courbe de Gauss. On peut montrer (sans d emonstration) que E(X ) = , et var(X ) = 2 . La fonction de r epartition vaut F,2 (x) =
x

( )2 1 1 u exp du. 2 2

5.5.4

Variable normale centr ee r eduite

La variable al eatoire normale centr ee r eduite est une variable normale, desp erance nulle, = 0, et de variance 2 = 1. Sa fonction de densit e vaut x2 1 f0,1 (x) = exp . 2 2

5.5. VARIABLE ALEATOIRE CONTINUE

109

0.5

Figure 5.8 Fonction de r epartition dune variable normale et sa r epartition vaut (x) = F0,1 (x) =
x

1 exp 2

u2 2

) du.

Du fait de la sym etrie de la densit e, on a la relation (x) = 1 (x), qui se comprend facilement en examinant la Figure 5.9.

Figure 5.9 Densit e dune normale centr ee r eduite, sym etrie De plus, le calcul de la r epartition dune variable normale de moyenne et de variance 2 peut toujours etre ramen e` a une normale centr ee r eduite. R esultat 5.3 F,2 (x) = D emonstration On a F,2 (x) = En posant z= ( x ) .

1 exp 2

{ ( )2 } 1 u du. 2

u ,

ET VARIABLES ALEATOIRES 110CHAPITRE 5. CALCUL DES PROBABILITES on obtient u = z + , et donc du = dz. Donc, F,2 (x) =
x

1 exp 2

z2 2

) dz =

) .

2 Les tables de la variable normale ne sont donn ees que pour la normale centr ee r eduite. Les tables ne donnent (x) que pour les valeurs positives de x, car les valeurs n egatives peuvent etre trouv ees par la relation de sym etrie.

5.5.5

Distribution exponentielle

Soit une variable al eatoire X qui d enit la dur ee de vie dun ph enom` ene ou don objet. Si la dur ee de vie est sans vieillissement, cest-` a-dire la dur ee de vie au dela dun instant T est ind ependante de linstant T , alors sa fonction de densit e est donn ee par : { exp (x), si x > 0 f (x) = 0 sinon On dit que X suit une loi exponentielle de param` etre positif. De mani` ere synth etique, on ecrit : X (). Quand x > 0, sa fonction de r epartition vaut : x x [ ]x F (x) = f (u)du = eu du = eu 0 = 1 ex .
0 0

On peut alors calculer la moyenne : R esultat 5.4 E(X ) = 1

D emonstration E(X ) = xf (x)dx =


0 0

[ ] ( ) 1 + x x 1 1 xex dx = e = 0+ = . 0 2

Il est egalement possible de montrer que la variance vaut : var(X ) = 1 . 2

5.6

Distribution bivari ee

Deux variables al eatoires peuvent avoir une distribution jointe.

5.6. DISTRIBUTION BIVARIEE

111

0.0 0

0.2

0.4

0.6

0.8

1.0

Figure 5.10 Fonction de densit e dune variable exponentielle avec = 1.

5.6.1

Cas continu

Soit deux variables al eatoires X et Y continues, leur distribution de densit e f (x, y ) est une fonction continue, positive, et telle que f (x, y )dxdy = 1.

La fonction de r epartition jointe est d enie par x F (x, y ) = Pr(X x et Y y ) =

f (u, v )dvdu.

On appelle densit es marginales les fonctions fX (x) = f (x, y )dy, et fY (y ) =

f (x, y )dx.

Avec les distributions marginales, on peut d enir les moyennes marginales, et les variances marginales : X = xfX (x)dx, et Y = yfY (y )dy,

2 X =

2 (x X )2 fX (x)dx, et Y =

(y Y )2 fY (y )dy.

ET VARIABLES ALEATOIRES 112CHAPITRE 5. CALCUL DES PROBABILITES On appelle densit es conditionnelles, les fonctions f (x|y ) = f (x, y ) f (x, y ) et f (y |x) = . fY (y ) fX (x)

Avec les distributions conditionnelles, on peut d enir les moyennes conditionnelles, et les variances conditionnelles : X (y ) = E(X |Y = y ) = xf (x|y )dx, et Y (x) = E(Y |X = x) = yf (y |x)dy,

2 X (y )

= var(X |Y = y ) =

{x X (y )} f (x|y )dx, et
2 2 Y

(x) = var(Y |X = x) =

{y Y (x)

Enn, la covariance entre X et Y est d enie par xy = cov(X, Y ) = (x X )(y Y )f (x, y )dxdy.

5.6.2

Cas discret

Soit deux variables al eatoires X et Y discr` etes, leur distribution de probabilit e jointe p(x, y ) est telle que p(x, y ) = 1.
x Z y Z

La fonction de r epartition jointe est d enie par F (x, y ) = Pr(X x et Y y ) =


ux v v

p(u, v ).

On appelle distributions de probabilt e marginales les fonctions pX (x) = p(x, y ), et pY (y ) = p(x, y ).


y Z x Z

Avec les distributions marginales, on peut d enir les moyennes marginales, et les variances marginales : X = xpX (x), et Y = ypY (y ),
xZ 2 X = y Z

2 (x X )2 pX (x), et Y =

y Z

(y Y )2 pY (y ).

x Z

On appelle densit es conditionnelles, les fonctions p(x|y ) = p(x, y ) p(x, y ) et p(y |x) = . pY (y ) pX (x)

5.6. DISTRIBUTION BIVARIEE

113

Avec les distributions conditionnelles, on peut d enir les moyennes conditionnelles, et les variances conditionnelles : X (y ) = xp(x|y ), et Y (x) = yp(y |x),
x Z 2 (y ) = X y Z 2

xZ

2 {x X (y )} p(x|y ), et Y (x) =

x Z

{y Y (x)} p(y |x).

Enn, la covariance entre X et Y est d enie par xy = cov(X, Y ) = (x X )(y Y )p(x, y ).


x Z y Z

5.6.3

Remarques

Dans les deux cas discrets et continus, on peut toujours ecrire [ ] var(X ) = E[X E(X )]2 = E X 2 2X E(X ) + E2 (X ) = De m eme, var(X |Y = y ) = On a egalement cov(X, Y ) = E[X E(X )][Y E(Y )] = E [XY Y E(X ) X E(Y ) + E(X )E(Y )] { } E [X E(X |Y = y )]2 |Y = y = E(X 2 |Y = y ) E2 (X |Y = y ). E(X 2 ) 2E(X )E(X ) + E2 (X ) = E(X 2 ) E2 (X ).

= E(XY ) E(X )E(Y ) E(X )E(Y ) + E(X )E(Y ) = E(XY ) E(X )E(Y ). Lop erateur esp erance permet donc de d enir la variance et la covariance.

5.6.4

Ind ependance de deux variables al eatoires


Pr(X x et Y y ) = Pr(X x)Pr(Y y ), pour tout x, y R.

Deux variables al eatoires X et Y sont dites ind ependantes, si

Si X et Y sont discr` etes, cela implique que Pr(X = x et Y = y ) = Pr(X = x)Pr(Y = y ), pour tout x, y Z. Si X et Y sont continues, en notant fX (.) et fY (.) les fonctions de densit e respectives de X et Y , et en notant fXY (x, y ) la densit e jointe des deux variables, alors X et Y sont ind ependants si fXY (x, y ) = fX (x)fY (y ), x, y R.

ET VARIABLES ALEATOIRES 114CHAPITRE 5. CALCUL DES PROBABILITES

5.7

Propri et es des esp erances et des variances

De mani` ere g en erale, pour des variables al eatoires X et Y , et avec a et b constants, on a les r esultats suivants qui sont d emontr ees pour le cas continu. Ces r esultats sont egalement valables pour le cas discret pour lequel les d emonstrations sont similaires. R esultat 5.5 E(a + bX ) = a + bE(X ) D emonstration E(a + bX ) =
R

(a + bx)f (x)dx = a
R

f (x)dx + b
R

xf (x)dx = a + bE(X ). 2

R esultat 5.6 E(aY + bX ) = aE(Y ) + bE(X ). D emonstration E(aY + bX ) = (ay + bx)f (x, y )dxdy = a yf (x, y )dxdy + b xf (x, y )dxdy R R R R = a y f (x, y )dxdy + b x f (x, y )dydx R R R R = a yf (y )dy + b xf (x)dx
R R R R

= aE(Y ) + bE(X )

2 Quand a et b valent 1, on obtient que lesp erance de la somme de deux variables al eatoires est egale ` a la somme de leur esp erances : E(X + Y ) = E(X ) + E(Y ). R esultat 5.7 var(a + bX ) = b2 var(X ).

ES DES ESPERANCES 5.7. PROPRIET ET DES VARIANCES D emonstration var(a + bX ) = = =


R R

115

[a + bx E(a + bX )]2 f (x)dx [a + bx (a + bE(X ))]2 f (x)dx

[bx bE(X )]2 f (x)dx R 2 [x E(X )]2 f (x)dx = b


R

= b2 var(X ). 2 La variance nest donc pas sensible ` a un changement dorigine, mais est aect ee par le carr e dun changement dunit e. R esultat 5.8 var(X + Y ) = var(X ) + var(Y ) + 2cov(X, Y ). D emonstration var(X + Y ) = =
R R R R

[x + y E(X + Y )]2 f (x, y )dxdy [x E(X ) + y E(Y )]2 f (x, y )dxdy {

} [x E(X )]2 + [y E(Y )]2 + 2[x E(X )][y E(Y )] f (x, y )dxdy R R = [x E(X )]2 f (x, y )dxdy + [y E(Y )]2 ]f (x, y )dxdy R R R R +2 [x E(X )][y E(Y )]f (x, y )dxdy R R = [x E(X )]2 f (x, y )dydx + [y E(Y )]2 ] f (x, y )dxdy + 2cov(X, Y ) R R R R 2 2 = [x E(X )] fX (x)dx + [y E(Y )] ]fy (Y )dy + 2cov(X, Y ) =
R R

= var(X ) + var(Y ) + 2cov(X, Y )

2 R esultat 5.9 De plus, si X et Y sont ind ependantes, on a f (x, y ) = fX (x)Y f (y ) pour tout x, y E(XY ) = E(X )E(Y ).

ET VARIABLES ALEATOIRES 116CHAPITRE 5. CALCUL DES PROBABILITES D emonstration E(XY ) = xyfX (x)fY (y )dxdy = xfX (x)dx yfY (y )dy
R R R R

= E(X )E(Y ). 2 Comme, de mani` ere g en erale cov(X, Y ) = E(XY ) E(X )E(Y ), on d eduit directement du R esultat 5.9 que, si X et Y sont ind ependantes, on a cov(X, Y ) = 0, et donc var(X + Y ) = var(X ) + var(Y ). Attention, la r eciproque nest pas vraie. Une covariance nulle nimplique pas que les deux variables sont ind ependantes. Enn, il est possible de calculer lesp erance et la variance dune somme de variables al eatoires ind ependantes, et identiquement distribu ees. Th eor` eme 5.4 Soit X1 , . . . , Xn une suite de variables al eatoires, ind ependantes et identiquement distribu ees et dont la moyenne et la variance 2 existent et sont nies, alors si n = 1 X Xi , n i=1 on a ) = , et var(X ) = E(X D emonstration ( ) =E E X et ( ) = var var X ( 1 Xi n i=1
n n

2 . n
n

) =

1 1 E (Xi ) = = . n i=1 n i=1


n

1 Xi n i=1

) =

n n 1 1 2 2 var ( X ) = = . i n2 i=1 n2 i=1 n

5.8
5.8.1

Autres variables al eatoires


Variable khi-carr ee

Soit une suite de variables al eatoires ind ependantes, normales centr ees r eduites, X1 , . . . , Xp , (cest-` a-dire de moyenne nulle et de variance egale ` a 1), alors la variable al eatoire p 2 2 p = Xi ,
i=1

5.8. AUTRES VARIABLES ALEATOIRES est appel ee variable al eatoire khi-carr e` a p degr es de libert e. Il est possible de montrer que E(2 p ) = p, et que var(2 p ) = 2p.

117

0.35

0.3

0.25

0.2

0.15

0.1

0.05

10

12

14

Figure 5.11 Densit e dune variable de chi-carr e avec p = 1, 2, . . . , 10

5.8.2

Variable de Student

Soit une variable al eatoire X normale centr ee r eduite, et une variable al eatoire khi-carr e 2 ` a p degr e s de libert e , ind e pendante de X , alors la variable al e atoire p X tp = 2 p /p est appel ee variable al eatoire de Student ` a p degr es de libert e.

5.8.3

Variable de Fisher

2 Soient deux variables al eatoires khi-carr es ind ependantes 2 p , q , respectivement ` a p et q degr es de libert e, alors la variable al eatoire

Fp,q =

2 p /p 2 q /q

est appel ee variable al eatoire de Fisher ` a p et q degr es de libert e. Remarque 5.1 Il est facile de montrer que le carr e dune variable de Student a q degr ` es de libert e est une variable de Fisher ` a 1 et q degr es de libert e.

ET VARIABLES ALEATOIRES 118CHAPITRE 5. CALCUL DES PROBABILITES


0.4

0.3

0.2

0.1

-4

-2

Figure 5.12 Densit es de variables de Student avec p = 1, 2 et 3 et dune variable normale


0.7

0.6

0.5

0.4

0.3

0.2

0.1

Figure 5.13 Densit e dune variable de Fisher

5.8.4

Loi normale bivari ee

Les variables X et Y suivent une loi normale bivari ee si leur densit e jointe est donn ee par { [ ]} 2(x x )(y y ) (y y )2 1 1 (x x )2 f (x, y ) = exp + . 2 2 2(1 2 ) x x y y 2x y 1 2 (5.2) La fonction de densit e d epend de 5 param` etres les deux moyennes marginales x R et y R, 2 2 les deux variances marginales x > 0 et y > 0, le coecient de corr elation 1 < < 1. Un exemple de normale bivari ee est pr esent ee dans la Figure 5.14. La Figure 5.15 montre le nuage de points de 1000 r ealisations dune normale 2 2 bivari ee avec les param` etres suivants : x = 8, y = 20, x = 9, y = 25, = 0.6. En langage R

5.8. AUTRES VARIABLES ALEATOIRES

119

Figure 5.14 Densit e dune normale bivari ee a=8; b=3 ;c=12 ; d=4 X=a+ b*rnorm(2000) Y=c+X+d*rnorm(2000) plot(X,Y,type="p")

10

15

20

25

30

35

5 X

10

15

Figure 5.15 Nuage de points de r ealisations dune normale bivari ee Th eor` eme 5.5 Les deux distributions marginales dune distribution normale

ET VARIABLES ALEATOIRES 120CHAPITRE 5. CALCUL DES PROBABILITES bivari ee ont une distribution normale donn ee par : 1 (x x )2 fX (x) = f (x, y )dy = exp 2 2x x 2 1 (y y )2 fY (y ) = f (x, y )dx = exp 2 2y y 2 D emonstration (pour fX (x)) On peut v erier que la densit e jointe peut egalement s ecrire : { ( ) ( )2 } 1 (x x )2 1 1 y y (x) exp exp , f (x, y ) = 2 2x 2 y (x) x 2 y (x) 2 o` u y (x) = y + On a fX (x) = = (

y 2 2 (x x ) et y (x) = y (1 2 ). x

f (x, y )dy

(x x )2 exp 2 2x 2

1 exp y (x) 2

1 2

y y (x) y (x)

)2 } dy .

=1

2 Le Th eor` eme 5.5 montre que les deux distributions marginales sont normales, 2 2 sont les deux variance et x que x et y sont les moyennes marginales, et que x marginales de la distribution jointes. On peut egalement montrer ` a partir du Th eor` eme 5.5 que le volume sous la courbe vaut bien 1. En eet f (x, y )dxdy = fY (y )dy = 1.

Attention, la r eciproque du Th eor` eme 5.5 nest pas n ecessairement vraie. Une distribution bivari ee dont les deux distributions marginales sont normales, nest pas n ecessairement normale. Th eor` eme 5.6 Toutes les distributions conditionnelles dune distribution normale bivari ee ont une distribution normale donn ee par : { ( )2 } 1 1 y y (x) exp f (y |x) = 2 y (x) y (x) 2 o` u y (x) = y + y 2 2 (x x ) et y (x) = y (1 2 ). x

5.8. AUTRES VARIABLES ALEATOIRES et 1 exp f (x|y ) = x (y ) 2 o` u x (y ) = x + { ( )2 }

121

1 2

x x (y ) x (y )

x 2 2 (y y ) et x (y ) = x (1 2 ). y

D emonstration (pour f (y |x)) f (y |x) = f (x, y ) fX (x) 2x y 1 1 2 exp

[ ]} 2(x x )(y y ) (y y )2 1 (x x )2 + 2 2 2(1 2 ) x x y y

= = =

1 (x x )2 exp 2 2x x 2 { [ ] } 1 1 2(x x )(y y ) (y y )2 (x x )2 (x x )2 exp + + 2 2 2 2(1 2 ) x x y y 2x y 2 (1 2 ) { [ 2 ]} 2(x x )(y y ) (y y )2 1 1 (x x )2 exp + 2 2 2(1 2 ) x x y y y 2 (1 2 ) { ( )2 } 1 1 y y (x x ) exp 2 2 y x y 2 (1 ) 2 1 ( )2 y y xy (x x ) 1 1 exp 2 1 2 y y 2 (1 2 ) { } ( )2 1 1 y y (x) exp . 2 y (x) y (x) 2

2 Le Theor` eme 5.6 montre que toutes les distributions conditionnelles sont egalement normales. La variance conditionnelle de Y pour une valeur x ee de x de la variable X vaut : E(Y |X = x) = y (x) = y + y (x x ). x

De m eme, lesp erance conditionnelle de X pour une valeur x ee de y de la variable Y vaut : E(X |Y = y ) = x (y ) = x + x (y y ). y

La variance conditionnelle de Y pour une valeur x ee de x de la variable X vaut : 2 2 var(Y |X = x) = y (x) = y (1 2 ).

ET VARIABLES ALEATOIRES 122CHAPITRE 5. CALCUL DES PROBABILITES Cette variance conditionnelle ne d epend pas de x. La variance conditionnelle de X pour une valeur x ee de y de la variable Y vaut :
2 2 var(X |Y = y ) = x ( y ) = x (1 2 ),

et ne d epend pas de y . Cette variance conditionnelle ne d epend pas de y . Les variances conditionnelles sont donc homosc edastiques (m eme variance). Th eor` eme 5.7 cov(X, Y ) =

(x x )(y y )f (x, y )dydx = x y .

D emonstration La covariance peut egalement s ecrire cov(X, Y ) = E(XY ) E(X )E(Y ) = On a :


xyf (x, y )dydx x y .

xyf (x, y )dxdy = xyfX (x)f (y |x)dydx = xfX (x) yf (y |x)dydx ] [ y y (x x ) dx = y xfX (x)dx + xfX (x)(x x )dx = xfX (x) y + x x y 2 = y x + x y . = y x + x x

Donc

(x x )(y y )f (x, y )dxdy = x y .

2 Le param` etre est bien un coecient de corr elation entre les variables X et X car il peut s ecrire : cov(X, Y ) x y = = = . x y var(X )var(Y ) Th eor` eme 5.8 Si les deux variables X et Y ont une distribution normale bivari ee et que leur coecient de corr elation est nul, alors X et Y sont ind ependantes. D emonstration Si = 0, alors de lExpression 5.2, la distribution jointe vaut : { [ ]} 1 1 (x x )2 (y y )2 f (x, y ) = exp + 2 2 2x y 2 x y ( { }) { }) ( (x x )2 1 (y y )2 1 exp exp = 2 2 2x 2y 2x 2y = fX (x)fY (y ).

5.8. AUTRES VARIABLES ALEATOIRES

123

Dans ce cas, la densit e jointe peut s ecrire comme le produit des deux densit es marginales. Les deux variables sont donc ind ependantes. 2 Attention, si les deux variables nont pas une distribution normale bivari ee, une covariance nulle nimplique plus que les variables sont ind ependantes.

Exercices
Exercice 5.1 Soit Z N (0, 1). D eterminez : 1. Pr[Z 1, 23] ; 2. Pr[Z 1, 23] ; 3. Pr[Z [0, 36; 1, 23]] ; 4. Pr[Z [0, 88; 1, 23]] ; 5. Pr[Z > 2, 65 ou Z 1, 49].

Solution 1. Pr[Z 1, 23] = F (1, 23) = 0, 8907 2. Pr[Z 1, 23] = 1 F (1, 23) = 0.1093 3. Pr[Z [0, 36; 1, 23]] = F (1, 23) F (0, 36) = 0, 8907 0, 6406 = 0, 2501 4. Pr[Z [0, 88; 1, 23] = F (1, 23) F (0, 88) = 0, 8907 (1 F (0, 88)) = 0, 8907 0, 1894 = 0, 7013 5. Pr[Z > 2, 65 ou Z 1, 49] = Pr[Z > 2, 65] + Pr[Z 1, 49] = 1 F (2, 65) + F (1, 49) = 1 F (2, 65) + 1 F (1, 49) = 2 0, 9960 0, 9319 = 0, 0721

Exercice 5.2 D eterminez les valeurs j de la variable normale centr ee r eduite Z telles que : 1. Pr[Z j ] = 0, 9332 ; 2. Pr[j Z j ] = 0, 3438 ; 3. Pr[Z j ] = 0, 0125 ; 4. Pr[Z j ] = 0, 0125 ; 5. Pr[j Z 3] = 0, 7907.

Solution Lecture inverse de la table. 1. Pr[Z j ] = 0, 9332 F (j ) = 0, 9332 j = 1, 5

ET VARIABLES ALEATOIRES 124CHAPITRE 5. CALCUL DES PROBABILITES 2. Pr[j Z j ] = 0, 3438 F (j )F (j ) = F (j )1+F (j ) = 2F (j )1 = 0, 3438 F (j ) = 0, 6719 j = 0, 45 3. Pr[Z j ] = 0, 0125 F (j ) = 0, 0125(j est n egatif) 1 F (j ) = 0, 0125 F (j ) = 0, 9875 j = 2, 24 4. Pr[Z j ] = 0, 0125 = 1 F (j ) F (j ) = 0, 9875 j = 2, 24 5. Pr[j Z 3] = 0, 7907 = F (3) F (j ) 0, 7907 = 0, 9987 F (j ) F (j ) = 0, 2080 (n egatif) F (j ) = 0, 7920 j = 0, 81 j = 0, 81.

Exercice 5.3 Soit une variable al eatoire X N (53; 2 = 100) repr esentant le r esultat dun examen pour un etudiant dune section. D eterminez la probabilit e pour que le r esultat soit compris entre 33,4 et 72,6. Solution Soit X N (53, 100) Z = X 53 N (0, 1) 10

Pr[33, 4 X 72, 6] [ ] 33, 4 53 X 53 72, 6 53 = Pr 10 10 10 = Pr[1, 96 Z 1, 96] = 2F(1, 96) 1 = 2 0, 975 1 = 0, 95

Exercice 5.4 Soit une variable al eatoire X N (50; 2 = 100). D eterminez le premier quartile de cette distribution. Solution Si X N (50, 10), alors Z = (X 50)/10 N (0, 1). Par d enition le premier quartile x1/4 est tel que [ ] Pr X x1/4 = 1/4. Donc [ ] [ ] 1/4 50 X 50 Pr X x1/4 = P 10 10 = P [Z z1/4 ] = 0, 25,

o` u z1/4 est le premier quartile dune variable al eatoire normale centr ee r eduite. Si F (.) est la fonction de r epartition dune variable al eatoire normale centr ee r eduite, on a par la d enition du quartile que F (z1/4 ) = 0, 25.

5.8. AUTRES VARIABLES ALEATOIRES

125

Le premier quartile z1/4 est donc n egatif. On a cependant. par la sym etrie de la distribution, que F (z1/4 ) = 1 F (z1/4 ) = 0, 25, ce qui donne F (z1/4 ) = 0, 75. La table nous donne que z1/4 = 0, 67 et donc z1/4 = 0, 67. Enn, comme x1/4 50 = z1/4 = 0, 67, 10 on a une equation en x1/4 quil sut de r esoudre x1/4 = 50 0, 67 10 = 43, 3.

Exercice 5.5 En supposant que les tailles en cm des etudiants dun pays admettent la distribution normale N (172; 2 = 9). On demande de d eterminer le pourcentage th eorique : a) d etudiants mesurant au moins 180 cm. b) d etudiants dont la taille est comprise entre 168 et 180. Solution a) 0,0038 ; b) 0,9044.

Exercice 5.6 Sur une route principale o` u la vitesse est limit ee ` a 80 km/h, un radar a mesur e la vitesse de toutes les automobiles pendant une journ ee. En supposant que les vitesses recueillies soient distribu ees normalement avec une moyenne de 72 km/h et un ecart-type de 8 km/h, quelle est approximativement la proportion dautomobiles ayant commis un exc` es de vitesse ? Solution La proportion dautomobiles ayant commis un exc` es de vitesse vaut [ ] X x 80 72 P [X > 80] = 1P [X 80] = 1P = 1P [Z 1] = 0, 159, s 8 o` u X repr esente la vitesse.

ET VARIABLES ALEATOIRES 126CHAPITRE 5. CALCUL DES PROBABILITES Exercice 5.7 Pour lassemblage dune machine, on produit des cylindres dont le diam` etre varie dapr` es une loi normale de moyenne 10 cm et d ecart-type 0,2 cm. On groupe les cylindres en 3 cat egories : A : d efectueux et inutilisable si le diam` etre est 9.95, le cylindre est alors d etruit. B : utilisable et vendu au prix r eduit de Fr. 5.-, si 9,95 le diam` etre 9,99. C : correspond aux normes et est vendu Fr. 15.-, si le diam` etre est 9,99. a) Calculer les proportions de cylindres produits de chaque type A, B et C. b) La production dun cylindre co ute Fr. 7.-. Quel est le prot moyen par cylindre produit ? Solution a) Soit X le diam` etre, ainsi X N (10, 0.22 ) ] [ X 10 P [X 9.95] = P 0.25 = 0.401 0.2 [ ] X 10 P [9.95 < X 9.99] = P 0.25 < 0.05 = 0.079, 0.2 P [X > 9.99] = 1 (P [X 9.95] + P [9.95 < X 9.99] = 0.52. b) prot= 5 0.079 + 15 0.52 7 = 1.195 fr.

Exercice 5.8 Donnez les quantiles dordre 99%, 97.5% et 95% : 1. dune variable normale centr ee r eduite ; 2. dune variable Khi-carr ee ` a 17 degr es de libert e; 3. dune variable de Student ` a 8 degr es de libert e; 4. dune variable de Fisher (uniquement dordre 95%) ` a 5 et 7 degr es de libert e. Solution 1. ` a 99% : 2.3263, ` a 97.5% : 1.9600, ` a 95% : 1.6449 ; 2. ` a 99% : 33.41, ` a 97.5% : 30.19, ` a 95% : 27.59 ; 3. ` a 99% : 2.896, ` a 97.5% : 2.306, ` a 95% : 1.860 ; 4. ` a 95% : 3.972.

Chapitre 6

S eries temporelles, ltres, moyennes mobiles et d esaisonnalisation


6.1
6.1.1

D enitions g en erales et exemples


D enitions

D enition 6.1 Une s erie temporelle est une suite dobservations dune quantit e r ep et ee dans le temps. On enonce en g en eral lhypoth` ese que les intervalles de temps sont equidistants. La s erie temporelle est not ee y1 , . . . , yt , . . . , yT . On note egalement T = {1, 2, . . . , t, . . . , T } lensemble des instants auxquels les observations sont r ealis ees. Une s erie temporelle peut se composer de : une tendance Tt , une composante cyclique Ct (nous n etudierons pas cette question), une composante saisonni` ere St , un r esidu Et (partie inexpliqu ee). On etudie deux types de mod` eles : Le mod` ele additif : yt = Tt + Ct + St + Et Le mod` ele multiplicatif : yt = Tt Ct St Et . Il peut etre int eressant de d ecomposer la s erie, ce qui consiste ` a s eparer les composantes Tt , Ct , St , Et . 127

128CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.1.2

Traitement des s eries temporelles

Le traitement des s eries temporelles peut avoir plusieurs objectifs. isoler et estimer une tendance, isoler et estimer une composante saisonni` ere, et d esaisonnaliser la s erie, r ealiser une pr evision pour des valeurs inconnues manquantes, futures ou pass ees, construire un mod` ele explicatif en terme de causalit e, d eterminer la dur ee dun cycle.

6.1.3

Exemples

Exemple 6.1 Extrait de The Data and Story Library Ces donn ees trimestrielles, ont et e produites par le service des statistiques dentreprise du Bureau of Census (Etats-Unis). Les donn ees concernant les ventes reprennent le nombre de biens exp edi es durant 32 trimestres. QTR : Quarter, trimestres depuis le 1er trimestre 1978 jusquau 4` eme trimestre 1985 DISH : Nombre de lave-vaisselles (dishwashers) exp edi es (milliers) DISP : Nombre de broyeurs dordures (disposers) exp edi es (milliers) FRIG : Nombre de r efrig erateurs exp edi es (milliers) WASH : Nombre de machines ` a laver (washing machine) exp edi ees (milliers) DUR : D epenses en biens durables USA (milliards de dollars de 1982) RES : Investissement r esidentiel priv e USA (milliards de dollars de 1982)
240 280 320 360 1978

DUR

1980

1982 Time

1984

1986

Figure 6.1 D epenses en biens durables USA (milliards de dollars de 1982)

Exemple 6.2 La variable nombre de r efrig erateurs vendus a manifestement une composante saisonni` ere et une tendance.

ERALES 6.1. DEFINITIONS GEN ET EXEMPLES

129

Table 6.1 Biens manufactur es aux USA QTR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 DISH 841 957 999 960 894 851 863 878 792 589 657 699 675 652 628 529 480 530 557 602 658 749 827 858 808 840 893 950 838 884 905 909 DISP 798 837 821 858 837 838 832 818 868 623 662 822 871 791 759 734 706 582 659 837 867 860 918 1017 1063 955 973 1096 1086 990 1028 1003 FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269 973 1102 1344 1641 1225 1429 1699 1749 1117 1242 1684 1764 1328 WASH 1271 1295 1313 1150 1289 1245 1270 1103 1273 1031 1143 1101 1181 1116 1190 1125 1036 1019 1047 918 1137 1167 1230 1081 1326 1228 1297 1198 1292 1342 1323 1274 DUR 252.6 272.4 270.9 273.9 268.9 262.9 270.9 263.4 260.6 231.9 242.7 248.6 258.7 248.4 255.5 240.4 247.7 249.1 251.8 262.0 263.3 280.0 288.5 300.5 312.6 322.5 324.3 333.1 344.8 350.3 369.1 356.4 RES 172.9 179.8 180.8 178.6 174.6 172.4 170.6 165.7 154.9 124.1 126.8 142.2 139.3 134.1 122.3 110.4 101.2 103.4 100.1 115.8 127.8 147.4 161.9 159.9 170.5 173.1 170.3 169.6 170.3 172.9 175.0 179.4

En langage R QTR=c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25, 26,27,28,29,30,31,32) DISH=c(841,957,999,960,894,851,863,878,792,589,657,699,675,652,628, 529,480,530,557,602,658,749,827,858,808,840,893,950,838,884,905,909) DISP=c(798,837,821,858,837,838,832,818,868,623,662,822,871,791,759,734,706, 582,659,837,867,860,918,1017,1063,955,973,1096,1086,990,1028,1003)

130CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

FRIG

1000 1978

1400

1980

1982 Time

1984

1986

Figure 6.2 Nombre de r efrig erateurs vendus de 1978 ` a 1985

FRIG=c(1317,1615,1662,1295,1271,1555,1639,1238,1277,1258,1417,1185,1196, 1410,1417,919,943,1175,1269,973,1102,1344,1641,1225,1429,1699,1749,1117 1242,1684,1764,1328) WASH=c(1271,1295,1313,1150,1289,1245,1270,1103,1273,1031,1143,1101,1181, 1116,1190,1125,1036,1019,1047,918,1137,1167,1230,1081,1326,1228,1297, 1198,1292,1342,1323,1274) DUR=c(252.6,272.4,270.9,273.9,268.9,262.9,270.9,263.4,260.6,231.9,242.7,248.6, 258.7,248.4,255.5,240.4,247.7,249.1,251.8,262,263.3,280,288.5,300.5, 312.6,322.5,324.3,333.1,344.8,350.3,369.1,356.4) RES=c(172.9,179.8,180.8,178.6,174.6,172.4,170.6,165.7,154.9,124.1,126.8, 142.2,139.3,134.1,122.3,110.4,101.2,103.4,100.1,115.8,127.8,147.4,161 159.9,170.5,173.1,170.3,169.6,170.3,172.9,175,179.4) plot(QTR,DUR,type="l") plot(QTR,FRIG,type="l")

Exemple 6.3 Le tableau 6.2 reprend lindice des prix ` a la consommation (base 100 en juillet 1970). La Figure 6.3 reprend lindice brut yt tel quil est pr esent e dans le Tableau 6.2. La Figure 6.4 pr esente le rapport mensuel de cet indice yt /yt1 . Enn, la Figure 6.5 pr esente le rapport en glissement annuel yt /yt12 .

En langage R # # Indices des prix # Diff erences dordre 1 et 12 # Iprix=c(97.9,98.2,98.5,99,99.4,99.8,100,100.4,100.8,101.2,101.6,101.9, 102.5,103,103.4,104,104.7,105.1,105.6,106,106.5,107.1,107.5,108, 108.3,108.9,109.4,109.8,110.4,111,111.9,112.5,113.2,114.2,114.9,115.5, 115.5,115.8,116.4,117.2,118.3,119.2,120.2,121,122.1,123.4,124.5,125.3,

ERALES 6.1. DEFINITIONS GEN ET EXEMPLES

131

Table 6.2 Indice des prix ` a la consommation (France) pt janvier f evrier mars avril mai juin juillet ao ut septembre octobre novembre d ecembre 1970 97.9 98.2 98.5 99.0 99.4 99.8 100.0 100.4 100.8 101.2 101.6 101.9 1971 102.5 103.0 103.4 104.0 104.7 105.1 105.6 106.0 106.5 107.1 107.5 108.0 1972 108.3 108.9 109.4 109.8 110.4 111.0 111.9 112.5 113.2 114.2 114.9 115.5 1973 115.5 115.8 116.4 117.2 118.3 119.2 120.2 121.0 122.1 123.4 124.5 125.3 1974 127.4 129.1 130.6 132.7 134.3 135.8 137.5 138.6 140.1 141.8 143.1 144.3 1975 145.9 147.0 148.2 149.5 150.6 151.7 152.8 153.8 155.1 156.3 157.3 158.2 1976 159.9 161.0 162.4 163.8 164.9 165.6 167.2 168.4 170.2 171.8 173.2 173.8 1977 174.3 175.5 177.1 179.4 181.1 182.5 184.1 185.1 186.7 188.2 188.9 189.4 1978 190.3 191.7 193.4 195.5 197.4 198.9 201.5 202.5 203.8 205.7 206.8 207.8

Iprix

100 1970

140

180

1972

1974 Time

1976

1978

Figure 6.3 Indice des prix ` a la consommation pt


Iprix/lag(Iprix, 1)

1.000 1970

1.010

1972

1974 Time

1976

1978

Figure 6.4 Rapport mensuel des indices de prix pt /pt1 127.4,129.1,130.6,132.7,134.3,135.8,137.5,138.6,140.1,141.8,143.1,144.3, 145.9,147,148.2,149.5,150.6,151.7,152.8,153.8,155.1,156.3,157.3,158.2, 159.9,161,162.4,163.8,164.9,165.6,167.2,168.4,170.2,171.8,173.2,173.8,

132CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Iprix/lag(Iprix, 12)

1.06

1.10

1.14

1972

1974 Time

1976

1978

Figure 6.5 Rapport en glissement annuel des indices de prix pt /pt12 174.3,175.5,177.1,179.4,181.1,182.5,184.1,185.1,186.7,188.2,188.9,189.4, 190.3,191.7,193.4,195.5,197.4,198.9,201.5,202.5,203.8,205.7,206.8,207.8) Iprix <- ts(Iprix,start = c(1970, 1), frequency = 12) plot(Iprix) plot(Iprix/lag(Iprix,-1)) plot(Iprix/lag(Iprix,-12))

Exemple 6.4 Donn ees du nombre de voyageurs-kilom` etres en deuxi` eme classe exprim ees en millions de kilom` etres. Table 6.3 Trac du nombre de voyageurs SNCF
mois/ann ee janv. f ev. mars avril mai juin juil. ao ut sept. oct. nov. d ec.

1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980

1750 1710 1670 1810 1850 1834 1798 1854 2008 2084 2081 2223 2481 2667 2706 2820 3313 2848

1560 1600 1640 1640 1590 1792 1850 1823 1835 2034 2112 2248 2428 2668 2586 2857 2644 2913

1820 1800 1770 1860 1880 1860 1981 2005 2120 2152 2279 2421 2596 2804 2796 3306 2872 3248

2090 2120 2190 1990 2210 2138 2085 2418 2304 2522 2661 2710 2923 2806 2978 3333 3267 3250

1910 2100 2020 2110 2110 2115 2120 2219 2264 2318 2281 2505 2795 2976 3053 3141 3391 3375

2410 2460 2610 2500 2480 2485 2491 2722 2175 2684 2929 3021 3287 3430 3463 3512 3682 3640

3140 3200 3190 3030 2880 2581 2834 2912 2928 2971 3089 3327 3598 3705 3649 3744 3937 3771

2850 2960 2860 2900 2670 2639 2725 2771 2738 2759 2803 3044 3118 3053 3095 3179 3284 3259

2090 2190 2140 2160 2100 2038 1932 2153 2178 2267 2296 2607 2875 2764 2839 2984 2849 3206

1850 1870 1870 1940 1920 1936 2085 2136 2137 2152 2210 2525 2754 2802 2966 2950 3085 3269

1630 1770 1760 1750 1670 1784 1856 1910 2009 1978 2135 2160 2588 2707 2863 2896 3043 3181

2420 2270 2360 2330 2520 2391 2553 2537 2546 2723 2862 2876 3266 3307 3375 3611 3541 4008

6.2. DESCRIPTION DE LA TENDANCE

133

1500 2500 3500

trafic

1965

1970 Time

1975

1980

Figure 6.6 Trac du nombre de voyageurs SNCF

6.2
6.2.1

Description de la tendance
Les principaux mod` eles

Plusieurs types de mod` eles peuvent etre utilis es pour d ecrire la tendance. Mod` eles d ependant du temps. La s erie d epend directement du temps. Le mod` ele peut etre additif yt = f (t) + Et , ou multiplicatif yt = f (t) Et . Mod` eles explicatifs statiques : la s erie chronologique d epend des valeurs prises par une ou plusieurs autres s eries chronologiques. yt = f (xt ) + Et Le cas lin eaire est le plus facile ` a traiter yt = b0 + b1 xt + Et . Mod` eles auto-projectifs. La s erie chronologique au temps t d epend de ses propres valeurs pass ees yt = f (yt1 , yt2 , yt3 , . . . , ytp ) + Et Mod` eles explicatifs dynamiques : la s erie chronologique d epend des valeurs pr esentes et pass ees dune ou de plusieurs autres s eries chronologiques, par exemple : yt = + 1 yt1 + 2 yt2 + + p ytp + 1 xt1 + 2 xt2 + + q xtq + Et .

134CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.2.2

Tendance lin eaire

La tendance la plus simple est lin eaire. On peut estimer les param` etres au moyen de la m ethode des moindres carr es. Cest une r egression simple. Tt = a + bt.

6.2.3

Tendance quadratique

On peut utiliser une tendance parabolique. Les param` etres peuvent etre estim es au moyen de la m ethode des moindres carr es. Cest une r egression avec deux variables explicatives. Tt = a + bt + ct2

6.2.4

Tendance polynomiale dordre q

On peut ajuster la s erie par un polyn ome dordre q . Les param` etres peuvent etre estim es au moyen de la m ethode des moindres carr es. Cest une r egression avec q variables explicatives. Tt = b0 + b1 t + b2 t2 + + bq tq

6.2.5

Tendance logistique

La fonction logistique permet de mod eliser des processus ne pouvant d epasser une certaine valeur c (par exemple des taux). Tt = c o` u a, b, c R+ 1 + beat

M eme sil sagit dune tendance non-lin eaire, on peut se ramener ` a un probl` eme lin eaire. En posant zt = 1/Tt , on a zt = 1 + beat c

zt+1

= = = =

1 + bea(t+1) c 1 + beat ea c 1 + (1 + beat )ea ea c 1 ea + zt ea . c 1 ea , et = ea . c

En posant =

6.2. DESCRIPTION DE LA TENDANCE on obtient zt+1 = + zt ,

135

ce qui est un mod` ele auto-projectif. On peut alors d eterminer les valeurs de et par une simple r egression lin eaire. Ensuite on d eduit a de la mani` ere suivante : a = log , et comme = on d etermine c par c= Enn, on remarque que zt 1 beat = , c c 1 . 1 ea 1 = , c c

on peut d eterminer autant de valeurs de b que lon a dobservations bt = czt 1 . eat

On calcule alors la moyenne de ces valeurs b =


T 1 bt . T t=1

logis (x)

0.0

0.1

0.2

0.3

0.4

0.5

0 x

Figure 6.7 Exemple de fonction logistique avec c = 0.5

136CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.3
6.3.1

Op erateurs de d ecalage et de di erence


Op erateurs de d ecalage

An de simplier la notation, on utilise des op erateurs de d ecalage. On d enit lop erateur de d ecalage retard (en anglais lag operator) L par Lyt = yt1 , et lop erateur avance (en anglais forward operator) F F yt = yt+1 . Lop erateur identit e est donn e par Iyt = yt . Lop erateur avance est linverse de lop erateur retard F L = LF = I. On peut donc ecrire On a egalement L2 yt = LLyt = yt2 , Lq yt = ytq , F q yt = yt+q , L0 = F 0 = I , Lq yt = F q yt = yt+q . F 1 = L et L1 = F.

6.3.2

Op erateur di erence
= I L.

Lop erateur di erence dordre un est un ltre lin eaire

Lop erateur di erence permet denlever une tendance lin eaire. En eet, si la s erie s ecrit yt = a + b t + Et , alors yt = a + b t + Et a b (t 1) Et1 = b + Et Et1 . Exemple 6.5 On g en` ere une s erie selon un mod` ele lin eaire d ependant du temps yt = 10 + 0.3 t + Et , avec t = 1, . . . , 50. La s erie brute yt est repr esent ee dans la graphique 6.8 et la di erence dordre 1 de la s erie yt est repr esent ee dans le graphique 6.9. En langage R

6.3. OPERATEURS DE DECALAGE ET DE DIFFERENCE

137

10 0

15

20

25

10

20

30

40

50

Figure 6.8 S erie avec une tendance lin eaire d ependant du temps

2 0

0 1 2

10

20

30

40

50

Figure 6.9 Di erence dordre un de la s erie avec une tendance lin eaire # # Tendance lin eaire et diff erence # lin=10+0.3*(0:50)+rnorm(50,0,1) plot(lin,main="",xlab="",ylab="") Dlin=diff(lin) plot(Dlin,main="",xlab="",ylab="")

On peut construire lop erateur di erence dordre deux en elevant au carr e: 2 = = I 2L + L2 Lop erateur di erence dordre deux permet denlever une tendance quadratique. En eet, si la s erie s ecrit yt = a + b t + c t2 + Et , alors 2 y t = (I 2L + L2 )yt = a + b t + c t2 + Et 2a 2b (t 1) 2c (t 1)2 2Et1 +a + b (t 2) + c (t 2)2 + Et2 = 2c + Et 2Et1 + Et2 . Une tendance polynomiale dordre q peut egalement etre supprim ee gr ace ` a q , la di erence dordre q.

138CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.3.3

Di erence saisonni` ere


s = I Ls ,

Lop erateur de di erence saisonni` ere s ecrit :

o` u s vaut 4 pour des donn ees trimestrielles, 7 pour des donn ees journali` eres et 12 pour des donn ees mensuelles : Exemple 6.6 Si on applique une di erence saisonni` ere dordre 4 sur les donn ees de ventes de r efrig erateurs, la composante saisonni` ere dispara t.

FRIGm4

300 1979

200

1980

1981

1982 Time

1983

1984

1985

1986

Figure 6.10 Di erence dordre 4 de la variable vente de r efrig erateurs En langage R # # Vente de r efrig erateurs diff erence dordre 4 # FRIGm4=FRIG-lag(FRIG,-4) plot(FRIGm4)

Exemple 6.7 Si on applique une di erence saisonni` ere dordre 12 sur les donn ees du nombre de voyageurs-kilom` etres yt en deuxi` eme classe exprim ees en millions de kilom` etres de la SNCF, la tendance saisonni` ere dispara t (voir Figure 6.12). On a ainsi la nouvelle variable zt = 12 yt = (I L12 )yt = yt yt12 . Une autre mani` ere de faire consiste ` a prendre le logarithme de la variable et ensuite ` a calculer la di erence, ce qui revient ` a prendre le logarithme du rapport de la variable (voir Figure 6.13). On d enit ainsi une nouvelle variable vt : vt = 12 log yt = (I L12 ) log yt = log yt log yt12 = log yt . yt12

6.3. OPERATEURS DE DECALAGE ET DE DIFFERENCE

139

1500 2500 3500

trafic

1965

1970 Time

1975

1980

Figure 6.11 Trac du nombre de voyageurs SNCF

difftrafic

0.8

1.0

1.2

1965

1970 Time

1975

1980

Figure 6.12 Di erence dordre 12 sur la s erie trac du nombre de voyageurs SNCF
0.2 raptrafic 0.2 0.0

1965

1970 Time

1975

1980

Figure 6.13 Logarithme du rapport dordre 12 sur la s erie trac du nombre de voyageurs SNCF

En langage R

140CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA trafic=c(1750,1560,1820,2090,1910,2410,3140,2850,2090,1850,1630,2420, 1710,1600,1800,2120,2100,2460,3200,2960,2190,1870,1770,2270, 1670,1640,1770,2190,2020,2610,3190,2860,2140,1870,1760,2360, 1810,1640,1860,1990,2110,2500,3030,2900,2160,1940,1750,2330, 1850,1590,1880,2210,2110,2480,2880,2670,2100,1920,1670,2520, 1834,1792,1860,2138,2115,2485,2581,2639,2038,1936,1784,2391, 1798,1850,1981,2085,2120,2491,2834,2725,1932,2085,1856,2553, 1854,1823,2005,2418,2219,2722,2912,2771,2153,2136,1910,2537, 2008,1835,2120,2304,2264,2175,2928,2738,2178,2137,2009,2546, 2084,2034,2152,2522,2318,2684,2971,2759,2267,2152,1978,2723, 2081,2112,2279,2661,2281,2929,3089,2803,2296,2210,2135,2862, 2223,2248,2421,2710,2505,3021,3327,3044,2607,2525,2160,2876, 2481,2428,2596,2923,2795,3287,3598,3118,2875,2754,2588,3266, 2667,2668,2804,2806,2976,3430,3705,3053,2764,2802,2707,3307, 2706,2586,2796,2978,3053,3463,3649,3095,2839,2966,2863,3375, 2820,2857,3306,3333,3141,3512,3744,3179,2984,2950,2896,3611, 3313,2644,2872,3267,3391,3682,3937,3284,2849,3085,3043,3541, 2848,2913,3248,3250,3375,3640,3771,3259,3206,3269,3181,4008) trafic <- ts(trafic,start = c(1963, 1), frequency = 12) plot(trafic) difftrafic=trafic-lag(trafic,-12) plot(difftrafic) raptrafic=log(trafic/lag(trafic,-12)) plot(raptrafic)

6.4
6.4.1

Filtres lin eaires et moyennes mobiles


Filtres lin eaires
p2 j =p1

Un ltre lin eaire dordre m = p1 + p2 + 1 est d eni par FL = wj Lj

= wp1 Lp1 + wp1 +1 Lp1 1 + + w1 L + w0 I + w1 F + + wp2 1 F p2 1 + wp2 F p2 , o` u p1 , p2 N et wj R.

6.4.2

Moyennes mobiles : d enition


p2 j =p1

Une moyenne mobile dordre m = p1 + p2 + 1 est un ltre lin eaire tel que wj = 1, pour tout j = p1 , . . . , p2 .

Beaucoup de moyennes mobiles ont des poids wj positifs, mais pas toutes.

6.4. FILTRES LINEAIRES ET MOYENNES MOBILES Une moyenne mobile est sym etrique si p1 = p2 = p, et wj = wj , pour tout j = 1, . . . , p. Une moyenne mobile sym etrique est dite non-pond er ee si wj = cst pour tout j = p1 , . . . , p2 .

141

6.4.3

Moyenne mobile et composante saisonni` ere

Une moyenne mobile est un outil int eressant pour lisser une s erie temporelle et donc pour enlever une composante saisonni` ere. On utilise de pr ef erence des moyennes mobiles non-pond er ees dordre egal ` a la p eriode, par exemple dordre 7 pour des donn ees journali` eres, dordre 12 pour des donn ees mensuelles. Par exemple, pour enlever la composante saisonni` ere due au jour de la semaine, on peut appliquer une moyenne mobile non-pond er ee dordre 7. ) 1( 3 MM(7) = L + L2 + L + I + F + F 2 + F 3 . 7 Cette moyenne mobile accorde le m eme poids ` a chaque jour de la semaine. En eet, 1 (yt3 + yt2 + yt1 + yt + yt+1 + yt+2 + yt+3 ) . 7 Pour les composantes saisonni` eres dune p eriode paire, il nexiste pas de moyennes mobiles centr ees non-pond er ees. Il existe deux types de moyenne mobile centr ee pond er ee : Si la p eriode est paire et egale ` a m (m = 4 pour des donn ees trimestrielles), on utilise une moyenne mobile dordre impair accordant un demi-poids aux deux extr emit es. Par exemple, pour des donn ees trimestrielles, la moyenne mobile est d enie par ) 1( 2 MM(4) = L + 2L + 2I + 2F + F 2 . 8 Ainsi, chaque trimestre conserve le m eme poids. En eet, MM(7)yt = 1 (yt2 + 2yt1 + 2yt + 2yt+1 + yt+2 ) . 8 Si la p eriode est paire et egale ` a m, on peut aussi utiliser la compos ee de deux moyennes mobiles non-pond er ees et non-centr ees an dobtenir une moyenne mobile centr ee : )1( ) 1( 2 MMC = L +L+I +F L + I + F + F2 4 4 ) 1 ( 3 = L + 2L2 + 3L + 4I + 3F + 2F 2 + F 3 . 16 ` nouveau, chaque trimestre est aect A e du m eme poids, mais cette m ethode est moins avantageuse car la moyenne mobile est plus etendue. Donc, plus des donn ees seront perdues aux extr emit es de la s eries. MM(4)yt =

142CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA Exemple 6.8 La variable r efrig erateur est liss ee gr ace ` a une moyenne mobile qui accorde le m eme coecient de pond eration ` a chaque trimestre.

` 6.5. MOYENNES MOBILES PARTICULIERES

143

FRIG

1000 1978

1400

1980

1982 Time

1984

1986

Figure 6.14 Nombre de r efrig erateurs et moyenne mobile dordre 4

En langage R dec=decompose(FRIG) moving_average= dec$trend plot(FRIG) lines(moving_average)

Une moyenne mobile qui accorde le m eme poids ` a chaque saison permet denlever une tendance saisonni` ere.

6.5
6.5.1

Moyennes mobiles particuli` eres


Moyenne mobile de Van Hann
MMV H = 1 1 1 (I + F ) (L + I ) = (L + 2I + F ) 2 2 4

6.5.2

Moyenne mobile de Spencer


1 1 (L + I + F + F 2 ) (L2 + L + I + F ) 4 4 1 1 2 (L + L + I + F + F 2 ) (3L2 + 3L + 4I + 3F 3F 2 ) 5 4 1 = (3L7 6L6 5L5 + 3L4 + 21L3 + 46L2 + 67L + 74I 320 +67F + 46F 2 + 21F 3 + 3F 4 5F 5 6F 6 3F 7 ) =

MMS

La moyenne mobile de Spencer supprime les composantes saisonni` eres de p eriode 4 et 5 et conserve les tendances polynomiales jusqu` a lordre 3.

144CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.5.3

Moyenne mobile de Henderson

Les moyennes mobiles dHenderson conservent les tendances polynomiales de degr e 2 tout en conservant une souplesse aux coecients de la moyenne mobile. La souplesse est obtenue en minimisant la quantit e (I L)3 j .
j

Moyenne mobile de Henderson dordre 2m 3, o` u m4


m +1 j =m1

MMH = o` u j =

j Lj ,

315((m 1)2 i2 )(m2 i2 )((m + 1)2 i2 )(3m2 16 11i2 ) 8m(m2 1)(4m2 1)(4m2 9)(4m2 25)

Moyenne mobile de Henderson dordre 2m 3 = 5 (m = 4) 1 (21L2 + 84L + 160I + 84F 21F 2 ) 286 Moyenne mobile de Henderson dordre 2m 3 = 9 (m = 6)

1 (99L4 24L3 288L2 + 648L + 805I + 648F + 288F 2 24F 3 99F 4 ) 2431 Moyenne mobile de Henderson dordre 2m 3 = 11 (m = 7)

1 (2574L5 92378

2475L4 + 3300L3 + 13050L2 + 22050L + 25676I + 22050F + 13050F 2 + 3300F 3 2475F 4 2574F 5 )

Moyenne mobile de Henderson dordre 2m 3 = 15 (m = 9)

1 (2652L7 193154

4732L6 2730L5 + 4641L4 + 16016L3 + 28182L2 + 37422L + 40860I + 37422F + 28182F 2 + 16016F 3 + 4641F 4 2730F 5 4732F 6 2652F 7 )

6.6. DESAISONNALISATION

145

6.5.4

M edianes mobiles

Si les donn ees contiennent des valeurs aberrantes ou extr emes, on peut remplacer la moyenne mobile par une m ediane mobile. Par exemple la m ediane mobile dordre 5 est d enie par : M ed(5)t = M ediane(yt2 , yt1 , yt , yt+1 , yt+2 ).

6.6
6.6.1

D esaisonnalisation
M ethode additive

Soit une s erie temporelle r egie par un mod` ele additif du type Yam = Tam + Sm + Eam . o` u a = 1, . . . , A, repr esente par exemple lann ee et m = 1, . . . , M repr esente par exemple le mois. La tendance est suppos ee connue soit par un ajustement, soit par une moyenne mobile. On isole la composante saisonni` ere en faisant, pour chaque mois, la moyenne des di erences entre les valeurs observ ees et la tendance 1 (Yam Tam ). Sm = A1 a En g en eral, on ne dispose pas du m eme nombre dobservations, pour chaque mois. On proc` ede ` a un ajustement an que la somme des composantes saisonni` eres soit egale ` a z ero :
Sm = Sm

1 Sm . M m

On peut ensuite proc eder ` a la d esaisonnalisation de la s erie par


. Yam = Yam Sm

6.6.2

M ethode multiplicative
Yam = Tam Sm Eam .

Soit une s erie temporelle r egie par un mod` ele multiplicatif du type

o` u a = 1, . . . , A repr esente par exemple lann ee et m = 1, .., M repr esente par exemple le mois. La tendance est suppos ee connue soit par un ajustement, soit par une moyenne mobile. On isole la composante saisonni` ere en faisant, pour chaque mois, la moyenne des rapports entre les valeurs observ ees et la tendance : Sm = 1 Yam . A 1 a Tam

146CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA ` nouveau, on r A ealise un ajustement an que la moyenne des composantes saisonni` eres soit egale ` a 1. On corrige donc les coecients Sm par
Sm = Sm 1 M

1
m

Sm

La d esaisonnalisation se r ealise alors par une division Yam = Yam = Tam Eam Sm

Exemple 6.9 Lobjectif est de d esaisonnaliser la s erie trimestrielle des ventes de r efrig erateurs. Le Tableau 6.4 contient la variable vente de r efrig erateurs, la moyenne mobile dordre 4, la composante saisonni` ere et s erie d esaisonnalis ee au moyen de la m ethode additive. Le Tableau 6.6 pr esente la d esaisonnalisation au moyen de la m ethode multiplicative. Figure 6.15 D ecomposition de la s erie de ventes de r efrig erateurs 6.1
Decomposition of multiplicative time series
observed trend seasonal random

100 1978

100 0.85

1.00

1.15 1100

1300

1500 1000

1400

1980

1982

1984

1986

Time

En langage R deco=decompose(FRIG,type="multiplicative") plot(deco)

6.7. LISSAGE EXPONENTIEL

147

Table 6.4 D ecomposition de la variable FRIG, m ethode additive QTR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269 973 1102 1344 1641 1225 1429 1699 1749 1117 1242 1684 1764 1328 MM FRIG-MM Desaison 1442.58 1505.13 1451.20 1490.09 1396.58 1445.13 1428.20 1433.09 1402.58 1148.13 1206.20 1380.09 1321.58 1300.13 1206.20 1114.09 1068.58 1065.13 1058.20 1168.09 1227.58 1234.13 1430.20 1420.09 1554.58 1589.13 1538.20 1312.09 1367.58 1574.13 1553.20 1523.09

1466.50 1453.25 1442.88 1432.88 1426.50 1390.13 1325.25 1290.88 1274.13 1283.00 1302.00 1268.75 1203.88 1142.88 1095.00 1083.25 1109.88 1150.88 1218.50 1296.50 1368.88 1454.13 1512.00 1512.00 1475.13 1449.88 1449.88 1478.13

195.50 -158.25 -171.88 122.13 212.50 -152.13 -48.25 -32.88 142.88 -98.00 -106.00 141.25 213.13 -223.88 -152.00 91.75 159.13 -177.88 -116.50 47.50 272.13 -229.13 -83.00 187.00 273.88 -332.88 -207.88 205.88

6.7
6.7.1

Lissage exponentiel
Lissage exponentiel simple

Une mani` ere simple de r ealiser une pr ediction est de r ealiser un lissage exponentiel simple. On suppose que lon dispose de T observations X1 , . . . , XT indic ees par les dates 1, . . . , T. On veut r ealiser une pr ediction pour les dates suivantes T + k, k 1. La pr ediction faite ` a la date T pour la date T + k est

148CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Table 6.5 Moyenne des composantes saisonni` eres


S1 126.50 S1 125.58 S2 108.95 S2 109.87 S3 209.88 S3 210.80 S4 196.02 S4 195.09 Total 3.70 Total 0.00

not ee XT (k ) (pr ediction au temps T et ` a lhorizon k ). Le lissage exponentiel simple donne une pr ediction ` a lhorizon 1, et consiste ` a r ealiser une moyenne des valeurs pass ees en aectant des poids moins importants aux valeurs qui sont eloign ees de la pr ediction : XT (1) = (1 )
T 1 j =0

j XT j = (1 )

T 1 j =0

j Lj XT ,

o` u est un coecient appartenant ` a ]0, 1[. Comme XT 1 (1) = (1 ) on a XT (1) = (1 )


T 2 j =0 T 1 j =0

j XT 1j =

T 1 (1 ) j XT j , j =1

j XT j = (1 )XT + XT 1 (1).

Cette formule peut etre utilis ee pour mettre ` a jour le lissage exponentiel simple. An dinitialiser le lissage exponentiel on peut prendre X0 (1) = X1 . Le lissage exponentiel simple est adapt e au cas ou la s erie peut etre ajust ee par une droite horizontale. Autrement dit, on suppose que XT a. Le lissage exponentiel peut etre obtenu au moyen de la m ethode des moindres carr es en minimisant en a le crit` ere Q=
T 1 j =0

j (XT j a) .

En annulant la d eriv ee par rapport ` a a, on obtient 2


T 1 j =0

j (XT j a) = 0,

6.7. LISSAGE EXPONENTIEL

149

Table 6.6 D ecomposition de la variable FRIG, m ethode multiplicative QTR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 FRIG 1317 1615 1662 1295 1271 1555 1639 1238 1277 1258 1417 1185 1196 1410 1417 919 943 1175 1269 973 1102 1344 1641 1225 1429 1699 1749 1117 1242 1684 1764 1328 MM FRIG/MM Desaison 1453.85 1493.76 1434.00 1516.45 1403.07 1438.26 1414.15 1449.70 1409.70 1163.56 1222.61 1387.64 1320.28 1304.15 1222.61 1076.15 1040.99 1086.79 1094.91 1139.39 1216.51 1243.10 1415.88 1434.48 1577.49 1571.45 1509.06 1308.01 1371.06 1557.58 1522.01 1555.09

1466.50 1453.25 1442.88 1432.88 1426.50 1390.13 1325.25 1290.88 1274.13 1283.00 1302.00 1268.75 1203.88 1142.88 1095.00 1083.25 1109.88 1150.88 1218.50 1296.50 1368.88 1454.13 1512.00 1512.00 1475.13 1449.88 1449.88 1478.13

1.13 0.89 0.88 1.09 1.15 0.89 0.96 0.97 1.11 0.92 0.92 1.11 1.18 0.80 0.86 1.08 1.14 0.85 0.90 1.04 1.20 0.84 0.95 1.12 1.19 0.77 0.86 1.14

ce qui donne T 1 XT (1) = a =


j j =0 XT j T 1 j j =0

(1 )

T 1 j =0

j XT j .

On peut choisir sur base de crit` eres subjectifs, cependant on peut egalement d eterminer une valeur optimale au moyen de la m ethode des moindres carr es.

150CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Table 6.7 Moyenne des composantes saisonni` eres S1 S2 S3 S4 Total


0.90 S1 1.08 S2 1.16 S3 0.85 S4 3.99 Total

0.91 1.08 1.16 0.85 4.00

On minimise alors en :
T 1 ( j =0

)2 XT j XT j 1 (1) ,

ce qui aboutit ` a un syst` eme non-lin eaire quil est cependant possible de r esoudre num eriquement.

6.7.2

Lissage exponentiel double

Si la s erie peut etre ajust ee par une droite quelconque de type a + b(t T ). On applique alors un lissage exponentiel double pour obtenir la pr ediction XT (k ) = a + bk. Comme XT (j ) = a bj, on obtient les valeurs de a et b au moyen de la m ethode des moindres carr es en minimisant en a et b le crit` ere T 1 1 ( )2 T 2 Q= j XT j XT (j ) = j (XT j a + bj ) .
j =0 j =0

En annulant les d eriv ees partielles par rapport ` a a et b, on obtient T 1 2 j (XT j a + bj ) = 0


j =0 T 1 2 j (XT j a + bj ) j = 0. j =0

ce qui donne

T 1 T 1 T 1 j j X a + b j j = 0 T j
j =0 j =0 j =0 T 1 T 1 T 1 j j j X a j + b j 2 j = 0. T j j =0 j =0 j =0

6.7. LISSAGE EXPONENTIEL Comme on a

151

j =0 j =0 j =0

j =

1 1 (1 )2 (1 + ) (1 )3

j j =

j2j =

on a

T 1 b a + =0 j XT j 1 (1 )2 j =0
T 1 a b (1 + ) j j XT j + = 0. 2 (1 ) (1 )3 j =0

(6.1)

1 En notant maintenant ST la s erie liss ee T 1 j =0 2 et ST la s erie doublement liss ee T 1 j =0

1 = (1 ) ST

j XT j ,

2 ST

= (1 ) = (1 )

1 j ST j T 1j i=0

T 1 j =0

(1 )
j

i XT j i

= (1 )2 = (1 )2 = (1 )2 On obtient nalement
T 1 k=0

1j T 1 T j =0 T 1 k=0 T 1 k=0 i=0

i+j XT j i

(k + 1) k XT k
1 k k XT k + (1 )ST .

k k XT k =

2 1 ST ST . 2 (1 ) (1 )1

152CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA Le syst` eme (6.1) peut alors s ecrire 1 ST a b + =0 1 1 (1 )2 2 1 ST ST a b (1 + ) + = 0. 2 (1 ) 1 (1 )2 (1 )3 En r esolvant ce syst` eme en a et b, on obtient nalement 1 2 a = 2 ST ST 1 1 2 (ST ST ). b=

Exemple 6.10 Le tableau 6.8 rend compte du prix moyen du mazout pour 100 (achat entre 800 et 1500 ) en CHF pour chaque mois de 2004 ` a 2007 (Source : Oce f ed eral de la statistique, 2008).

Table 6.8 Prix moyen du Mazout pour 100 (achat entre 800 et 1500 ) mois/ann ee janvier f evrier mars avril mai juin juillet ao ut septembre octobre novembre d ecembre 2004 54.23 51.51 55.60 55.72 58.71 58.82 58.41 64.92 63.95 72.98 70.25 68.24 2005 63.00 67.32 75.52 79.83 73.22 75.38 83.97 84.23 97.29 99.31 89.88 87.18 2006 86.16 88.70 88.92 92.58 93.65 91.88 95.35 95.83 91.16 87.63 84.57 84.10 2007 79.39 81.32 82.06 88.05 88.24 88.95 92.10 91.65 95.35 97.54 106.94 108.94

Nous allons eectuer un lissage exponentiel double avec = 0.7. On r ealise dabord un premier lissage en utilisant la formule r ecursive Xt (1) = (1 ) Xt + Xt1 (1) , X0 (1) = X1 ,

6.7. LISSAGE EXPONENTIEL


1 o` u St = Xt (1). On obtient :

153

1 S1 = X1 (1) = (1 )X1 + X0 (1) = (1 0.7)X1 + 0.7X1 = X1 = 54.23, 1 S2 = X2 (1) = (1 )X2 + X1 (1) = 0.3 51.51 + 0.7 54.23 = 53.414, 1 S3 = X3 (1) = (1 )X3 + X2 (1) = 0.3 55.60 + 0.7 53.41 = 54.070,

et ainsi de suite. On r ealise ensuite un second lissage que lon applique ` a la s erie liss ee.
2 1 2 St = (1 )St + St 1 , 2 1 S0 = S1 .

On cherche alors Xt (k ) = a + bk pour chaque t. On prend ici k = 1, Xt (1) = a + b avec :


1 2 a = 2 St St ) 0.3 ( 1 ) 1 ( 1 2 2 b = St St = St St 0.7

Le tableau 6.9 rend compte des r esultats pour les ann ees 2004 ` a 2007. La gure 6.16 repr esente la s erie initiale, le lissage exponentiel simple et le lissage exponentiel double.

154CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Table 6.9 Lissage exponentiel simple et double de la s erie temporelle Prix moyen du Mazout pour 100 litres (achat entre 800 et 1500 litres) en CHF
Ann ee 2004 mois 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 Xt 54.23 51.51 55.60 55.72 58.71 58.82 58.41 64.92 63.95 72.98 70.25 68.24 63.00 67.32 75.52 79.83 73.22 75.38 83.97 84.23 97.29 99.31 89.88 87.18 86.16 88.70 88.92 92.58 93.65 91.88 95.35 95.83 91.16 87.63 84.57 84.10 79.39 81.32 82.06 88.05 88.24 88.95 92.10 91.65 95.35 97.54 106.94 108.94
1 =X St LES (1) 54.23 54.23 53.41 54.07 54.56 55.81 56.71 57.22 59.53 60.86 64.49 66.22 66.83 65.68 66.17 68.98 72.23 72.53 73.38 76.56 78.86 84.39 88.87 89.17 88.57 87.85 88.10 88.35 89.62 90.83 91.14 92.41 93.43 92.75 91.21 89.22 87.68 85.20 84.03 83.44 84.82 85.85 86.78 88.38 89.36 91.16 93.07 97.23 100.74 2 St 54.23 54.23 54.23 53.99 54.01 54.18 54.67 55.28 55.86 56.96 58.13 60.04 61.89 63.37 64.07 64.70 65.98 67.86 69.26 70.50 72.31 74.28 77.31 80.78 83.30 84.88 85.77 86.47 87.03 87.81 88.71 89.44 90.33 91.26 91.71 91.56 90.86 89.91 88.49 87.16 86.04 85.68 85.73 86.04 86.74 87.53 88.62 89.95 92.14

2005

2006

2007

2008

a 54.23 54.23 52.60 54.15 55.12 57.44 58.76 59.16 63.20 64.75 70.86 72.40 71.76 67.98 68.28 73.25 78.48 77.20 77.51 82.62 85.41 94.50 100.42 97.56 93.85 90.82 90.44 90.23 92.20 93.85 93.57 95.37 96.53 94.24 90.72 86.88 84.51 80.49 79.57 79.73 83.61 86.02 87.83 90.71 91.97 94.78 97.53 104.51 109.35

b 0 0 -0.350 0.036 0.238 0.699 0.877 0.832 1.572 1.669 2.727 2.649 2.114 0.988 0.902 1.834 2.679 2.002 1.768 2.599 2.805 4.333 4.952 3.597 2.262 1.273 1.000 0.805 1.108 1.294 1.041 1.269 1.329 0.638 -0.212 -1.003 -1.360 -2.019 -1.911 -1.592 -0.522 0.074 0.451 0.999 1.121 1.555 1.909 3.120 3.689

XLED (1) = a + b 54.23 54.23 52.25 54.19 55.36 58.14 59.63 59.99 64.77 66.42 73.58 75.05 73.87 68.97 69.18 75.09 81.16 79.20 79.28 85.22 88.21 98.83 105.37 101.16 96.11 92.09 91.44 91.03 93.31 95.14 94.61 96.64 97.86 94.88 90.51 85.88 83.15 78.47 77.66 78.14 83.09 86.10 88.28 91.71 93.09 96.34 99.44 107.63 113.04

6.7. LISSAGE EXPONENTIEL

155

prix

60

70

80

90

100

110

Lissage exponentiel simple Lissage exponentiel double

50 2004

2005

2006 temps

2007

2008

Figure 6.16 Evolution du prix du mazout en CHF (achat entre 800 et 1500 ), lissage exponentiel double et lissage exponentiel simple

156CHAPITRE 6. SERIES TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Exercices
Exercice 6.1 D esaisonnalisez la s erie suivante (cest une s erie trimestrielle sur 3 ann ees) 2417, 1605, 1221, 1826, 2367, 1569, 1176, 1742, 2804, 1399, 1063, 1755 par la m ethode additive, en utilisant une moyenne mobile dordre 4. Solution Il sagit de M A(4) = Nr. 1 2 3 4 5 6 7 8 9 10 11 12 S erie 2417 1605 1221 1826 2367 1569 1176 1742 2804 1399 1063 1755 Trim. 1 2 3 4 1 2 3 4 1 2 3 4 MM(4) L2 + 2L + 2I + 2F + F 2 . 8 S erie-MM(4) Desaison. 1589.53125 1864.71875 1791.96875 1822.78125 1539.53125 1828.71875 1746.96875 1738.78125 1976.53125 1658.71875 1633.96875 1751.78125 1 2 3 4 Total S 832.375 -254.8125 -566.0625 8.125 19.625 S 827.46875 -259.71875 -570.96875 3.21875 0

1761 1750.25 1740.125 1724 1768.125 1801.5 1766.125 1753.625

-540 75.75 626.875 -155 -592.125 -59.5 1037.875 -354.625

Exercice 6.2 En langage R utilisez la s erie ldeaths qui est une s erie qui se trouve dans le package de base datasets. Lisez la documentation, puis d esaisonnalisez cette s erie par les m ethodes additive et multiplicative.

Chapitre 7

Tables statistiques

157

158

CHAPITRE 7. TABLES STATISTIQUES

Table 7.1 Table des quantiles zp = 1 (p) dune variable normale centr ee r eduite

p 0 zp +

Ordre du quantile (p) 0.500 0.550 0.600 0.650 0.700 0.750 0.800 0.850 0.900 0.950 0.970 0.971 0.972 0.973 0.974

quantile (zp ) 0.0000 0.1257 0.2533 0.3853 0.5244 0.6745 0.8416 1.0364 1.2816 1.6449 1.8808 1.8957 1.9110 1.9268 1.9431

Ordre du quantile (p) 0.975 0.976 0.977 0.978 0.979 0.990 0.991 0.992 0.993 0.994 0.995 0.996 0.997 0.998 0.999

Quantile (zp ) 1.9600 1.9774 1.9954 2.0141 2.0335 2.3263 2.3656 2.4089 2.4573 2.5121 2.5758 2.6521 2.7478 2.8782 3.0902

159

Table 7.2 Fonction de r epartition de la loi normale centr ee r eduite (Probabilit e de trouver une valeur inf erieur ` a u)

p = (u) 0 u +

u 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4

0.0 .5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 .9987 .9990 .9993 .9995 .9997

.01 .5040 .5438 .5832 .6217 .6591 .6950 .7291 .7611 .7910 .8186 .8438 .8665 .8869 .9049 .9207 .9345 .9463 .9564 .9649 .9719 .9778 .9826 .9864 .9896 .9920 .9940 .9955 .9966 .9975 .9982 .9987 .9991 .9993 .9995 .9997

.02 .5080 .5478 .5871 .6255 .6628 .6985 .7324 .7642 .7939 .8212 .8461 .8686 .8888 .9066 .9222 .9357 .9474 .9573 .9656 .9726 .9783 .9830 .9868 .9898 .9922 .9941 .9956 .9967 .9976 .9982 .9987 .9991 .9994 .9995 .9997

.03 .5120 .5517 .5910 .6293 .6664 .7019 .7357 .7673 .7967 .8238 .8485 .8708 .8907 .9082 .9236 .9370 .9484 .9582 .9664 .9732 .9788 .9834 .9871 .9901 .9925 .9943 .9957 .9968 .9977 .9983 .9988 .9991 .9994 .9996 .9997

.04 .5160 .5557 .5948 .6331 .6700 .7054 .7389 .7704 .7995 .8264 .8508 .8729 .8925 .9099 .9251 .9382 .9495 .9591 .9671 .9738 .9793 .9838 .9875 .9904 .9927 .9945 .9959 .9969 .9977 .9984 .9988 .9992 .9994 .9996 .9997

.05 .5199 .5596 .5987 .6368 .6736 .7088 .7422 .7734 .8023 .8289 .8531 .8749 .8944 .9115 .9265 .9394 .9505 .9599 .9678 .9744 .9798 .9842 .9878 .9906 .9929 .9946 .9960 .9970 .9978 .9984 .9989 .9992 .9994 .9996 .9997

.06 .5239 .5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .8554 .8770 .8962 .9131 .9279 .9406 .9515 .9608 .9686 .9750 .9803 .9846 .9881 .9909 .9931 .9948 .9961 .9971 .9979 .9985 .9989 .9992 .9994 .9996 .9997

.07 .5279 .5675 .6064 .6443 .6808 .7157 .7486 .7794 .8078 .8340 .8577 .8790 .8980 .9147 .9292 .9418 .9525 .9616 .9693 .9756 .9808 .9850 .9884 .9911 .9932 .9949 .9962 .9972 .9979 .9985 .9989 .9992 .9995 .9996 .9997

.08 .5319 .5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .8599 .8810 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .9980 .9986 .9990 .9993 .9995 .9996 .9997

.09 .5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .8830 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 .9817 .9857 .9890 .9916 .9936 .9952 .9964 .9974 .9981 .9986 .9990 .9993 .9995 .9997 .9998

CHAPITRE 7. TABLES STATISTIQUES

Table 7.3 quantiles de la loi normale centr ee r eduite (u : valeur ayant la probabilit e d etre d epass e en valeur absolue)

/2 u 0 +u

/2 +

160

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

0 1.6449 1.2816 1.0364 0.8416 0.6745 0.5244 0.3853 0.2533 0.1257

0.01 2.5758 1.5982 1.2536 1.0152 0.8239 0.6588 0.5101 0.3719 0.2404 0.1130

0.02 2.3263 1.5548 1.2265 0.9945 0.8064 0.6433 0.4958 0.3585 0.2275 0.1004

0.03 2.1701 1.5141 1.2004 0.9741 0.7892 0.6280 0.4817 0.3451 0.2147 0.0878

0.04 2.0537 1.4758 1.1750 0.9542 0.7722 0.6128 0.4677 0.3319 0.2019 0.0753

0.05 1.9600 1.4395 1.1503 0.9346 0.7554 0.5978 0.4538 0.3186 0.1891 0.0627

0.06 1.8808 1.4051 1.1264 0.9154 0.7388 0.5828 0.4399 0.3055 0.1764 0.0502

0.07 1.8119 1.3722 1.1031 0.8965 0.7225 0.5681 0.4261 0.2924 0.1637 0.0376

0.08 1.7507 1.3408 1.0803 0.8779 0.7063 0.5534 0.4125 0.2793 0.1510 0.0251

0.09 1.6954 1.3106 1.0581 0.8596 0.6903 0.5388 0.3989 0.2663 0.1383 0.0125

161

Table 7.4 Table des quantiles dune variable 2 ` a n degr es de libert e


ordre du quantile 0.05 0.95 0.003932 3.841 0.103 5.991 0.352 7.815 0.711 9.488 1.145 11.07 1.635 12.59 2.167 14.07 2.733 15.51 3.325 16.92 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.12 10.85 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49 19.28 20.07 20.87 21.66 22.47 23.27 24.07 24.88 25.70 26.51 28.14 29.79 31.44 33.10 34.76 43.19 51.74 60.39 69.13 77.93 86.79 95.70 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 44.99 46.19 47.40 48.60 49.80 51.00 52.19 53.38 54.57 55.76 58.12 60.48 62.83 65.17 67.50 79.08 90.53 101.88 113.15 124.34 135.48 146.57

n=1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 42 44 46 48 50 60 70 80 90 100 110 120

0.01 0.000157 0.02010 0.115 0.297 0.554 0.872 1.239 1.646 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.20 10.86 11.52 12.20 12.88 13.56 14.26 14.95 15.66 16.36 17.07 17.79 18.51 19.23 19.96 20.69 21.43 22.16 23.65 25.15 26.66 28.18 29.71 37.48 45.44 53.54 61.75 70.06 78.46 86.92

0.025 0.000982 0.05064 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.28 10.98 11.69 12.40 13.12 13.84 14.57 15.31 16.05 16.79 17.54 18.29 19.05 19.81 20.57 21.34 22.11 22.88 23.65 24.43 26.00 27.57 29.16 30.75 32.36 40.48 48.76 57.15 65.65 74.22 82.87 91.57

0.975 5.024 7.378 9.348 11.14 12.83 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98 48.23 49.48 50.73 51.97 53.20 54.44 55.67 56.90 58.12 59.34 61.78 64.20 66.62 69.02 71.42 83.30 95.02 106.63 118.14 129.56 140.92 152.21

0.99 6.635 9.210 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 52.19 53.49 54.78 56.06 57.34 58.62 59.89 61.16 62.43 63.69 66.21 68.71 71.20 73.68 76.15 88.38 100.43 112.33 124.12 135.81 147.41 158.95

162

CHAPITRE 7. TABLES STATISTIQUES

Table 7.5 Table des quantiles dune variable de Student ` a n degr es de libert e
ordre du 0.975 12.71 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.040 2.037 2.035 2.032 2.030 2.028 2.026 2.024 2.023 2.021 2.009 2.000 1.994 1.990 1.987 1.984 1.980 1.960 quantile 0.99 31.82 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.453 2.449 2.445 2.441 2.438 2.434 2.431 2.429 2.426 2.423 2.403 2.390 2.381 2.374 2.368 2.364 2.358 2.327

n=1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 50 60 70 80 90 100 120

0.95 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.696 1.694 1.692 1.691 1.690 1.688 1.687 1.686 1.685 1.684 1.676 1.671 1.667 1.664 1.662 1.660 1.658 1.645

0.995 63.66 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.744 2.738 2.733 2.728 2.724 2.719 2.715 2.712 2.708 2.704 2.678 2.660 2.648 2.639 2.632 2.626 2.617 2.576

163

Table 7.6 Table des quantiles dordre 0.95 dune variable de Fisher ` a n1 et n2 degr es de libert e
n1 =1 161.4 18.51 10.13 7.709 6.608 5.987 5.591 5.318 5.117 4.965 4.844 4.747 4.667 4.600 4.543 4.494 4.451 4.414 4.381 4.351 4.325 4.301 4.279 4.260 4.242 4.225 4.210 4.196 4.183 4.171 4.149 4.130 4.113 4.098 4.085 4.034 4.001 3.920 3.841 2 199.5 19.00 9.552 6.944 5.786 5.143 4.737 4.459 4.256 4.103 3.982 3.885 3.806 3.739 3.682 3.634 3.592 3.555 3.522 3.493 3.467 3.443 3.422 3.403 3.385 3.369 3.354 3.340 3.328 3.316 3.295 3.276 3.259 3.245 3.232 3.183 3.150 3.072 2.996 3 215.7 19.16 9.277 6.591 5.409 4.757 4.347 4.066 3.863 3.708 3.587 3.490 3.411 3.344 3.287 3.239 3.197 3.160 3.127 3.098 3.072 3.049 3.028 3.009 2.991 2.975 2.960 2.947 2.934 2.922 2.901 2.883 2.866 2.852 2.839 2.790 2.758 2.680 2.605 4 224.6 19.25 9.117 6.388 5.192 4.534 4.120 3.838 3.633 3.478 3.357 3.259 3.179 3.112 3.056 3.007 2.965 2.928 2.895 2.866 2.840 2.817 2.796 2.776 2.759 2.743 2.728 2.714 2.701 2.690 2.668 2.650 2.634 2.619 2.606 2.557 2.525 2.447 2.372 5 230.2 19.30 9.013 6.256 5.050 4.387 3.972 3.687 3.482 3.326 3.204 3.106 3.025 2.958 2.901 2.852 2.810 2.773 2.740 2.711 2.685 2.661 2.640 2.621 2.603 2.587 2.572 2.558 2.545 2.534 2.512 2.494 2.477 2.463 2.449 2.400 2.368 2.290 2.214 6 234.0 19.33 8.941 6.163 4.950 4.284 3.866 3.581 3.374 3.217 3.095 2.996 2.915 2.848 2.790 2.741 2.699 2.661 2.628 2.599 2.573 2.549 2.528 2.508 2.490 2.474 2.459 2.445 2.432 2.421 2.399 2.380 2.364 2.349 2.336 2.286 2.254 2.175 2.099 7 236.8 19.35 8.887 6.094 4.876 4.207 3.787 3.500 3.293 3.135 3.012 2.913 2.832 2.764 2.707 2.657 2.614 2.577 2.544 2.514 2.488 2.464 2.442 2.423 2.405 2.388 2.373 2.359 2.346 2.334 2.313 2.294 2.277 2.262 2.249 2.199 2.167 2.087 2.010 8 238.9 19.37 8.845 6.041 4.818 4.147 3.726 3.438 3.230 3.072 2.948 2.849 2.767 2.699 2.641 2.591 2.548 2.510 2.477 2.447 2.420 2.397 2.375 2.355 2.337 2.321 2.305 2.291 2.278 2.266 2.244 2.225 2.209 2.194 2.180 2.130 2.097 2.016 1.938 9 240.5 19.38 8.812 5.999 4.772 4.099 3.677 3.388 3.179 3.020 2.896 2.796 2.714 2.646 2.588 2.538 2.494 2.456 2.423 2.393 2.366 2.342 2.320 2.300 2.282 2.265 2.250 2.236 2.223 2.211 2.189 2.170 2.153 2.138 2.124 2.073 2.040 1.959 1.880 10 241.9 19.40 8.786 5.964 4.735 4.060 3.637 3.347 3.137 2.978 2.854 2.753 2.671 2.602 2.544 2.494 2.450 2.412 2.378 2.348 2.321 2.297 2.275 2.255 2.236 2.220 2.204 2.190 2.177 2.165 2.142 2.123 2.106 2.091 2.077 2.026 1.993 1.910 1.831 12 243.9 19.41 8.745 5.912 4.678 4.000 3.575 3.284 3.073 2.913 2.788 2.687 2.604 2.534 2.475 2.425 2.381 2.342 2.308 2.278 2.250 2.226 2.204 2.183 2.165 2.148 2.132 2.118 2.104 2.092 2.070 2.050 2.033 2.017 2.003 1.952 1.917 1.834 1.752 14 245.4 19.42 8.715 5.873 4.636 3.956 3.529 3.237 3.025 2.865 2.739 2.637 2.554 2.484 2.424 2.373 2.329 2.290 2.256 2.225 2.197 2.173 2.150 2.130 2.111 2.094 2.078 2.064 2.050 2.037 2.015 1.995 1.977 1.962 1.948 1.895 1.860 1.775 1.692 16 246.5 19.43 8.692 5.844 4.604 3.922 3.494 3.202 2.989 2.828 2.701 2.599 2.515 2.445 2.385 2.333 2.289 2.250 2.215 2.184 2.156 2.131 2.109 2.088 2.069 2.052 2.036 2.021 2.007 1.995 1.972 1.952 1.934 1.918 1.904 1.850 1.815 1.728 1.644 20 248.0 19.45 8.660 5.803 4.558 3.874 3.445 3.150 2.936 2.774 2.646 2.544 2.459 2.388 2.328 2.276 2.230 2.191 2.155 2.124 2.096 2.071 2.048 2.027 2.007 1.990 1.974 1.959 1.945 1.932 1.908 1.888 1.870 1.853 1.839 1.784 1.748 1.659 1.571 30 250.1 19.46 8.617 5.746 4.496 3.808 3.376 3.079 2.864 2.700 2.570 2.466 2.380 2.308 2.247 2.194 2.148 2.107 2.071 2.039 2.010 1.984 1.961 1.939 1.919 1.901 1.884 1.869 1.854 1.841 1.817 1.795 1.776 1.760 1.744 1.687 1.649 1.554 1.459 254.3 19.50 8.526 5.628 4.365 3.669 3.230 2.928 2.707 2.538 2.404 2.296 2.206 2.131 2.066 2.010 1.960 1.917 1.878 1.843 1.812 1.783 1.757 1.733 1.711 1.691 1.672 1.654 1.638 1.622 1.594 1.569 1.547 1.527 1.509 1.438 1.389 1.254 1.000

n2 =1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 32 34 36 38 40 50 60 120

164

CHAPITRE 7. TABLES STATISTIQUES

Table 7.7 Table des quantiles dordre 0.99 dune variable de Fisher ` a n1 et n2 degr es de libert e
n1 =1 4052 98.50 34.12 21.20 16.26 13.75 12.25 11.26 10.56 10.04 9.646 9.330 9.074 8.862 8.683 8.531 8.400 8.285 8.185 8.096 8.017 7.945 7.881 7.823 7.770 7.721 7.677 7.636 7.598 7.562 7.499 7.444 7.396 7.353 7.314 7.171 7.077 6.851 6.635 2 5000 99.00 30.82 18.00 13.27 10.93 9.547 8.649 8.022 7.559 7.206 6.927 6.701 6.515 6.359 6.226 6.112 6.013 5.926 5.849 5.780 5.719 5.664 5.614 5.568 5.526 5.488 5.453 5.420 5.390 5.336 5.289 5.248 5.211 5.179 5.057 4.977 4.787 4.605 3 5403 99.17 29.46 16.69 12.06 9.780 8.451 7.591 6.992 6.552 6.217 5.953 5.739 5.564 5.417 5.292 5.185 5.092 5.010 4.938 4.874 4.817 4.765 4.718 4.675 4.637 4.601 4.568 4.538 4.510 4.459 4.416 4.377 4.343 4.313 4.199 4.126 3.949 3.782 4 5625 99.25 28.71 15.98 11.39 9.148 7.847 7.006 6.422 5.994 5.668 5.412 5.205 5.035 4.893 4.773 4.669 4.579 4.500 4.431 4.369 4.313 4.264 4.218 4.177 4.140 4.106 4.074 4.045 4.018 3.969 3.927 3.890 3.858 3.828 3.720 3.649 3.480 3.319 5 5764 99.30 28.24 15.52 10.97 8.746 7.460 6.632 6.057 5.636 5.316 5.064 4.862 4.695 4.556 4.437 4.336 4.248 4.171 4.103 4.042 3.988 3.939 3.895 3.855 3.818 3.785 3.754 3.725 3.699 3.652 3.611 3.574 3.542 3.514 3.408 3.339 3.174 3.017 6 5859 99.33 27.91 15.21 10.67 8.466 7.191 6.371 5.802 5.386 5.069 4.821 4.620 4.456 4.318 4.202 4.102 4.015 3.939 3.871 3.812 3.758 3.710 3.667 3.627 3.591 3.558 3.528 3.499 3.473 3.427 3.386 3.351 3.319 3.291 3.186 3.119 2.956 2.802 7 5928 99.36 27.67 14.98 10.46 8.260 6.993 6.178 5.613 5.200 4.886 4.640 4.441 4.278 4.142 4.026 3.927 3.841 3.765 3.699 3.640 3.587 3.539 3.496 3.457 3.421 3.388 3.358 3.330 3.304 3.258 3.218 3.183 3.152 3.124 3.020 2.953 2.792 2.639 8 5981 99.37 27.49 14.80 10.29 8.102 6.840 6.029 5.467 5.057 4.744 4.499 4.302 4.140 4.004 3.890 3.791 3.705 3.631 3.564 3.506 3.453 3.406 3.363 3.324 3.288 3.256 3.226 3.198 3.173 3.127 3.087 3.052 3.021 2.993 2.890 2.823 2.663 2.511 9 6022 99.39 27.35 14.66 10.16 7.976 6.719 5.911 5.351 4.942 4.632 4.388 4.191 4.030 3.895 3.780 3.682 3.597 3.523 3.457 3.398 3.346 3.299 3.256 3.217 3.182 3.149 3.120 3.092 3.067 3.021 2.981 2.946 2.915 2.888 2.785 2.718 2.559 2.407 10 6056 99.40 27.23 14.55 10.05 7.874 6.620 5.814 5.257 4.849 4.539 4.296 4.100 3.939 3.805 3.691 3.593 3.508 3.434 3.368 3.310 3.258 3.211 3.168 3.129 3.094 3.062 3.032 3.005 2.979 2.934 2.894 2.859 2.828 2.801 2.698 2.632 2.472 2.321 12 6106 99.42 27.05 14.37 9.888 7.718 6.469 5.667 5.111 4.706 4.397 4.155 3.960 3.800 3.666 3.553 3.455 3.371 3.297 3.231 3.173 3.121 3.074 3.032 2.993 2.958 2.926 2.896 2.868 2.843 2.798 2.758 2.723 2.692 2.665 2.562 2.496 2.336 2.185 14 6143 99.43 26.92 14.25 9.770 7.605 6.359 5.559 5.005 4.601 4.293 4.052 3.857 3.698 3.564 3.451 3.353 3.269 3.195 3.130 3.072 3.019 2.973 2.930 2.892 2.857 2.824 2.795 2.767 2.742 2.696 2.657 2.622 2.591 2.563 2.461 2.394 2.234 2.082 16 6170 99.44 26.83 14.15 9.680 7.519 6.275 5.477 4.924 4.520 4.213 3.972 3.778 3.619 3.485 3.372 3.275 3.190 3.116 3.051 2.993 2.941 2.894 2.852 2.813 2.778 2.746 2.716 2.689 2.663 2.618 2.578 2.543 2.512 2.484 2.382 2.315 2.154 2.000 20 6209 99.45 26.69 14.02 9.553 7.396 6.155 5.359 4.808 4.405 4.099 3.858 3.665 3.505 3.372 3.259 3.162 3.077 3.003 2.938 2.880 2.827 2.781 2.738 2.699 2.664 2.632 2.602 2.574 2.549 2.503 2.463 2.428 2.397 2.369 2.265 2.198 2.035 1.878 30 6261 99.47 26.51 13.84 9.379 7.229 5.992 5.198 4.649 4.247 3.941 3.701 3.507 3.348 3.214 3.101 3.003 2.919 2.844 2.778 2.720 2.667 2.620 2.577 2.538 2.503 2.470 2.440 2.412 2.386 2.340 2.299 2.263 2.232 2.203 2.098 2.028 1.860 1.696 6366 99.50 26.13 13.46 9.020 6.880 5.650 4.859 4.311 3.909 3.602 3.361 3.165 3.004 2.868 2.753 2.653 2.566 2.489 2.421 2.360 2.305 2.256 2.211 2.169 2.131 2.097 2.064 2.034 2.006 1.956 1.911 1.872 1.837 1.805 1.683 1.601 1.381 1.000

n2 =1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 32 34 36 38 40 50 60 120

Liste des tableaux


1.1 1.2 1.3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 4.1 4.2 4.3 4.4 5.1 5.2 5.3 6.1 6.2 6.3 6.4 6.5 Codication de la variable Y . . . . . . . . . . . . . . . . . . . . S erie statistique de la variable Y . . . . . . . . . . . . . . . . . . Tableau statistique complet . . . . . . . . . . . . . . . . . . . . . Tableau des eectifs njk . . . . . . . . . Tableau des fr equences . . . . . . . . . Tableau des prols lignes . . . . . . . . Tableau des prols colonnes . . . . . . Tableau des eectifs th eoriques n . . jk Tableau des ecarts ` a lind ependance ejk Tableau des e2 jk /njk . . . . . . . . . . . Tableau de contingence : eectifs njk . . Tableau des fr equences fjk . . . . . . . . Tableau des prols lignes . . . . . . . . Tableau des prols colonnes . . . . . . . Tableau des eectifs th eoriques n jk . . . Tableau des ecarts ` a lind ependance ejk Tableau des e2 jk /njk . . . . . . . . . . . Consommation de cr` emes glac ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 14 65 66 66 66 68 68 68 69 69 69 69 70 70 70 71 77 78 79 86 89 93 94 129 131 132 147 148

Tableau du prix dun bien de consommation de 2000 ` a 2006 Tableau de lindice simple du prix du tableau 4.1 . . . . . . Exemple : prix et quantit es de trois bien pendant 3 ans . . Mesures de lin egalit e par pays . . . . . . . . . . . . . . . .

Syst` eme complet d ev enements . . . . . . . . . . . . . . . . . . . Illustration du th eor` eme des probabilit es totales . . . . . . . . . . Factorielle des nombres de 1 ` a 10 . . . . . . . . . . . . . . . . . Biens manufactur es aux USA . . . . . . . . . . . . . . Indice des prix ` a la consommation (France) . . . . . . Trac du nombre de voyageurs SNCF . . . . . . . . . D ecomposition de la variable FRIG, m ethode additive Moyenne des composantes saisonni` eres . . . . . . . . . 165 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

166 6.6 6.7 6.8 6.9

LISTE DES TABLEAUX D ecomposition de la variable FRIG, m ethode multiplicative . . . Moyenne des composantes saisonni` eres . . . . . . . . . . . . . . . Prix moyen du Mazout pour 100 (achat entre 800 et 1500 ) . . Lissage exponentiel simple et double de la s erie temporelle Prix moyen du Mazout pour 100 litres (achat entre 800 et 1500 litres) en CHF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 150 152

154

7.1 7.2 7.3 7.4 7.5 7.6 7.7

Table des quantiles zp = 1 (p) dune variable normale centr ee r eduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 Fonction de r epartition de la loi normale centr ee r eduite . . . . . 159 quantiles de la loi normale centr ee r eduite . . . . . . . . . . . . . 160 Table des quantiles dune variable 2 ` a n degr es de libert e . . . . 161 Table des quantiles dune variable de Student ` a n degr es de libert e 162 Table des quantiles dordre 0.95 dune variable de Fisher ` a n1 et n2 degr es de libert e . . . . . . . . . . . . . . . . . . . . . . . . . . 163 Table des quantiles dordre 0.99 dune variable de Fisher ` a n1 et n2 degr es de libert e . . . . . . . . . . . . . . . . . . . . . . . . . . 164

Table des gures


Diagramme en secteurs des fr equences . . . . . . . . . . . . . . . Diagramme en barres des eectifs . . . . . . . . . . . . . . . . . . Diagramme en secteurs des fr equences . . . . . . . . . . . . . . . Diagramme en barres des eectifs . . . . . . . . . . . . . . . . . Diagramme en barres des eectifs cumul es . . . . . . . . . . . . Diagramme en b atonnets des eectifs pour une variable quantitative discr` ete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Fonction de r epartition dune variable quantitative discr` ete . . . 1.8 Histogramme des fr equences . . . . . . . . . . . . . . . . . . . . . 1.9 Histogramme des fr equences avec les deux derni` eres classes agr eg ees 1.10 Fonction de r epartition dune distribution group ee . . . . . . . . 2.1 2.2 2.3 2.4 2.5 2.6 M ediane quand n est impair . . . . . . . . . . . . . . . . . . . . . M ediane quand n est pair . . . . . . . . . . . . . . . . . . . . . . Asym etrie dune distribution . . . . . . . . . . . . . . . . . . . . Distributions m esokurtique et leptokurtique . . . . . . . . . . . . Bo tes ` a moustaches pour la variable supercie en hectares (HApoly) des communes du canton de Neuch atel . . . . . . . . . . . Bo tes ` a moustaches du revenu moyen des habitants des communes selon les provinces belges . . . . . . . . . . . . . . . . . . . Le nuage de points . . . . . . Exemples de nuages de points Le nuage de points, le r esidu La droite de r egression . . . . . . . . . . . . et coecients . . . . . . . . . . . . . . . . . . . . . . . . de corr elation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 1.2 1.3 1.4 1.5 1.6 12 13 15 16 16 18 19 22 23 24 34 34 41 42 47 48 54 56 57 60 83 97 101 103 104 105

3.1 3.2 3.3 3.4 4.1 5.1 5.2 5.3 5.4 5.5

Courbe de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution de faces obtenus. . . . . . . . . . . . . . . . . . . . Distribution dune variable al eatoire binomiale avec n = 5 et p = 0.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution dune variable de Poisson avec = 1. . . . . . . . . Probabilit e que la variable al eatoire soit inf erieure ` aa . . . . . . Fonction de densit e dune variable uniforme . . . . . . . . . . . . 167

168 5.6 5.7 5.8 5.9 5.10 5.11 5.12

TABLE DES FIGURES 106 108 109 109 111 117 118 118 119 119 128 130 131 131 132 133 135 137 137 138 139 139 139 143 146 155

Fonction de r epartition dune variable uniforme . . . . . . . . . . Fonction de densit e dune variable normale . . . . . . . . . . . . Fonction de r epartition dune variable normale . . . . . . . . . . Densit e dune normale centr ee r eduite, sym etrie . . . . . . . . . . Fonction de densit e dune variable exponentielle avec = 1. . . . Densit e dune variable de chi-carr e avec p = 1, 2, . . . , 10 . . . . . . Densit es de variables de Student avec p = 1, 2 et 3 et dune variable normale . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.13 Densit e dune variable de Fisher . . . . . . . . . . . . . . . . . . 5.14 Densit e dune normale bivari ee . . . . . . . . . . . . . . . . . . . 5.15 Nuage de points de r ealisations dune normale bivari ee . . . . . . 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14 6.15 6.16 D epenses en biens durables USA (milliards de dollars de 1982) . Nombre de r efrig erateurs vendus de 1978 ` a 1985 . . . . . . . . . Indice des prix ` a la consommation pt . . . . . . . . . . . . . . . . Rapport mensuel des indices de prix pt /pt1 . . . . . . . . . . . . Rapport en glissement annuel des indices de prix pt /pt12 . . . . Trac du nombre de voyageurs SNCF . . . . . . . . . . . . . . . Exemple de fonction logistique avec c = 0.5 . . . . . . . . . . . . S erie avec une tendance lin eaire d ependant du temps . . . . . . Di erence dordre un de la s erie avec une tendance lin eaire . . . Di erence dordre 4 de la variable vente de r efrig erateurs . . . . Trac du nombre de voyageurs SNCF . . . . . . . . . . . . . . . Di erence dordre 12 sur la s erie trac du nombre de voyageurs SNCF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Logarithme du rapport dordre 12 sur la s erie trac du nombre de voyageurs SNCF . . . . . . . . . . . . . . . . . . . . . . . . . . Nombre de r efrig erateurs et moyenne mobile dordre 4 . . . . . . D ecomposition de la s erie de ventes de r efrig erateurs 6.1 . . . . . Evolution du prix du mazout en CHF (achat entre 800 et 1500 ), lissage exponentiel double et lissage exponentiel simple . . . .

Index
analyse combinatoire, 94 arrangement, 95 axiomatique, 89 Bernoulli, 98 bernoullienne, 98 bin ome de Newton, 98 bo te ` a moustaches, 46 Boudon, 68 boxplot, 46 changement dorigine et dunit e, 42 circularit e, 78 coecient dasym etrie de Fisher, 41 dasym etrie de Pearson, 41 dasym etrie de Yule, 41 de corr elation, 56 de d etermination, 56 combinaison, 95 compl ementaire, 88 composante saisonni` ere, 141 corr elation, 56 courbe de Lorenz, 82 leptokurtique, 42 m esokurtique, 42 platykurtique, 42 covariance, 55, 122 d ecile, 36 share ratio, 84 d eriv ees partielles, 58 d esaisonnalisation, 145 densit e marginale, 123 diagramme en barres, 12 des eectifs, 15 en b atonnets des eectifs, 18 en boite, 46 en feuilles, 45 en secteurs, 12, 15 en tiges, 45 di erence, 88, 136 saisonni` ere, 138 distance interquartile, 37 distribution binomiale, 98, 101 bivar ee, 120 bivari ee, 110 conditionnelle, 112, 113 de probabilit e, 97 exponentielle, 110 group ee, 20 leptokurtique, 42 m esokurtique, 42 marginale, 111, 112, 119, 120 normale bivari ee, 120, 122 domaine, 9 donn ees observ ees, 64 droite de r egression, 57 ecart ` a lind ependance, 67 m edian absolu, 40 moyen absolu, 40 ecart-type, 38 marginal, 55 eectif, 11 dune modalit e, 11 dune valeur disctincte, 11 marginal, 64 th eorique, 67 169

170 ensemble parties dun ensemble, 89 syst` eme complet, 89 esp erance, 97, 114 conditionnelle, 121 dune variable binomiale, 99 indicatrice, 98 propri et es, 114 etendue, 37 ev enements, 87 ind ependants, 92 mutuellement exclusifs, 88 exp erience al eatoire, 87 ltre lin eraire, 140 fonction, 104 de densit e, 108 conditionnelle, 112 dune variable al eatoire continue, 104 dune variable exponentielle, 111 dune variable uniforme, 105 marginale, 111, 112 de r epartition, 19, 23, 33 discontinue, 35 jointe, 111, 112 par palier, 34 forward operator, 136 fr equence, 11 groupe, 44 histogramme, 21 histogramme des fr equence, 22 homosc edastique, 122 identit e, 78 ind ependance, 113 indice, 77 chaine, 81 d equir epartition, 84 de Fisher, 80 de Gini, 84 de Hoover, 84 de Laspeyres, 78 de Paasche, 80 de pauvret e, 85 de Sidgwick, 81 propri et es, 78 selon les pays, 85 simple, 78 synth etique, 78 intersection, 88 khi-carr e, 67 lag operator, 136 lissage exponentiel, 147 double, 150 simple, 147 loi normale bivari ee, 118

INDEX

m ediane, 35 mobile, 145 m ethode additive, 145 multiplicative, 145 m ediane, 33 mesures din egalit e, 77 mise en evidence, 30 mod` ele lin eaire, 136 modalit es, 9 mode, 27 moindres carr es, 58, 150 moment, 40 a lorigine, 40 ` centr e, 40, 41 dordres sup erieurs, 40 moyenne, 27, 28, 31, 34, 43, 44, 55, 71 conditionnelle, 112, 113 g eom etrique, 31, 81 harmonique, 31, 80 marginale, 55, 111, 112, 118, 120 mobile, 140 Henderson, 144 non-pond er ee, 141 Spencer, 143 sym etrique, 141 Van Hann, 143 pond er ee, 32, 44

INDEX normale bivari ee, 118 op erateur avance, 136 de d ecalage, 136 de di erence, 136 forward, 136 identit e, 136 lag, 136 retard, 136 signe de sommation, 29 skewness, 41 somme dune constante, 29 des carr es, 30 de la r egression, 61 des r esidus, 58, 61 totale, 61 statistique, 9 descriptive bivari ee, 53 univari ee, 27 syst` eme complet d ev enements, 89

171

param` etres daplatissement, 42 de dispersion, 37 de forme, 41 tableau de position, 27 de contingence, 64 marginaux, 55 de fr equences, 65 percentile, 36 des prols colonnes, 66 permutation des prols lignes, 66 avec r ep etition, 95 statistique, 12, 13, 17, 19 sans r ep etition, 94 tendance, 133 piechart, 12 lin eaire, 134, 136 probabilit e, 87, 89 logistique, 134 conditionnelle et ind ependance, 92 parabolique, 134 th eor` eme des probabilit es totales, polynomiale, 134 93 quadratile, 134 prols quadratique, 137 colonnes, 66 th eor` eme lignes, 66 de Bayes, 93 propri et es, 116 de Huygens, 44 propri et es des esp erances et des variances, transitivit e, 78 114 quantile, 35, 36, 50, 55, 126, 158, 160 union, 87 unit es 162 dobservation, 9 quartile, 36 statistiques, 9 quintile, 36 share ratio, 84 valeurs adjacentes, 46 r esidus, 60 ajust ees, 60 r eversibilit e, 78 possibles, 9 variable, 9 s erie al eatoire, 96 chronologique, 133 continue, 103 statistique, 10 discr` ete, 96, 97 bivari ee, 53 ind ependante, 113 temporelle, 127

172 binomiale, 98 de Fisher, 117 de Poisson, 102 de Student, 117 esp erance, 97 indicatrice, 97 khi-carr ee, 116 normale, 108 centr ee r eduite, 108 ordinale, 13 qualitative, 9 nominale, 10, 11 ordinale, 10, 13 quantitative, 10, 53 continue, 10, 19 discr` ete, 10, 17 uniforme, 105 variance, 3739, 4244, 55, 61, 62, 97 99, 102104, 108, 109, 111 114, 116 conditionnelle, 112, 113, 121 dune variable binomiale, 99 indicatrice, 98 de r egression, 61, 62 marginale, 55, 111, 112, 118, 120 propri et es, 114 r esiduelle, 61, 63

INDEX